Este artículo sobre IA de Microsoft y la Universidad de Tsinghua presenta YOCO: una arquitectura decodificadora-decodificadora para modelos de lenguaje

El modelado del lenguaje, un componente central del aprendizaje automático, implica predecir la probabilidad de una secuencia de palabras. Este campo mejora principalmente la comprensión automática y la generación del lenguaje humano, sirviendo como columna vertebral para diversas aplicaciones, como sistemas de resumen de texto, traducción y autocompletado. El modelado de lenguaje eficiente enfrenta obstáculos importantes, particularmente con modelos grandes. El principal desafío es la sobrecarga computacional y de memoria asociada con el procesamiento y almacenamiento de extensas secuencias de datos, lo que dificulta la escalabilidad y las capacidades de procesamiento en tiempo real.

Las investigaciones existentes sobre modelado del lenguaje destacan la arquitectura Transformer, conocida por su mecanismo de autoatención que procesa eficazmente secuencias de palabras independientemente de la distancia. Las adaptaciones distinguidas incluyen el Transformer solo decodificador, que optimiza los procesos de generación de texto en modelos como la serie GPT de OpenAI. También han surgido innovaciones como Sparse Transformers, que reducen las demandas computacionales al limitar las interacciones entre elementos de secuencia distantes. Además, los modelos híbridos como BERT y T5 combinan varias fortalezas arquitectónicas, mejorando la eficiencia y la capacidad de los modelos de lenguaje para comprender y generar texto matizado.

Los investigadores de Microsoft Research y la Universidad de Tsinghua han introducido una arquitectura novedosa, You Only Cache Once (YOCO), para modelos de lenguaje grandes. La arquitectura YOCO presenta un marco decodificador-decodificador único que se diferencia de los enfoques tradicionales al almacenar en caché los pares clave-valor solo una vez. Este método reduce significativamente la sobrecarga computacional y el uso de memoria típicamente asociados con el almacenamiento en caché repetitivo en modelos de lenguaje grandes. YOCO procesa eficientemente secuencias largas aprovechando los cachés KV globales precalculados durante toda la operación del modelo, optimizando el mecanismo de atención y mejorando el rendimiento general mediante el empleo de un autodecodificador y un decodificador cruzado.

La metodología YOCO combina el uso de mecanismos de autodecodificación y decodificación cruzada con técnicas avanzadas de atención para optimizar el procesamiento del lenguaje. Específicamente, el autodecodificador utiliza una ventana deslizante y una atención de retención cerrada para generar un conjunto compacto de pares KV. El decodificador cruzado reutiliza estos pares mediante atención cruzada, lo que elimina la necesidad de volver a codificar y, por lo tanto, conserva los recursos computacionales. El modelo se evaluó en varios conjuntos de datos para evaluar su rendimiento en escenarios del mundo real, lo que demuestra mejoras sustanciales en las velocidades de procesamiento y la eficiencia de la memoria en comparación con los modelos convencionales basados ​​en Transformer.

Los resultados experimentales resaltan la efectividad de YOCO, ya que el modelo logra una precisión de recuperación de aguja casi perfecta para secuencias de hasta 1 millón de tokens. YOCO reduce las demandas de memoria de la GPU aproximadamente 80 veces para modelos de 65 mil millones de parámetros. Además, reduce la latencia de precarga de 180 segundos a menos de 6 segundos para contextos de hasta 512.000 tokens, al tiempo que mejora el rendimiento a 43,1 tokens por segundo en comparación con los 4,5 del Transformer tradicional, lo que supone un aumento de 9,6 veces. Estas métricas establecen a YOCO como una arquitectura altamente eficiente para procesar secuencias de datos extensas.

En resumen, la arquitectura YOCO introduce un enfoque innovador para el modelado del lenguaje al almacenar en caché los pares clave-valor solo una vez, lo que reduce significativamente la sobrecarga computacional y el uso de memoria. Al emplear un marco decodificador-decodificador único que aprovecha mecanismos de atención eficientes, YOCO demuestra mejoras sustanciales en el manejo de secuencias largas, logrando una precisión de recuperación casi perfecta y reduciendo drásticamente la latencia y las demandas de memoria. Esta investigación proporciona una solución escalable y eficiente para implementar grandes modelos de lenguaje, ofreciendo beneficios prácticos sustanciales para aplicaciones del mundo real que requieren el procesamiento de secuencias de datos extensas.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.