Este artículo de IA demuestra cómo los transformadores de solo decodificador imitan infinitas redes neuronales recurrentes de múltiples estados RNN y presenta TOVA para mejorar la eficiencia

Los transformadores han reemplazado a las redes neuronales recurrentes (RNN) como la arquitectura preferida para el procesamiento del lenguaje natural (NLP). Los transformadores se destacan conceptualmente porque acceden directamente a cada token en una secuencia, a diferencia de los RNN que dependen del mantenimiento de un estado recurrente de entradas pasadas. Los decodificadores se han convertido en una variante destacada dentro del ámbito de los transformadores. Estos decodificadores suelen producir resultados de forma autorregresiva, lo que significa que la generación de cada token está influenciada por los cálculos de clave y valor de los tokens anteriores.

Investigadores de la Universidad Hebrea de Jerusalén y FAIR, AI en Meta, han demostrado que la naturaleza autorregresiva de los transformadores se alinea con el principio fundamental de los RNN, que implica preservar un estado de un paso al siguiente. Redefinen formalmente los transformadores solo decodificadores como RNN multiestado (MSRNN), presentando una versión generalizada de los RNN tradicionales. Esta redefinición resalta que a medida que aumenta la cantidad de tokens anteriores durante la decodificación, los transformadores se convierten en MSRNN con estados infinitos. Los investigadores muestran además que los transformadores se pueden comprimir en MSRNN finitos limitando la cantidad de tokens procesados ​​en cada paso. Introducen TOVA, una política de compresión para MSRNN, que selecciona tokens para retener basándose únicamente en sus puntuaciones de atención. La evaluación de TOVA se lleva a cabo en cuatro tareas de largo alcance.

https://arxiv.org/abs/2401.06104

El estudio compara transformadores y RNN, lo que demuestra que los transformadores solo decodificadores pueden conceptualizarse como RNN multiestados infinitos, y los transformadores previamente entrenados pueden convertirse en RNN multiestados finitos fijando el tamaño de su estado oculto. Informa perplejidad en el conjunto de pruebas PG-19 para modelado del lenguaje. Utiliza conjuntos de pruebas del punto de referencia ZeroSCROLLS para evaluar la comprensión a largo plazo, incluidos resúmenes a largo plazo y tareas de respuesta a preguntas a largo plazo. El estudio menciona el uso del conjunto de datos QASPER para responder preguntas de texto largo y evaluar historias generadas utilizando GPT-4 como evaluador.

https://arxiv.org/abs/2401.06104

El estudio demuestra que los transformadores solo decodificadores pueden conceptualizarse como RNN multiestados infinitos, y los transformadores previamente entrenados pueden convertirse en RNN multiestados finitos fijando el tamaño de su estado oculto. El estudio también menciona la modificación de la máscara de atención para incorporar diferentes políticas de MSRNN, como la estrategia First In First Out (FIFO), para que sea paralela de manera efectiva a la tarea de modelado del lenguaje. Los investigadores utilizan el modelo GPT-4 para evaluar los textos generados y comparar el resultado de la política TOVA con el modelo principal.

https://arxiv.org/abs/2401.06104

El estudio demuestra que los LLM decodificadores de transformadores se comportan como MSRNN finitos aunque estén entrenados como MSRNN infinitos. La política TOVA propuesta funciona consistentemente mejor que otras políticas en tareas de largo alcance con tamaños de caché más pequeños en todos los tamaños y modelos de múltiples estados. Los experimentos muestran que el uso de TOVA con una cuarta parte o incluso una octava parte del contexto completo produce resultados dentro de un punto del modelo principal en las tareas de modelado del lenguaje. El estudio también informa una reducción significativa en el tamaño de la caché LLM, hasta un 88 %, lo que lleva a una reducción del consumo de memoria durante la inferencia. Los investigadores reconocen las limitaciones computacionales y aproximan el MSRNN infinito con una longitud de secuencia de 4.096 tokens para experimentos de extrapolación.

En resumen, los investigadores han redefinido los transformadores decodificadores como RNN de múltiples estados con un tamaño de múltiples estados infinito. Cuando el número de representaciones de tokens que los transformadores pueden manejar en cada paso es limitado, es lo mismo que comprimirlo de MSRNN infinitos a finitos. Se ha descubierto que la política TOVA, que es un método de compresión simple que selecciona qué tokens seguir usando sus puntuaciones de atención, supera las políticas de compresión existentes y funciona de manera comparable al modelo infinito MSRNN con un tamaño reducido de múltiples estados. Aunque no están capacitados, los transformadores a menudo funcionan como MSRNN finitos en la práctica. Estos hallazgos proporcionan información sobre el interfuncionamiento de los transformadores y sus conexiones a los RNN. Además, tienen un valor práctico para reducir el tamaño de la caché LLM hasta en un 88%.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.