Google AI Research presenta Titans: una nueva arquitectura de aprendizaje automático con atención y una metamemoria en contexto que aprende a memorizar en el momento de la prueba

Los modelos de lenguaje grande (LLM) basados ​​en arquitecturas Transformer han revolucionado el modelado de secuencias a través de sus notables capacidades de aprendizaje en contexto y su capacidad de escalar de manera efectiva. Estos modelos dependen de módulos de atención que funcionan como bloques de memoria asociativa, almacenando y recuperando asociaciones clave-valor. Sin embargo, este mecanismo tiene una limitación importante: los requisitos computacionales crecen cuadráticamente con la longitud de la entrada. Esta complejidad cuadrática tanto en el tiempo como en la memoria plantea desafíos sustanciales cuando se trata de aplicaciones del mundo real, como el modelado de lenguajes, la comprensión de videos y el pronóstico de series de tiempo a largo plazo, donde las ventanas de contexto pueden volverse extremadamente grandes, lo que limita la aplicabilidad práctica de Transformers en estos dominios cruciales.

Los investigadores han explorado múltiples enfoques para abordar los desafíos computacionales de los transformadores, surgiendo tres categorías principales. En primer lugar, los modelos lineales recurrentes han llamado la atención por su entrenamiento e inferencia eficientes, evolucionando desde modelos de primera generación como RetNet y RWKV con matrices de transición independientes de los datos hasta arquitecturas de segunda generación que incorporan mecanismos de activación como Griffin y RWKV6. A continuación, las arquitecturas basadas en Transformer han intentado optimizar el mecanismo de atención mediante implementaciones con reconocimiento de E/S, matrices de atención dispersas y enfoques basados ​​en kernel. Por último, los modelos de memoria aumentada se centran en diseños de memoria contextual y persistente. Sin embargo, estas soluciones a menudo enfrentan limitaciones como desbordamiento de memoria, restricciones de tamaño fijo, etc.

Los investigadores de Google han propuesto un novedoso módulo neuronal de memoria a largo plazo diseñado para mejorar los mecanismos de atención al permitir el acceso al contexto histórico manteniendo al mismo tiempo un entrenamiento y una inferencia eficientes. La innovación radica en la creación de un sistema complementario en el que la atención sirve como memoria a corto plazo para un modelado preciso de la dependencia dentro de contextos limitados, aunque el componente de la memoria neuronal funciona como almacenamiento a largo plazo para información persistente. Este enfoque de memoria dual forma la base de una nueva familia arquitectónica llamada Titans, que viene en tres variantes, cada una de las cuales ofrece diferentes estrategias para la integración de la memoria. El sistema se muestra particularmente prometedor en el manejo de contextos extremadamente largos, procesando con éxito secuencias de más de 2 millones de tokens.

La arquitectura Titans presenta un diseño complejo de tres partes para integrar las capacidades de memoria de manera efectiva. El sistema consta de tres hipercabezales distintos: un módulo central que utiliza atención con un tamaño de ventana limitado para la memoria a corto plazo y el procesamiento de datos primarios, una rama de memoria a largo plazo que implementa el módulo de memoria neuronal para almacenar información histórica y un componente de memoria persistente. que contiene parámetros que se pueden aprender e independientes de los datos. La arquitectura se implementa con varias optimizaciones técnicas, incluidas conexiones residuales, funciones de activación SiLU y normalización de norma ℓ2 para consultas y claves. Además, utiliza capas de convolución 1D separables en profundidad después de las proyecciones de consultas, claves y valores, junto con mecanismos de normalización y activación.

Los resultados experimentales demuestran el rendimiento superior de los Titans en múltiples configuraciones. Las tres variantes (MAC, MAG y MAL) superan a los modelos híbridos como Samba y Gated DeltaNet-H2, y el módulo de memoria neuronal demuestra ser el diferenciador clave. Entre las variantes, MAC y MAG muestran un sólido rendimiento, especialmente en el manejo de dependencias más largas, superando las combinaciones de estilo MAL comúnmente utilizadas en los modelos híbridos existentes. En tareas de aguja en un pajar (NIAH), Titans supera las líneas de base en secuencias que van desde 2K hasta 16K tokens. Este rendimiento superior se debe a tres ventajas clave: gestión eficiente de la memoria, capacidades profundas de memoria no lineal y funcionalidad eficaz de borrado de memoria.

En conclusión, investigadores de Google Research introdujeron un innovador sistema neuronal de memoria a largo plazo que funciona como un metaaprendiz en contexto, capaz de memorizar de forma adaptativa durante el tiempo de prueba. Este modelo recurrente es más eficaz a la hora de identificar y almacenar patrones sorprendentes en el flujo de datos y ofrece una gestión de la memoria más compleja que los métodos tradicionales. El sistema ha demostrado su superioridad en el manejo de contextos extensos mediante la implementación de tres variantes distintas en la familia de arquitectura Titans. La capacidad de procesar eficazmente secuencias que superan los 2 millones de tokens manteniendo una precisión superior marca un avance significativo en el campo del modelado de secuencias y abre nuevas posibilidades para manejar tareas cada vez más complejas.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 Recomendar plataforma de código abierto: Parlant es un marco que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.