Convergence Labs presenta el modelo de memoria grande (LM2): una arquitectura del transformador acuático de memoria diseñada para abordar los largos desafíos de razonamiento del contexto

Los modelos basados ​​en transformadores tienen un procesamiento de lenguaje natural significativamente avanzado (PNL), sobresaliendo en varias tareas. Sin embargo, luchan con el razonamiento en contextos largos, inferencia de varios pasos y razonamiento numérico. Estos desafíos surgen de su complejidad cuadrática en la autoatencia, lo que los hace ineficientes para secuencias extendidas y su falta de memoria explícita, lo que limita su capacidad para sintetizar la información dispersa de manera efectiva. Soluciones existentes, como transformadores de memoria recurrentes (RMT) y generación de recuperación acuática (TRAPO), ofrezca mejoras parciales pero a menudo sacrifican la eficiencia o la generalización.

Introducción del modelo de memoria grande (LM2)

Convergence Labs presenta el modelo de memoria grande (LM2), una arquitectura de transformador de decodificador mejorada con un módulo de memoria auxiliar para abordar las deficiencias de los modelos convencionales en el razonamiento de contexto largo. A diferencia de los transformadores estándar, que dependen únicamente de los mecanismos de atención, LM2 incorpora un sistema de memoria estructurado que interactúa con incrustaciones de entrada a través de la atención cruzada. Las actualizaciones de memoria del modelo están reguladas por mecanismos de activación, lo que le permite retener selectivamente información relevante al tiempo que preserva las capacidades de generalización. Este diseño permite a LM2 mantener la coherencia en secuencias largas, facilitando un razonamiento e inferencia relacional mejorados.

Descripción técnica y beneficios

LM2 se basa en la arquitectura del transformador estándar al introducir tres innovaciones clave:

  • Transformador acuático de memoria: Un banco de memoria dedicado actúa como un sistema de almacenamiento explícito a largo plazo, recuperando información relevante a través de la atención cruzada.
  • Vía de memoria híbrida: A diferencia de los modelos anteriores que modifican la estructura central del transformador, LM2 mantiene el flujo de información original al integrar una vía de memoria auxiliar.
  • Actualizaciones de memoria dinámica: El módulo de memoria actualiza selectivamente su información almacenada utilizando puertas de entrada, olvida y salida de aprendizaje, asegurando la retención a largo plazo sin una acumulación innecesaria de datos irrelevantes.

Estas mejoras permiten a LM2 procesar secuencias largas de manera más efectiva al tiempo que mantiene la eficiencia computacional. Al incorporar selectivamente el contenido de memoria relevante, el modelo mitiga la disminución gradual del rendimiento a menudo observada en las arquitecturas tradicionales sobre contextos extendidos.

Resultados e ideas experimentales

Para evaluar la efectividad de LM2, se probó en el conjunto de datos Babilong, diseñado para evaluar las capacidades de razonamiento intensivo en memoria. Los resultados indican mejoras sustanciales:

  • Rendimiento de corto contexto (longitud de contexto de 0k): LM2 logra una precisión de 92.5%superando RMT (76.4%) y Vanilla Llama-3.2 (40.7%).
  • Rendimiento de contexto largo (longitud de contexto de 1k-4k): A medida que aumenta la longitud del contexto, todos los modelos experimentan cierta degradación, pero LM2 mantiene una mayor precisión. En Longitud de contexto 4KLM2 logra 55.9%en comparación con 48.4% para RMT y 36.8% para Llama-3.2.
  • Rendimiento extremo de contexto largo (≥8k longitud de contexto): Si bien todos los modelos disminuyen en precisión, LM2 sigue siendo más estable, superando RMT en la inferencia de múltiples pasos y la argumentación relacional.

Más allá de los puntos de referencia específicos de la memoria, LM2 se probó en el conjunto de datos MMLU, que cubre una amplia gama de temas académicos. El modelo demostró un Mejora del 5.0% sobre un transformador de vainilla previamente capacitadoparticularmente sobresaliendo en humanidades y ciencias sociales, donde el razonamiento contextual es crucial. Estos resultados indican que el módulo de memoria de LM2 mejora las capacidades de razonamiento sin comprometer el rendimiento general de la tarea.

Conclusión

La introducción de LM2 ofrece un enfoque reflexivo para abordar las limitaciones de los transformadores estándar en el razonamiento de contexto largo. Al integrar un módulo de memoria explícito, LM2 mejora la inferencia de múltiples pasos, la argumentación relacional y el razonamiento numérico mientras se mantiene la eficiencia y la adaptabilidad. Los resultados experimentales demuestran sus ventajas sobre las arquitecturas existentes, particularmente en tareas que requieren retención de contexto extendido. Además, LM2 funciona bien en los puntos de referencia de razonamiento general, lo que sugiere que la integración de la memoria no obstaculiza la versatilidad. A medida que los modelos acuáticos de memoria continúan evolucionando, LM2 representa un paso hacia un razonamiento de contexto largo más efectivo en los modelos de lenguaje.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional(Promocionado)


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.