Memagent: un marco de aprendizaje de refuerzo redefiniendo el procesamiento de contexto largo en LLMS

El manejo de documentos extremadamente largos sigue siendo un desafío persistente para los modelos de idiomas grandes (LLM). Incluso con técnicas como extrapolación de longitud y atención escasa, los modelos a menudo sufren de degradación del rendimiento y altos costos computacionales. Para abordar esto, los investigadores de Bytedance Seed y la Universidad de Tsinghua introducen Memagenteun agente de memoria basado en el aprendizaje de refuerzo diseñado para habilitar el procesamiento de contexto largo con complejidad lineal y pérdida de rendimiento mínima.

Limitaciones de los enfoques existentes

Las soluciones actuales para el modelado de contexto largo se dividen en tres categorías principales:

  • Métodos de extrapolación de longitud (por ejemplo, NTK, PI, hilo, DCA): Extienda la ventana de contexto a través de manipulaciones de incrustación posicional. Sin embargo, a menudo enfrentan problemas de degradación y escala del rendimiento.
  • Mecanismos de atención escasa y lineal: Reduzca la complejidad de la atención a O (N), pero generalmente requiere reentrenamiento desde cero y confíe en patrones fijos o reglas definidas por humanos.
  • Compresión de contexto: Use módulos de memoria de nivel de token o externos para condensar las entradas largas, pero a menudo interrumpir la generación estándar y la lucha con la extrapolación.

Estos enfoques no logran entregar los tres atributos críticos: soporte de longitud de entrada arbitraria, precisión consistente y complejidad lineal eficiente.

Memagent: estrategia de memoria similar a la humana

Inspirado por cómo los humanos resumen la información clave mientras ignoran el ruido, los procesos memagentes la entrada como un flujo de evidencia. En cada paso, lee una fragmentación de documento y una memoria interna, sobrescribiendo este último con un contexto comprimido actualizado.

Innovaciones clave:

  • Memoria basada en el token de longitud fija: Comprime información esencial mientras mantiene la compatibilidad del modelo.
  • Mecanismo de sobrescritura en cuanto a segmento: Admite longitudes de texto infinitas sin memoria en crecimiento.
  • Complejidad lineal: La actualización de la memoria y el costo de decodificación permanecen constantes por fragmento.

Entrenamiento Multi-ConV RL con GRPO

Memagent trata cada documento interacción por fragmento como un diálogo independiente. Está entrenado a través de Optimización de políticas relativas del grupo (GRPO) Dentro de una tubería RL de múltiples conversación llamada Dapohabilitando la actualización de memoria basada en recompensas.

Los elementos clave incluyen:

  • Verificador basado en reglas: Calcula las recompensas de resultados comparando las respuestas del modelo con múltiples verdades terrestres.
  • Señal RL de nivel token: Aplicado uniformemente entre conversaciones derivadas de una muestra.

Esta configuración fomenta la compresión de la memoria centrada en la información relevante para las respuestas y descarta los distractores.

Evaluación de rendimiento

Utilizando el punto de referencia de regla y los conjuntos de datos sintéticos de Hotpotqa y Squad, Memagent fue entrenado con una ventana de contexto de 8k y extrapoló hasta 3.5 millones de tokens.

Modelo 224k 896k 3.5m
QWEN2.5-INSTRUCT-14B-1M 37.5% 0.0% N / A
Qwenlong-L1-32B 17.2% 11.7% N / A
RL-Memagent-14b 81.3% 77.3% 78.1%

Memagent mantuvo más del 95% de precisión en los puntos de referencia de la regla (tokens de 8k a 512k) y superó constantemente las líneas de base de contexto largo y destilación.

Estudio de caso: QA de múltiples saltos

Dada la consulta “El director de la comedia romántica ‘Big Stone Gap’ se basa en lo que la ciudad de Nueva York?”, Memagent rastreó progresivamente el contenido relevante en 3 trozos:

  1. Contenido no relacionado reconocido pero información de ubicación retenida.
  2. Mantuvo la memoria contra trozos irrelevantes.
  3. La memoria actualizada correctamente al encontrar la biografía de Adriana Trigiani.

Respuesta final: Greenwich Village, ciudad de Nueva York.

Fundación teórica y complejidad

Memagent reformula el modelo autorregresivo utilizando variables de memoria latente (M₁ … Mₖ):

p (x₁: n) = ∑ₘ₁: ₖ ∏ₖ p (cₖ | mₖ₋₁) * p (mₖ | cₖ, mₖ₋₁)

Esto permite que O (n) calcule el costo y la memoria intermedia legible por humanos, a diferencia de la compresión de características basada en la atención. RL es esencial, ya que las actualizaciones de memoria son discretas y no se pueden aprender mediante backpropagation.

Conclusión

Memagent ofrece una solución escalable y eficiente al trilema de contexto largo: longitud de entrada ilimitada, precisión casi sin pérdida y complejidad lineal. Su mecanismo de memoria de sobrescritura basado en RL permite a LLM leer, abstraer y generar entradas multimillonarias sin modificación arquitectónica.


Preguntas frecuentes

P1: ¿Qué es Memagent?
Memagent es un marco basado en el aprendizaje de refuerzo que equipa a LLMS con tokens de memoria para manejar contextos extremadamente largos de manera eficiente.

P2: ¿Cómo es diferente de la atención o los métodos de extrapolación?
A diferencia de las técnicas de escala o extrapolación basadas en la atención, Memagent usa memoria basada en token actualizada a través del aprendizaje de refuerzo.

P3: ¿A qué modelos se puede aplicar Memagent?
Cualquier LLM basado en transformadores. No se requieren cambios en la arquitectura del modelo.

P4: ¿Cómo se escala con el tamaño de entrada?
Mantiene la complejidad computacional lineal independientemente de la longitud de entrada al fijar el tamaño de la memoria.

P5: ¿Cuáles son las aplicaciones de Memagent?
QA de documento largo, sistemas de memoria de agentes, revisión de documentos legales, análisis de literatura científica y toma de decisiones en tiempo real con grandes bases de evidencia.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto.

Oportunidad de patrocinio: Llegue a los desarrolladores de IA más influyentes en Estados Unidos y Europa. 1M+ lectores mensuales, 500k+ constructores comunitarios, infinitas posibilidades. [Explore Sponsorship]


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.