En los modelos de idiomas grandes (LLM), el procesamiento de secuencias de entrada extendidas exige recursos computacionales y de memoria significativos, lo que lleva a una inferencia más lenta y mayores costos de hardware. El mecanismo de atención, un componente central, exacerba aún más estos desafíos debido a su complejidad cuadrática en relación con la longitud de la secuencia. Además, mantener el contexto anterior utilizando un caché de valor clave (kV) da como resultado sobrecargas de memoria alta, lo que limita la escalabilidad.

Una limitación clave de LLM es su incapacidad para manejar secuencias más largas que su ventana de contexto entrenado. La mayoría de los modelos se degradan en el rendimiento cuando se enfrentan a entradas extendidas debido a la gestión ineficiente de la memoria y los crecientes costos de cálculo de atención. Las soluciones existentes a menudo dependen del ajuste fino, que es intensivo en recursos y requiere conjuntos de datos de contexto largo de alta calidad. Sin un método eficiente para la extensión de contexto, las tareas como el resumen de documentos, la generación de recuperación y la generación de texto de forma larga siguen siendo limitadas.

Se han propuesto varios enfoques para abordar el problema del procesamiento de contexto largo. FlashAtentent2 (FA2) optimiza el consumo de memoria minimizando las operaciones redundantes durante el cálculo de atención, pero no aborda la ineficiencia computacional. Algunos modelos emplean atención selectiva de token, ya sea de forma estática o dinámica, para reducir la sobrecarga de procesamiento. Se han introducido estrategias de desalojo de caché de KV para eliminar los tokens más antiguos selectivamente, pero corren el riesgo de descartar permanentemente información contextual importante. La atención de la cadera es otro enfoque que intenta descargar tokens usados ​​con poca frecuencia para la memoria externa; Sin embargo, carece de una gestión eficiente de caché, lo que lleva a una mayor latencia. A pesar de estos avances, ningún método ha abordado efectivamente los tres desafíos clave:

  1. Generalización de contexto largo
  2. Gestión de memoria eficiente
  3. Eficiencia computacional

Investigadores del Kaist y Deepauto.ai introdujeron Infinitoun marco avanzado que permite una inferencia eficiente de contexto largo al mitigar los cuellos de botella de memoria. El modelo logra esto a través de un algoritmo de poda de tokens jerárquico, que elimina dinámicamente tokens de contexto menos relevantes. Esta estrategia de poda modular conserva selectivamente tokens que contribuyen más a los cálculos de atención, reduciendo significativamente la sobrecarga de procesamiento. El marco también incorpora ajustes de cuerda adaptativa (incrustaciones posicionales rotativas), lo que permite que los modelos se generalicen a secuencias más largas sin capacitación adicional. Además, la infinita emplea un nuevo mecanismo de descarga de caché de KV, que transfiere tokens de acceso menos frecuente a la memoria del host al tiempo que garantiza una recuperación eficiente. Estas técnicas permiten que el modelo procese hasta 3 millones de tokens en una GPU de 48 GB, lo que lo convierte en el método de inferencia de contexto largo más escalable.

La innovación central de la infinita es su mecanismo de poda en varias etapas, que mejora constantemente la selección de contexto en múltiples etapas. Los tokens se dividen primero en piezas de longitud fija, y cada pieza se procesa en función de su contribución de cálculo de atención. Un enfoque de selección de Top-K asegura que solo se conserven los tokens más críticos y otros se eliminen. El método seguido de infinito, a diferencia de otros modelos de poda jerárquica, está completamente paralelo, lo que lo hace computacionalmente efectivo. El sistema de gestión de caché KV optimiza la utilización de la memoria mediante la descarga dinámica de tokens de contexto menos importantes mientras mantiene la flexibilidad de recuperación. El modelo también utiliza múltiples métodos de interpolación de cuerdas en diferentes capas de atención, lo que facilita la adaptación suave a secuencias largas.

El modelo demuestra una aceleración de 18.95 × en la decodificación de atención para un contexto de un millón de token en comparación con los métodos tradicionales sin capacitación adicional. La técnica de descarga de caché KV reduce el consumo de memoria de GPU hasta en un 96%, lo que lo hace práctico para aplicaciones a gran escala. En evaluaciones de referencia como Longbench y ∞bench, la infinita supera constantemente los métodos de vanguardia, logrando una puntuación relativa 9.99% más alta que INFLLM. Además, el rendimiento de decodificación aumenta en 3.2 × en GPU de consumo (RTX 4090) y 7.25 × en GPU de grado empresarial (L40S).

En conclusión, el equipo de investigación abordó con éxito los principales cuellos de botella de inferencia de contexto largo con infinidad. El marco mejora las capacidades de LLM mediante la integración de la poda de token jerárquico, la descarga de caché de KV y la generalización de la cuerda. Este avance permite que los modelos previamente capacitados procesen secuencias extendidas sin perder el contexto o aumentar los costos computacionales. El método es escalable, eficiente en hardware y aplicable a varias aplicaciones de IA que requieren retención de memoria larga.


Verificar el Papel, Código fuente y Demostración en vivo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional(Promocionado)


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Por automata