Nvidia AI libera Ultralong-8B: una serie de modelos de lenguaje de contexto ultra largo diseñados para procesar secuencias extensas de texto (hasta 1 m, 2m y 4M Tokens)

MDOELS LLMS LANGUA LENGICO HAN mostrado un rendimiento notable en diversos texto y tareas multimodales. Sin embargo, muchas aplicaciones, como la comprensión de documentos y videos, el aprendizaje en contexto y la escala de tiempo de inferencia, exigen la capacidad de procesar y razonar sobre largas secuencias de tokens. La ventana de contexto limitada de LLM plantea un desafío significativo en estas situaciones, ya que se puede pasar por alto la información crítica sobre largos documentos. Los modelos a menudo pierden información vital al procesar documentos o videos extensos, que caen fuera de sus ventanas de contexto fijo. Esta limitación crea una necesidad de modelos que puedan manejar eficientemente contextos ultra largos sin sacrificar el rendimiento en las tareas estándar.

Las estrategias de extensión de contexto existentes para modelos de lenguaje de contexto largo se dividen en tres categorías: métodos de atención exactos, métodos de atención aproximados y enfoques que incorporan módulos adicionales. Métodos como la interpolación de posición, el conocimiento de NTK, el NTK dinámico, el hilo y el CLEX mejoran los mecanismos de atención a través de incrustaciones de posición rediseñadas. Los avances recientes incluyen modelos como GPT-4O, Géminis y Claude que admiten extensas ventanas de contexto de cientos de miles de tokens, pero su naturaleza de código cerrado limita la reproducibilidad. Los esfuerzos de código abierto como prolongar utilizan la escala de NTK consciente, pero requieren un cálculo costoso, mientras que el gradiente utiliza la pretruación continua que contiene el rendimiento de la tarea estándar.

Investigadores de UIUC y NVIDIA han propuesto una receta de entrenamiento eficiente para construir LLM de contexto ultra larga a partir de modelos de instrucciones alineados, empujando los límites de las longitudes de contexto de 128k a 1 m, 2 m y 4 m de tokens. El método utiliza estrategias de prisión eficientes y continuas para extender la ventana de contexto mientras utiliza el ajuste de instrucciones para mantener las habilidades de seguimiento de instrucciones y razonamiento. Además, su modelo Ultralong-8B logra un rendimiento de última generación en diversos puntos de referencia de contexto largo. Los modelos entrenados con este enfoque mantienen un rendimiento competitivo en puntos de referencia estándar, que muestran mejoras equilibradas para tareas de contexto largas y cortas. La investigación proporciona un análisis en profundidad de las opciones de diseño clave, destacando los impactos de las estrategias de escala y la composición de datos.

El método propuesto consta de dos etapas clave: continuos previos al ejercicio y ajuste de instrucciones. Juntas, estas etapas permiten el procesamiento efectivo de las entradas ultra largas mientras mantienen un fuerte rendimiento en todas las tareas. Se adopta un enfoque de escala basado en hilos para la extensión de contexto con hiperparámetros fijos como α = 1 y β = 4 en lugar de estrategias de escala con conocimiento de NTK. Los factores de escala se calculan en función de la longitud del contexto objetivo y emplean factores de escala más grandes para incrustaciones de cuerdas para acomodar secuencias extendidas y mitigar la degradación del rendimiento a longitudes máximas. Los investigadores submuestra los conjuntos de datos SFT de alta calidad que abarcan dominios generales, matemáticos y de código para los datos de capacitación y utilizan aún más GPT-4O y GPT-4O-Mini para refinar respuestas y realizar una descontaminación de datos rigurosa.

Los modelos propuestos muestran capacidades superiores de recuperación de contexto largo en la aguja en una prueba de recuperación de PassKey de Haystack. Los modelos de línea de base como Llama-3-8B-Instructo-Gradiente-1048K pasan la prueba, pero Llama3.1-8b-Instructo y Llama-3-8B-Prolong-512k-Instructo muestran errores. En contraste, los modelos Ultralong logran una precisión del 100% en todas las longitudes y profundidades de entrada, que muestran una fuerte capacidad de recuperación. El Ultralong logra los puntajes promedio más altos en la regla para entradas de hasta 512k y 1M tokens, los puntajes F1 más altos en LV-EVAL dentro de 128k y 256k longitudes de token, y el mejor rendimiento en Infinitebench. Además, los modelos mantienen un fuerte rendimiento en los dominios generales, matemáticos y de código con puntajes promedio de 62.47, 61.06 y 60.95, superando el 61.45 del modelo base.

Este documento de investigación introduce una receta de capacitación eficiente y sistemática para modelos de lenguaje de contexto ultra largo, que extiende ventanas de contexto a tokens de 1 m, 2m y 4M mientras mantiene el rendimiento competitivo en los puntos de referencia estándar. El enfoque combina el pretratamiento continuo eficiente con el ajuste de las instrucciones para mejorar la comprensión del contexto largo y las capacidades de seguimiento de las instrucciones. Sin embargo, este enfoque se centra solo en SFT en conjuntos de datos de instrucciones durante la etapa de ajuste de instrucciones sin explorar el aprendizaje de refuerzo o la optimización de preferencias. Además, no aborda la alineación de seguridad. La investigación futura incluye integrar mecanismos de alineación de seguridad y explorar estrategias de ajuste avanzadas, mejorar aún más el rendimiento y la confiabilidad.


Verificar Papel y Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.