Nvidia AI propone ChatQA 2: un modelo basado en Llama3 para una mejor comprensión del contexto extenso y capacidades RAG

La comprensión y recuperación de contextos extensos mediante generación aumentada (RAG) en modelos lingüísticos extensos (LLM) está avanzando rápidamente, impulsada por la necesidad de modelos que puedan manejar entradas de texto extensas y brindar respuestas precisas y eficientes. Estas capacidades son esenciales para procesar grandes volúmenes de información que no caben en una sola indicación, lo que es crucial para tareas como el resumen de documentos, la respuesta a preguntas conversacionales y la recuperación de información.

La brecha de rendimiento entre los LLM de acceso abierto y los modelos propietarios como GPT-4-Turbo sigue siendo un desafío importante. Si bien los modelos de acceso abierto como Llama-3-70B-Instruct y QWen2-72B-Instruct han mejorado sus capacidades, a menudo necesitan ponerse al día en el procesamiento de grandes volúmenes de texto y tareas de recuperación. Esta brecha es particularmente evidente en aplicaciones del mundo real, donde la capacidad de manejar entradas de contexto largo y recuperar información relevante de manera eficiente es fundamental. Los métodos actuales para mejorar la comprensión de contexto largo implican extender la ventana de contexto de los LLM y emplear RAG. Estas técnicas se complementan entre sí, y los modelos de contexto largo se destacan en el resumen de documentos grandes y los RAG recuperan de manera eficiente información relevante para consultas específicas. Sin embargo, las soluciones existentes a menudo sufren fragmentación del contexto y bajas tasas de recuperación, lo que socava su eficacia.

Los investigadores de Nividia presentaron ChatQA 2un modelo basado en Llama3 desarrollado para abordar estos desafíos. ChatQA 2 tiene como objetivo cerrar la brecha entre los LLM de acceso abierto y los propietarios en capacidades RAG y de contexto largo. Al extender la ventana de contexto a 128K tokens y usar un proceso de ajuste de instrucciones de tres etapas, ChatQA 2 mejora significativamente el seguimiento de instrucciones, el rendimiento de RAG y la comprensión del contexto largo. Este modelo logra una extensión de la ventana de contexto de 8K a 128K tokens a través del preentrenamiento continuo en una combinación de conjuntos de datos, incluido el conjunto de datos SlimPajama con secuencias largas sobremuestreadas, lo que da como resultado 10 mil millones de tokens con una longitud de secuencia de 128K.

La tecnología detrás de ChatQA 2 implica una receta técnica detallada y reproducible. El desarrollo del modelo comienza con la ampliación de la ventana de contexto de Llama3-70B de 8K a 128K tokens mediante un preentrenamiento continuo en una combinación de conjuntos de datos. Este proceso utiliza una tasa de aprendizaje de 3e-5 y un tamaño de lote de 32, entrenando durante 2000 pasos para procesar 8 mil millones de tokens. A continuación, se aplica un proceso de ajuste de instrucciones de tres etapas. Las dos primeras etapas implican el entrenamiento en conjuntos de datos de seguimiento de instrucciones de alta calidad y datos de control de calidad conversacional con contexto proporcionado. Por el contrario, la tercera etapa se centra en secuencias de contexto largas de hasta 128K tokens. Este enfoque integral garantiza que ChatQA 2 pueda gestionar varias tareas de forma eficaz.

ChatQA 2 logra una precisión comparable a GPT-4-Turbo-2024-0409 en muchas tareas de comprensión de contextos extensos y la supera en los puntos de referencia de RAG. Por ejemplo, en la evaluación InfiniteBench, que incluye funciones como resumen de libros extensos, control de calidad, opción múltiple y diálogo, ChatQA 2 logró una puntuación promedio de 34,11, cerca de la puntuación más alta de 34,88 de Qwen2-72B-Instruct. El modelo también se destaca en los puntos de referencia de contextos medianos y extensos dentro de 32 000 tokens, con una puntuación de 47,37, y en tareas de contextos breves dentro de 4 000 tokens, con una puntuación promedio de 54,81. Estos resultados resaltan las sólidas capacidades de ChatQA 2 en diferentes longitudes de contexto y funciones.

ChatQA 2 aborda problemas importantes en el flujo de trabajo de RAG, como la fragmentación del contexto y las bajas tasas de recuperación. El modelo mejora la precisión y la eficiencia de la recuperación mediante el uso de un recuperador de contexto largo de última generación. Por ejemplo, el modelo de incrustación E5-mistral admite hasta 32 000 tokens para la recuperación, lo que mejora significativamente el rendimiento del modelo en tareas basadas en consultas. En las comparaciones entre RAG y soluciones de contexto largo, ChatQA 2 demostró consistentemente resultados superiores, en particular en funciones que requieren un procesamiento de texto extenso.

En conclusión, ChatQA 2, al ampliar la ventana de contexto a 128 000 tokens e implementar un proceso de ajuste de instrucciones en tres etapas, logra capacidades de nivel GPT-4-Turbo en comprensión de contextos extensos y rendimiento RAG. Este modelo ofrece soluciones flexibles para diversas tareas posteriores, equilibrando la precisión y la eficiencia mediante técnicas avanzadas de generación aumentada de contextos extensos y recuperación. El desarrollo y la evaluación de ChatQA 2 marcan un avance crucial en los modelos de lenguaje de gran tamaño, al proporcionar capacidades mejoradas para procesar y recuperar información de entradas de texto extensas.


Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.