Este artículo de IA propone LongAlign: una receta de datos de instrucción, capacitación y evaluación para una alineación de contexto prolongada

El estudio se diferencia de enfoques anteriores al concentrarse en alinear el contexto largo, específicamente ajustando los modelos de lenguaje para interpretar indicaciones largas del usuario. Los desafíos incluyen la ausencia de conjuntos de datos extensos para un ajuste fino supervisado, dificultades para manejar distribuciones de longitud variadas de manera eficiente en múltiples GPU y la necesidad de puntos de referencia sólidos para evaluar las capacidades de los modelos con consultas del mundo real. El objetivo es mejorar la capacidad de los LLM para manejar contextos extendidos ajustándolos en función de longitudes de secuencia de entrada similares.

Investigadores de la Universidad de Tsinghua y Zhipu.AI han desarrollado LongAlign, un enfoque integral para alinear los LLM para manejar contextos largos de manera efectiva. Construyen un conjunto de datos diverso y extenso que sigue instrucciones utilizando Self-Instruct, que cubre tareas de diversas fuentes. Para abordar las ineficiencias de la capacitación debido a las variadas distribuciones de longitud, emplean estrategias de empaque y lotes clasificados y un método de ponderación de pérdidas para equilibrar las contribuciones. También presentan LongBench-Chat, un punto de referencia de evaluación que comprende preguntas abiertas de entre 10k y 100k de extensión.

La escala de contexto largo busca ampliar la duración del contexto de los LLM existentes para manejar tareas de contexto largo. Los métodos se dividen en dos categorías: los que requieren ajustes en secuencias más largas y los que no. Los métodos sin ajuste fino utilizan atención de ventana deslizante o técnicas de compresión de tokens, pero no coinciden con el rendimiento ajustado. Los enfoques perfeccionados implican ampliar la codificación de posiciones y un reentrenamiento continuo. Alinear el modelo con datos de seguimiento de instrucciones, lo que se denomina ajuste fino supervisado, es crucial para una interacción efectiva en las interfaces de chat. Los desafíos incluyen datos, capacitación y métodos de evaluación. Si bien algunos trabajos proporcionan datos de instrucción extensos, necesitan un análisis más exhaustivo.

La receta LongAlign ofrece un enfoque integral para manejar eficazmente contextos largos en LLM. Implica construir un conjunto de datos diverso y largo que siga instrucciones utilizando Self-Instruct, adoptar estrategias de capacitación eficientes como empaquetar y ordenar lotes, e introducir el punto de referencia LongBench-Chat para la evaluación. LongAlign aborda los desafíos introduciendo un método de ponderación de pérdidas durante el entrenamiento de empaque, que equilibra las contribuciones de pérdidas en diferentes secuencias. Los hallazgos muestran que el empaque y el procesamiento por lotes clasificados mejoran la eficiencia del entrenamiento al doble mientras mantienen un buen rendimiento, y la pérdida de peso mejora significativamente el desempeño en tareas de instrucción largas durante el entrenamiento de empaque.

Los experimentos demuestran que LongAlign mejora el rendimiento del LLM en tareas de contexto prolongado hasta en un 30 % sin comprometer la competencia en tareas más cortas. Además, encuentran que la cantidad y diversidad de datos impactan significativamente el rendimiento, mientras que los datos de instrucción largos mejoran el rendimiento de tareas de contexto largo sin afectar el manejo de contexto corto. Las estrategias de entrenamiento aceleran el entrenamiento sin comprometer el rendimiento, y la técnica de ponderación de pérdidas mejora aún más el rendimiento en contextos prolongados en un 10 %. LongAlign logra un rendimiento mejorado en tareas de instrucción largas a través de estrategias de empaquetado y lotes clasificados, que duplican la eficiencia del entrenamiento mientras mantienen un buen rendimiento.

En conclusión, el estudio tiene como objetivo optimizar la alineación del contexto a largo plazo, centrándose en los datos, los métodos de formación y la evaluación. LongAlign utiliza Self-Instruct para crear diversos datos de instrucciones largas y ajustar modelos de manera eficiente mediante empaquetamiento, ponderación por pérdida o lotes ordenados. El punto de referencia LongBench-Chat evalúa la capacidad de seguir instrucciones en escenarios prácticos de contexto prolongado. Los experimentos controlados resaltan la importancia de la cantidad, la diversidad y los métodos de entrenamiento apropiados de los datos para lograr un rendimiento óptimo. LongAlign supera a los métodos existentes hasta en un 30 % en tareas de contexto largo y, al mismo tiempo, mantiene la competencia en tareas cortas. El código abierto de modelos, códigos y datos de LongAlign promueve una mayor investigación y exploración en este campo.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.