Screenshot 2024 05 02 At 9.36.30 Pm.png

El procesamiento del lenguaje natural (PNL) se centra en permitir que las computadoras comprendan y generen el lenguaje humano, haciendo que las interacciones sean más intuitivas y eficientes. Los avances recientes en este campo han tenido un impacto significativo en la traducción automática, los chatbots y el análisis de texto automatizado. La necesidad de que las máquinas comprendan grandes cantidades de texto y proporcionen respuestas precisas ha llevado al desarrollo de modelos de lenguaje avanzados que amplían continuamente los límites de la comprensión de las máquinas.

A pesar de los importantes avances en PNL, los modelos a menudo necesitan ayudar a mantener el contexto en conversaciones y textos extensos, especialmente cuando el contexto incluye documentos extensos. Esto genera desafíos a la hora de generar respuestas precisas y relevantes. Además, estos modelos son computacionalmente costosos, lo que dificulta su implementación en entornos con recursos limitados. Existe una necesidad apremiante de modelos que sean eficientes y capaces de comprender y mantener el contexto en largas secuencias de texto.

Las investigaciones existentes incluyen modelos como GPT, que destaca en la generación de texto y análisis de sentimientos, y BERT, conocido por su entrenamiento bidireccional que mejora la comprensión del contexto. T5 estandariza las tareas de PNL como texto a texto, mientras que RoBERTa mejora el proceso de capacitación de BERT para un rendimiento superior. A pesar de sus avances, persisten desafíos con respecto a la eficiencia computacional y la preservación del contexto en conversaciones largas, lo que impulsa la investigación en curso para mejorar estos modelos para una comprensión del lenguaje más precisa y eficiente.

Investigadores de la Academia de Inteligencia Artificial de Beijing y la Universidad Renmin de China han presentado Llama-3-8B-Instruct-80K-QLoRA, que amplía significativamente la longitud del contexto del Llama-3 original de 8K a 80K tokens. Este método propuesto se destaca por preservar la comprensión contextual en secuencias de texto largas y al mismo tiempo reducir las demandas computacionales. Su enfoque único aprovecha mecanismos de atención mejorados y estrategias de capacitación innovadoras, lo que le permite manejar contextos más largos de manera más eficiente que los modelos anteriores.

La metodología utiliza GPT-4 para generar 3.5K muestras de capacitación para tareas de control de calidad de un solo detalle, control de calidad de múltiples detalles y resumen de biografía. Los investigadores perfeccionaron Llama-3-8B-Instruct-80K-QLoRA utilizando QLoRA, que aplica LoRA en capas de proyección mientras entrena la capa de incrustación. Incorporaron RedPajama, LongAlpaca y datos sintéticos para evitar el olvido y mejorar la comprensión contextual. La capacitación, completada en GPU 8xA800 en 8 horas, implicó organizar pares de preguntas y respuestas en conversaciones de varios turnos y luego ajustar todo el conjunto de datos para mejorar las capacidades de contexto largo.

El modelo logró una tasa de precisión del 100 % en la tarea Needle-In-A-Haystack en todo el contexto. En los puntos de referencia de LongBench, superó consistentemente a otros modelos, excepto en la tarea de finalización de código. En las tareas de InfBench, logró una precisión del 30,92 % en la tarea LongBookQA, superando significativamente a otros modelos y al mismo tiempo tuvo un buen desempeño en tareas de resumen. En el punto de referencia MMLU, demostró un sólido desempeño, logrando resultados competitivos en evaluaciones de tiro cero y destacando su capacidad superior para manejar tareas de contexto largo de manera eficiente.

Para concluir, la investigación presentó Llama-3-8B-Instruct-80K-QLoRA, un modelo que extiende la longitud del contexto de Llama-3 de 8K a 80K tokens. Aborda el desafío de mantener el contexto en conversaciones largas mejorando la comprensión y al mismo tiempo reduciendo las demandas computacionales. El rendimiento del modelo en pruebas de referencia como LongBench e InfBench demostró su capacidad para manejar secuencias de texto extensas con precisión. Este trabajo avanza la investigación de la PNL al ofrecer un modelo que comprende y procesa de manera eficiente contextos más largos, allanando el camino para aplicaciones de comprensión del lenguaje más avanzadas.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 40.000 ml


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.