Gmj2gxbxaaaws8x.png

En el campo rápidamente cambiante del procesamiento del lenguaje natural (PNL), las posibilidades de interacción persona-computadora se están remodelando mediante la introducción de modelos conversacionales avanzados de preguntas y respuestas (QA). Recientemente, Nvidia ha publicado un ajuste competitivo de QA/RAG de Llama3-70b. El modelo Llama3-ChatQA-1.5 es un logro notable que marca un avance importante en la generación aumentada de recuperación (RAG) y el control de calidad conversacional.

Construido sobre el modelo ChatQA (1.0), Llama3-ChatQA-1.5 utiliza el confiable modelo base Llama-3, así como una receta de entrenamiento mejorada. Un avance significativo es la incorporación de conjuntos de datos de control de calidad conversacionales a gran escala, que dotan al modelo de capacidades mejoradas de cálculo tabular y aritmético.

Llama3-ChatQA-1.5-8B y Llama3-ChatQA-1.5-70B son las dos versiones de este modelo de última generación que vienen con 8 mil millones y 70 mil millones de parámetros, respectivamente. Estos modelos, que se entrenaron por primera vez con Megatron-LM, se han convertido al formato Hugging Face para mayor accesibilidad y conveniencia.

Aprovechando el éxito de ChatQA, se desarrolló Llama3-ChatQA-1.5, una familia de modelos de control de calidad conversacionales con niveles de rendimiento comparables a GPT-4. ChatQA mejora en gran medida los resultados de control de calidad conversacional con modelos de lenguaje grandes (LLM) al introducir una estrategia única de ajuste de instrucción de dos etapas.

ChatQA utiliza un recuperador denso que se ha optimizado en un conjunto de datos de control de calidad de múltiples turnos para manejar de manera eficiente la generación de recuperación aumentada. Este método reduce significativamente los costos de implementación y produce resultados que están a la par con las técnicas de reescritura de consultas más avanzadas.

Dado que los modelos Meta Llama 3 establecen nuevos estándares en el campo, la transición a Llama 3 significa un punto de inflexión significativo en el desarrollo de la IA. Estos modelos, que tienen parámetros 8B y 70B, exhiben excelentes resultados en una variedad de puntos de referencia industriales y están respaldados por poderes de razonamiento mejorados.

Los objetivos futuros del equipo de Llama incluyen extender Llama 3 a dominios multilingües y multimodales, impulsar la comprensión contextual y avanzar continuamente en funciones fundamentales de LLM como la generación de código y el razonamiento. El objetivo principal es ofrecer los modelos de código abierto más sofisticados y accesibles para fomentar la creatividad y la cooperación dentro de la comunidad de IA.

El rendimiento de Llama 3 mejora significativamente con respecto al de Llama 2. Establece un nuevo punto de referencia para los LLM en las escalas de parámetros 8B y 70B. Los avances destacados en los protocolos previos y posteriores a la capacitación han mejorado notablemente la diversidad de respuestas, la alineación de modelos y las competencias críticas, incluido el razonamiento y el seguimiento de instrucciones.

En conclusión, Llama3-ChatQA-1.5 representa los avances más recientes en PNL y establece estándares para el trabajo futuro en modelos de IA de código abierto, entrando en una nueva era de control de calidad conversacional y generación de recuperación aumentada. Se espera que el proyecto Llama impulse la adopción responsable de la IA en diversas áreas e impulse la innovación a medida que se desarrolla.


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.