NVIDIA AI presenta Nemotron-4 340B: una familia de modelos abiertos que los desarrolladores pueden utilizar para generar datos sintéticos para entrenar modelos de lenguajes grandes (LLM)

NVIDIA ha presentado recientemente el Nemotrón-4 340B, una innovadora familia de modelos diseñada para generar datos sintéticos para entrenar modelos de lenguajes grandes (LLM) en diversas aplicaciones comerciales. Este lanzamiento marca un avance significativo en la IA generativa, ya que ofrece un conjunto completo de herramientas optimizadas para NVIDIA NeMo y NVIDIA TensorRT-LLM e incluye modelos de instrucción y recompensa de vanguardia. Esta iniciativa tiene como objetivo proporcionar a los desarrolladores un medio rentable y escalable para acceder a datos de capacitación de alta calidad, lo cual es crucial para mejorar el rendimiento y la precisión de los LLM personalizados. El Nemotron-4 340B incluye tres variantes: modelos Instruct, Reward y Base, cada uno de ellos diseñado para funciones específicas en el proceso de generación y refinamiento de datos.

  • El Instrucción Nemotron-4 340B El modelo está diseñado para crear diversos datos sintéticos que imitan las características de los datos del mundo real, mejorando el rendimiento y la solidez de los LLM personalizados en varios dominios. Este modelo es esencial para generar resultados de datos iniciales, que pueden perfeccionarse y mejorarse.
  • El Recompensa Nemotron-4 340B El modelo es crucial para filtrar y mejorar la calidad de los datos generados por IA. Evalúa las respuestas en función de su utilidad, corrección, coherencia, complejidad y verbosidad. Este modelo garantiza que los datos sintéticos sean de alta calidad y relevantes para las necesidades de la aplicación.
  • El Base Nemotrón-4 340B El modelo sirve como marco fundamental para la personalización. Este modelo, entrenado con 9 billones de tokens, se puede ajustar utilizando datos patentados y varios conjuntos de datos para adaptarse a casos de uso específicos. Admite una amplia personalización a través del marco NeMo, lo que permite un ajuste fino supervisado y métodos eficientes en los parámetros, como la adaptación de rango bajo (LoRA).

Esta innovadora familia de modelos cuenta con especificaciones impresionantes, incluida una ventana de contexto de 4k, capacitación en más de 50 y 40 lenguajes de programación y logros de referencia notables como 81,1 MMLU, 90,53 HellaSwag y 85,44 BHH. Los modelos requieren una potencia computacional significativa, incluidas 16 GPU H100 en configuraciones bf16 y aproximadamente 8x H100 en configuraciones int4.

Los datos de capacitación de alta calidad son importantes para desarrollar LLM sólidos, pero a menudo conllevan costos sustanciales y problemas de accesibilidad. Nemotron-4 340B aborda este desafío al permitir la generación de datos sintéticos a través de una licencia de modelo abierto permisiva. Esta familia de modelos incluye modelos base, de instrucción y de recompensa, formando un canal que facilita la creación y el refinamiento de datos sintéticos. Estos modelos se integran perfectamente con NVIDIA NeMo, un marco de código abierto que admite el entrenamiento de modelos de un extremo a otro, que abarca la curación, personalización y evaluación de datos. Están optimizados para la inferencia utilizando la biblioteca NVIDIA TensorRT-LLM, lo que mejora su eficiencia y escalabilidad.

El modelo Nemotron-4 340B Instruct es particularmente digno de mención ya que genera datos sintéticos que imitan fielmente los datos del mundo real, mejorando la calidad de los datos y mejorando el rendimiento de los LLM personalizados en diversos dominios. Este modelo puede crear resultados de datos variados y realistas, que luego pueden refinarse utilizando el modelo Nemotron-4 340B Reward. El modelo de recompensa evalúa las respuestas en función de su utilidad, corrección, coherencia, complejidad y verbosidad, garantizando que los datos generados cumplan con estándares de alta calidad. Este proceso de evaluación es fundamental para mantener la relevancia y precisión de los datos sintéticos, haciéndolos adecuados para diversas aplicaciones.

Una de las principales ventajas del Nemotron-4 340 B es su capacidad de personalización. Los investigadores y desarrolladores pueden adaptar el modelo base utilizando datos patentados, incluido el conjunto de datos HelpSteer2, lo que permite crear modelos de instrucción o recompensa personalizados. Este proceso de personalización se ve facilitado por el marco NeMo, que admite varios métodos de ajuste, incluido el ajuste supervisado y enfoques eficientes en parámetros como LoRA. Estos métodos permiten a los desarrolladores adaptar los modelos a casos de uso específicos, mejorando su precisión y eficacia en tareas posteriores.

Los modelos están optimizados con TensorRT-LLM para aprovechar el paralelismo tensorial, una forma de paralelismo de modelos que distribuye matrices de peso individuales entre múltiples GPU y servidores. Esta optimización permite una inferencia eficiente a escala, lo que permite manejar grandes conjuntos de datos y cálculos complejos de manera más efectiva.

El lanzamiento de Nemotron-4 340B también enfatiza la importancia de la seguridad y evaluación del modelo. El modelo Instruct se sometió a rigurosas evaluaciones de seguridad, incluidas pruebas adversas, para garantizar la confiabilidad en varios indicadores de riesgo. A pesar de estas precauciones, NVIDIA recomienda a los usuarios que evalúen minuciosamente los resultados del modelo para garantizar que los datos sintéticos generados sean seguros, precisos y adecuados para sus casos de uso específicos.

Los desarrolladores pueden acceder a los modelos Nemotron-4 340B en plataformas como Hugging Face y pronto estarán disponibles como un microservicio NVIDIA NIM con una API estándar. Esta accesibilidad, combinada con las sólidas capacidades de los modelos, posiciona a Nemotron-4 340B como una herramienta valiosa para las organizaciones que buscan aprovechar el poder de los datos sintéticos en sus procesos de desarrollo de IA.

En conclusión, el Nemotron-4 340B de NVIDIA representa un gran avance en la generación de datos sintéticos para la formación de LLM. Su licencia de modelo abierto, sus modelos avanzados de instrucción y recompensa y su perfecta integración con los marcos NeMo y TensorRT-LLM de NVIDIA brindan a los desarrolladores herramientas poderosas para crear datos de entrenamiento de alta calidad. Esta innovación impulsará avances en IA en muchas industrias, desde la atención médica hasta las finanzas y más, permitiendo el desarrollo de modelos de lenguaje más precisos y efectivos.


Revisar la Reporte técnico, Blogy Modelos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.