NVIDIA emite Llama Nemotron Nano 4B: un modelo de razonamiento abierto eficiente optimizado para las tareas científicas y IA de borde

NVIDIA ha lanzado Llama Nemotron Nano 4B, un modelo de razonamiento de código abierto diseñado para ofrecer un rendimiento y eficiencia sólidos en todas las tareas científicas, programación, matemáticas simbólicas, llamadas de funciones e instrucciones seguidas, mientras que es lo suficientemente compacto para el despliegue de borde. Con solo 4 mil millones de parámetros, logra una mayor precisión y hasta un 50% de rendimiento mayor que los modelos abiertos comparables con hasta 8 mil millones de parámetros, según puntos de referencia internos.

El modelo se posiciona como una base práctica para implementar agentes de IA basados ​​en el lenguaje en entornos limitados por recursos. Al centrarse en la eficiencia de inferencia, Llama Nemotron Nano 4B aborda una creciente demanda de modelos compactos capaces de soportar el razonamiento híbrido y las tareas de seguimiento de instrucciones fuera de la configuración de nubes tradicional.

Arquitectura de modelos y pila de entrenamiento

Nemotron Nano 4B se basa en la arquitectura Llama 3.1 y comparte el linaje con la anterior familia de “minyron” de Nvidia. La arquitectura sigue un diseño de transformador denso y solo de decodificadores. El modelo ha sido optimizado para el rendimiento en las cargas de trabajo intensivas en razonamiento mientras mantiene un recuento de parámetros livianos.

La pila posterior a la capacitación para el modelo incluye ajuste supervisado de múltiples etapas en conjuntos de datos seleccionados para matemáticas, codificación, tareas de razonamiento y llamadas de funciones. Además del aprendizaje supervisado tradicional, Nemotron Nano 4B ha sufrido una optimización de aprendizaje de refuerzo utilizando la optimización de preferencias conscientes de recompensas (RPO), un método destinado a mejorar la utilidad del modelo en entornos basados ​​en chat y seguimiento de instrucciones.

Esta combinación de ajuste de instrucciones y modelado de recompensas ayuda a alinear las salidas del modelo más estrechamente con la intención del usuario, particularmente en escenarios de razonamiento múltiple. El enfoque de entrenamiento refleja el énfasis de Nvidia en alinear modelos más pequeños con tareas de uso práctico que tradicionalmente requieren tamaños de parámetros significativamente más grandes.

Puntos de referencia de rendimiento

A pesar de su huella compacta, Nemotron Nano 4B exhibe un rendimiento robusto en tareas de razonamiento de un solo cambio y múltiple giro. Según NVIDIA, proporciona un rendimiento de inferencia 50% más alto en comparación con modelos similares de peso abierto dentro del rango de parámetros 8B. El modelo admite una ventana de contexto de hasta 128,000 tokens, que es particularmente útil para tareas que involucran documentos largos, llamadas de funciones anidadas o cadenas de razonamiento múltiple.

Si bien NVIDIA no ha revelado las tablas de referencia completas en la documentación de la cara abrazada, el modelo supuestamente supera a otras alternativas abiertas en puntos de referencia a través de matemáticas, generación de código y precisión de llamadas de funciones. Su ventaja de rendimiento sugiere que puede servir como un valor predeterminado viable para los desarrolladores que se dirigen a tuberías de inferencia eficientes con cargas de trabajo moderadamente complejas.

Implementación lista para borde

Uno de los diferenciadores centrales de Nemotron Nano 4B es su enfoque en la implementación de borde. El modelo se ha probado explícitamente y optimizado para ejecutarse de manera eficiente en las plataformas Nvidia Jetson y las GPU NVIDIA RTX. Esto permite capacidades de razonamiento en tiempo real en dispositivos integrados de baja potencia, incluidos sistemas de robótica, agentes de borde autónomo o estaciones de trabajo de desarrolladores locales.

Para las empresas y equipos de investigación relacionados con el control de privacidad y implementación, la capacidad de ejecutar modelos de razonamiento avanzados localmente, sin depender de las API de inferencia en la nube, puede proporcionar tanto ahorros de costos como una mayor flexibilidad.

Licencias y acceso

El modelo se lanza bajo la Licencia de Modelo Open NVIDIA, que permite el uso comercial. Está disponible a través de la cara abrazada en huggingface.co/nvidia/llama-3.1-nemotron-nano-4b-v1.1con todos los pesos de modelo relevantes, archivos de configuración y artefactos de tokenizer abiertamente accesibles. La estructura de la licencia se alinea con la estrategia más amplia de NVIDIA de apoyar los ecosistemas de desarrolladores en torno a sus modelos abiertos.

Conclusión

Nemotron Nano 4B representa la continua inversión de Nvidia en llevar modelos IA escalables y prácticos a una audiencia de desarrollo más amplia, especialmente aquellos dirigidos a escenarios de implementación de borde o costos. Si bien el campo continúa viendo un rápido progreso en los modelos ultra grandes, los modelos compactos y eficientes como Nemotron Nano 4B proporcionan un contrapeso, lo que permite la flexibilidad de implementación sin comprometer demasiado el rendimiento.


Mira el Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.