NVIDIA AI Liberes Nemotron Nano 2 AI Modelos: una familia de modelos de IA empresarial preparado para la producción y 6x más rápido que el modelo de tamaño similar

NVIDIA ha presentado la familia Nemotron Nano 2, introduciendo una línea de modelos de lenguaje grande (LLMS) híbridos que no solo impulsan la precisión de razonamiento de estado del arte, sino que también ofrecen un rendimiento de inferencia de 6 × más alto que los modelos de tamaño similar. Esta versión se destaca con una transparencia sin precedentes en datos y metodología, ya que NVIDIA proporciona la mayoría del corpus de capacitación y recetas junto con los puntos de control del modelo para la comunidad. Críticamente, estos modelos mantienen una capacidad de contexto masiva de 128k-token en una sola GPU de rango medio, reduciendo significativamente las barreras para el razonamiento de contexto largo y la implementación del mundo real.

Destacados clave

  • 6 × rendimiento vs. modelos de tamaño similar: Los modelos Nemotron Nano 2 ofrecen hasta 6.3 × la velocidad de generación de tokens de modelos como QWEN3-8B en escenarios de razonamiento pesado, sin sacrificar la precisión.
  • Precisión superior para razonamiento, codificación y tareas multilingües: Los puntos de referencia muestran resultados en PAR o mejores versus modelos abiertos competitivos, en particular que excede a sus pares en matemáticas, código, uso de herramientas y tareas de contexto largo.
  • 128K Longitud de contexto en una sola GPU: La poda eficiente y la arquitectura híbrida permiten ejecutar 128,000 inferencias de tokens en un solo NVIDIA A10G GPU (22GIB).
  • Abierto de datos y pesos: La mayoría de los conjuntos de datos previos al pretratamiento y posterior al entrenamiento, incluidos los datos de código, matemáticas, multilingües, SFT sintéticas y razonamiento, se lanzan con licencias permisivas en la cara abrazada.

Arquitectura híbrida: Mamba se encuentra con Transformer

Nemotron Nano 2 se basa en una columna vertebral híbrida de transformador mamba, inspirado en la arquitectura Nemotron-H. La mayoría de las capas tradicionales de autoatencia se reemplazan por capas eficientes de Mamba-2, con solo alrededor del 8% de las capas totales que utilizan la autoatención. Esta arquitectura está cuidadosamente elaborada:

  • Detalles del modelo: El modelo 9B-Parameter presenta 56 capas (de un 62 pre-capacitado), un tamaño oculto de 4480, con atención agrupada y capas espaciales de estado Mamba-2 que facilitan tanto la escalabilidad como la retención de secuencia larga.
  • Innovaciones Mamba-2: Estas capas de espacio de estado, recientemente popularizadas como modelos de secuencia de alto rendimiento, están entrelazadas con autoatención escasa (para preservar las dependencias de largo alcance) y grandes redes de alimentación.

Esta estructura permite un alto rendimiento en las tareas de razonamiento que requieren “rastros de pensamiento”, generaciones largas basadas en una entrada larga y en contexto, donde las arquitecturas tradicionales basadas en transformadores a menudo se ralentizan o se quedan sin memoria.

Receta de capacitación: diversidad de datos masivo, abastecimiento abierto

Los modelos Nemotron Nano 2 están entrenados y destilados de un modelo de maestro de parámetros 12B utilizando un cuerpo extenso de alta calidad. La transparencia de datos sin precedentes de NVIDIA es lo más destacado:

  • 20T Tokens Pretratining: Las fuentes de datos incluyen corpus curados y sintéticos para la web, matemáticas, código, multilingües, académicos y dominios STEM.
  • Los principales conjuntos de datos publicados:
    • Nemotron-CC-V2: Crawl web multilingüe (15 idiomas), Rephassing sintético de preguntas y respuestas, deduplicación.
    • Nemotron-CC-Math: 133B Tokens of Math Content, estandarizados a látex, más de 52B de subconjunto de “más alta calidad”.
    • Nemotron-Pretratining Code: Código fuente de GitHub curado y filtrado de calidad; Descontaminación rigurosa y deduplicación.
    • Nemotron-pretratining-sft: Los conjuntos de datos sintéticos, seguidos de instrucción en los dominios STEM, razonamiento y general.
  • Datos posteriores al entrenamiento: Incluye más de 80b tokens de ajuste fino supervisado (SFT), RLHF, llamado de herramientas y conjuntos de datos multilingües, de los cuales son de origen abierto para la reproducibilidad directa.

Alineación, destilación y compresión: desbloqueo de razonamiento rentable y de contexto largo

El proceso de compresión modelo de Nvidia se basa en los marcos de poda “minitronas” y mamba:

  • Destilación de conocimiento Del maestro de 12B reduce el modelo a parámetros 9B, con una precisión cuidadosa de capas, dimensiones de FFN y ancho de incrustación.
  • SFT y RL de múltiples etapas: Incluye la optimización de llamadas de herramientas (BFCL V3), el seguimiento de las instrucciones (IFEVal), el refuerzo de DPO y GRPO, y el control de “presupuesto de pensamiento” (soporte para presupuestos de razonamiento controlables con inferencia).
  • NAS dirigido a la memoria: A través de la búsqueda de arquitectura, los modelos podados se diseñan específicamente para que el modelo y el caché de valor clave se ajusten, y sigan funcionando, dentro de la memoria GPU A10G a una longitud de contexto de 128k.

El resultado: velocidades de inferencia de hasta 6 × más rápido que los competidores abiertos en escenarios con grandes tokens de entrada/salida, sin precisión de la tarea comprometida.

Benchmarking: razonamiento superior y capacidades multilingües

En las evaluaciones directas, los modelos nemotron nano 2 sobresalen:

Tarea/banco Nemotron-nano-9b-v2 Qwen3-8b Gemma3-12b
Mmlu (general) 74.5 76.4 73.6
Mmlu-pro (5-shot) 59.4 56.3 45.1
Gsm8k cot (matemáticas) 91.4 84.0 74.5
MATEMÁTICAS 80.5 55.4 42.4
Humaneval+ 58.5 57.6 36.7
Ruler-128k (contexto largo) 82.2 80.7
Global-MMLU-Lite (AVG Multi) 69.9 72.8 71.9
MGSM Matemáticas multilingües (AVG) 84.8 64.5 57.1
  • Rendimiento (tokens/s/gpu) a 8k entrada/16K Salida:
    • Nemotron-Nano-9B-V2: hasta 6.3 × QWEN3-8B en trazas de razonamiento.
    • Mantiene hasta 128k-Context con tamaño por lotes = 1, pálido poco práctico en las GPU de rango medio.

Conclusión

El lanzamiento de Nemotron Nano 2 de NVIDIA es un momento importante para la investigación de LLM Open: redefine lo que es posible en un solo GPU rentable, tanto en capacidad de velocidad como de contexto, al tiempo que aumenta la barra para la transparencia de los datos y la reproducibilidad. Su arquitectura híbrida, supremacía de rendimiento y conjuntos de datos abiertos de alta calidad están configurados para acelerar la innovación en todo el ecosistema de IA.


Mira el Detalle técnico, Papel y Modelos en la cara abrazada. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.