NVIDIA AI lleva Nemotron-3-Nano-30B a NVFP4 con destilación consciente de la cuantificación (QAD) para una inferencia de razonamiento eficiente

NVIDIA ha lanzado Nemotron-Nano-3-30B-A3B-NVFP4, un punto de control de producción que ejecuta un modelo de razonamiento de parámetros 30B en formato NVFP4 de 4 bits manteniendo una precisión cercana a su línea base BF16. El modelo combina una arquitectura híbrida Mamba2 Transformer Mixture of Experts con una receta de Quantization Aware Distillation (QAD) diseñada específicamente para la implementación de NVFP4. En general, es una versión de precisión NVFP4 ultraeficiente de Nemotron-3-Nano que ofrece un rendimiento hasta 4 veces mayor en Blackwell B200.

https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

¿Qué es Nemotron-Nano-3-30B-A3B-NVFP4?

Nemotron-Nano-3-30B-A3B-NVFP4 es una versión cuantificada de Nemotron-3-Nano-30B-A3B-BF16, entrenada desde cero por el equipo de NVIDIA como modelo unificado de razonamiento y chat. Está construido como una red híbrida Mamba2 Transformer MoE:

30 mil millones de parámetros en total 52 capas en profundidad 23 capas Mamba2 y MoE 6 capas de atención de consultas agrupadas con 2 grupos Cada capa MoE tiene 128 expertos enrutados y 1 experto compartido 6 expertos están activos por token, lo que da alrededor de 3,5 mil millones de parámetros activos por token

El modelo está preentrenado en tokens de 25T utilizando un programa de tasa de aprendizaje Warmup Stable Decay con un tamaño de lote de 3072, una tasa de aprendizaje máxima de 1e-3 y una tasa de aprendizaje mínima de 1e-5.

La capacitación posterior sigue un proceso de 3 etapas:

Ajuste fino supervisado de datos sintéticos y seleccionados para código, matemáticas, ciencias, llamada de herramientas, seguimiento de instrucciones y resultados estructurados. Aprendizaje reforzado con GRPO sincrónico a través del uso de herramientas de múltiples pasos, chat de múltiples turnos y entornos estructurados, y RLHF con un modelo de recompensa generativo. Cuantización posterior al entrenamiento en NVFP4 con caché FP8 KV y un diseño selectivo de alta precisión, seguido de QAD.

El punto de control NVFP4 mantiene las capas de atención y las capas Mamba que las alimentan en BF16, cuantifica las capas restantes en NVFP4 y utiliza FP8 para el caché KV.

Formato NVFP4 y ¿por qué es importante?

NVFP4 es un formato de punto flotante de 4 bits diseñado tanto para entrenamiento como para inferencia en GPU NVIDIA recientes. Las principales propiedades de NVFP4:

En comparación con FP8, NVFP4 ofrece un rendimiento aritmético de 2 a 3 veces mayor. Reduce el uso de memoria aproximadamente 1,8 veces para pesos y activaciones. Amplía MXFP4 reduciendo el tamaño del bloque de 32 a 16 e introduce una escala de dos niveles.

El escalado de dos niveles utiliza escalas E4M3-FP8 por bloque y una escala FP32 por tensor. El tamaño de bloque más pequeño permite que el cuantificador se adapte a las estadísticas locales y el escalado dual aumenta el rango dinámico manteniendo bajo el error de cuantificación.

Para LLM muy grandes, la cuantificación posterior al entrenamiento (PTQ) simple para NVFP4 ya brinda una precisión decente en todos los puntos de referencia. Para los modelos más pequeños, especialmente aquellos con mucho franqueo, el equipo de investigación señala que PTQ provoca caídas de precisión no despreciables, lo que motiva un método de recuperación basado en el entrenamiento.

De QAT a QAD

El entrenamiento consciente de la cuantificación estándar (QAT) inserta una pseudocuantización en el paso directo y reutiliza la pérdida de la tarea original, como la entropía cruzada del siguiente token. Esto funciona bien para redes convolucionales, pero el equipo de investigación enumera dos problemas principales para los LLM modernos:

Los procesos complejos de post-entrenamiento de múltiples etapas con SFT, RL y fusión de modelos son difíciles de reproducir. Los datos de entrenamiento originales para modelos abiertos a menudo no están disponibles en formato público.

La destilación consciente de la cuantificación (QAD) cambia el objetivo en lugar del proceso completo. Un modelo BF16 congelado actúa como profesor y el modelo NVFP4 es alumno. La capacitación minimiza la divergencia de KL entre sus distribuciones de tokens de salida, no el objetivo original supervisado o de RL.

El equipo de investigación destaca 3 propiedades del QAD:

Alinea el modelo cuantificado con el profesor de alta precisión con mayor precisión que QAT. Se mantiene estable incluso cuando el profesor ya ha pasado por varias etapas, como el ajuste fino supervisado, el aprendizaje por refuerzo y la fusión de modelos, porque QAD sólo intenta igualar el comportamiento final del profesor. Funciona con datos parciales, sintéticos o filtrados, porque solo necesita texto de entrada para consultar al profesor y al alumno, no las etiquetas originales ni los modelos de recompensa.

Puntos de referencia sobre Nemotron-3-Nano-30B

Nemotron-3-Nano-30B-A3B es uno de los modelos pesados RL en la investigación QAD. La siguiente tabla muestra la precisión en AA-LCR, AIME25, GPQA-D, LiveCodeBench-v5 y SciCode-TQ, NVFP4-QAT y NVFP4-QAD.

https://research.nvidia.com/labs/nemotron/files/NVFP4-QAD-Report.pdf

Conclusiones clave

Nemotron-3-Nano-30B-A3B-NVFP4 es un modelo híbrido Mamba2 Transformer MoE de 30B de parámetros que se ejecuta en NVFP4 de 4 bits con caché FP8 KV y un pequeño conjunto de capas BF16 preservadas para la estabilidad, al tiempo que mantiene alrededor de 3,5B de parámetros activos por token y admite ventanas de contexto de hasta 1 millón de tokens. NVFP4 es un formato de punto flotante de 4 bits con tamaño de bloque 16 y escala de dos niveles, que utiliza escalas por bloque E4M3-FP8 y una escala FP32 por tensor, lo que proporciona un rendimiento aritmético entre 2 y 3 veces mayor y un costo de memoria aproximadamente 1,8 veces menor que FP8 para pesos y activaciones. Quantization Aware Distillation (QAD) reemplaza la pérdida de tarea original con divergencia KL en un maestro BF16 congelado, por lo que el estudiante de NVFP4 coincide directamente con la distribución de salida del maestro sin reproducir el proceso completo de fusión de modelos, RL y SFT ni necesitar los modelos de recompensa originales. Utilizando el nuevo método Quantization Aware Distillation, la versión NVFP4 logra hasta un 99,4% de precisión de BF16. En AA-LCR, AIME25, GPQA-D, LiveCodeBench y SciCode, NVFP4-PTQ muestra una pérdida notable de precisión y NVFP4-QAT se degrada aún más, mientras que NVFP4-QAD recupera el rendimiento a niveles cercanos a BF16, reduciendo la brecha a solo unos pocos puntos en estos razonamientos y puntos de referencia de codificación.

Consulte los pesos del papel y del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

NVIDIA AI lleva Nemotron-3-Nano-30B a NVFP4 con destilación consciente de la cuantificación (QAD) para una inferencia de razonamiento eficiente

ByEquipo de 7 minutos

¿Qué es Nemotron-Nano-3-30B-A3B-NVFP4?

Formato NVFP4 y ¿por qué es importante?

De QAT a QAD

Puntos de referencia sobre Nemotron-3-Nano-30B

Conclusiones clave

By Equipo de 7 minutos

Related Post

Cree un agente de IA estilo nanobot en Google Colab con llamadas de herramientas, memoria de sesión, habilidades y servidores MCP

Los LLM ayudan a los robots a comprender instrucciones vagas y centrarse en detalles clave | Noticias del MIT

Charla sobre el enfriador de agua, Ep. 11: Sobreajuste en la evaluación RAG

You missed

Mijas Pueblo brilla y parpadea con 15.000 velas en el mágico festival de julio « Euro Weekly News

Blog de chismes deportivos n.° 1 en el mundo

Cree un agente de IA estilo nanobot en Google Colab con llamadas de herramientas, memoria de sesión, habilidades y servidores MCP

¿Por qué los equipos para observar las estrellas se están volviendo más caros a pesar de las ventas anuales?