¿Por qué los equipos de desarrollo de IA siguen entrenando y almacenando múltiples modelos de lenguaje grandes para diferentes necesidades de implementación cuando un modelo elástico puede generar varios tamaños al mismo costo? NVIDIA está colapsando la pila habitual de ‘familia de modelos’ en un solo trabajo de capacitación. El equipo de IA de NVIDIA lanza Nemotron-Elastic-12B, un modelo de razonamiento de parámetros de 12B que incorpora variantes anidadas de 9B y 6B en el mismo espacio de parámetros, de modo que los tres tamaños provienen de un punto de control elástico sin ejecuciones de destilación adicionales por tamaño.
Muchos en una familia modelo
La mayoría de los sistemas de producción necesitan varios tamaños de modelo, un modelo más grande para cargas de trabajo del lado del servidor, un modelo de tamaño mediano para GPU de borde potente y un modelo más pequeño para latencia ajustada o presupuestos de energía. El oleoducto habitual entrena o destila cada tamaño por separado, por lo que el costo de las fichas y el almacenamiento en los puntos de control aumentan con la cantidad de variantes.
Nemotron Elastic toma un camino diferente. Parte del modelo de razonamiento Nemotron Nano V2 12B y entrena una red híbrida elástica Mamba Attention que expone múltiples submodelos anidados. El punto de control Nemotron-Elastic-12B lanzado se puede dividir en variantes 9B y 6B, Nemotron-Elastic-9B y Nemotron-Elastic-6B, utilizando un script de corte proporcionado, sin ninguna optimización adicional.
Todas las variantes comparten pesos y metadatos de enrutamiento, por lo que el costo de capacitación y la memoria de implementación están vinculados al modelo más grande, no a la cantidad de tamaños de la familia.
Transformador híbrido Mamba con máscaras elásticas.
Arquitectónicamente, Nemotron Elastic es un híbrido de transformador Mamba-2. La red base sigue el diseño de estilo Nemotron-H, donde la mayoría de las capas son bloques de espacio de estado de secuencia basados en Mamba-2 más MLP, y un pequeño conjunto de capas de atención preservan el campo receptivo global.
La elasticidad se implementa convirtiendo este híbrido en un modelo dinámico controlado por máscaras:
El ancho, los canales de incrustación, las cabezas de Mamba y los canales de cabeza, las cabezas de atención y el tamaño intermedio de FFN se pueden reducir mediante máscaras binarias. En profundidad, las capas se pueden eliminar según un orden de importancia aprendido, y las rutas residuales preservan el flujo de la señal.
Un módulo de enrutador genera opciones de configuración discretas por presupuesto. Estas opciones se convierten en máscaras con Gumbel Softmax y luego se aplican a incrustaciones, proyecciones Mamba, proyecciones de atención y matrices FFN. El equipo de investigación añade varios detalles para mantener válida la estructura del SSM:
Elastificación SSM consciente del grupo que respeta la cabeza de Mamba y la agrupación de canales. Elastificación MLP heterogénea donde diferentes capas pueden tener distintos tamaños intermedios. Importancia de la capa normalizada basada en MSE para decidir qué capas permanecen cuando se reduce la profundidad.
Las variantes más pequeñas son siempre selecciones de prefijo en las listas de componentes clasificados, lo que hace que los modelos 6B y 9B sean verdaderas subredes anidadas del padre 12B.
Entrenamiento en dos etapas para cargas de trabajo de razonamiento
Nemotron Elastic se entrena como modelo de razonamiento con un profesor congelado. El maestro es el modelo de razonamiento original Nemotron-Nano-V2-12B. El estudiante elástico-12B se optimiza conjuntamente para los tres presupuestos, 6B, 9B, 12B, utilizando la destilación de conocimientos más la pérdida de modelado del lenguaje.
El entrenamiento se desarrolla en dos etapas:
Etapa 1: contexto corto, longitud de secuencia 8192, tamaño de lote 1536, alrededor de 65 mil millones de tokens, con muestreo uniforme en los tres presupuestos. Etapa 2: contexto extendido, longitud de secuencia 49152, tamaño de lote 512, alrededor de 45 mil millones de tokens, con muestreo no uniforme que favorece el presupuesto completo de 12 mil millones.
La segunda etapa es importante para las tareas de razonamiento. La tabla anterior muestra que para AIME 2025, el modelo 6B mejora de 56,88 a 68,13, una ganancia relativa del 19,8 por ciento, mientras que el modelo 9B gana un 9,7 por ciento y el modelo 12B gana un 4,0 por ciento después del entrenamiento de contexto extendido.
También se ajusta el muestreo presupuestario. En la Etapa 2, los pesos no uniformes de 0,5, 0,3, 0,2 para 12B, 9B, 6B evitan la degradación del modelo más grande y mantienen todas las variantes competitivas en Math 500, AIME 2025 y GPQA.
Resultados de referencia
Nemotron Elastic se evalúa según puntos de referencia de razonamiento pesado, MATH 500, AIME 2024, AIME 2025, GPQA, LiveCodeBench v5 y MMLU Pro. La siguiente tabla resume el pase con 1 precisión.
El modelo elástico 12B coincide en promedio con la línea base NanoV2-12B, 77,41 frente a 77,38, al tiempo que proporciona variantes 9B y 6B de la misma ejecución. El modelo elástico 9B sigue de cerca la línea base NanoV2-9B, 75,95 frente a 75,99. El modelo elástico 6B alcanza 70,61, ligeramente por debajo de Qwen3-8B con 72,68, pero sigue siendo fuerte por su recuento de parámetros dado que no se entrena por separado.
Token de entrenamiento y ahorro de memoria.
Nemotron Elastic aborda directamente el problema de los costes. La siguiente tabla compara los presupuestos de tokens necesarios para derivar los modelos 6B y 9B de un padre 12B:
Preentrenamiento NanoV2 para 6B y 9B, 40T tokens en total. Compresión NanoV2 con Minitron SSM, 480B exploratorios más 270B finales, 750B tokens. Nemotron Elastic, 110B tokens en una sola ejecución de destilación elástica.
El equipo de investigación informa que esto proporciona una reducción de alrededor de 360 veces en comparación con el entrenamiento de los dos modelos adicionales desde cero, y una reducción de alrededor de 7 veces en comparación con la base de compresión.
La memoria de implementación también se reduce. La siguiente tabla indica que almacenar Nemotron Elastic 6B, 9B y 12B juntos requiere 24 GB de pesas BF16, mientras que almacenar NanoV2 9B más 12B requiere 42 GB. Esta es una reducción de memoria del 43 por ciento y al mismo tiempo expone un tamaño adicional de 6B.
Comparación
Conclusiones clave
Nemotron Elastic entrena un modelo de razonamiento 12B que contiene variantes 9B y 6B anidadas que se pueden extraer sin necesidad de entrenamiento adicional. La familia elástica utiliza una arquitectura híbrida Mamba-2 y Transformer más un enrutador aprendido que aplica máscaras estructuradas en ancho y profundidad para definir cada submodelo. El enfoque necesita 110 mil millones de tokens de entrenamiento para derivar 6 B y 9 B del padre 12 B, lo que es aproximadamente 7 veces menos tokens que la línea base de compresión Minitron SSM de 750 mil millones de tokens y aproximadamente 360 veces menos que entrenar modelos adicionales desde cero. En pruebas de razonamiento como MATH 500, AIME 2024 y 2025, GPQA, LiveCodeBench y MMLU Pro, los modelos elásticos 6B, 9B y 12B alcanzan puntuaciones promedio de aproximadamente 70,61, 75,95 y 77,41, que están a la par o cerca de las líneas de base NanoV2 y son competitivas con Qwen3-8B. Los tres tamaños comparten un punto de control BF16 de 24 GB, por lo que la memoria de implementación se mantiene constante para la familia en comparación con alrededor de 42 GB para los modelos NanoV2-9B y 12B separados, lo que brinda aproximadamente un ahorro de memoria del 43 por ciento al agregar una opción de 6B.
Nemotron-Elastic-12B es un paso práctico para hacer que las familias de modelos de razonamiento sean más económicas de construir y operar. Un punto de control elástico produce variantes 6B, 9B y 12B con una arquitectura híbrida Mamba-2 y Transformer, un enrutador aprendido y máscaras estructuradas que preservan el rendimiento del razonamiento. El enfoque reduce el costo de los tokens en relación con las ejecuciones separadas de compresión o preentrenamiento y mantiene la memoria de implementación en 24 GB para todos los tamaños, lo que simplifica la administración de flotas para implementaciones de LLM de varios niveles. En general, Nemotron-Elastic-12B convierte los LLM de razonamiento de múltiples tamaños en un único problema de diseño de sistemas elásticos.
Consulte los pesos del papel y del modelo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.