NVIDIA lanza Nemotron 3 Super: un modelo MoE híbrido de atención Mamba de código abierto y parámetros de 120 B que ofrece un rendimiento 5 veces mayor para IA agente

La brecha entre los modelos fronterizos propietarios y los modelos de código abierto altamente transparentes se está cerrando más rápido que nunca. NVIDIA ha levantado oficialmente el telón de Nemotron 3 Super, un asombroso modelo de razonamiento de 120 mil millones de parámetros diseñado específicamente para aplicaciones complejas de múltiples agentes.

Lanzado hoy, Nemotron 3 Super se ubica perfectamente entre el liviano Nemotron 3 Nano de 30 mil millones de parámetros y el muy esperado Nemotron 3 Ultra de 500 mil millones de parámetros que llegará más adelante en 2026. Este modelo, que ofrece un rendimiento hasta 7 veces mayor y el doble de precisión que su generación anterior, es un gran salto adelante para los desarrolladores que se niegan a comprometerse entre inteligencia y eficiencia de inferencia.

Los ‘Cinco Milagros’ de Nemotron 3 Super

El rendimiento sin precedentes de Nemotron 3 Super está impulsado por cinco importantes avances tecnológicos:

Arquitectura híbrida MoE: el modelo combina de forma inteligente capas Mamba de memoria eficiente con capas Transformer de alta precisión. Al activar solo una fracción de los parámetros para generar cada token, logra un aumento de 4 veces en la eficiencia del uso de la caché KV y SSM. Predicción de tokens múltiples (MTP): el modelo puede predecir múltiples tokens futuros simultáneamente, lo que genera tiempos de inferencia tres veces más rápidos en tareas de razonamiento complejas. Ventana de contexto de 1 millón: con una longitud de contexto 7 veces mayor que la generación anterior, los desarrolladores pueden colocar informes técnicos masivos o bases de código completas directamente en la memoria del modelo, eliminando la necesidad de volver a razonar en flujos de trabajo de varios pasos. MoE latente: esto permite que el modelo comprima información y active cuatro expertos por el mismo costo de cómputo que uno. Sin esta innovación, el modelo tendría que ser 35 veces más grande para alcanzar los mismos niveles de precisión. Integración de NeMo RL Gym: a través de canales interactivos de aprendizaje por refuerzo, el modelo aprende de bucles de retroalimentación dinámica en lugar de solo texto estático, lo que efectivamente duplica su índice de inteligencia.

Todos estos avances conducen a una eficiencia increíble en términos de tokens de salida por GPU.

¿Por qué Nemotron 3 Super es el motor definitivo para la IA multiagente?

Nemotron 3 Super no es sólo un modelo estándar de lenguaje grande; está específicamente posicionado como un motor de razonamiento diseñado para planificar, verificar y ejecutar tareas complejas dentro de un sistema más amplio de modelos especializados. He aquí exactamente por qué su arquitectura lo convierte en un elemento revolucionario para los flujos de trabajo de múltiples agentes:

Alto rendimiento para un razonamiento más profundo: el rendimiento 7 veces mayor del modelo expande físicamente su espacio de búsqueda. Debido a que puede procesar y generar tokens más rápido, puede explorar muchas más trayectorias y evaluar mejores respuestas. Esto permite a los desarrolladores realizar un razonamiento más profundo con el mismo presupuesto informático, lo cual es esencial para crear agentes autónomos y sofisticados. Cero “reasonamiento” en flujos de trabajo largos: en sistemas de múltiples agentes, los agentes pasan contexto constantemente de un lado a otro. La ventana de contexto de 1 millón de tokens permite que el modelo retenga cantidades masivas de estado, como bases de código completas o largos historiales de conversaciones de agentes de varios pasos, directamente en su memoria. Esto elimina la latencia y el costo de obligar al modelo a reprocesar el contexto en cada paso. Entornos de capacitación específicos para agentes: en lugar de depender únicamente de conjuntos de datos de texto estáticos, la canalización del modelo se amplió con más de 15 entornos interactivos de aprendizaje por refuerzo. Al entrenarse en bucles de simulación dinámica (como entornos dedicados para agentes de ingeniería de software y búsqueda aumentada por herramientas), Nemotron 3 Super aprendió las trayectorias óptimas para completar tareas de forma autónoma. Capacidades avanzadas de llamada de herramientas: en aplicaciones multiagente del mundo real, los modelos deben actuar, no solo responder textualmente. Desde el primer momento, Nemotron 3 Super ha demostrado ser muy competente en la llamada de herramientas, navegando con éxito en grupos masivos de funciones disponibles, como seleccionar dinámicamente entre más de 100 herramientas diferentes en flujos de trabajo complejos de ciberseguridad.

Escala de capacitación y código abierto

NVIDIA no sólo está liberando pesos; Son completamente de código abierto para toda la pila del modelo, que incluye los conjuntos de datos de entrenamiento, las bibliotecas y los entornos de aprendizaje por refuerzo.

Debido a este nivel de transparencia, Artificial Analysis coloca a Nemotron 3 Super directamente en el “cuadrante más atractivo”, señalando que logra el puntaje de apertura más alto mientras mantiene una precisión líder junto con los modelos patentados. La base de esta inteligencia proviene de un canal completamente rediseñado entrenado en 10 billones de tokens seleccionados, complementado con entre 9 y 10 mil millones de tokens adicionales estrictamente enfocados en tareas avanzadas de codificación y razonamiento.

Control de desarrollador: Presentación de ‘Presupuestos razonados’

Si bien los recuentos de parámetros brutos y las puntuaciones de las pruebas comparativas son impresionantes, el equipo de NVIDIA comprende que los desarrolladores empresariales del mundo real necesitan un control preciso sobre la latencia, la experiencia del usuario y los costos informáticos. Para resolver el clásico dilema de inteligencia versus velocidad, Nemotron 3 Super introduce modos de razonamiento altamente flexibles directamente a través de su API, poniendo un nivel sin precedentes de control granular en manos del desarrollador.

En lugar de forzar un resultado único para todos, los desarrolladores pueden ajustar dinámicamente exactamente qué tan duro “piensa” el modelo en función de la tarea específica en cuestión:

Razonamiento completo (predeterminado): el modelo se libera para aprovechar sus capacidades máximas, explorando espacios de búsqueda profundos y trayectorias de varios pasos para resolver los problemas agentes más complejos. El ‘Presupuesto de razonamiento’: es un cambio total para las aplicaciones sensibles a la latencia. Los desarrolladores pueden limitar explícitamente el tiempo de pensamiento del modelo o la asignación de cálculo. Al establecer un presupuesto de razonamiento estricto, el modelo optimiza inteligentemente su espacio de búsqueda interno para ofrecer la mejor respuesta posible dentro de esa restricción exacta. ‘Modo de bajo esfuerzo’: no ​​todas las indicaciones requieren un análisis profundo de múltiples agentes. Cuando un usuario solo necesita una respuesta simple y concisa (como un resumen estándar o preguntas y respuestas básicas) sin la sobrecarga de un razonamiento profundo, esta opción transforma Nemotron 3 Super en un respondedor ultrarrápido, ahorrando enormes cantidades de computación y tiempo.

La configuración ‘dorada’

Ajustar los modelos de razonamiento a menudo puede ser un proceso frustrante de prueba y error, pero el equipo de NVIDIA lo ha desmitificado por completo para esta versión. Para extraer el mejor rendimiento absoluto en todos estos modos dinámicos, NVIDIA recomienda una configuración global de Temperatura 1.0 y Top P 0.95.

Según el equipo de NVIDIA, bloquear estas configuraciones exactas de hiperparámetros garantiza que el modelo mantenga el equilibrio matemático perfecto entre exploración creativa y precisión lógica, ya sea que se ejecute en un modo restringido de bajo esfuerzo o en un análisis profundo de razonamiento sin límites.

Aplicaciones y disponibilidad del mundo real

Nemotron 3 Super ya está demostrando su valía en aplicaciones empresariales exigentes:

Desarrollo de software: maneja solicitudes de extracción de nivel junior y supera a los modelos propietarios líderes en localización de problemas, encontrando con éxito la línea exacta de código que causa un error. Ciberseguridad: el modelo se destaca en la navegación por flujos de trabajo de ISV de seguridad complejos con su lógica avanzada de llamada de herramientas. IA soberana: organizaciones de todo el mundo en regiones como India, Vietnam, Corea del Sur y Europa están utilizando la arquitectura Nemotron para crear modelos especializados y localizados adaptados a regiones y marcos regulatorios específicos.

Nemotron 3 Super se lanza en cuantificaciones BF16, FP8 y NVFP4, y se requiere NVFP4 para ejecutar el modelo en un DGX Spark.

Echa un vistazo a los modelos de Hugging Face. Puede encontrar detalles en el artículo de investigación y en el blog técnico/de desarrolladores.

Gracias al equipo de IA de NVIDIA por el liderazgo intelectual y los recursos para este artículo. El equipo de IA de NVIDIA ha apoyado y patrocinado este contenido/artículo.

Jean-marc es un exitoso ejecutivo de negocios de IA. Lidera y acelera el crecimiento de soluciones impulsadas por IA y fundó una empresa de visión por computadora en 2006. Es un orador reconocido en conferencias de IA y tiene un MBA de Stanford.