Nemotron 3 Super ahora está disponible como modelo totalmente administrado y sin servidor en Amazon Bedrock, uniéndose a los modelos Nemotron Nano que ya están disponibles en el entorno de Amazon Bedrock.
Con los modelos abiertos de NVIDIA Nemotron en Amazon Bedrock, puede acelerar la innovación y ofrecer valor empresarial tangible sin tener que gestionar las complejidades de la infraestructura. Puede potenciar sus aplicaciones de IA generativa con Nemotron a través de la inferencia totalmente administrada de Amazon Bedrock, utilizando sus amplias funciones y herramientas.
Esta publicación explora las características técnicas del modelo Nemotron 3 Super y analiza posibles casos de uso de aplicaciones. También proporciona orientación técnica para comenzar a utilizar este modelo para sus aplicaciones de IA generativa dentro del entorno de Amazon Bedrock.
Acerca de Nemotrón 3 Súper
Nemotron 3 Super es un modelo híbrido de Mezcla de Expertos (MoE) con eficiencia y precisión informática líderes para aplicaciones multiagente y para sistemas de IA agentes especializados. El modelo se lanza con pesos, conjuntos de datos y recetas abiertos para que los desarrolladores puedan personalizar, mejorar e implementar el modelo en su infraestructura para mejorar la privacidad y la seguridad.
Descripción general del modelo:
Arquitectura: MoE con arquitectura Hybrid Transformer-Mamba. Admite el presupuesto de tokens para proporcionar una precisión mejorada con una generación mínima de tokens de razonamiento. Precisión: La mayor eficiencia de rendimiento en su categoría de tamaño y hasta 5 veces más que el modelo Nemotron Super anterior. Precisión líder para tareas de razonamiento y agencia entre los principales modelos abiertos y una precisión hasta 2 veces mayor que la versión anterior. Logra una alta precisión en los principales puntos de referencia, incluidos AIME 2025, Terminal-Bench, SWE Bench verificado y multilingüe, RULER. La capacitación RL en múltiples entornos brindó al modelo una precisión líder en más de 10 entornos con NVIDIA NeMo. Tamaño del modelo: 120 B con 12 B de parámetros activos Longitud del contexto: hasta 256 000 tokens Entrada del modelo: Texto Salida del modelo: Texto Idiomas: inglés, francés, alemán, italiano, japonés, español y chino
MoE latente
Nemotron 3 Super utiliza MoE latente, donde los expertos operan en una representación latente compartida antes de que los resultados se proyecten de nuevo al espacio simbólico. Este enfoque permite que el modelo recurra a 4 veces más expertos con el mismo costo de inferencia, lo que permite una mejor especialización en torno a estructuras semánticas sutiles, abstracciones de dominio o patrones de razonamiento de múltiples saltos.
Predicción de tokens múltiples (MTP)
MTP permite que el modelo prediga varios tokens futuros en un solo paso hacia adelante, lo que aumenta significativamente el rendimiento para secuencias de razonamiento largas y resultados estructurados. Para la planificación, generación de trayectorias, cadena de pensamiento extendida o generación de código, MTP reduce la latencia y mejora la capacidad de respuesta del agente.
Para obtener más información sobre la arquitectura de Nemotron 3 Super y cómo se entrena, consulte Presentación de Nemotron 3 Super: un MoE de transformador Mamba híbrido abierto para razonamiento agente.
Casos de uso de NVIDIA Nemotron 3 Super
Nemotron 3 Super ayuda a impulsar varios casos de uso para diferentes industrias. Algunos de los casos de uso incluyen
Desarrollo de software: ayudar con tareas como el resumen de código. Finanzas: Acelere el procesamiento de préstamos extrayendo datos, analizando patrones de ingresos y detectando operaciones fraudulentas, lo que puede ayudar a reducir los tiempos de ciclo y el riesgo. Ciberseguridad: se puede utilizar para clasificar problemas, realizar análisis de malware en profundidad y buscar amenazas de seguridad de forma proactiva. Búsqueda: puede ayudar a comprender la intención del usuario de activar a los agentes adecuados. Comercio minorista: puede ayudar a optimizar la gestión de inventario y mejorar el servicio en la tienda con soporte y recomendaciones de productos personalizados en tiempo real. Flujos de trabajo de múltiples agentes: organiza agentes de tareas específicas (planificación, uso de herramientas, verificación y ejecución de dominio) para automatizar procesos comerciales complejos de extremo a extremo.
Comience con NVIDIA Nemotron 3 Super en Amazon Bedrock. Complete los siguientes pasos para probar NVIDIA Nemotron 3 Super en Amazon Bedrock
Navegue hasta la consola de Amazon Bedrock y seleccione Área de juegos de chat/texto en el menú de la izquierda (en la sección Prueba). Elija Seleccionar modelo en la esquina superior izquierda del patio de juegos. Elija NVIDIA de la lista de categorías, luego seleccione NVIDIA Nemotron 3 Super. Elija Aplicar para cargar el modelo.
Después de completar los pasos anteriores, podrá probar el modelo inmediatamente. Para mostrar verdaderamente la capacidad de Nemotron 3 Super, iremos más allá de la sintaxis simple y le asignaremos un complejo desafío de ingeniería. Los modelos de alto razonamiento sobresalen en el pensamiento “a nivel de sistema”, donde deben equilibrar las compensaciones arquitectónicas, la concurrencia y la gestión del estado distribuido.
Utilicemos el siguiente mensaje para diseñar un servicio distribuido globalmente:
“Diseñe un servicio distribuido de limitación de velocidad en Python que debe admitir 100.000 solicitudes por segundo en múltiples regiones geográficas.
1. Proporcione una estrategia arquitectónica de alto nivel (por ejemplo, Token Bucket versus ventana fija) y justifique su elección a escala global. 2. Escriba una implementación segura para subprocesos utilizando Redis como almacén de respaldo. 3. Solucione el problema de la “condición de carrera” cuando varias instancias actualizan el mismo contador. 4. Incluya una suite pytest que simule la latencia de la red entre la aplicación y Redis”.
Este mensaje requiere que el modelo funcione como un ingeniero senior de sistemas distribuidos: razonar sobre compensaciones, producir código seguro para subprocesos, anticipar modos de falla y validar todo con pruebas realistas, todo en una única respuesta coherente.
Uso de la CLI y los SDK de AWS
Puede acceder al modelo mediante programación utilizando el ID de modelo nvidia.nemotron-super-3-120b. El modelo admite las API InvokeModel y Converse a través de la interfaz de línea de comandos de AWS (AWS CLI) y el SDK de AWS con nvidia.nemotron-super-3-120b como ID del modelo. Además, es compatible con la API compatible con Amazon Bedrock OpenAI SDK.
Ejecute el siguiente comando para invocar el modelo directamente desde su terminal utilizando la interfaz de línea de comandos de AWS (AWS CLI) y la API InvokeModel:
Si desea invocar el modelo a través de AWS SDK para Python (Boto3), utilice el siguiente script para enviar un mensaje al modelo, en este caso utilizando la API de Converse:
Para invocar el modelo a través del punto final ChatCompletions compatible con Amazon Bedrock OpenAI, puede proceder de la siguiente manera utilizando el SDK de OpenAI:
Conclusión
En esta publicación, le mostramos cómo comenzar a utilizar NVIDIA Nemotron 3 Super en Amazon Bedrock para crear la próxima generación de aplicaciones de IA agente. Al combinar la arquitectura avanzada Hybrid Transformer-Mamba del modelo y Latent MoE con la infraestructura sin servidor totalmente administrada de Amazon Bedrock, las organizaciones ahora pueden implementar aplicaciones eficientes y de alto razonamiento a escala sin el trabajo pesado de la administración backend. ¿Listo para ver lo que este modelo puede hacer por su flujo de trabajo específico?
Pruébelo ahora: diríjase a Amazon Bedrock Console para experimentar con NVIDIA Nemotron 3 Super en el patio de juegos modelo. Compilación: explore el SDK de AWS para integrar Nemotron 3 Super en sus canales de IA generativa existentes.