Ejecute NVIDIA Nemotron 3 Super en Amazon Bedrock

Nemotron 3 Super ahora está disponible como modelo totalmente administrado y sin servidor en Amazon Bedrock, uniéndose a los modelos Nemotron Nano que ya están disponibles en el entorno de Amazon Bedrock.

Con los modelos abiertos de NVIDIA Nemotron en Amazon Bedrock, puede acelerar la innovación y ofrecer valor empresarial tangible sin tener que gestionar las complejidades de la infraestructura. Puede potenciar sus aplicaciones de IA generativa con Nemotron a través de la inferencia totalmente administrada de Amazon Bedrock, utilizando sus amplias funciones y herramientas.

Esta publicación explora las características técnicas del modelo Nemotron 3 Super y analiza posibles casos de uso de aplicaciones. También proporciona orientación técnica para comenzar a utilizar este modelo para sus aplicaciones de IA generativa dentro del entorno de Amazon Bedrock.

Acerca de Nemotrón 3 Súper

Nemotron 3 Super es un modelo híbrido de Mezcla de Expertos (MoE) con eficiencia y precisión informática líderes para aplicaciones multiagente y para sistemas de IA agentes especializados. El modelo se lanza con pesos, conjuntos de datos y recetas abiertos para que los desarrolladores puedan personalizar, mejorar e implementar el modelo en su infraestructura para mejorar la privacidad y la seguridad.

Descripción general del modelo:

Arquitectura: MoE con arquitectura Hybrid Transformer-Mamba. Admite el presupuesto de tokens para proporcionar una precisión mejorada con una generación mínima de tokens de razonamiento. Precisión: La mayor eficiencia de rendimiento en su categoría de tamaño y hasta 5 veces más que el modelo Nemotron Super anterior. Precisión líder para tareas de razonamiento y agencia entre los principales modelos abiertos y una precisión hasta 2 veces mayor que la versión anterior. Logra una alta precisión en los principales puntos de referencia, incluidos AIME 2025, Terminal-Bench, SWE Bench verificado y multilingüe, RULER. La capacitación RL en múltiples entornos brindó al modelo una precisión líder en más de 10 entornos con NVIDIA NeMo. Tamaño del modelo: 120 B con 12 B de parámetros activos Longitud del contexto: hasta 256 000 tokens Entrada del modelo: Texto Salida del modelo: Texto Idiomas: inglés, francés, alemán, italiano, japonés, español y chino

MoE latente

Nemotron 3 Super utiliza MoE latente, donde los expertos operan en una representación latente compartida antes de que los resultados se proyecten de nuevo al espacio simbólico. Este enfoque permite que el modelo recurra a 4 veces más expertos con el mismo costo de inferencia, lo que permite una mejor especialización en torno a estructuras semánticas sutiles, abstracciones de dominio o patrones de razonamiento de múltiples saltos.

Predicción de tokens múltiples (MTP)

MTP permite que el modelo prediga varios tokens futuros en un solo paso hacia adelante, lo que aumenta significativamente el rendimiento para secuencias de razonamiento largas y resultados estructurados. Para la planificación, generación de trayectorias, cadena de pensamiento extendida o generación de código, MTP reduce la latencia y mejora la capacidad de respuesta del agente.

Para obtener más información sobre la arquitectura de Nemotron 3 Super y cómo se entrena, consulte Presentación de Nemotron 3 Super: un MoE de transformador Mamba híbrido abierto para razonamiento agente.

Casos de uso de NVIDIA Nemotron 3 Super

Nemotron 3 Super ayuda a impulsar varios casos de uso para diferentes industrias. Algunos de los casos de uso incluyen

Desarrollo de software: ayudar con tareas como el resumen de código. Finanzas: Acelere el procesamiento de préstamos extrayendo datos, analizando patrones de ingresos y detectando operaciones fraudulentas, lo que puede ayudar a reducir los tiempos de ciclo y el riesgo. Ciberseguridad: se puede utilizar para clasificar problemas, realizar análisis de malware en profundidad y buscar amenazas de seguridad de forma proactiva. Búsqueda: puede ayudar a comprender la intención del usuario de activar a los agentes adecuados. Comercio minorista: puede ayudar a optimizar la gestión de inventario y mejorar el servicio en la tienda con soporte y recomendaciones de productos personalizados en tiempo real. Flujos de trabajo de múltiples agentes: organiza agentes de tareas específicas (planificación, uso de herramientas, verificación y ejecución de dominio) para automatizar procesos comerciales complejos de extremo a extremo.

Comience con NVIDIA Nemotron 3 Super en Amazon Bedrock. Complete los siguientes pasos para probar NVIDIA Nemotron 3 Super en Amazon Bedrock

Navegue hasta la consola de Amazon Bedrock y seleccione Área de juegos de chat/texto en el menú de la izquierda (en la sección Prueba). Elija Seleccionar modelo en la esquina superior izquierda del patio de juegos. Elija NVIDIA de la lista de categorías, luego seleccione NVIDIA Nemotron 3 Super. Elija Aplicar para cargar el modelo.

Después de completar los pasos anteriores, podrá probar el modelo inmediatamente. Para mostrar verdaderamente la capacidad de Nemotron 3 Super, iremos más allá de la sintaxis simple y le asignaremos un complejo desafío de ingeniería. Los modelos de alto razonamiento sobresalen en el pensamiento “a nivel de sistema”, donde deben equilibrar las compensaciones arquitectónicas, la concurrencia y la gestión del estado distribuido.

Utilicemos el siguiente mensaje para diseñar un servicio distribuido globalmente:

“Diseñe un servicio distribuido de limitación de velocidad en Python que debe admitir 100.000 solicitudes por segundo en múltiples regiones geográficas.

1. Proporcione una estrategia arquitectónica de alto nivel (por ejemplo, Token Bucket versus ventana fija) y justifique su elección a escala global. 2. Escriba una implementación segura para subprocesos utilizando Redis como almacén de respaldo. 3. Solucione el problema de la “condición de carrera” cuando varias instancias actualizan el mismo contador. 4. Incluya una suite pytest que simule la latencia de la red entre la aplicación y Redis”.

Este mensaje requiere que el modelo funcione como un ingeniero senior de sistemas distribuidos: razonar sobre compensaciones, producir código seguro para subprocesos, anticipar modos de falla y validar todo con pruebas realistas, todo en una única respuesta coherente.

Uso de la CLI y los SDK de AWS

Puede acceder al modelo mediante programación utilizando el ID de modelo nvidia.nemotron-super-3-120b. El modelo admite las API InvokeModel y Converse a través de la interfaz de línea de comandos de AWS (AWS CLI) y el SDK de AWS con nvidia.nemotron-super-3-120b como ID del modelo. Además, es compatible con la API compatible con Amazon Bedrock OpenAI SDK.

Ejecute el siguiente comando para invocar el modelo directamente desde su terminal utilizando la interfaz de línea de comandos de AWS (AWS CLI) y la API InvokeModel:

aws bedrock-runtime invoke-model \ –model-id nvidia.nemotron-super-3-120b \ –region us-west-2 \ –body ‘{“mensajes”: [{“role”: “user”, “content”: “Type_Your_Prompt_Here”}]”max_tokens”: 512, “temperatura”: 0.5, “top_p”: 0.9}’ \ –cli-binary-format raw-in-base64-out \ invoke-model-output.txt

Si desea invocar el modelo a través de AWS SDK para Python (Boto3), utilice el siguiente script para enviar un mensaje al modelo, en este caso utilizando la API de Converse:

importar boto3 desde botocore.exceptions importar ClientError # Cree un cliente Bedrock Runtime en la región de AWS que desea utilizar. client = boto3.client(“bedrock-runtime”, region_name=”us-west-2″) # Establecer el ID del modelo model_id = “nvidia.nemotron-super-3-120b” # Iniciar una conversación con el mensaje del usuario. user_message = “Escriba_su_mensaje_aquí” conversación = [
{
“role”: “user”,

“content”: [{“text”: user_message}]} ]intente: # Enviar el mensaje al modelo usando una configuración de inferencia básica. respuesta = client.converse( modelId=model_id, mensajes=conversación, inferenceConfig={“maxTokens”: 512, “temperature”: 0.5, “topP”: 0.9}, ) # Extrae e imprime el texto de respuesta. texto_respuesta = respuesta[“output”][“message”][“content”][0][“text”]

print(response_text) excepto (ClientError, Exception) como e: print(f”ERROR: No se puede invocar ‘{model_id}’. Motivo: {e}”) exit(1)

Para invocar el modelo a través del punto final ChatCompletions compatible con Amazon Bedrock OpenAI, puede proceder de la siguiente manera utilizando el SDK de OpenAI:

# Importar OpenAI SDK desde openai importar OpenAI # Establecer variables de entorno os.environ[“OPENAI_API_KEY”] = “” sistema operativo.entorno[“OPENAI_BASE_URL”] = “https://bedrock-runtime..amazon.com/openai/v1” # Establecer el ID del modelo model_id = “nvidia.nemotron-super-3-120b” # Establecer indicaciones system_prompt = “Type_Your_System_Prompt_Here” user_message = “Type_Your_User_Prompt_Here” # Usar ChatCompletionsAPI respuesta = client.chat.completions.create( model= modelo _ID, mensajes=[
{“role”: “system”, “content”: system_prompt},
{“role”: “user”, “content”: user_message}
]temperatura=0, max_completion_tokens=1000 ) # Extraer e imprimir el texto de respuesta print(response.choices[0].mensaje.contenido)

Conclusión

En esta publicación, le mostramos cómo comenzar a utilizar NVIDIA Nemotron 3 Super en Amazon Bedrock para crear la próxima generación de aplicaciones de IA agente. Al combinar la arquitectura avanzada Hybrid Transformer-Mamba del modelo y Latent MoE con la infraestructura sin servidor totalmente administrada de Amazon Bedrock, las organizaciones ahora pueden implementar aplicaciones eficientes y de alto razonamiento a escala sin el trabajo pesado de la administración backend. ¿Listo para ver lo que este modelo puede hacer por su flujo de trabajo específico?

Pruébelo ahora: diríjase a Amazon Bedrock Console para experimentar con NVIDIA Nemotron 3 Super en el patio de juegos modelo. Compilación: explore el SDK de AWS para integrar Nemotron 3 Super en sus canales de IA generativa existentes.

Sobre los autores

Aris Tsakpinis

Aris Tsakpinis es arquitecto senior de soluciones especializado en IA generativa y se centra en modelos de peso abierto en Amazon Bedrock y el entorno más amplio de código abierto de IA generativa. Además de su función profesional, está realizando un doctorado en Ingeniería de Aprendizaje Automático en la Universidad de Regensburg, donde su investigación se centra en la IA generativa aplicada en ámbitos científicos.

Abdullahi Olaoye

Abdullahi Olaoye es arquitecto senior de soluciones de IA en NVIDIA y se especializa en la integración de bibliotecas, marcos y productos de IA de NVIDIA con servicios de IA en la nube y herramientas de código abierto para optimizar la implementación, la inferencia y los flujos de trabajo de IA generativos del modelo de IA. Colabora con proveedores de la nube para ayudar a mejorar el rendimiento de las cargas de trabajo de IA e impulsar la adopción de soluciones de IA generativa e IA impulsadas por NVIDIA.