AWS y NVIDIA profundizan la colaboración estratégica para acelerar la IA desde el piloto hasta la producción

La IA avanza rápidamente y, para la mayoría de nuestros clientes, la verdadera oportunidad no está en experimentar con ella, sino en ejecutar la IA en producción, donde genera resultados comerciales significativos. Esto significa crear sistemas que se ejecuten de manera confiable, funcionen a escala y cumplan con los requisitos de seguridad y cumplimiento de su organización.

Hoy en NVIDIA GTC 2026, AWS y NVIDIA anunciaron una colaboración ampliada con nuevas integraciones tecnológicas para respaldar la creciente demanda informática de IA y ayudarlo a crear y ejecutar soluciones de IA que estén listas para producción. Estas integraciones abarcan computación acelerada, tecnologías de interconexión y ajuste e inferencia de modelos. Incluyen:

Principales anuncios en NVIDIA GTC 2026

Ampliación de la infraestructura de IA con opciones de GPU ampliadas e interconexión optimizada

Acelerar la capacidad informática en la era de la IA agente

A partir de 2026, AWS agregará más de 1 millón de GPU NVIDIA, incluidas las arquitecturas de GPU Blackwell y Rubin, en nuestras regiones de nube globales. AWS ofrece la colección más amplia de instancias basadas en GPU NVIDIA de cualquier proveedor de nube para impulsar un conjunto diverso de cargas de trabajo de IA/ML. AWS y NVIDIA también están colaborando en las redes Spectrum y otras áreas de infraestructura, lo que se suma a más de 15 años de innovación conjunta entre nuestras dos empresas.

La infraestructura avanzada de IA y nube de AWS proporciona a las empresas, nuevas empresas e investigadores la infraestructura necesaria para crear y escalar sistemas de IA agentes, capaces de razonar, planificar y actuar de forma autónoma en flujos de trabajo complejos.

Nuevas instancias Amazon EC2 con GPU NVIDIA RTX PRO 4500 Blackwell Server Edition

Hoy anunciamos que las instancias Amazon EC2 aceleradas por las GPU NVIDIA RTX PRO 4500 Blackwell Server Edition estarán disponibles próximamente. AWS es el primer proveedor importante de la nube en anunciar compatibilidad con las GPU RTX PRO 4500 Blackwell Server Edition. Estas instancias son adecuadas para una amplia gama de cargas de trabajo, incluido el análisis de datos, la IA conversacional, la generación de contenido, los sistemas de recomendación, la transmisión de video, la representación de video y otras cargas de trabajo de gráficos.

Las instancias de Amazon EC2 aceleradas por las GPU NVIDIA RTX PRO 4500 Blackwell Server Edition se construirán en AWS Nitro System, una combinación de hardware dedicado e hipervisor liviano que ofrece prácticamente todos los recursos de computación y memoria del hardware host a sus instancias para una mejor utilización y rendimiento general de los recursos. El hardware, el software y el firmware especializados del sistema Nitro están diseñados para imponer restricciones para que nadie, incluido nadie en AWS, pueda acceder a sus datos y cargas de trabajo confidenciales de IA. Además, el sistema Nitro admite actualizaciones de firmware, corrección de errores y optimizaciones mientras el sistema permanece operativo. Estas capacidades dentro del Sistema Nitro permiten mejorar la eficiencia, la seguridad y la estabilidad de los recursos que las cargas de trabajo de IA, análisis y gráficos requieren en producción.

Aceleración de la interconexión para la inferencia LLM desagregada con NVIDIA NIXL en AWS EFA y Trainium

A medida que crecen los tamaños de los modelos, la sobrecarga de comunicación entre las GPU o Trainium puede convertirse en un cuello de botella. Hoy anunciamos la compatibilidad con NVIDIA Inference Xfer Library (NIXL) con AWS EFA para acelerar la inferencia desagregada del modelo de lenguaje grande (LLM) en Amazon EC2, en las GPU de NVIDIA y AWS Trainiums. Acelerar la inferencia desagregada es fundamental para escalar las cargas de trabajo de IA modernas porque permite una superposición eficiente de comunicación y computación al tiempo que minimiza la latencia de la comunicación y maximiza la utilización de la GPU. Esta integración permite el movimiento de datos de caché KV de alto rendimiento y baja latencia entre nodos de cómputo de GPU que realizan generación de tokens y recursos de memoria distribuida que almacenan el estado de caché KV. También proporciona la flexibilidad de crear clústeres de inferencia utilizando cualquier combinación de GPU e instancias EC2 habilitadas para Trainium EFA. NIXL con EFA se integra de forma nativa con marcos populares de código abierto como NVIDIA Dynamo, vLLM y SGLang, lo que ofrece una latencia entre tokens mejorada y una utilización más eficiente de la memoria caché KV.

Acelerar el análisis de datos con Amazon EMR y GPU NVIDIA

Ejecutar Apache Spark 3 veces más rápido usando Amazon EMR en Amazon EKS con instancias G7e

Los ingenieros y científicos de datos con frecuencia se enfrentan a procesos de procesamiento de datos que duran horas y que ralentizan la iteración del modelo AI/ML y la generación de inteligencia empresarial. Estamos viendo mejoras de rendimiento significativas para estas cargas de trabajo: AWS y NVIDIA ofrecen un rendimiento 3 veces más rápido para cargas de trabajo de Apache Spark con Amazon EMR en EKS en instancias G7e. Este rendimiento es el resultado de la colaboración de ingeniería conjunta de AWS y NVIDIA que optimiza el análisis acelerado por GPU al combinar Amazon EMR en EKS con la arquitectura RTX PRO 6000 de NVIDIA. Con las instancias de Amazon EMR y G7e, los ingenieros y científicos de datos pueden acelerar el tiempo de obtención de información para la ingeniería de funciones de IA/ML, transformaciones ETL complejas y análisis en tiempo real a escala. Los clientes que ejecutan procesos de procesamiento de datos a gran escala pueden reducir el tiempo necesario para ejecutar análisis y, al mismo tiempo, mantener la compatibilidad total con las aplicaciones Spark existentes.

Ampliando la compatibilidad con el modelo NVIDIA Nemotron en Amazon Bedrock

Ajuste de modelos Nemotron en Amazon Bedrock con ajuste de refuerzo (próximamente)

Los desarrolladores pronto podrán ajustar los modelos NVIDIA Nemotron directamente en Amazon Bedrock mediante Reinforcement Fine-Tuning (RFT). Esto es importante para los equipos que necesitan alinear el comportamiento del modelo con dominios específicos, ya sea legal, sanitario, financiero o cualquier otro campo especializado. El ajuste fino del refuerzo le permite moldear cómo razona y responde un modelo, no solo lo que sabe. Y como esto se ejecuta de forma nativa en Amazon Bedrock, no hay gastos generales de infraestructura. Usted define la tarea, proporciona la señal de retroalimentación y Bedrock se encarga del resto. Obtenga más información sobre el ajuste de refuerzo en Amazon Bedrock.

Nemotron 3 Super en Amazon Bedrock (Próximamente)

NVIDIA Nemotron 3 Super, un modelo MoE híbrido creado para cargas de trabajo de múltiples agentes y razonamiento extendido, llegará pronto a Amazon Bedrock. Diseñado para permitir que los agentes de IA mantengan la precisión en flujos de trabajo complejos de varios pasos, potencia casos de uso en ciberseguridad financiera, comercio minorista y desarrollo de software, brindando inferencias rápidas y rentables a través de una API totalmente administrada.

Mejorar la eficiencia energética y la sostenibilidad

A medida que las cargas de trabajo de IA aumentan, el rendimiento por vatio no es solo una métrica de sostenibilidad: es una ventaja competitiva. En esta sesión de NVIDIA GTC, Kara Hurst, CSO de Amazon, se unirá a los líderes de sostenibilidad de Equinix y PepsiCo para analizar cómo la IA está transformando la energía y la infraestructura empresarial a escala, desde los centros de datos como participantes activos de la red hasta la IA como motor de eficiencia empresarial, y cómo AWS puede ayudarle a lograr una eficiencia energética óptima, ya que la infraestructura de AWS es 4,1 veces más eficiente desde el punto de vista energético que los centros de datos locales.

Construido para funcionar, juntos

Lo que hace que estos anuncios sean interesantes no es una capacidad única, sino lo que representan en conjunto. Quince años de asociación entre AWS y NVIDIA han producido una pila completa de infraestructura de IA optimizada de extremo a extremo, desde la GPU hasta la red y la capa de servicios administrados. No es necesario que lo cosan ustedes mismos. Está listo para funcionar.

Si está en GTC esta semana, búsquenos en el stand de AWS. Vea demostraciones en vivo, vea nuestras sesiones de cine en cabina y obtenga artículos personalizados con AWS Swag Factory.

Visite AWS en NVIDIA GTC 2026 para ver todo lo que AWS tiene que hacer en la conferencia.

Sobre los autores

David Brown

David Brown es el vicepresidente de servicios de computación y aprendizaje automático (ML) de AWS. En este puesto, es responsable de crear todos los servicios de computación y aprendizaje automático de AWS, incluidos Amazon EC2, Amazon Container Services, AWS Lambda, Amazon Bedrock y Amazon SageMaker. Estos servicios son utilizados por todos los clientes de AWS, pero también sustentan la mayoría de las aplicaciones internas de Amazon de AWS. También lidera soluciones más nuevas, como AWS Outposts, que llevan los servicios de AWS a los centros de datos privados de los clientes.