Infraestructura de AWS AI con Nvidia Blackwell: dos potentes soluciones de cómputo para la próxima frontera de AI

Imagine un sistema que puede explorar múltiples enfoques para problemas complejos, aprovechando su comprensión de grandes cantidades de datos, desde conjuntos de datos científicos hasta código fuente y documentos comerciales y razonamiento a través de las posibilidades en tiempo real. Este razonamiento de rayo no está esperando en el horizonte. Está sucediendo hoy en los entornos de producción de IA de nuestros clientes. La escala de los sistemas de IA que nuestros clientes están construyendo hoy (descubrimiento de medicamentos de acceso, búsqueda empresarial, desarrollo de software y más) es realmente notable. Y hay mucho más por delante.

Para acelerar la innovación en los desarrollos de IA generativos emergentes, como los modelos de razonamiento y los sistemas de IA en agente, estamos entusiasmados de anunciar la disponibilidad general de Ultraservadores P6E-GB200acelerado por Nvidia Grace Blackwell Superchips. Los ultraservadores P6E-GB200 están diseñados para capacitar y implementar los modelos de IA más grandes y sofisticados. A principios de este año, lanzamos Instancias P6-B200acelerado por las GPU NVIDIA Blackwell, para diversas cargas de trabajo informáticas de IA y de alto rendimiento.

En esta publicación, compartimos cómo estas poderosas soluciones de cómputo se basan en todo lo que hemos aprendido sobre la entrega de infraestructura de GPU segura y confiable a gran escala, para que los clientes puedan superar con confianza los límites de la IA.

Cumplir con las demandas de cómputo en expansión de las cargas de trabajo de IA

Los ultraservadores P6E-GB200 representan nuestra oferta de GPU más potente hasta la fecha, que presenta hasta 72 GPU NVIDIA Blackwell interconectadas utilizando NVIDIA NVLINK de quinta generación, todo funcionando como una sola unidad de cómputo. Cada ultraservador ofrece 360 ​​petaflops masivos de cálculo denso FP8 y 13.4 TB de memoria de GPU de alto ancho de banda total (HBM3E), que es más de 20 veces el cómputo y más de 11 veces el recuerdo en un solo dominio NVLINK en comparación con los casos P5EN. Los ultraservadores P6E-GB200 admiten hasta 28.8 tbps ancho de banda agregado del adaptador de tela elástico de cuarta generación (EFAV4) las redes. Las instancias de P6-B200 son una opción versátil para una amplia gama de casos de uso de IA. Cada instancia proporciona 8 GPU NVIDIA Blackwell interconectadas con NVLink con 1.4 TB de memoria GPU de alto ancho de banda, hasta 3.2 Tbps de redes EFAV4 y procesadores escalables Intel Xeon de quinta generación. Las instancias P6-B200 ofrecen hasta 2.25 veces las tflops de GPU, 1.27 veces el tamaño de la memoria de la GPU y 1.6 veces el ancho de banda de la memoria GPU en comparación con las instancias de P5EN.

¿Cómo elige entre P6E-GB200 y P6-B200? Esta elección se reduce a sus requisitos específicos de carga de trabajo y necesidades de arquitectura:

  • Los ultraservadores P6E-GB200 son ideales para las cargas de trabajo de IA más intensivas en el cómputo y la memoria, como la capacitación y la implementación de modelos fronterizos a escala de billones de parámetros. Su arquitectura NVIDIA GB200 NVL72 realmente brilla a esta escala. Imagine que las 72 GPU funcionan como una, con un espacio de memoria unificado y una distribución de carga de trabajo coordinada. Esta arquitectura permite una capacitación distribuida más eficiente al reducir la sobrecarga de comunicación entre los nodos de GPU. Para cargas de trabajo de inferencia, la capacidad de contener completamente los modelos de billones de parámetros dentro de un solo dominio NVLINK significa tiempos de respuesta más rápidos y consistentes a escala. Cuando se combinan con técnicas de optimización como el servicio desglosado con Nvidia Dynamo, el gran tamaño de dominio de la arquitectura GB200 NVL72 desbloquea una eficiencia de inferencia significativa para diversas arquitecturas de modelos, como la mezcla de modelos de expertos. GB200 NVL72 es particularmente potente cuando necesita manejar ventanas de contexto extra en general o ejecutar aplicaciones de alta calidad en tiempo real.
  • Las instancias P6-B200 admiten una amplia gama de cargas de trabajo de IA y son una opción ideal para cargas de trabajo e inferencia de mediana a gran escala. Si desea transferir sus cargas de trabajo GPU existentes, las instancias P6-B200 ofrecen una configuración familiar de 8 GPU que minimiza los cambios en el código y simplifica la migración de las instancias de generación actuales. Además, aunque la pila de software AI de NVIDIA está optimizada tanto para ARM como para X86, si sus cargas de trabajo están específicamente construidas para entornos X86, las instancias P6-B200, con sus procesadores Intel Xeon, será su opción ideal.

Innovación basada en las fortalezas centrales de AWS

Traer Nvidia Blackwell a AWS no se trata de un solo avance, se trata de innovación continua en múltiples capas de infraestructura. Al desarrollar años de aprendizaje e innovación a través de los servicios de cómputo, redes, operaciones y administrados, hemos traído las capacidades completas de Nvidia Blackwell con la confiabilidad y el rendimiento que los clientes esperan de AWS.

Seguridad y estabilidad de instancias robustas

Cuando los clientes me dicen por qué eligen ejecutar sus cargas de trabajo de GPU en AWS, surge un punto crucial de manera consistente: valoran mucho nuestro enfoque en la seguridad y la estabilidad de las instancias en la nube. El hardware especializado, el software y el firmware del Sistema AWS Nitro están diseñados para hacer cumplir las restricciones para que nadie, incluido a nadie en AWS, pueda acceder a sus cargas y datos de AI confidenciales. Más allá de la seguridad, el sistema Nitro cambia fundamentalmente la forma en que mantenemos y optimizamos la infraestructura. El sistema Nitro, que maneja las redes, el almacenamiento y otras funciones de E/S, permite implementar actualizaciones de firmware, correcciones de errores y optimizaciones mientras sigue operativo. Esta capacidad de actualizar sin tiempo de inactividad del sistema, que llamamos Actualización en vivoes crucial en el paisaje de IA de hoy, donde cualquier interrupción afecta significativamente los plazos de producción. P6E-GB200 y P6-B200 cuentan con la sexta generación del sistema nitro, pero estos beneficios de seguridad y estabilidad no son nuevos: nuestra arquitectura nitro innovadora ha sido protegiendo y optimizando Nube de cómputo elástica de Amazon (Amazon EC2) Cargas de trabajo desde 2017.

Rendimiento confiable a gran escala

En la infraestructura de IA, el desafío no es solo alcanzar una escala masiva: está ofreciendo un rendimiento y confiabilidad consistentes a esa escala. Hemos implementado ultraservadores P6E-GB200 en ultraclusters EC2 de tercera generación, que crea un tejido único que puede abarcar nuestros centros de datos más grandes. Los ultraclusters de tercera generación reducen el consumo de energía hasta en un 40% y reducen los requisitos de cableado en más del 80%, no solo mejorar la eficiencia, sino que también reduce significativamente los puntos potenciales de falla.

Para ofrecer un rendimiento constante a esta escala masiva, usamos Adaptador de tela elástica (EFA) con su protocolo de datagrama confiable escalable, que enruta de manera inteligente el tráfico a través de múltiples rutas de red para mantener un funcionamiento sin problemas incluso durante la congestión o las fallas. Hemos mejorado continuamente el rendimiento de EFA en cuatro generaciones. Las instancias P6E-GB200 y P6-B200 con EFAV4 muestran comunicaciones colectivas hasta un 18% más rápidas en el entrenamiento distribuido en comparación con las instancias P5EN que usan EFAV3.

Eficiencia de infraestructura

Mientras que las instancias P6-B200 utilizan nuestra infraestructura de enfriamiento por aire probada, los ultraservadores P6E-GB200 usan enfriamiento líquido, lo que permite una mayor densidad de cómputo en grandes arquitecturas de dominio NVLINK, que ofrecen un mayor rendimiento del sistema. P6E-GB200 se enfría líquido con nuevas soluciones de enfriamiento mecánica que proporcionan enfriamiento de líquido a chip configurable en centros de datos nuevos y existentes, por lo que podemos admitir aceleradores refrigerados por líquidos e infraestructura de red e redacencia refrigerada por aire en la misma instalación. Con este diseño de enfriamiento flexible, podemos ofrecer el máximo rendimiento y eficiencia al menor costo.

Comenzando con Nvidia Blackwell en AWS

Hemos simplificado con los ultraservadores P6E-GB200 e instancias P6-B200 a través de múltiples rutas de implementación, por lo que puede comenzar rápidamente a usar GPU de Blackwell mientras mantiene el modelo operativo que funciona mejor para su organización.

Amazon Sagemaker Hyperpod

Si está acelerando su desarrollo de IA y desea pasar menos tiempo administrando la infraestructura y las operaciones de clúster, ahí es exactamente donde Amazon Sagemaker Hyperpod sobresale. Proporciona infraestructura administrada y resistente que maneja automáticamente el aprovisionamiento y la gestión de grandes grupos de GPU. Seguimos mejorando Sagemaker HyperPod, agregando innovaciones como planes de capacitación flexibles para ayudarlo a obtener plazos de capacitación predecibles y administrar cargas de trabajo de capacitación dentro de sus requisitos de presupuesto.

Sagemaker HyperPod admitirá tanto los ultraservadores P6E-GB200 como las instancias P6-B200, con optimizaciones para maximizar el rendimiento al mantener las cargas de trabajo dentro del mismo dominio NVLink. También estamos construyendo en un sistema integral de recuperación de múltiples capas: Sagemaker HyperPod reemplazará automáticamente instancias defectuosas con repuestos preconfigurados en el mismo dominio NVLink. Los paneles incorporados le darán visibilidad de todo, desde la utilización de la GPU y el uso de la memoria hasta las métricas de carga de trabajo y el estado de salud de ultraservador.

Amazon Eks

Para cargas de trabajo de IA a gran escala, si prefiere administrar su infraestructura con Kubernetes, Servicio de Kubernetes de Amazon Elastic (Amazon EKS) es a menudo el plano de control de elección. Continuamos impulsando innovaciones en Amazon EKS con capacidades como Nodos híbridos de Amazon EKSque le permiten administrar tanto las GPU locales como las EC2 en un solo clúster, flexibilidad de entrega para cargas de trabajo de IA.

Amazon EKS admitirá tanto ultraservadores P6E-GB200 como instancias P6-B200 con aprovisionamiento automatizado y gestión de ciclos de vida a través de grupos de nodos administrados. Para los ultraservadores P6E-GB200, estamos construyendo una conciencia de topología que comprende la arquitectura GB200 NVL72, etiquetando automáticamente nodos con su ID de ultraservador e información de topología de red para permitir una ubicación de carga de trabajo óptima. Podrá abarcar grupos de nodos en múltiples ultraservadores o dedicarlos a ultraservadores individuales, dándole flexibilidad para organizar su infraestructura de entrenamiento. Amazon EKS monitorea los errores de GPU y acelerador y los transmite al plano de control de Kubernetes para una remediación opcional.

Nvidia DGX Cloud en AWS

Los ultraservadores P6E-GB200 también estarán disponibles a través de NVIDIA DGX Cloud. DGX Cloud es una plataforma AI unificada optimizada en cada capa con capacidades de capacitación de IA múltiples nodos e inferencia y la pila de software AI completa de NVIDIA. Usted se beneficia de las últimas optimizaciones de NVIDIA, recetas de evaluación comparativa y experiencia técnica para mejorar la eficiencia y el rendimiento. Ofrece longitudes de términos flexibles junto con el soporte y servicios integrales de expertos en NVIDIA para ayudarlo a acelerar sus iniciativas de IA.

Este anuncio de lanzamiento es un hito importante, y es solo el comienzo. A medida que las capacidades de IA evolucionan rápidamente, necesita infraestructura construida no solo para las demandas de hoy sino para todas las posibilidades que se avecinan. Con innovaciones a través de la computa, las redes, las operaciones y los servicios administrados, los ultraservadores P6E-GB200 y las instancias P6-B200 están listas para habilitar estas posibilidades. No podemos esperar a ver qué construirá con ellos.

Recursos


Sobre el autor

David Brown es el vicepresidente de servicios de AWS Compute and Machine Learning (ML). En este papel, es responsable de construir todos los servicios de AWS Compute y ML, incluidos Amazon EC2, Amazon Container Services, AWS Lambda, Amazon Bedrock y Amazon Sagemaker. Todos los servicios son utilizados por todos los clientes de AWS, pero también sustentan la mayoría de las aplicaciones internas de Amazon de AWS. También dirige soluciones más nuevas, como AWS Outposts, que traen servicios de AWS a los centros de datos privados de los clientes.

David se unió a AWS en 2007 como ingeniero de desarrollo de software con sede en Ciudad del Cabo, Sudáfrica, donde trabajó en el desarrollo temprano de Amazon EC2. En 2012, se mudó a Seattle y continuó trabajando en la organización más amplia de Amazon EC2. En los últimos 11 años, ha asumido roles de liderazgo más grandes a medida que más productos AWS Compute y ML se han convertido en parte de su organización.

Antes de unirse a Amazon, David trabajó como desarrollador de software en una startup de la industria financiera. Tiene un título en Ciencias de la Computación y Economía de la Universidad Nelson Mandela en Port Elizabeth, Sudáfrica.