Modelos de IA de trenes y implementación a escala de billones de parámetros con el soporte de HyperPod de Amazon Sagemaker para ultraservadores P6E-GB200

Imagine aprovechar el poder de 72 GPU Nvidia Blackwell de vanguardia en un solo sistema para la próxima ola de innovación de IA, desbloqueando 360 petaflops de punto flotante denso de 8 bits (FP8) y 1.4 exafultos de punto de flotación de 4 bits de 4 bits (FP4). Hoy, eso es exactamente lo que Amazon Sagemaker Hyperpod entrega con el lanzamiento de soporte para Ultraservadores P6E-GB200. Acelerado por NVIDIA GB200 NVL72Los ultraservadores P6E-GB200 proporcionan un rendimiento de GPU líder en la industria, el rendimiento de la red y la memoria para desarrollar e implementar modelos de IA de trillones de parámetros a escala. Al integrar a la perfección estos ultraservadores con el entorno de capacitación distribuido de Sagemaker HyperPod, las organizaciones pueden escalar rápidamente el desarrollo del modelo, reducir el tiempo de inactividad y simplificar la transición de la capacitación a la implementación a gran escala. Con la infraestructura de aprendizaje automático automatizada, resistente y altamente escalable de Sagemaker Hyperpod, las organizaciones pueden distribuir sin problemas cargas de trabajo masivas de IA en miles de aceleradores y gestionar el desarrollo de modelos de extremo a extremo con una eficiencia sin precedentes. El uso de Sagemaker Hyperpod con ultraservadores P6E-GB200 marca un cambio fundamental hacia la capacitación y el despliegue y el despliegue rentable de los modelos de IA generativos de última generación.

En esta publicación, revisamos las especificaciones técnicas de los ultraservadores P6E-GB200, discutimos sus beneficios de rendimiento y destacamos los casos de uso clave. Luego caminamos cómo comprar la capacidad de ultraservador hasta Planes de entrenamiento flexibles Y comience a usar Ultraservers con Sagemaker HyperPod.

Dentro del ultraservador

Los ultraservadores P6E-GB200 se aceleran por NVIDIA GB200 NVL72, conectando 36 CPU Nvidia Grace ™ y 72 GPU Blackwell en el mismo dominio NVIDIA NVLINK ™. Cada ml.p6e-gb200.36xLarge Compute Node dentro de un ultraservador incluye dos NVIDIA GB200 Grace Blackwell Superchips, cada uno conectando dos GPU NVIDIA NVIDIA NVIDIA BLACKWELL de alto rendimiento y una CPU Nvidia Grace basada en ARM con el chip Nvidia Nvlink (C2C) interconnector. Sagemaker HyperPod está lanzando ultraservadores P6E-GB200 en dos tamaños. El ultraservador ML.U-P6E-GB200X36 incluye un estante de 9 nodos de cómputo totalmente conectados con NVSwitch (NVS), proporcionando un total de 36 GPU de Blackwell en el mismo dominio NVLink, y el ML.U-P6E-GB200X72 Ultraserver incluye un estante de un rico de 18 nodos computados con un total de 72 Blackwell Gpus NVLink. El siguiente diagrama ilustra esta configuración.

Beneficios de rendimiento de los ultraservadores

En esta sección, discutimos algunos de los beneficios de rendimiento de los ultraservadores.

GPU y potencia de cálculo

Con los ultraservadores P6E-GB200, puede acceder a 72 GPU NVIDIA Blackwell dentro de un solo dominio NVLINK, con un total de 360 petaflops de cálculo de FP8 (sin dispersión), 1.4 exafultos de cálculos FP4 (con dispersión) y 13.4 TB de memoria de alto nivel (HBM3E). CadaGrace Blackwell Superchip Combina dos GPU de Blackwell con una CPU de Grace a través de la interconexión NVLink-C2C, entregando 10 petaflops de denso computas FP8, 40 petaflops de compute FP4 disperso, hasta 372 GB HBM3E y 850 GB de la memoria rápida de cache-coache. Esta ubicación conjunta aumenta el ancho de banda entre GPU y CPU por orden de magnitud en comparación con las instancias de generación previa. Cada GPU Nvidia Blackwell presenta un motor de transformador de segunda generación y admite los últimos formatos de datos de microscaluación de precisión de IA (MX) como MXFP6 y MXFP4, así como Nvidia nvfp4. Cuando se combina con marcos como Nvidia dinamo, Nvida tensorrt-llm y Nvidia nemoestos motores de transformadores aceleran significativamente la inferencia y la capacitación para modelos de idiomas grandes (LLM) y modelos de mezcla de expertos (MOE), lo que respalda una mayor eficiencia y rendimiento para las cargas de trabajo modernas de IA.

Redes de alto rendimiento

Los ultraservadores P6E-GB200 entregan hasta 130 Tbps de ancho de banda NVLINK de baja latencia entre GPU para una comunicación eficiente de carga de trabajo de IA a gran escala. Al doble el ancho de banda de su predecesor, el NVIDIA NVIDIA de quinta generación proporciona hasta 1.8 Tbps de interconexión bidireccional y directa de GPU a GPU, mejorando en gran medida la comunicación intra-server. Cada nodo de cómputo dentro de un ultraservador se puede configurar con hasta 17 tarjetas de interfaz de red física (NICS), cada una de las cuales admite hasta 400 Gbps de ancho de banda. Los ultraservadores P6E-GB200 proporcionan hasta 28.8 Tbps de total Adaptador de tela elástica (EFA) Networking V4, utilizando el protocolo de datagrama confiable (SRD) escalable (SRD) para enrutar de manera inteligente el tráfico de red en múltiples rutas, proporcionando un funcionamiento sin problemas incluso durante las fallas de congestión o hardware. Para obtener más información, consulte Configuración de EFA para instancias P6E-GB200.

Almacenamiento y rendimiento de datos

Los ultraservadores P6E-GB200 admiten hasta 405 TB del almacenamiento local de SSD NVME, ideal para conjuntos de datos a gran escala y puntos de control rápido durante el entrenamiento del modelo de IA. Para almacenamiento compartido de alto rendimiento, Amazon FSX para Luster Se puede acceder a los sistemas de archivos a través de EFA con GPUDIRECT Storage (GDS), proporcionando transferencia de datos directo entre el sistema de archivos y la memoria GPU con TBP de rendimiento y millones de operaciones de entrada/salida por segundo (IOPS) para exigir capacitación e inferencia de IA.

Programación consciente de la topología

Nube de cómputo elástica de Amazon (Amazon EC2) proporciona información de topología que describe las relaciones físicas y de red entre instancias en su clúster. Para los nodos de cómputo de ultraservador, Amazon EC2 expone qué instancias pertenecen al mismo ultraservador, por lo que está entrenando e inferir los algoritmos pueden comprender los patrones de conectividad NVLink. Esta información de topología ayuda a optimizar la capacitación distribuida al permitir marcos como el Biblioteca de comunicaciones colectivas de NVIDIA (NCCL) tomar decisiones inteligentes sobre patrones de comunicación y colocación de datos. Para más información, ver Cómo funciona la topología de la instancia de Amazon EC2.

Con Servicio de Kubernetes de Amazon Elastic (Amazon EKS) Orquestación, Sagemaker Hyperpod etiqueta automáticamente los nodos de cómputo de ultraservador con su respectiva región de AWS, zona de disponibilidad, capas de nodos de red (1–4) e ID de ultraservador. Estas etiquetas de topología se pueden usar con afinidades de nodoy Topología de vaina extendido restricciones para asignar pods a los nodos de clúster para un rendimiento óptimo.

Con orquestación de slurm, Sagemaker HyperPod habilita automáticamente el complemento de topología y crea un topología.conf Archivo con el respectivo BlockName, Nodesy BlockSizes para que coincida con su capacidad de ultraservador. De esta manera, puede agrupar y segmentar sus nodos de cómputo para optimizar el rendimiento del trabajo.

Casos de uso para ultraservadores

Los ultraservadores P6E-GB200 pueden entrenar de manera eficiente modelos con más de un billón de parámetros debido a su dominio NVLink unificado, memoria ultrarrápida y un alto ancho de banda de nodos cruzados, lo que los hace ideales para el desarrollo de IA de última generación. El ancho de banda de interconexión sustancial asegura que incluso los modelos extremadamente grandes puedan dividirse y entrenarse de una manera altamente paralela y eficiente sin los contratiempos de rendimiento vistos en los sistemas de nodos múltiples desarticulados. Esto da como resultado ciclos de iteración más rápidos y modelos de IA de mayor calidad, ayudando a las organizaciones a superar los límites de la investigación e innovación de IA de última generación.

Para la inferencia del modelo de trillones de parámetros en tiempo real, Ultraservadores P6E-GB200 Habilite una inferencia 30 veces más rápida en LLM de billones de parámetros fronterizos en comparación con plataformas anteriores, logrando un rendimiento en tiempo real para modelos complejos utilizados en IA generativa, comprensión del lenguaje natural y agentes conversacionales. Cuando se combina con Nvidia dinamoLos ultraservadores P6E-GB200 ofrecen ganancias de rendimiento significativas, especialmente para largas longitudes de contexto. Nvidia dinamo desglose La fase de preflexión de cómputo y la fase de decodificación pesada de memoria en diferentes GPU, que respalda la optimización independiente y la asignación de recursos dentro del gran dominio NVLINK de 72 GPU. Esto permite una gestión más eficiente de ventanas de contexto grande y aplicaciones de alta concurrencia.

Los ultraservadores P6E-GB200 ofrecen beneficios sustanciales para los clientes de inicio, investigación y empresas con múltiples equipos que necesitan ejecutar diversas cargas de trabajo de capacitación e inferencia distribuida en infraestructura compartida. Cuando se usa junto con Sagemaker Hyperpod Gobierno de tareasLos ultraservadores proporcionan escalabilidad y agrupación de recursos excepcionales, por lo que diferentes equipos pueden lanzar trabajos simultáneos sin cuellos de botella. Las empresas pueden maximizar la utilización de la infraestructura, reducir los costos generales y acelerar los plazos del proyecto, todo, al tiempo que respalda las complejas necesidades de los equipos que desarrollan y sirven modelos de IA avanzados, incluidas las LLM masivas para una inferencia en tiempo real de alta concurrencia, en una sola plataforma resiliente.

Planes de capacitación flexibles para la capacidad de ultraservador

Sagemaker AI actualmente ofrece la capacidad de ultraservador P6E-GB200 a través de Planes de entrenamiento flexibles en el Dallas Zona local de AWS (us-east-1-dfw-2a). Los ultraservadores se pueden usar tanto para Sagemaker Hyperpod como para Sagemaker Hyperpod como para Trabajos de capacitación de Sagemaker.

Para comenzar, navegue al SAGEMAKER AI CONSOLA DE PLANES DE CONSEETOque incluye un nuevo tipo de cómputo Ultraserver, desde el cual puede seleccionar su tipo de ultraservador: ml.u-p6e-gb200x36 (que contiene 9 ml.p6e-gb200.36xlarge nodos de computa) o ml.u-p6e-gb200x72 (contiene 18 ml.p6e-gb200.36xlarge computte computte).).).).

Después de encontrar el plan de capacitación que se ajuste a sus necesidades, se recomienda que configure al menos un nodo de cómputo de repuesto ML.P6E-GB200.36XLarge para asegurarse de que las instancias defectuosas puedan reemplazarse rápidamente con una interrupción mínima.

Crea un clúster de ultraservador con Sagemaker Hyperpod

Después de comprar un plan de capacitación de Ultraserver, puede agregar la capacidad a un grupo de instancia de tipo ML.P6E-GB200.36XLarge dentro de su clúster de Sagemaker HyperPod y especificar la cantidad de instancias que desea aprovisionar hasta la cantidad disponible dentro del plan de capacitación. Por ejemplo, si compró un plan de capacitación para un ultraservador ML.U-P6E-GB200X36, podría aprovisionar hasta 9 nodos de cómputo, mientras que si compró un plan de capacitación para un ultraservador ML.U-P6E-GB200X72, podría aprovisionarse hasta 18 Nunciones.

De forma predeterminada, Sagemaker optimizará la colocación de los nodos de grupo de instancias dentro del mismo ultraservador para que las GPU en los nodos estén interconectadas dentro del mismo dominio NVLink para lograr el mejor rendimiento de transferencia de datos para sus trabajos. Por ejemplo, si compra dos ultraservadores ml.u-p6e-gb200x72 con 17 nodos de cómputo disponibles cada uno (suponiendo que haya configurado dos repuestos), cree un grupo de instancias con 24 nodos, los primeros 17 nodos de cómputo se colocarán en ultraservador A, y los otros 7 nodos de computo se colocarán en Ultraserver B. B. B. B. B. B. B. B. B. B. B. B. B. B. B. B.

Conclusión

Los ultraservadores P6E-GB200 ayudan a las organizaciones a capacitar, afinar y servir a los modelos de IA más ambiciosos del mundo a escala. Al combinar recursos extraordinarios de GPU, redes ultrarrápidas y memoria líder en la industria con la automatización y escalabilidad del hiperpod de Sagemaker, las empresas pueden acelerar las diferentes etapas del ciclo de vida de la IA, a partir de la experimentación y la capacitación distribuida a través de inferencias e implementación sin costosas. Esta poderosa solución abre un nuevo terreno en el rendimiento y la flexibilidad y reduce la complejidad y los costos operativos, para que los innovadores puedan desbloquear nuevas posibilidades y liderar la próxima era del avance de la IA.

Sobre los autores

Nathan Arnold es un arquitecto senior de soluciones especializadas de IA/ML en AWS con sede en Austin Texas. Ayuda a los clientes de AWS, desde pequeñas nuevas empresas hasta grandes empresas, a arrastrar y implementar modelos de base de manera eficiente en AWS. Cuando no trabaja con los clientes, le gusta caminar, correr y jugar con sus perros.

Modelos de IA de trenes y implementación a escala de billones de parámetros con el soporte de HyperPod de Amazon Sagemaker para ultraservadores P6E-GB200

ByEquipo de 7 minutos

Dentro del ultraservador

Beneficios de rendimiento de los ultraservadores

GPU y potencia de cálculo

Redes de alto rendimiento

Almacenamiento y rendimiento de datos

Programación consciente de la topología

Casos de uso para ultraservadores

Planes de capacitación flexibles para la capacidad de ultraservador

Crea un clúster de ultraservador con Sagemaker Hyperpod

Conclusión

Sobre los autores

By Equipo de 7 minutos

Related Post

Tutorial de OCRmyPDF: convierta documentos escaneados en archivos PDF/A con capacidad de búsqueda con extracción de texto lateral y procesamiento por lotes

Enfrenté a XGBoost contra la regresión logística en 358 coincidencias. Ganó el modelo aburrido.

Creación de un flujo de trabajo estable de Fable 5 Traces en Colab: llamadas a herramientas de análisis, auditoría de datos y líneas de base de capacitación

You missed

Un niño de Ontario muere de rabia en el primer caso adquirido localmente desde 1967: ScienceAlert

Los esfuerzos para poner fin a los mandatos de vacunación escolar chocan contra un muro en Florida

En vigor un renovado acuerdo sobre límites en Palma, los operadores de cruceros rechazan la acusación de masificación turística

Blog de chismes deportivos n.° 1 en el mundo