Hoy, Amazon Sagemaker Hyperpod está anunciando una nueva experiencia de creación de clúster validada de un solo clic que acelera la configuración y evita que las configuraciones erróneas comunes, para que pueda lanzar sus grupos distribuidos de capacitación e inferencia completa con Slurm o Servicio de Kubernetes de Amazon Elastic (Amazon EKS) Orquestación, Nube privada virtual de Amazon (Amazon VPC) Redes, almacenamiento de alto rendimiento y seguridad incorporada de forma predeterminada.
Con Sagemaker Hyperpod, puede escalar de manera eficiente tareas como entrenamiento generativo de IA, ajuste o inferencia sobre grupos con cientos o miles de aceleradores de IA. El sistema verifica continuamente los problemas de hardware, los resuelve automáticamente y se asegura de que sus cargas de trabajo se recuperen sin intervención manual.
Anteriormente, los clientes debían configurar un VPC, un Servicio de almacenamiento simple de Amazon (Amazon S3) Bucket, Gestión de identidad y acceso de AWS (Iam) roles y otros recursos de AWS como requisitos previos para crear un clúster HyperPod de Sagemaker. Este proceso de varios pasos creó puntos de contacto manuales donde podría ocurrir una configuración errónea.
Con la nueva experiencia de creación de clúster, puede crear sus clústeres de Sagemaker HyperPod, incluidos los recursos de AWS requisitos requeridos, en un solo clic, con valores predeterminados prescriptivos aplicados automáticamente. En esta publicación, exploramos la nueva experiencia de creación de clúster para Amazon Sagemaker Hyperpod.
Descripción general de la solución
Sagemaker HyperPod ofrece dos nuevas opciones de implementación en el Consola de gestión de AWS Para crear grupos orquestados por Slurm y Amazon EKS: Configuración rápida y configuración personalizada. Ambas opciones se presentan en el Amazon Sagemaker AI consola.
Cuando creas un clúster, Sagemaker HyperPod crea un AWS CloudFormation Apila para implementar su clúster y admitir recursos con sus configuraciones especificadas.
Con AWS CloudFormation, puede expresar declarativamente el estado deseado de sus arquitecturas en la nube utilizando Infraestructura como código (IAC) De modo que incluso las composiciones complejas que utilizan múltiples servicios administrados, como los grupos de hiperpod de Sagemaker y los recursos previos, se pueden implementar en una sola solicitud de manera consistente en múltiples entornos.
En las siguientes secciones, atravesamos los detalles de la configuración rápida y las opciones de configuración personalizadas, y proporcionamos capturas de pantalla de configuraciones clave.
Configuración rápida
Con una configuración rápida, Sagemaker HyperPod utiliza valores predeterminados sensibles, por ejemplo, grupos, redes, orquestación, configuración del ciclo de vida, permisos y almacenamiento. También puede ver qué configuraciones son editables después de que se crea el clúster y cuáles requerirían que se recreen los recursos de AWS correspondientes; Si desea editar dichas configuraciones, use la configuración Setup.quick personalizada que ofrece recuperación automática de instancias para instancias que se vuelven poco saludables o no responden.
Para las redes, la configuración rápida crea una nueva VPC con subredes repartidas en las zonas de disponibilidad en su región de AWS. Dentro de cada zona de disponibilidad, se crea una subred pública /24 para el acceso a Internet a través de una puerta de enlace NAT, se crea una subred privada /24 para facilitar las comunicaciones del plano de control de EKS, y se crea una subred privada A /16 para dirigir la capacidad de grupo de instancias acelerado. Un nuevo grupo de seguridad también está configurado con las reglas requeridas para permitir Adaptador de tela elástica (EFA) y Amazon FSX para Luster Tráfico de red.
El uso de la subred privada A /16 como predeterminada para las instancias de Sagemaker HyperPod admite más de 65,000 IP privados, lo que es importante para acomodar grupos grandes de instancias aceleradas que consumen múltiples direcciones IP para cada host.
Para la orquestación de Amazon EKS, la configuración rápida crea un nuevo clúster EKS utilizando la última versión de Kubernetes compatible con operadores disponibles habilitados, incluidos los complementos de dispositivos EFA, neuronas y NVIDIA; el Agente de monitoreo de salud (HMA); los operadores de capacitación de Kubeflow; y el Operador de inferencia de Hyperpod de Sagemaker.
La configuración rápida también crea un nuevo cubo S3 para almacenar los scripts de ciclo de vida predeterminados, por ejemplo, la configuración y la configuración, un nuevo rol de IAM con los permisos necesarios para el clúster de Sagemaker HyperPod y un nuevo sistema FSX para el sistema de archivos LUTER para el almacenamiento y recuperación de datos de alto rendimiento.
Configuración personalizada
Con una configuración personalizada, tiene la flexibilidad de elegir cómo su clúster SageMaker HyperPod se configura a un nivel más granular en las mismas dimensiones.
Aunque aún se recomienda la recuperación automática de nodos para reiniciar o reemplazar nodos defectuosos cuando se detectan problemas, con una configuración personalizada para la orquestación EKS de Amazon, puede deshabilitar selectivamente esta característica si necesita más control sobre el proceso de recuperación para llevar a cabo una intervención manual para la solución de problemas o fines de prueba. Cuando se habilita el modo de aprovisionamiento continuo, Sagemaker HyperPod permite el inicio concurrente de múltiples operaciones, la ejecución paralela de ampliar, escalar y actualizar las actualizaciones de AMI dentro de un solo grupo de instancias, y la creación de clúster, incluso si no todas las instancias solicitadas están disponibles de inmediato. Esta opción proporciona más flexibilidad y operaciones más rápidas al permitir que se realicen múltiples cambios simultáneamente, lo que puede reducir los tiempos generales de implementación y actualización.
La configuración personalizada le brinda las opciones para crear un nuevo VPC con una gama CIDR personalizada y zonas de disponibilidad específicas para la creación de subred según la ubicación de su capacidad de cómputo acelerado. También puede hacer referencia a un grupo VPC y seguridad existente para la implementación de clúster de Sagemaker HyperPod, que es útil si tiene la intención de usar un clúster EKS existente para la orquestación o adjuntar un sistema de archivos FSX existente para Lustre.
Para la orquestación de Amazon EKS, puede crear un nuevo clúster de EKS con la opción de seleccionar versiones de Kubernetes compatibles junto con dos o más subredes privadas que Amazon EKS utilizará para aprovisionar dos interfaces de red elástica (ENIS) para establecer la conectividad de red entre el servidor API de Kubernetes y su VPC. Si prefiere usar un clúster EKS existente, puede seleccionarlo por nombre usando la configuración personalizada.
También tiene control granular sobre el cual se instalan operadores opcionales en su clúster EKS utilizando el Gráficos de timón predeterminado basado en los requisitos específicos de su carga de trabajo. Se requieren algunos de estos componentes y deben instalarse para los grupos de Sagemaker Hyperpod para operar con éxito.
Con una configuración personalizada, puede optar por usar scripts de ciclo de vida personalizado de un cubo S3 existente para necesidades de configuración avanzada como instalar marcos de aprendizaje automático personalizado (ML) o versiones específicas de dependencias, implementar software o herramientas patentadas, y configurar optimizaciones de red específicas. También puede asignar un rol de IAM existente al clúster SageMaker HyperPod para acomodar requisitos de permiso específicos. Para el almacenamiento, tiene la flexibilidad de integrar un sistema FSX existente para el sistema de archivos Lustre, aprovisionar un nuevo sistema de archivos con múltiples opciones de capacidad de rendimiento y almacenamiento, o omitir el aprovisionamiento del sistema de archivos si aún no es necesario.
Agregar un grupo de instancias
Para las opciones de configuración rápidas y personalizadas, puede agregar un nuevo grupo de instancias a su clúster SageMaker HyperPod desde la consola Sagemaker AI.
Puede elegir entre grupos de instancias estándar, que proporcionan un entorno informático de propósito general sin restricciones de seguridad adicionales, o grupos de instancias restringidos (RIG) para provocar un entorno especializado dentro de Sagemaker HyperPod que proporciona un espacio aislado para capacitación personalizada Amazon Nova modelos.
Puede seleccionar la capacidad a pedido para cargas de trabajo y pruebas únicas, o Planes de entrenamiento flexibles Capacidad para obtener acceso predecible a recursos de cómputo acelerados dentro de su línea de tiempo y presupuesto, para sus trabajos de capacitación a gran escala planificados. Con planes de capacitación flexibles, puede programar capacidad en lo último P6-B200 tipos de instancia y P6E-GB200 Ultraservadores Impulsado por las GPU de nvidia Blackwell Tensor Core. Si necesita aprovisionar a un grupo de instancias para su uso a largo plazo, puede comunicarse con AWS para reservar la capacidad de mayor duración.
Con la orquestación de Amazon EKS, para cada grupo de instancias que agrega, puede habilitar el estrés y la conectividad controles de salud profundas. Estas verificaciones de salud profunda se realizan además del agnóstico del orquestador Verificaciones básicas de salud que también se aplican a los grupos orquestados de SLURM. Comprobaciones de estrés Prueba componentes de hardware bajo estrés para identificar problemas potenciales con GPU, memoria y otros componentes de hardware. Conectividad verifica la conectividad de la red entre nodos para mantener una comunicación adecuada para la capacitación distribuida.
Con la configuración avanzada, puede elegir el número de subprocesos que se ejecutan en cada núcleo de CPU de su Nube de cómputo elástica de Amazon (Amazon EC2) instancias. Elegir un hilo por núcleo deshabilita múltiples subprocesos. Cada núcleo ejecuta un solo hilo, que puede proporcionar un rendimiento más predecible para las aplicaciones que se benefician de los recursos centrales dedicados, como ciertas cargas de trabajo informáticas de alto rendimiento. Elegir dos hilos por núcleo permite el subproceso múltiple. Cada núcleo físico ejecuta dos hilos simultáneamente, potencialmente aumentando el rendimiento para aplicaciones de múltiples subprocesos a costa de algún rendimiento por hilo por hilo.
Descargue los parámetros de su plantilla de CloudFormation
Para una mayor personalización y reutilización, puede descargar una copia de la plantilla de CloudFormation de la consola Sagemaker AI con los parámetros que seleccionó preconfigurado. Puede usar esta plantilla con herramientas de entrega continuas como AWS Codepipeline Para construir y probar cambios automáticamente antes de promoverlos a pilas de producción. Con CodePipeline, puede crear anulaciones de parámetros en un archivo de configuración de plantilla para ingresar valores personalizados cuando crea o actualiza una pila en diferentes entornos de desarrollo, prueba y producción.
Conclusión
Sagemaker HyperPod ahora ofrece una experiencia de implementación con un solo clic para establecer una infraestructura resiliente especialmente diseñada para capacitar e implementar grandes modelos ML. Con la opción de configuración rápida, puede aprovechar los valores predeterminados prescriptivos, y la opción de configuración personalizada proporciona la flexibilidad para adaptar entornos de capacitación distribuidos para cumplir con los requisitos especializados. Con IAC a través de AWS CloudFormation, obtiene una expresión declarativa de su entorno de clúster Hyperpod SageMaker que puede controlarse, personalizarse e integrarse aún más en las tuberías de entrega continuas.
Comience hoy visitando el Consola de IA de Sagemaker y crear un nuevo clúster de Sagemaker HyperPod.
Sobre los autores
Giuseppe Angelo Porcelli es un arquitecto principal de soluciones de especialistas en aprendizaje automático para los servicios web de Amazon. Con varios años de ingeniería de software y un fondo de ML, trabaja con clientes de cualquier tamaño para comprender sus necesidades comerciales y técnicas y diseñar soluciones de IA y ML que aprovechen el mejor uso de AWS Cloud y Amazon Machine Learning Stack. Ha trabajado en proyectos en diferentes dominios, incluidos MLOPS, Visión de la Computadora y PNL, que involucra un amplio conjunto de servicios de AWS. En su tiempo libre, a Giuseppe le gusta jugar al fútbol.
Cindy Zhao es un ingeniero de desarrollo de software con sede en Seattle. Se enfoca en construir una infraestructura de ML a gran escala con AWS Sagemaker Hyperpod, ayudando a los clientes a establecer grupos seguros y confiables para la capacitación en modelos de cimientos. Fuera del trabajo, le gusta viajar y pasar tiempo con su gato.
Nathan Arnold es un arquitecto senior de soluciones especializadas de IA/ML en AWS con sede en Austin Texas. Ayuda a los clientes de AWS, desde pequeñas nuevas empresas hasta grandes empresas, a arrastrar y implementar modelos de base de manera eficiente en AWS. Cuando no trabaja con los clientes, le gusta caminar, correr y jugar con sus perros.