Esta publicación fue escrita con Mohamed Hossam de Brightskies.
Las universidades de investigación que se dedican a la IA a gran escala y la computación de alto rendimiento (HPC) a menudo enfrentan importantes desafíos de infraestructura que impiden la innovación y retrasan los resultados de la investigación. Los grupos HPC locales tradicionales vienen con largos ciclos de adquisición de GPU, límites de escala rígidos y requisitos de mantenimiento complejos. Estos obstáculos restringen la capacidad de los investigadores para iterar rápidamente en las cargas de trabajo de IA como el procesamiento del lenguaje natural (PNL), la visión por computadora y la capacitación del modelo de base (FM). Amazon Sagemaker Hyperpod Alivia el trabajo pesado indiferenciado involucrado en la construcción de modelos de IA. Ayuda a escalar rápidamente tareas de desarrollo de modelos, como capacitación, ajuste fino o inferencia en un clúster de cientos o miles de aceleradores de IA (NVIDIA GPU H100, A100 y otros) integrados con herramientas HPC preconfiguradas y escala automatizada.
En esta publicación, demostramos cómo una universidad de investigación implementó Sagemaker HyperPod para acelerar la investigación de IA mediante el uso de particiones dinámicas de shurm, gestión de recursos de GPU de grano fino, el seguimiento de costos de calculación del presupuesto y el equilibrio de carga de nodos múltiples, todo integrado en el entorno de hiperpod de Sagperpod.
Descripción general de la solución
Amazon Sagemaker HyperPod está diseñado para admitir operaciones de aprendizaje automático a gran escala para investigadores y científicos de ML. El servicio está totalmente administrado por AWS, eliminando la sobrecarga operativa mientras mantiene la seguridad y el rendimiento de grado empresarial.
El siguiente diagrama de arquitectura ilustra cómo acceder a Sagemaker HyperPod para enviar trabajos. Los usuarios finales pueden usar VPN de sitio a sitio de AWS, AWS Client VPNo AWS Direct Connect Para acceder de forma segura al clúster HyperPod de Sagemaker. Estas conexiones terminan en el equilibrador de carga de red que distribuye eficientemente el tráfico SSH a los nodos de inicio de sesión, que son los principales puntos de entrada para el envío de trabajo y la interacción del clúster. En el núcleo de la arquitectura está Sagemaker HyperPod Compute, un nodo controlador que orquesta las operaciones de clúster y múltiples nodos de cómputo dispuestos en una configuración de cuadrícula. Esta configuración admite cargas de trabajo de capacitación distribuidas eficientes con interconexiones de alta velocidad entre nodos, todas contenidas dentro de una subred privada para una mayor seguridad.
La infraestructura de almacenamiento se construye alrededor de dos componentes principales: Amazon FSX para Luster proporciona capacidades del sistema de archivos de alto rendimiento, y Amazon S3 Para almacenamiento dedicado para conjuntos de datos y puntos de control. Este enfoque de doble almacenamiento proporciona acceso rápido de datos para cargas de trabajo de capacitación y persistencia segura de valiosos artefactos de capacitación.
La implementación consistió en varias etapas. En los siguientes pasos, demostramos cómo implementar y configurar la solución.
Requisitos previos
Antes de implementar Amazon Sagemaker HyperPod, asegúrese de que estén en su lugar los siguientes requisitos previos:
- Configuración de AWS:
- El Interfaz de línea de comandos de AWS (AWS CLI) configurado con permisos apropiados
- Archivos de configuración de clúster preparados:
cluster-config.jsonyprovisioning-parameters.json
- Configuración de red:
- Un Identidad y gestión de AWS (Iam) papel con permisos para lo siguiente:
Iniciar la pila de CloudFormation
Lanzamos un AWS CloudFormation Acumular para aprovisionar los componentes de infraestructura necesarios, incluidos un VPC y una subred, FSX para el sistema de archivos Luster, el cubo S3 para scripts de ciclo de vida y datos de entrenamiento, y roles IAM con permisos alcanzados para la operación del clúster. Consulte el Taller de HyperPod de Amazon Sagemaker para plantillas de CloudFormation y scripts de automatización.
Personalizar la configuración del clúster SLURM
Para alinear los recursos de calcular con las necesidades de investigación departamentales, creamos particiones de slurm para reflejar la estructura organizacional, por ejemplo, PNL, visión por computadora y equipos de aprendizaje profundo. Usamos el Configuración de partición slurm definir slurm.conf con particiones personalizadas. La contabilidad de slurm se habilitó configurando slurmdbd y vincular el uso con cuentas y supervisores departamentales.
Para admitir el intercambio de GPU fraccional y la utilización eficiente, habilitamos la configuración de recursos genéricos (GRES). Con la extracción de GPU, varios usuarios pueden acceder a GPU en el mismo nodo sin contención. La configuración de GRES siguió las pautas de la Taller de HyperPod de Amazon Sagemaker.
Provisión y validar el clúster
Validamos el cluster-config.json y provisioning-parameters.json Archivos utilizando la AWS CLI y un script de validación de HyperPod de Sagemaker:
Luego creamos el clúster:
Implementar el seguimiento de costos y la aplicación del presupuesto
Para monitorear los costos de uso y control, cada recurso Sagemaker HyperPod (por ejemplo, Amazon EC2, FSX para Lustre y otros) fue etiquetado con un único ClusterName etiqueta. Presupuestos de AWS y AWS Costo Explorer Los informes se configuraron para rastrear el gasto mensual por clúster. Además, se establecieron alertas para notificar a los investigadores si abordaban su cuota o umbrales presupuestarios.
Esta integración ayudó a facilitar la utilización eficiente y el gasto de investigación predecible.
Habilitar el equilibrio de carga para los nodos de inicio de sesión
A medida que aumentó el número de usuarios concurrentes, la universidad adoptó una arquitectura de nodo de múltiplesuro. Se implementaron dos nodos de inicio de sesión en grupos de escala automática EC2. A Equilibrador de carga de red se configuró con grupos de destino para enrutar el tráfico SSH y Sistemies Manager. Por último, AWS Lambda Funciones Funciones de límites de sesión de sesión por usuario utilizando Run-As Etiquetas con Gerente de sesiónuna capacidad de Sistemies Manager.
Para obtener detalles sobre la implementación completa, ver Implementación del equilibrio de carga de nodo de inicio de sesión en Sagemaker HyperPod para una experiencia mejorada de usuarios múltiples.
Configurar el acceso federado y la asignación de usuarios
Para facilitar el acceso seguro y sin problemas para los investigadores, la institución integró Centro de identidad de AWS IAM con su activo en las instalaciones (AD) utilizando Servicio de directorio de AWS. Esto permitió el control unificado y la administración de identidades de usuario y privilegios de acceso a las cuentas de SageMaker HyperPod. La implementación consistió en los siguientes componentes clave:
- Integración de usuarios federados – Mapeamos a los usuarios de anuncios a los nombres de usuario POSIX utilizando Session Manager
run-asEtiquetas, permitiendo un control de grano fino sobre el acceso al nodo de cálculo - Gestión segura de sesiones – Configuramos System Manager para asegurarnos de que los usuarios accedan a nodos de cómputo utilizando sus propias cuentas, no el valor predeterminado
ssm-user - Etiquetado basado en la identidad – Los nombres de usuario federados se asignaron automáticamente a directorios de usuarios, cargas de trabajo y presupuestos a través de etiquetas de recursos
Para obtener una guía paso a paso completa, consulte el Taller de HyperPod de Amazon Sagemaker.
Este enfoque optimizó el aprovisionamiento del usuario y el control de acceso mientras mantiene una fuerte alineación con las políticas institucionales y los requisitos de cumplimiento.
Optimizaciones posteriores a la implementación
Para ayudar a prevenir el consumo innecesario de los recursos de cómputo mediante sesiones inactivas, la universidad configuró un swurm con Módulos de autenticación conectables (Pam). Esta configuración aplica el inicio de sesión automático para los usuarios después de que sus trabajos de slurm se completen o cancelen, lo que respalda la disponibilidad rápida de nodos de cómputo para trabajos en cola.
La configuración mejoró el rendimiento de la programación de trabajo al liberar nodos inactivos inmediatamente y reducir la sobrecarga administrativa en la gestión de sesiones inactivas.
Además, Políticas de QoS se configuraron para controlar el consumo de recursos, limitar la duración del trabajo y hacer cumplir el acceso justo de GPU en los usuarios y departamentos. Por ejemplo:
- Maxtresperuser – Se asegura de que el uso de GPU o CPU por usuario permanezca dentro de los límites definidos
- Maxwalldurationperjob – Ayuda a evitar que trabajos excesivamente largos monopolizen nodos
- Pesos prioritarios – Alinea la programación de prioridad basada en el grupo de investigación o el proyecto
Estas mejoras facilitaron un entorno HPC optimizado y equilibrado que se alinea con el modelo de infraestructura compartida de las instituciones de investigación académica.
Limpiar
Para eliminar los recursos y evitar incurrir en cargos en curso, complete los siguientes pasos:
- Eliminar el clúster de Sagemaker Hyperpod:
- Elimine la pila CloudFormation utilizada para la infraestructura de HyperPod de Sagemaker:
Esto eliminará automáticamente los recursos asociados, como el VPC y las subredes, FSX para el sistema de archivos Luster, el cubo S3 y los roles IAM. Si creó estos recursos fuera de CloudFormation, debe eliminarlos manualmente.
Conclusión
Sagemaker HyperPod proporciona a las universidades de investigación una solución HPC poderosa y totalmente administrada adaptada para las demandas únicas de las cargas de trabajo de IA. Al automatizar el aprovisionamiento de la infraestructura, la escala y la optimización de los recursos, las instituciones pueden acelerar la innovación al tiempo que mantienen el control del presupuesto y la eficiencia operativa. A través de configuraciones de slurm personalizadas, intercambio de GPU utilizando GRES, acceso federado y un equilibrio de nodo de inicio de sesión robusto, esta solución resalta el potencial de Sagemaker Hyperpod para transformar la computación de investigación, para que los investigadores puedan centrarse en la ciencia, no en la infraestructura.
Para obtener más detalles sobre cómo aprovechar al máximo Sagemaker HyperPod, consulte el Taller de Sagemaker Hyperpod y Explore más publicaciones de blog sobre Sagemaker Hyperpod.
Sobre los autores
Tasneem Fathima es arquitecto de soluciones senior en AWS. Apoya a los clientes de educación superior e investigación en los Emiratos Árabes Unidos para adoptar tecnologías en la nube, mejorar su tiempo para la ciencia e innovar en AWS.
Mohamed Hossam es un arquitecto senior de soluciones en la nube HPC en Brightskies, especializada en informática de alto rendimiento (HPC) e infraestructura de IA en AWS. Apoya a las universidades e instituciones de investigación en todo el Golfo y Medio Oriente para aprovechar los grupos de GPU, acelerar la adopción de IA y migrar cargas de trabajo HPC/AI/ML a la nube de AWS. En su tiempo libre, a Mohamed le gusta jugar videojuegos.