Acelerar la investigación de HPC y AI en universidades con Amazon Sagemaker Hyperpod

Esta publicación fue escrita con Mohamed Hossam de Brightskies.

Las universidades de investigación que se dedican a la IA a gran escala y la computación de alto rendimiento (HPC) a menudo enfrentan importantes desafíos de infraestructura que impiden la innovación y retrasan los resultados de la investigación. Los grupos HPC locales tradicionales vienen con largos ciclos de adquisición de GPU, límites de escala rígidos y requisitos de mantenimiento complejos. Estos obstáculos restringen la capacidad de los investigadores para iterar rápidamente en las cargas de trabajo de IA como el procesamiento del lenguaje natural (PNL), la visión por computadora y la capacitación del modelo de base (FM). Amazon Sagemaker Hyperpod Alivia el trabajo pesado indiferenciado involucrado en la construcción de modelos de IA. Ayuda a escalar rápidamente tareas de desarrollo de modelos, como capacitación, ajuste fino o inferencia en un clúster de cientos o miles de aceleradores de IA (NVIDIA GPU H100, A100 y otros) integrados con herramientas HPC preconfiguradas y escala automatizada.

En esta publicación, demostramos cómo una universidad de investigación implementó Sagemaker HyperPod para acelerar la investigación de IA mediante el uso de particiones dinámicas de shurm, gestión de recursos de GPU de grano fino, el seguimiento de costos de calculación del presupuesto y el equilibrio de carga de nodos múltiples, todo integrado en el entorno de hiperpod de Sagperpod.

Descripción general de la solución

Amazon Sagemaker HyperPod está diseñado para admitir operaciones de aprendizaje automático a gran escala para investigadores y científicos de ML. El servicio está totalmente administrado por AWS, eliminando la sobrecarga operativa mientras mantiene la seguridad y el rendimiento de grado empresarial.

El siguiente diagrama de arquitectura ilustra cómo acceder a Sagemaker HyperPod para enviar trabajos. Los usuarios finales pueden usar VPN de sitio a sitio de AWS, AWS Client VPNo AWS Direct Connect Para acceder de forma segura al clúster HyperPod de Sagemaker. Estas conexiones terminan en el equilibrador de carga de red que distribuye eficientemente el tráfico SSH a los nodos de inicio de sesión, que son los principales puntos de entrada para el envío de trabajo y la interacción del clúster. En el núcleo de la arquitectura está Sagemaker HyperPod Compute, un nodo controlador que orquesta las operaciones de clúster y múltiples nodos de cómputo dispuestos en una configuración de cuadrícula. Esta configuración admite cargas de trabajo de capacitación distribuidas eficientes con interconexiones de alta velocidad entre nodos, todas contenidas dentro de una subred privada para una mayor seguridad.

La infraestructura de almacenamiento se construye alrededor de dos componentes principales: Amazon FSX para Luster proporciona capacidades del sistema de archivos de alto rendimiento, y Amazon S3 Para almacenamiento dedicado para conjuntos de datos y puntos de control. Este enfoque de doble almacenamiento proporciona acceso rápido de datos para cargas de trabajo de capacitación y persistencia segura de valiosos artefactos de capacitación.

La implementación consistió en varias etapas. En los siguientes pasos, demostramos cómo implementar y configurar la solución.

Requisitos previos

Antes de implementar Amazon Sagemaker HyperPod, asegúrese de que estén en su lugar los siguientes requisitos previos:

Configuración de AWS:
- El Interfaz de línea de comandos de AWS (AWS CLI) configurado con permisos apropiados
- Archivos de configuración de clúster preparados: cluster-config.json y provisioning-parameters.json
Configuración de red:
Un Identidad y gestión de AWS (Iam) papel con permisos para lo siguiente:

Iniciar la pila de CloudFormation

Lanzamos un AWS CloudFormation Acumular para aprovisionar los componentes de infraestructura necesarios, incluidos un VPC y una subred, FSX para el sistema de archivos Luster, el cubo S3 para scripts de ciclo de vida y datos de entrenamiento, y roles IAM con permisos alcanzados para la operación del clúster. Consulte el Taller de HyperPod de Amazon Sagemaker para plantillas de CloudFormation y scripts de automatización.

Personalizar la configuración del clúster SLURM

Para alinear los recursos de calcular con las necesidades de investigación departamentales, creamos particiones de slurm para reflejar la estructura organizacional, por ejemplo, PNL, visión por computadora y equipos de aprendizaje profundo. Usamos el Configuración de partición slurm definir slurm.conf con particiones personalizadas. La contabilidad de slurm se habilitó configurando slurmdbd y vincular el uso con cuentas y supervisores departamentales.

Para admitir el intercambio de GPU fraccional y la utilización eficiente, habilitamos la configuración de recursos genéricos (GRES). Con la extracción de GPU, varios usuarios pueden acceder a GPU en el mismo nodo sin contención. La configuración de GRES siguió las pautas de la Taller de HyperPod de Amazon Sagemaker.

Provisión y validar el clúster

Validamos el cluster-config.json y provisioning-parameters.json Archivos utilizando la AWS CLI y un script de validación de HyperPod de Sagemaker:

$curl -O https://raw.githubusercontent.com/aws-samples/awsome-distributed-training/main/1.architectures/5.sagemaker-hyperpod/validate-config.py

$pip3 install boto3

$python3 validate-config.py --cluster-config cluster-config.json --provisioning-parameters provisioning-parameters.json

Luego creamos el clúster:

$aws sagemaker create-cluster \
  --cli-input-json file://cluster-config.json \
  --region us-west-2

Implementar el seguimiento de costos y la aplicación del presupuesto

Para monitorear los costos de uso y control, cada recurso Sagemaker HyperPod (por ejemplo, Amazon EC2, FSX para Lustre y otros) fue etiquetado con un único ClusterName etiqueta. Presupuestos de AWS y AWS Costo Explorer Los informes se configuraron para rastrear el gasto mensual por clúster. Además, se establecieron alertas para notificar a los investigadores si abordaban su cuota o umbrales presupuestarios.

Esta integración ayudó a facilitar la utilización eficiente y el gasto de investigación predecible.

Habilitar el equilibrio de carga para los nodos de inicio de sesión

A medida que aumentó el número de usuarios concurrentes, la universidad adoptó una arquitectura de nodo de múltiplesuro. Se implementaron dos nodos de inicio de sesión en grupos de escala automática EC2. A Equilibrador de carga de red se configuró con grupos de destino para enrutar el tráfico SSH y Sistemies Manager. Por último, AWS Lambda Funciones Funciones de límites de sesión de sesión por usuario utilizando Run-As Etiquetas con Gerente de sesiónuna capacidad de Sistemies Manager.

Para obtener detalles sobre la implementación completa, ver Implementación del equilibrio de carga de nodo de inicio de sesión en Sagemaker HyperPod para una experiencia mejorada de usuarios múltiples.

Configurar el acceso federado y la asignación de usuarios

Para facilitar el acceso seguro y sin problemas para los investigadores, la institución integró Centro de identidad de AWS IAM con su activo en las instalaciones (AD) utilizando Servicio de directorio de AWS. Esto permitió el control unificado y la administración de identidades de usuario y privilegios de acceso a las cuentas de SageMaker HyperPod. La implementación consistió en los siguientes componentes clave:

Integración de usuarios federados – Mapeamos a los usuarios de anuncios a los nombres de usuario POSIX utilizando Session Manager run-as Etiquetas, permitiendo un control de grano fino sobre el acceso al nodo de cálculo
Gestión segura de sesiones – Configuramos System Manager para asegurarnos de que los usuarios accedan a nodos de cómputo utilizando sus propias cuentas, no el valor predeterminado ssm-user
Etiquetado basado en la identidad – Los nombres de usuario federados se asignaron automáticamente a directorios de usuarios, cargas de trabajo y presupuestos a través de etiquetas de recursos

Para obtener una guía paso a paso completa, consulte el Taller de HyperPod de Amazon Sagemaker.

Este enfoque optimizó el aprovisionamiento del usuario y el control de acceso mientras mantiene una fuerte alineación con las políticas institucionales y los requisitos de cumplimiento.

Optimizaciones posteriores a la implementación

Para ayudar a prevenir el consumo innecesario de los recursos de cómputo mediante sesiones inactivas, la universidad configuró un swurm con Módulos de autenticación conectables (Pam). Esta configuración aplica el inicio de sesión automático para los usuarios después de que sus trabajos de slurm se completen o cancelen, lo que respalda la disponibilidad rápida de nodos de cómputo para trabajos en cola.

La configuración mejoró el rendimiento de la programación de trabajo al liberar nodos inactivos inmediatamente y reducir la sobrecarga administrativa en la gestión de sesiones inactivas.

Además, Políticas de QoS se configuraron para controlar el consumo de recursos, limitar la duración del trabajo y hacer cumplir el acceso justo de GPU en los usuarios y departamentos. Por ejemplo:

Maxtresperuser – Se asegura de que el uso de GPU o CPU por usuario permanezca dentro de los límites definidos
Maxwalldurationperjob – Ayuda a evitar que trabajos excesivamente largos monopolizen nodos
Pesos prioritarios – Alinea la programación de prioridad basada en el grupo de investigación o el proyecto

Estas mejoras facilitaron un entorno HPC optimizado y equilibrado que se alinea con el modelo de infraestructura compartida de las instituciones de investigación académica.

Limpiar

Para eliminar los recursos y evitar incurrir en cargos en curso, complete los siguientes pasos:

Eliminar el clúster de Sagemaker Hyperpod:

$aws sagemaker delete-cluster --cluster-name <name>

Elimine la pila CloudFormation utilizada para la infraestructura de HyperPod de Sagemaker:

$aws cloudformation delete-stack --stack-name <stack-name> --region <region>

Esto eliminará automáticamente los recursos asociados, como el VPC y las subredes, FSX para el sistema de archivos Luster, el cubo S3 y los roles IAM. Si creó estos recursos fuera de CloudFormation, debe eliminarlos manualmente.

Conclusión

Sagemaker HyperPod proporciona a las universidades de investigación una solución HPC poderosa y totalmente administrada adaptada para las demandas únicas de las cargas de trabajo de IA. Al automatizar el aprovisionamiento de la infraestructura, la escala y la optimización de los recursos, las instituciones pueden acelerar la innovación al tiempo que mantienen el control del presupuesto y la eficiencia operativa. A través de configuraciones de slurm personalizadas, intercambio de GPU utilizando GRES, acceso federado y un equilibrio de nodo de inicio de sesión robusto, esta solución resalta el potencial de Sagemaker Hyperpod para transformar la computación de investigación, para que los investigadores puedan centrarse en la ciencia, no en la infraestructura.

Para obtener más detalles sobre cómo aprovechar al máximo Sagemaker HyperPod, consulte el Taller de Sagemaker Hyperpod y Explore más publicaciones de blog sobre Sagemaker Hyperpod.

Sobre los autores

Tasneem Fathima es arquitecto de soluciones senior en AWS. Apoya a los clientes de educación superior e investigación en los Emiratos Árabes Unidos para adoptar tecnologías en la nube, mejorar su tiempo para la ciencia e innovar en AWS.

Mohamed Hossam es un arquitecto senior de soluciones en la nube HPC en Brightskies, especializada en informática de alto rendimiento (HPC) e infraestructura de IA en AWS. Apoya a las universidades e instituciones de investigación en todo el Golfo y Medio Oriente para aprovechar los grupos de GPU, acelerar la adopción de IA y migrar cargas de trabajo HPC/AI/ML a la nube de AWS. En su tiempo libre, a Mohamed le gusta jugar videojuegos.

Acelerar la investigación de HPC y AI en universidades con Amazon Sagemaker Hyperpod

ByEquipo de 7 minutos

Descripción general de la solución

Requisitos previos

Iniciar la pila de CloudFormation

Personalizar la configuración del clúster SLURM

Provisión y validar el clúster

Implementar el seguimiento de costos y la aplicación del presupuesto

Habilitar el equilibrio de carga para los nodos de inicio de sesión

Configurar el acceso federado y la asignación de usuarios

Optimizaciones posteriores a la implementación

Limpiar

Conclusión

Sobre los autores

By Equipo de 7 minutos

Related Post

Tutorial de OCRmyPDF: convierta documentos escaneados en archivos PDF/A con capacidad de búsqueda con extracción de texto lateral y procesamiento por lotes

Enfrenté a XGBoost contra la regresión logística en 358 coincidencias. Ganó el modelo aburrido.

Creación de un flujo de trabajo estable de Fable 5 Traces en Colab: llamadas a herramientas de análisis, auditoría de datos y líneas de base de capacitación

You missed

La misión Lucy de la NASA revela la historia oculta de un asteroide

La Junta de Pautas de Alquiler de la Ciudad de Nueva York vota para congelar el alquiler de 1 millón de apartamentos

Disfruta de la parte en Feliz Fiesta en Arboleas « Euro Weekly News

Dentro de la vasta red de bancos de leche gratuitos de Brasil que salvan vidas