Amazon Sagemaker Hyperpod Ahora proporciona un tablero completo y listos para usar que ofrece información sobre las tareas de desarrollo del Modelo de Fundación (FM) y los recursos de clúster. Esta solución de observabilidad unificada publica automáticamente métricas clave para Servicio administrado por Amazon para Prometeo y los visualiza en Grafana administrada por Amazon Paneles, optimizados específicamente para el desarrollo de FM con cobertura profunda de salud de hardware, utilización de recursos y rendimiento a nivel de tareas.
Con una instalación de un solo clic del Servicio de Kubernetes de Amazon Elastic (Amazon EKS) complemento para la observabilidad de Sagemaker HyperPod, puede consolidar datos de salud y rendimiento de NVIDIA DCGM, exportadores de nodo Kubernetes a nivel de instancia, Adaptador de tela elástica (EFA), Sistemas de archivos integrados, API de Kubernetes, Kueue y Operadores de tareas Sagemaker HyperPod. Con esta vista unificada, puede rastrear el rendimiento de la tarea de desarrollo de modelos para agrupar los recursos con la agregación de métricas de recursos a nivel de tareas. La solución también abstrae la gestión de agentes y raspadores de colección en grupos, ofreciendo escalabilidad automática de los coleccionistas a través de nodos a medida que el clúster crece. Los paneles cuentan con navegación intuitiva a través de métricas y visualizaciones para ayudar a los usuarios a diagnosticar problemas y tomar medidas más rápido. También son totalmente personalizables, lo que admite importaciones métricas de PROMQL adicionales y diseños de grafana personalizados.
Estas capacidades ahorran tiempo y recursos valiosos durante el desarrollo de FM, ayudando a acelerar el tiempo de comercialización y reducir el costo de las innovaciones generativas de IA. En lugar de pasar horas o días configurando, recopilando y analizando los sistemas de telemetría de clúster, los científicos de datos y los ingenieros de aprendizaje automático (ML) ahora pueden identificar rápidamente la capacitación, ajuste y interrupciones de inferencia, subutilización de valiosos recursos de GPU y problemas de rendimiento de hardware. Las ideas previas y procesables de la observabilidad de Sagemaker Hyperpod se pueden usar en varios escenarios comunes cuando operan cargas de trabajo FM, como:
- Los científicos de datos pueden monitorear la utilización de recursos de las tareas de capacitación e inferencia presentadas a nivel de por GPU, con información sobre la memoria y los fracasos de GPU
- Los investigadores de IA pueden solucionar problemas de tiempo subóptimo a primera vez (TTFT) para sus cargas de trabajo de inferencia al correlacionar las métricas de implementación con los cuellos de botella de recursos correspondientes
- Los administradores de clúster pueden configurar alertas personalizables para enviar notificaciones a múltiples destinos como Servicio de notificación simple de Amazon (Amazon SNS), Pagerduty y Slack cuando el hardware cae fuera de los umbrales de salud recomendados
- Los administradores de clúster pueden identificar rápidamente los patrones de colas de recursos ineficientes entre equipos o espacios de nombres para reconfigurar políticas de asignación y priorización
En esta publicación, lo acompañamos a través de la instalación y el uso de los paneles unificados de la función de observabilidad listos para usar en Sagemaker HyperPod. Cubrimos la instalación de un solo clic del Amazon Sagemaker AI Consola, navegar el tablero y las métricas que consolida, y temas avanzados, como configurar alertas personalizadas. Si tiene un clúster de SageMaker HyperPod EKS, entonces esta publicación lo ayudará a comprender cómo visualizar rápidamente los datos clave de telemetría de salud y rendimiento para obtener ideas procesables.
Requisitos previos
Para comenzar con la observabilidad de Sagemaker Hyperpod, primero debe habilitar Centro de identidad de AWS IAM Para usar Grafana administrada de Amazon. Si IAM Identity Center ya no está habilitado en su cuenta, consulte Comenzando con IAM Identity Center. Además, cree al menos un usuario en el IAM Identity Center.
La observabilidad de Sagemaker Hyperpod está disponible para los grupos de Sagemaker Hyperpod con un orquestador de Amazon EKS. Si aún no tiene un clúster de Sagemaker HyperPod con un orquestador de Amazon EKS, consulte Amazon Sagemaker HyperPod Workshops QuickStart para instrucciones para crear uno.
Habilitar la observabilidad del hiperpod de Sagemaker
Para habilitar la observabilidad del hiperpod de Sagemaker, siga estos pasos:
- En la consola AI Sagemaker, elija Gestión de clúster En el panel de navegación.
- Abra la página de detalles del clúster desde la lista de clústeres de Sagemaker HyperPod.
- En el Panel pestaña, en el Observabilidad del hiperpod Sección, elija Instalación rápida.
Sagemaker AI creará un nuevo espacio de trabajo Prometheus, un nuevo espacio de trabajo de Grafana e instalará el complemento de observabilidad de SageMaker HyperPod al clúster EKS. La instalación generalmente se completa en unos minutos.
Cuando se completa el proceso de instalación, puede ver los detalles de complemento y las métricas disponibles.
- Elegir Administrar usuarios Para asignar un usuario a un espacio de trabajo de Grafana.
- Elegir Abra el tablero en Grafana Para abrir el tablero de Grafana.
- Cuando se le solicite, inicie sesión con IAM Identity Center con el usuario que configuró como un requisito previo.
Después de iniciar sesión con éxito, verá el tablero de observabilidad de Sagemaker Hyperpod en Grafana.
Paneles de observabilidad de Sagemaker Hyperpod
Puede elegir entre múltiples paneles, incluido Grupo, Tareas, Inferencia, Capacitacióny Sistema de archivos.
El Grupo El tablero muestra métricas a nivel de clúster como Nodos totales y GPU totaly métricas de nivel de nodo de clúster como Utilización de GPU y Espacio del sistema de archivos disponible. De manera predeterminada, el tablero muestra métricas sobre clúster completo, pero puede aplicar filtros para mostrar métricas solo sobre un nombre de host específico o una ID de GPU específica.
El Tareas El tablero es útil si desea ver la asignación de recursos y las métricas de utilización en el nivel de tareas (PyTorchJob, ReplicaSetetcétera). Por ejemplo, puede comparar la utilización de GPU mediante múltiples tareas que se ejecutan en su clúster e identificar qué tarea debe mejorarse.
También puede elegir un nivel de agregación de múltiples opciones (Espacio de nombres, Nombre de la tarea, Cápsula de tareas) y aplicar filtros (Espacio de nombres, Tipo de tarea, Nombre de la tarea, Vaina, ID de GPU). Puede usar estas capacidades de agregación y filtrado para ver las métricas en la granularidad apropiada y profundizar en el problema específico que está investigando.
El Inferencia El tablero muestra métricas específicas de la aplicación de inferencia como Solicitudes entrantes, Estado latentey Hora de primer byte (TTFB). El Inferencia El tablero es particularmente útil cuando usa clústeres de Sagemaker HyperPod para inferencia y necesita monitorear el tráfico de las solicitudes y el rendimiento de los modelos.
Instalación avanzada
El Instalación rápida La opción creará un nuevo espacio de trabajo para Prometheus y Grafana y seleccionará métricas predeterminadas. Si desea reutilizar un espacio de trabajo existente, seleccione métricas adicionales o habilite el registro de POD a Registros de Amazon CloudWatchusa el Instalación personalizada opción. Para más información, ver Amazon Sagemaker Hyperpod.
Configurar alertas
Grafana administrada por Amazon incluye acceso a un sistema de alerta actualizado que centraliza la información de alerta en una sola vista de búsqueda (en el panel de navegación, elija alertas para crear una alerta). Alertar es útil cuando desea recibir notificaciones oportunas, como cuando la utilización de GPU cae inesperadamente, cuando un uso de disco de su sistema de archivos compartidos excede el 90%, cuando múltiples instancias no están disponibles al mismo tiempo, y así sucesivamente. El panel de observabilidad Hyperpod en Grafana administrado por Amazon tiene alertas preconfiguradas para algunas de estas métricas clave. Puede crear reglas de alerta adicionales basadas en métricas o consultas y configurar múltiples canales de notificación, como correos electrónicos y mensajes de Slack. Para obtener instrucciones sobre cómo configurar alertas con mensajes Slack, consulte el Configuración de alertas de Slack para Grafana administrada por Amazon Página de Github.
El número de alertas se limita a 100 por espacio de trabajo de Grafana. Si necesita una solución más escalable, consulte el Opciones de alerta en el servicio administrado por Amazon para Prometheus.
Descripción general de alto nivel
El siguiente diagrama ilustra la arquitectura de la nueva capacidad de observabilidad del hiperpod.
Limpiar
Si desea desinstalar la función de observabilidad de SageMaker HyperPod (por ejemplo, para reconfigurarla), limpie los recursos en el siguiente orden:
- Elimine el complemento de observabilidad de Sagemaker HyperPod, ya sea usando la consola SageMaker AI o la consola de Amazon EKS.
- Elimine el espacio de trabajo de Grafana en la consola Grafana administrada por Amazon.
- Elimine el espacio de trabajo Prometheus en el servicio administrado por Amazon para la consola Prometheus.
Conclusión
Esta publicación proporcionó una descripción general y las instrucciones de uso para la observabilidad de Sagemaker Hyperpod, una función de observabilidad recientemente lanzada para Sagemaker HyperPod. Esta característica reduce el trabajo pesado involucrado en la configuración de la observabilidad del clúster y proporciona visibilidad centralizada sobre el estado de salud del clúster y las métricas de rendimiento.
Para obtener más información sobre la observabilidad de Sagemaker Hyperpod, ver Amazon Sagemaker Hyperpod. Deje sus comentarios sobre esta publicación en la sección de comentarios.
Sobre los autores
Tomonori Shimomura es un arquitecto principal de soluciones en el equipo de AI de Amazon Sagemaker, donde ofrece una consulta técnica en profundidad a los clientes de SageMaker AI y sugiere mejoras de productos al equipo de productos. Antes de unirse a Amazon, trabajó en el diseño y el desarrollo de software integrado para consolas de videojuegos, y ahora aprovecha sus habilidades en profundidad en tecnología del lado de la nube. En su tiempo libre, le gusta jugar videojuegos, leer libros y escribir software.
Matt Nightingale es un gerente de arquitecto de soluciones en el equipo de AWS WWSO Frameworks centrado en la capacitación e inferencia generativa de IA. Matt se especializa en arquitecturas de capacitación distribuida con un enfoque en el rendimiento y la confiabilidad del hardware. Matt tiene una licenciatura de la Universidad de Virginia y tiene su sede en Boston, Massachusetts.
Eric Saleh es especialista senior de Genai en AWS, centrándose en la capacitación e inferencia de modelos de base. Se está asociando con los principales equipos de modelos de Foundation y los equipos de servicio de AWS para permitir la capacitación y la inferencia distribuidas a escala en AWS y liderar las mociones conjuntas de GTM con clientes estratégicos. Antes de unirse a AWS, Eric lideró a los equipos de productos que construyeron soluciones de AI/ML Enterprise, que incluían servicios de frontera Genai para ajustar, trapo e inferencia administrada. Tiene una maestría en análisis de negocios de UCLA Anderson.
Piyush Kadam Es un gerente de producto senior en el equipo de AI de Amazon Sagemaker, donde se especializa en productos LLMOPS que capacitan a las startups y a los clientes empresariales para experimentar rápidamente y gobernar de manera eficiente los modelos fundamentales. Con una maestría en informática de la Universidad de California, Irvine, especializada en sistemas distribuidos e inteligencia artificial, Piyush aporta una experiencia técnica profunda a su papel en la configuración del futuro de los productos de IA en la nube.
Aman Shanbhag es un arquitecto de soluciones especializadas en el equipo de ML Frameworks en Amazon Web Services (AWS), donde ayuda a los clientes y socios con la implementación de soluciones de capacitación e inferencias de ML a escala. Antes de unirse a AWS, Aman se graduó de la Universidad de Rice con títulos en informática, matemáticas y emprendimiento.
Bhaskar pratap es ingeniero de software senior en el equipo de AI de Amazon Sagemaker. Le apasiona diseñar y construir sistemas elegantes que traigan aprendizaje automático a las yemas de los dedos de las personas. Además, tiene una amplia experiencia con la construcción de servicios de almacenamiento en la nube escalable.
Gopi Sekar es un líder de ingeniería para el equipo de AI de Amazon Sagemaker. Se dedica a ayudar a los clientes y a desarrollar productos que simplifiquen la adaptación del aprendizaje automático para abordar los desafíos de los clientes del mundo real.