Para seguir siendo competitivas, las empresas de todos los sectores utilizan modelos básicos (FM) para transformar sus aplicaciones. Aunque los FM ofrecen impresionantes capacidades listas para usar, lograr una verdadera ventaja competitiva a menudo requiere una profunda personalización del modelo mediante capacitación previa o ajuste. Sin embargo, estos enfoques exigen experiencia avanzada en IA, computación de alto rendimiento, acceso rápido al almacenamiento y pueden resultar prohibitivamente costosos para muchas organizaciones.

En esta publicación, exploramos cómo las organizaciones pueden abordar estos desafíos y personalizar y adaptar de manera rentable los FM mediante servicios administrados de AWS, como Trabajos de formación de Amazon SageMaker y HiperPod de Amazon SageMaker. Analizamos cómo estas poderosas herramientas permiten a las organizaciones optimizar los recursos informáticos y reducir la complejidad del entrenamiento y ajuste del modelo. Exploramos cómo puede tomar una decisión informada sobre qué servicio de Amazon SageMaker es más aplicable a sus necesidades y requisitos comerciales.

Reto empresarial

Hoy en día, las empresas enfrentan numerosos desafíos a la hora de implementar y gestionar eficazmente iniciativas de aprendizaje automático (ML). Estos desafíos incluyen escalar las operaciones para manejar datos y modelos en rápido crecimiento, acelerar el desarrollo de soluciones de aprendizaje automático y administrar infraestructuras complejas sin desviar el enfoque de los objetivos comerciales centrales. Además, las organizaciones deben navegar por la optimización de costos, mantener la seguridad y el cumplimiento de los datos y democratizar tanto la facilidad de uso como el acceso a las herramientas de aprendizaje automático entre los equipos.

Los clientes han creado sus propias arquitecturas de aprendizaje automático en máquinas básicas utilizando soluciones de código abierto como Kubernetes, Slurm y otras. Si bien este enfoque proporciona control sobre la infraestructura, la cantidad de esfuerzo necesaria para administrar y mantener la infraestructura subyacente (por ejemplo, fallas de hardware) a lo largo del tiempo puede ser sustancial. Las organizaciones a menudo subestiman la complejidad que implica integrar estos diversos componentes, mantener la seguridad y el cumplimiento, y mantener el sistema actualizado y optimizado para el rendimiento.

Como resultado, muchas empresas luchan por utilizar todo el potencial del aprendizaje automático y al mismo tiempo mantener la eficiencia y la innovación en un panorama competitivo.

Cómo puede ayudar Amazon SageMaker

Amazon SageMaker aborda estos desafíos proporcionando un servicio totalmente gestionado que agiliza y acelera todo el ciclo de vida del aprendizaje automático. Puede utilizar el conjunto completo de herramientas de SageMaker para crear y entrenar sus modelos a escala mientras descarga la administración y el mantenimiento de la infraestructura subyacente a SageMaker.

Puede utilizar SageMaker para escalar su grupo de capacitación a miles de aceleradores, con su propia elección de computación y optimizar sus cargas de trabajo para el rendimiento con Bibliotecas de formación distribuidas de SageMaker. Para la resiliencia del clúster, SageMaker ofrece capacidades de autorreparación que detectan y se recuperan automáticamente de fallas, lo que permite una capacitación FM continua durante meses con poca o ninguna interrupción y reduce el tiempo de capacitación hasta en un 40 %. SageMaker también admite marcos de aprendizaje automático populares como TensorFlow y PyTorch a través de aplicaciones administradas. contenedores prefabricados. Para aquellos que necesitan más personalización, SageMaker también permite a los usuarios incorporar sus propias bibliotecas o contenedores.

Para abordar diversos casos de uso técnico y empresarial, Amazon SageMaker ofrece dos opciones para la capacitación previa distribuida y el ajuste: trabajos de capacitación de SageMaker y SageMaker HyperPod.

Trabajos de formación de SageMaker

Los trabajos de capacitación de SageMaker ofrecen una experiencia de usuario administrada para capacitación de FM distribuida y de gran tamaño, lo que elimina el trabajo pesado indiferenciado en torno a la administración de infraestructura y la resiliencia del clúster, al tiempo que ofrece una opción de pago por uso. Los trabajos de capacitación de SageMaker activan automáticamente una distribución resiliente grupo de formaciónproporciona orquestación administrada, monitorea la infraestructura y se recupera automáticamente de fallas para una experiencia de capacitación fluida. Una vez completada la capacitación, SageMaker desactiva el clúster y se factura al cliente el tiempo neto de capacitación en segundos. Los creadores de FM pueden optimizar aún más esta experiencia utilizando Piscinas cálidas administradas por SageMakerque le permite conservar y reutilizar la infraestructura aprovisionada después de completar un trabajo de capacitación para reducir la latencia y acelerar el tiempo de iteración entre diferentes experimentos de aprendizaje automático.

Con los trabajos de capacitación de SageMaker, los creadores de FM tienen la flexibilidad de elegir el tipo de instancia adecuado que mejor se adapte a un individuo para optimizar aún más su presupuesto de capacitación. Por ejemplo, puede entrenar previamente un modelo de lenguaje grande (LLM) en un clúster P5 o ajustar un LLM de código abierto en instancias p4d. Esto permite a las empresas ofrecer una experiencia de usuario de capacitación consistente entre equipos de ML con diferentes niveles de experiencia técnica y diferentes tipos de cargas de trabajo.

Además, los trabajos de capacitación de Amazon SageMaker integran herramientas como Perfilador SageMaker para la formación de perfiles laborales, Amazon SageMaker con MLflow para gestionar experimentos de ML, Amazon CloudWatch para monitoreo y alertas, y Tablero Tensor para depurar y analizar trabajos de formación. Juntas, estas herramientas mejoran el desarrollo de modelos al ofrecer información sobre el rendimiento, realizar un seguimiento de experimentos y facilitar la gestión proactiva de los procesos de formación.

Laboratorios AI21, Instituto de Innovación Tecnológica, Altaneroy bria ai eligieron trabajos de capacitación de SageMaker para capacitar y ajustar sus FM con un costo total de propiedad reducido al descargar la orquestación de la carga de trabajo y la administración de la computación subyacente a SageMaker. Obtuvieron resultados más rápidos al centrar sus recursos en el desarrollo y la experimentación de modelos, mientras SageMaker manejaba el aprovisionamiento, la creación y la terminación de sus clústeres informáticos.

La siguiente demostración proporciona una guía paso a paso de alto nivel para utilizar los trabajos de capacitación de Amazon SageMaker.

HiperPod SageMaker

SageMaker HyperPod ofrece clústeres persistentes con un control profundo de la infraestructura, que los desarrolladores pueden usar para conectarse a través de Secure Shell (SSH) a instancias de Amazon Elastic Compute Cloud (Amazon EC2) para capacitación avanzada de modelos, administración de infraestructura y depuración. Para maximizar la disponibilidad, HyperPod mantiene un conjunto de instancias dedicadas y de repuesto (sin costo adicional para el cliente), minimizando el tiempo de inactividad para los reemplazos de nodos críticos. Los clientes pueden utilizar herramientas de orquestación familiares como Slurm o Servicio Amazon Elastic Kubernetes (Amazon EKS) y las bibliotecas creadas sobre estas herramientas para una programación de trabajos flexible y el uso compartido de computación. Además, orquestando clústeres de SageMaker HyperPod con Slurm permite que la integración de Enroot y Pyxis de NVIDIA programe rápidamente contenedores como entornos aislados sin privilegios y de alto rendimiento. El sistema operativo y la pila de software se basan en la AMI de aprendizaje profundoque están preconfigurados con NVIDIA CUDA, NVIDIA CUDNNy las últimas versiones de PyTorch y TensorFlow. HyperPod también incluye bibliotecas de capacitación distribuidas de SageMaker, que están optimizadas para la infraestructura de AWS, de modo que los usuarios puedan dividir automáticamente las cargas de trabajo de capacitación entre miles de aceleradores para una capacitación paralela eficiente.

Los creadores de FM pueden usar herramientas de aprendizaje automático integradas en HyperPod para mejorar el rendimiento del modelo, como el uso Amazon SageMaker con TensorBoard visualizar un modelo de arquitectura y abordar problemas de convergencia, mientras Depurador de Amazon SageMaker captura métricas y perfiles de entrenamiento en tiempo real. Además, la integración con herramientas de observabilidad como Información sobre contenedores de Amazon CloudWatch, Servicio administrado de Amazon para Prometheusy Grafana administrada por Amazon Ofrece información más profunda sobre el rendimiento, el estado y la utilización del clúster, lo que ahorra un valioso tiempo de desarrollo.

Este entorno de alto rendimiento y autorreparación, en el que confían clientes como Artículo8, IBM, Perplejidad IA, abrazando la cara, lumay Thomson Reutersadmite flujos de trabajo de aprendizaje automático avanzados y optimizaciones internas.

La siguiente demostración proporciona una guía paso a paso de alto nivel para utilizar Amazon SageMaker HyperPod.

Elegir la opción correcta

Para las organizaciones que requieren un control granular sobre la infraestructura de capacitación y amplias opciones de personalización, SageMaker HyperPod es la opción ideal. HyperPod ofrece configuraciones de red personalizadas, estrategias de paralelismo flexibles y soporte para técnicas de orquestación personalizadas. Se integra perfectamente con herramientas como Slurm, Amazon EKS, Enroot de Nvidia y Pyxis, y proporciona acceso SSH para una depuración en profundidad y configuraciones personalizadas.

Los trabajos de capacitación de SageMaker están diseñados para organizaciones que desean centrarse en el desarrollo de modelos en lugar de la gestión de infraestructura y prefieren la facilidad de uso con una experiencia administrada. Los trabajos de capacitación de SageMaker cuentan con una interfaz fácil de usar, configuración y escalado simplificados, manejo automático de tareas de capacitación distribuidas, sincronización integrada, puntos de control, tolerancia a fallas y abstracción de las complejidades de la infraestructura.

Al elegir entre SageMaker HyperPod y trabajos de capacitación, las organizaciones deben alinear su decisión con sus necesidades de capacitación específicas, preferencias de flujo de trabajo y nivel deseado de control sobre la infraestructura de capacitación. HyperPod es la opción preferida para quienes buscan un control técnico profundo y una amplia personalización, y los trabajos de capacitación son ideales para organizaciones que prefieren una solución optimizada y totalmente administrada.

Conclusión

Obtenga más información sobre Amazon SageMaker y la capacitación distribuida a gran escala en AWS visitando Introducción a Amazon SageMakermirando el IA generativa en Amazon SageMaker Deep Dive Seriesy explorando el impresionante entrenamiento distribuido y ejemplos-de-amazon-sagemaker Repositorios de GitHub.


Sobre los autores

Trevor Harvey es especialista principal en IA generativa en Amazon Web Services y arquitecto de soluciones profesional certificado por AWS. Trevor trabaja con los clientes para diseñar e implementar soluciones de aprendizaje automático y lidera estrategias de comercialización de servicios de IA generativa.

Kanwaljit Khurmi es arquitecto principal de soluciones generativas de IA/ML en Amazon Web Services. Trabaja con los clientes de AWS para brindarles orientación y asistencia técnica, ayudándolos a mejorar el valor de sus soluciones cuando utilizan AWS. Kanwaljit se especializa en ayudar a los clientes con aplicaciones de aprendizaje automático y en contenedores.

Mirón Perel es director principal de desarrollo empresarial de aprendizaje automático en Amazon Web Services. Miron asesora a empresas de IA generativa en la construcción de sus modelos de próxima generación.

Guillaume Mangeot Es arquitecto senior de soluciones especializado en WW GenAI en Amazon Web Services con más de una década de experiencia en informática de alto rendimiento (HPC). Con experiencia multidisciplinaria en matemáticas aplicadas, lidera el diseño de arquitectura altamente escalable en campos de vanguardia como GenAI, ML, HPC y almacenamiento, en varios sectores verticales que incluyen petróleo y gas, investigación, ciencias biológicas y seguros.