Impulsar la innovación a escala: cómo AWS está abordando los desafíos de infraestructura de IA

A medida que la IA generativa continúa transformando la forma en que las empresas operan, y desarrollan nuevas innovaciones netas, las demandas de infraestructura de capacitación y la implementación de modelos de IA han crecido exponencialmente. Los enfoques de infraestructura tradicionales están luchando por mantener el ritmo de los requisitos computacionales actuales, las demandas de la red y las necesidades de resiliencia de las cargas de trabajo modernas de IA.

En AWS, también estamos viendo una transformación en todo el panorama tecnológico a medida que las organizaciones pasan de proyectos de IA experimentales a implementaciones de producción a escala. Este cambio exige infraestructura que pueda ofrecer un rendimiento sin precedentes mientras mantiene la seguridad, la confiabilidad y la rentabilidad. Por eso hemos hecho Inversiones significativas en innovaciones de redes, recursos de cómputo especializados e infraestructura resistente Eso está diseñado específicamente para cargas de trabajo de IA.

Acelerar la experimentación y entrenamiento del modelo con Sagemaker AI

La puerta de entrada a nuestra estrategia de infraestructura de IA es Amazon Sagemaker AIque proporciona herramientas y flujos de trabajo especialmente diseñados para optimizar la experimentación y acelerar el ciclo de vida del desarrollo del modelo de extremo a extremo. Una de nuestras innovaciones clave en esta área es Amazon Sagemaker Hyperpodque elimina el trabajo pesado indiferenciado involucrado en la construcción y optimización de la infraestructura de IA.

En esencia, Sagemaker HyperPod representa un cambio de paradigma al ir más allá del énfasis tradicional en el poder computacional en bruto hacia la gestión inteligente y adaptativa de los recursos. Viene con capacidades de resiliencia avanzadas para que los grupos puedan recuperarse automáticamente de las fallas de capacitación modelo en la pila completa, al tiempo que divide automáticamente las cargas de trabajo de capacitación en miles de aceleradores para el procesamiento paralelo.

El impacto de la confiabilidad de la infraestructura en la eficiencia de capacitación es significativo. En un clúster de 16,000 chips, por ejemplo, cada disminución del 0.1% en la tasa de falla del nodo diario mejora la productividad del clúster en un 4,2%, traduciendo a posibles ahorros de hasta $ 200,000 por día para un grupo de GPU de 16,000 H100. Para abordar este desafío, recientemente presentamos Punto de control de nivel administrado en HyperPodAprovechando la memoria de la CPU para el almacenamiento de punto de control de alto rendimiento con replicación automática de datos. Esta innovación ayuda a ofrecer tiempos de recuperación más rápidos y es una solución rentable en comparación con los enfoques tradicionales basados ​​en disco.

Para aquellos que trabajan con los modelos más populares de hoy, HyperPod también ofrece más 30 recetas de entrenamiento de modelo curadoincluido el apoyo para OPERAI GPT-OSS, Deepseek r1Llama, Mistral y Mixtral. Estas recetas automatizan los pasos clave como la carga de conjuntos de datos de capacitación, la aplicación de técnicas de capacitación distribuida y la configuración de sistemas para el punto de control y la recuperación de las fallas de infraestructura. Y con el soporte de herramientas populares como Jupyter, VLLM, Langchain y MLFlow, puede administrar aplicaciones contenedorizadas y clústeres de escala a medida que escala las cargas de trabajo de capacitación e inferencia de su modelo de base.

Superar el cuello de botella: rendimiento de la red

A medida que las organizaciones escalan sus iniciativas de IA de la prueba de concepto a la producción, el rendimiento de la red a menudo se convierte en el cuello de botella crítico que puede hacer o romper el éxito. Esto es particularmente cierto cuando se capacita a modelos de idiomas grandes, donde incluso los retrasos menores en la red pueden agregar días o semanas al tiempo de entrenamiento y aumentar significativamente los costos. En 2024, la escala de nuestras inversiones en redes no tenía precedentes; Instalamos más de 3 millones de enlaces de red para admitir nuestro ÚLTIMA FEACA DE NETA AI o infraestructura de 10p10U. Apoyando a más de 20,000 GPU mientras entregan 10s de petabits de ancho de banda con menos de 10 microsegundos de latencia entre servidores, esta infraestructura permite a las organizaciones capacitar modelos masivos que antes eran poco prácticos o imposiblemente caros. Poner esto en perspectiva: lo que solía llevar semanas ahora se puede lograr en días, lo que permite a las empresas iterar más rápido y llevar innovaciones de IA a los clientes antes.

En el corazón de esta arquitectura de red se encuentra nuestro protocolo revolucionario de enrutamiento impulsado por la intención (SIDR) y Adaptador de tela elástica (EFA). SIDR actúa como un sistema inteligente de control de tráfico que puede redirigir los datos instantáneamente cuando detecta la congestión o las fallas de la red, respondiendo en menos de un segundo, diablos más rápido que los enfoques de red distribuidos tradicionales.

Computación acelerada para AI

Las demandas computacionales de las cargas de trabajo modernas de IA están empujando la infraestructura tradicional a sus límites. Ya sea que esté ajustando un modelo de base para su caso de uso específico o capacitar a un modelo desde cero, tener la infraestructura de cómputo correcta no se trata solo de una potencia cruda, se trata de tener la flexibilidad de elegir la solución más rentable y eficiente para sus necesidades específicas.

AWS ofrece la selección más amplia de las opciones informáticas aceleradas de la industria, ancladas por nuestras dos Asociación de larga data con NVIDIA y nuestras chips de entrenamiento AWS personalizados. El lanzamiento de este año de Instancias P6 presentado Nvidia Blackwell Chips Demuestra nuestro compromiso continuo de llevar la última tecnología de GPU a nuestros clientes. Las instancias P6-B200 proporcionan 8 GPU NVIDIA Blackwell con 1.4 TB de memoria GPU de alto ancho de banda y hasta 3.2 Tbps de redes EFAV4. En pruebas preliminares, clientes como JetBrains ya han visto más del 85% de tiempos de entrenamiento más rápidos en P6-B200 sobre instancias P5EN basadas en H200 en sus tuberías ML.

Para hacer que la IA sea más asequible y accesible, también desarrollamos AWS Entreniumnuestro chip AI personalizado diseñado específicamente para ML de trabajo. Utilizando una arquitectura de matriz sistólica única, Entrenium crea tuberías informáticas eficientes que reducen las demandas de ancho de banda de memoria. Para simplificar el acceso a esta infraestructura, Bloques de capacidad EC2 para ML también le permite reservar instancias de cómputo aceleradas dentro de EC2 Ultraclusters Por hasta seis meses, brindando a los clientes acceso predecible al cálculo acelerado que necesitan.

Preparándose para las innovaciones del mañana, hoy

A medida que AI continúa transformando todos los aspectos de nuestras vidas, una cosa está clara: la IA es tan buena como la base sobre la que se construye. En AWS, estamos comprometidos a ser esa base, entregando la seguridad, la resistencia y la innovación continua necesaria para la próxima generación de avances de IA. Desde nuestro revolucionario tejido de red 10p10u hasta chips capacitados personalizados, desde ultraservadores P6E-GB200 hasta las capacidades de resiliencia avanzadas de Sagemaker HyperPod, Estamos permitiendo que las organizaciones de todos los tamaños empujen los límites de lo que es posible con AI. Estamos emocionados de ver lo que nuestros clientes construirán a continuación en AWS.


Sobre el autor

Barry Cooks es un veterano global de tecnología empresarial con 25 años de experiencia liderando equipos en computación en la nube, diseño de hardware, microservicios de aplicaciones, inteligencia artificial y más. Como vicepresidente de tecnología en Amazon, es responsable de las abstracciones de cálculo (contenedores, sin servidor, VMware, Micro-VMS), experimentación cuántica, computación de alto rendimiento y capacitación de IA. Supervisa los servicios de Key AWS que incluyen AWS Lambda, Amazon Elastic Container Service, Amazon Elastic Kubernetes y Amazon SageMaker. Barry también lidera las iniciativas responsables de la IA en AWS, promoviendo el desarrollo seguro y ético de la IA como una fuerza para el bien. Antes de unirse a Amazon en 2022, Barry se desempeñó como CTO en Digitalocean, donde guió a la organización a través de su exitosa salida a bolsa. Su carrera también incluye roles de liderazgo en VMware y Sun Microsystems. Barry posee una licenciatura en informática de la Universidad de Purdue y una EM en informática de la Universidad de Oregón.