Presentación del almacenamiento en caché de contenedores en Amazon SageMaker AI para un escalado de modelos más rápido

Hoy, nos complace anunciar el almacenamiento en caché de imágenes de contenedores para la inferencia de IA de Amazon SageMaker, el próximo gran avance en nuestro proceso de optimización de escalamiento más rápido. Esto acelera la latencia de un extremo a otro hasta 2 veces para los modelos de IA generativa durante eventos de escalamiento horizontal.

A lo largo de los años, Amazon SageMaker AI ha seguido reduciendo la latencia en estas etapas de escalamiento: detectando la necesidad de escalamiento horizontal, aprovisionando instancias, descargando imágenes de contenedores, obteniendo pesos de modelos e iniciando contenedores. Amazon SageMaker AI introdujo previamente métricas de Amazon CloudWatch subminutos para ayudar a detectar necesidades de escalamiento horizontal hasta 6 veces más rápido que los mecanismos tradicionales y lanzó una solución de almacenamiento en caché de datos de componentes de inferencia que almacena imágenes de contenedores y artefactos de modelos en instancias que ya se están ejecutando. Este enfoque redujo la latencia de inicio en frío para escalar las operaciones de componentes de inferencia que reutilizan instancias existentes. Juntas, estas características mejoraron la capacidad de respuesta del escalado automático para escenarios en los que se puede colocar un componente de inferencia en una instancia ya aprovisionada y utilizar la memoria caché existente.

Con el almacenamiento en caché de contenedores, Amazon SageMaker AI extiende estas mejoras de escala a escenarios donde se deben lanzar nuevas instancias. El almacenamiento en caché de contenedores elimina la latencia de descarga de imágenes de contenedores incluso cuando se deben lanzar nuevas instancias, el escenario en el que nuestro anterior almacenamiento en caché basado en el almacén de instancias no podía ayudar. En esta publicación, mostramos cómo el almacenamiento en caché de contenedores soluciona el cuello de botella en la descarga de imágenes de contenedores y demostramos las mejoras de rendimiento que puede esperar.

El desafío de escalar: cuándo deben lanzarse nuevas instancias

El siguiente diagrama muestra los pasos durante el escalado de instancia cuando se lanza una nueva instancia.

Aprovisionamiento de instancias: se lanza una nueva instancia de Amazon Elastic Compute Cloud (Amazon EC2). Extracción de imagen del contenedor: la imagen del contenedor se extrae de Amazon Elastic Container Registry (Amazon ECR). Descarga de artefactos del modelo: los pesos de los modelos se obtienen de Amazon Simple Storage Service (Amazon S3). Inicio del contenedor y comprobaciones de estado: el servidor de inferencia se inicializa, carga el modelo en la memoria y pasa las comprobaciones de preparación.

Nota: La descarga de la imagen del contenedor y la descarga del artefacto del modelo se realizan en paralelo.

La descarga de imágenes de contenedores suele ser un factor importante en la latencia de escalamiento horizontal de los endpoints, especialmente para las cargas de trabajo de IA generativa. Estas cargas de trabajo utilizan contenedores grandes como SageMaker Large Model Inference (LMI, con tecnología de vLLM), vLLM y NVIDIA Triton. El almacenamiento en caché del contenedor elimina el paso de extracción de la imagen del contenedor durante los eventos de escalamiento horizontal de nuevas instancias para los patrones de puntos finales comunes:

Puntos finales de modelo único: el escalamiento se logra lanzando instancias adicionales, cada una de las cuales aloja su propia copia del modelo. Puntos finales basados en componentes de inferencia: el escalado agrega nuevas instancias solo cuando ninguna instancia existente tiene capacidad suficiente para albergar un componente de inferencia adicional.

Cómo el almacenamiento en caché de contenedores elimina el cuello de botella en la extracción de imágenes

La siguiente imagen muestra cómo cambia la línea de tiempo de escalado para el modelo Qwen3-8B (16 GB) en una instancia ml.g6.2xlarge usando el contenedor LMI (17,7 GB comprimidos).

Comparación de la línea de tiempo que muestra la latencia de escala antes y después del almacenamiento en caché del contenedor para el modelo Qwen3-8B en una instancia ml.g6.2xlarge

Antes del almacenamiento en caché de contenedores:

Extraiga la imagen del contenedor de Amazon ECR: 333 segundos. Descarga del artefacto del modelo desde Amazon S3: 168 segundos.

La extracción de imágenes y la descarga de modelos se ejecutaron en paralelo, por lo que la latencia de inicio de un extremo a otro fue de 525 segundos.

Después del almacenamiento en caché del contenedor:

La imagen del contenedor ya está almacenada en caché localmente: 0 segundos Descarga del artefacto del modelo: 77 segundos. Con la imagen del contenedor almacenada previamente en caché, la descarga del modelo ya no compite por el ancho de banda de la red con la extracción de la imagen, lo que reduce su latencia de 168 segundos a 77 segundos.

La latencia de inicio de un extremo a otro se reduce a 258 segundos.

Resultado: el almacenamiento en caché del contenedor elimina la extracción de imágenes de la ruta de escalamiento horizontal y elimina la contención del ancho de banda de la red, lo que reduce la latencia de inicio de un extremo a otro de 525 segundos a 258 segundos, aproximadamente una mejora del 51 por ciento. Si una imagen almacenada en caché no está disponible, SageMaker AI automáticamente vuelve a extraerla de Amazon ECR, por lo que el escalado nunca se bloquea.

Cómo funciona el almacenamiento en caché de contenedores con componentes de inferencia

El almacenamiento en caché de contenedores funciona con componentes de inferencia. Cuando implementa varios componentes de inferencia, la caché almacena cada imagen de contenedor única a la que hacen referencia sus componentes de inferencia.

Seguridad y aislamiento de inquilinos

El almacenamiento en caché de imágenes de contenedores mantiene las mismas garantías estrictas de aislamiento de inquilinos que ofrece SageMaker AI en la actualidad. Cada caché está dedicada a un único punto final de cliente y no se comparte entre cuentas o puntos finales de AWS. Cuando un cliente elimina su punto final de SageMaker AI, el caché de imágenes asociado se elimina automáticamente.

Resultados de rendimiento

La siguiente tabla muestra los resultados observados de clientes de acceso temprano que probaron el almacenamiento en caché de contenedores:

Instancia del cliente Tamaño de imagen Tamaño del modelo P50 Antes (seg) P50 Después (seg) P50 Mejora 1 Cliente 1 ml.g4dn.xlarge 15,7 GB 0 GB 381 134 -65% 2 Cliente 2 ml.g5.2xlarge 17,5 GB 5,8 GB 346 164 -52% 3 Cliente 3 ml.g5.xlarge 10,6 GB 6,5GB 346 216 -38%

La magnitud de la mejora depende del tipo de instancia, el tamaño de la imagen del contenedor y el tamaño del modelo del punto final.

Combinando las tres optimizaciones de escalado automático

Para obtener la respuesta de escalado más rápida, puede combinar las tres capacidades introducidas en nuestra serie de optimización de escalado automático. Cada uno elimina una fuente diferente de retraso de la ruta de escalamiento horizontal.

Optimización Qué mejora Cómo habilitar 1 Mejora de métricas en menos de un minuto Desencadena las necesidades de ampliación 6 veces más rápido Configurar una política de seguimiento de objetivos ConcurrentRequestsPerModel o ConcurrentRequestsPerCopy 2 Caché de datos para puntos finales basados en componentes de inferencia Reduce el tiempo de extracción de imágenes al agregar copias de modelos en instancias existentes No se requiere suscripción voluntaria: el almacenamiento en caché de contenedores se activa automáticamente para puntos finales basados en componentes de inferencia en tipos de instancias de acelerador admitidos. 3 Caché de imágenes de contenedor Elimina el tiempo de extracción de imágenes al lanzar nuevas instancias. No se requiere suscripción voluntaria: el almacenamiento en caché de contenedores se activa automáticamente para cualquier punto final que utilice tipos de instancias de acelerador compatibles.

En conjunto, estas optimizaciones eliminan las principales fuentes de latencia de escalamiento horizontal. Las métricas de menos de un minuto detectan la demanda 6 veces más rápido, lo que genera decisiones de escala en segundos en lugar de minutos. Las dos capas de almacenamiento en caché se complementan entre sí según diferentes ejes de escala. Cuando se coloca una nueva copia del componente de inferencia en una instancia existente, el almacenamiento en caché de datos elimina la latencia de descarga de imágenes y modelos. Cuando el escalado requiere el lanzamiento de una nueva instancia, el almacenamiento en caché de imágenes del contenedor proporciona cero tiempo de extracción de imágenes en el lanzamiento.

Configuraciones admitidas

El almacenamiento en caché de contenedores es compatible con tipos de instancias de aceleradores en puntos finales de inferencia de SageMaker. Funciona con cualquier imagen de contenedor alojada en Amazon ECR, incluidas imágenes personalizadas. No se requieren modificaciones en su contenedor.

El almacenamiento en caché de contenedores está disponible en todas las regiones comerciales de AWS donde se admite la inferencia de IA de SageMaker. Para obtener la lista más reciente de tipos de instancias y regiones admitidos, consulte la documentación de Amazon SageMaker AI.

Conclusión

Con el nuevo almacenamiento en caché de contenedores, Amazon SageMaker AI proporciona un conjunto de optimizaciones de escalado automático diseñadas específicamente para la inferencia de IA generativa.

Las métricas de menos de un minuto permiten que el escalado automático detecte cambios de carga hasta 6 veces más rápido que las métricas estándar de CloudWatch de 1 minuto. Escalado más rápido en instancias existentes: el almacenamiento en caché del contenedor del almacén de instancias elimina la latencia de extracción de imágenes y descarga de modelos al reutilizar instancias en ejecución. Escalado más rápido en nuevas instancias (este lanzamiento): la caché del contenedor elimina la extracción de imágenes al lanzar nuevas instancias, lo que reduce la latencia de escalado de un extremo a otro hasta en un 50 por ciento.

Juntas, estas características cambian la experiencia de escalado de IA de SageMaker desde minutos de latencia de arranque en frío hasta respuestas rápidas y predecibles. Sus aplicaciones de IA generativa ahora pueden manejar picos de tráfico con confianza, manteniendo una baja latencia y una alta disponibilidad para los usuarios finales.

Para comenzar, implemente sus cargas de trabajo de IA generativa en un punto final de inferencia de IA de SageMaker en un tipo de instancia de acelerador compatible. El almacenamiento en caché de contenedores se activa automáticamente. Para obtener más información sobre los tipos de instancias y las regiones admitidas, consulte la documentación de Amazon SageMaker AI. También puede probar la Consola de administración de AWS para crear o actualizar sus puntos finales.

De cara al futuro, seguiremos invirtiendo en reducir aún más la latencia de escalado. Manténganse al tanto.

Sobre los autores

Mona Mona

Actualmente, Mona trabaja como arquitecta de soluciones especialista sénior en IA/ML en Amazon. Anteriormente trabajó en Google como especialista líder en IA generativa. Es autora publicada de dos libros: Procesamiento del lenguaje natural con servicios de IA de AWS: derivación de conocimientos estratégicos a partir de datos no estructurados con Amazon Textract y Amazon Comprehend y Guía de estudio de aprendizaje automático profesional certificado por Google Cloud. Es autora de 19 blogs sobre IA/ML y tecnología en la nube y coautora de un artículo de investigación sobre CORD19 Neural Search que ganó un premio al Mejor Trabajo de Investigación en la prestigiosa conferencia AAAI (Asociación para el Avance de la Inteligencia Artificial). Puede conectar a Mona en Linkedin

Kunal Shah

Kunal es ingeniero senior de desarrollo de software en Amazon Web Services. Su pasión radica en implementar modelos de aprendizaje automático (ML) para la inferencia, y lo impulsa un fuerte deseo de aprender y contribuir al desarrollo de herramientas impulsadas por IA que puedan crear un impacto en el mundo real. Más allá de sus actividades profesionales, le gusta ver películas históricas, viajar y practicar deportes de aventura.

Alwin (Qiyun) Zhao

Alwin (Qiyun) Zhao es gerente de desarrollo de software en el equipo de Amazon SageMaker Inference, donde crea una infraestructura de inferencia administrada que permite a los clientes implementar cargas de trabajo de ML y GenAI de manera confiable a escala. Dirige los esfuerzos de ingeniería en la optimización del rendimiento a nivel de sistema, la gestión de la capacidad del acelerador, las barreras de seguridad de implementación de modelos y el cumplimiento de la seguridad, garantizando que los clientes logren una alta disponibilidad para sus cargas de trabajo de inferencia.

Dmitry Soldatkin

Dmitry es líder mundial en arquitectura de soluciones especializadas, SageMaker Inference en AWS. Lidera los esfuerzos para ayudar a los clientes a diseñar, construir y optimizar soluciones GenAI y AI/ML en toda la empresa. Su trabajo abarca una amplia gama de casos de uso de ML, con un enfoque principal en la IA generativa, el aprendizaje profundo y la implementación de ML a escala. Se ha asociado con empresas de todos los sectores, incluidos servicios financieros, seguros y telecomunicaciones. Puedes conectarte con Dmitry en LinkedIn.

Presentación del almacenamiento en caché de contenedores en Amazon SageMaker AI para un escalado de modelos más rápido

ByEquipo de 7 minutos

El desafío de escalar: cuándo deben lanzarse nuevas instancias

Cómo el almacenamiento en caché de contenedores elimina el cuello de botella en la extracción de imágenes

Cómo funciona el almacenamiento en caché de contenedores con componentes de inferencia

Seguridad y aislamiento de inquilinos

Resultados de rendimiento

Combinando las tres optimizaciones de escalado automático

Configuraciones admitidas

Conclusión

Sobre los autores

Mona Mona

Kunal Shah

Alwin (Qiyun) Zhao

Dmitry Soldatkin

By Equipo de 7 minutos

Related Post

Profundizando en la sostenibilidad financiera de la IA

El agente Hermes agrega subagentes asincrónicos, por lo que el trabajo delegado ya no bloquea el chat principal

Conozca Atoms: una herramienta de codificación de Vibe que utiliza agentes de inteligencia artificial para crear, implementar y comercializar su aplicación (sin código)

You missed

Los estudiantes de ELIS celebran el Día Mundial de los Océanos con limpieza de playas y proyectos de conservación marina – The Leader

Presentación del almacenamiento en caché de contenedores en Amazon SageMaker AI para un escalado de modelos más rápido

Una pequeña ascidia antártica alberga una bacteria que podría matar las células de melanoma y ayudar a desarrollar tratamientos contra el cáncer

La aplicación lenta de la FDA mató animales y retuvo el protector solar