Hoy, estamos entusiasmados de anunciar el lanzamiento del contenedor V15 de Amazon SageMaker Large Model Inferle V15, alimentado por VLLM 0.8.4 con soporte para el motor VLLM V1. Esta versión ahora es compatible con los últimos modelos de código abierto, como Meta’s Llama 4 Models Scout and Maverick, Gemma 3 de Google, Qwen de Alibaba, AI Mistral, Deepseek-R y muchos más. Amazon Sagemaker AI continúa evolucionando su IA generativa capacidades de inferencia para satisfacer las crecientes demandas en el rendimiento y el soporte del modelo para modelos de base (FMS).
Esta versión introduce mejoras de rendimiento significativas, una compatibilidad del modelo ampliada con la multimodalidad (es decir, la capacidad de comprender y analizar el texto a texto, imágenes a texto y datos de texto a imágenes), y proporciona una integración incorporada con VLLM para ayudarlo a implementar y servir sin problemas modelos de idiomas grandes (LLMS) con el rendimiento más alto a escala.
¿Qué hay de nuevo?
LMI V15 trae varias mejoras que mejoran el rendimiento, el latencia y la usabilidad:
- Un modo Async que se integra directamente con AsynCllMEngine de VLLM para mejorar el manejo de solicitudes. Este modo crea un bucle de fondo más eficiente que procesa continuamente las solicitudes entrantes, lo que le permite manejar múltiples solicitudes concurrentes y salidas de transmisión con mayor rendimiento que la implementación anterior de lote de rodillos en V14.
- Soporte para el motor VLLM V1, que ofrece un rendimiento de hasta 111% más alto en comparación con el motor V0 anterior para modelos más pequeños a alta concurrencia. Esta mejora del rendimiento proviene de una sobrecarga de CPU reducida, rutas de ejecución optimizadas y una utilización de recursos más eficiente en la arquitectura V1. LMI V15 admite los motores V1 y V0, siendo V1 el valor predeterminado. Si necesita usar V0, puede usar el motor V0 especificando
VLLM_USE_V1=0. El motor de VLLM V1 también viene con una rearquitectura de núcleo del motor de servicio con programación simplificada, almacenamiento en caché de prefijo de ida y vuelta cero, inferencia limpia de tensor-paralelo, preparación de entrada eficiente y optimizaciones avanzadas con antorch.compile y flash Atention 3. Para obtener más información, consulte el blog vllm. - Soporte de esquema API ampliado con tres opciones flexibles para permitir una integración perfecta con aplicaciones construidas sobre patrones de API populares:
- Formato de mensaje compatible con la API de finalización de chat de OpenAI.
- Formato de finalización de OpenAI.
- Esquema de inferencia de generación de texto (TGI) para admitir la compatibilidad hacia atrás con modelos más antiguos.
- Soporte multimodal, con capacidades mejoradas para modelos en idioma de visión que incluyen optimizaciones como el almacenamiento en caché de prefijo multimodal
- Soporte incorporado para llamadas de funciones y llamadas de herramientas, habilitando flujos de trabajo sofisticados basados en agentes.
Soporte de modelo mejorado
LMI V15 admite una lista en expansión de modelos de última generación, incluidos los últimos lanzamientos de proveedores de modelos líderes. El contenedor ofrece compatibilidad lista para implementar para: pero no se limita a:
- LLAMA 4 -Llama-4-Scout-17B-16E y Llama-4-Maverick-17B-128E-Instructo
- Gemma 3 – Los modelos livianos y eficientes de Google, conocidos por su fuerte rendimiento a pesar del tamaño más pequeño
- Qwen 2.5 -Modelos avanzados de Alibaba que incluyen QWQ 2.5 y QWEN2-VL con capacidades multimodales
- Modelos de IA Mistral -Modelos de alto rendimiento de la IA Mistral que ofrecen escala eficiente y capacidades especializadas
- Deepseek-r1/v3 – Modelos de razonamiento de última generación
Cada familia modelo se puede implementar utilizando el contenedor LMI V15 especificando la ID del modelo apropiada, por ejemplo, Meta-Llama/LLAMA-4-Scout-17B-16E, y los parámetros de configuración como variables de entorno, sin requerir un código de optimización o código de optimización personalizado.
Puntos de referencia
Nuestros puntos de referencia demuestran las ventajas de rendimiento del motor V1 de LMI V15 en comparación con las versiones anteriores:
| Modelo | Tamaño por lotes | Tipo de instancia | LMI V14 RESULTADO [tokens/s] (Motor V0) | Rendimiento de LMI V15 [tokens/s] (Motor V1) | Mejora | |
| 1 | Deepseek-ai/Deepseek-r1-Distill-llama-70b | 128 | P4D.24XLARGE | 1768 | 2198 | 24% |
| 2 | Meta-llama/Llama-3.1-8b-Instructo | 64 | ml.g6e.2xlarge | 1548 | 2128 | 37% |
| 3 | Mistralai/Mistral-7B-Instructo-V0.3 | 64 | ml.g6e.2xlarge | 942 | 1988 | 111% |
Deepseek-r1 Llama 70b para varios niveles de concurrencia
Llama 3.1 Instruir 8B para varios niveles de concurrencia
Mistral 7b para varios niveles de concurrencia
El motor Async en LMI V15 muestra fuerza en escenarios de alta concurrencia, donde múltiples solicitudes simultáneas se benefician del manejo de solicitudes optimizadas. Estos puntos de referencia destacan que el motor V1 en modo Async ofrece entre 24% y 111% de rendimiento más alto en comparación con LMI V14 utilizando lotes de rodadura en los modelos probados en escenarios de alta concurrencia para un tamaño de lote de 64 y 128. Sugerimos tener en cuenta las siguientes consideraciones para un rendimiento óptimo:
- Los tamaños de lotes más altos aumentan la concurrencia, pero vienen con una compensación natural en términos de latencia
- Los tamaños de lotes de 4 y 8 proporcionan la mejor latencia para la mayoría de los casos de uso
- Los tamaños de lotes de hasta 64 y 128 logran un rendimiento máximo con compensaciones de latencia aceptables
Formatos API
LMI V15 admite tres esquemas de API: completaciones de chat de OpenAI, finalizaciones de OpenAI y TGI.
- Finalización de chat – El formato de mensaje es compatible con la API de finalización de chat de OpenAI. Use este esquema para la llamada de herramientas, el razonamiento y los casos de uso multimodal. Aquí hay una muestra de la invocación con la API de mensajes:
- Formato de finalización de OpenAI – El punto final de la API de finalización ya no recibe actualizaciones:
- TGI – Admite compatibilidad con modelos más antiguos:
Comenzando con LMI V15
Comenzar con LMI V15 es sin problemas, y puede implementar con LMI V15 en solo unas pocas líneas de código. El contenedor está disponible a través de Registro de contenedores elásticos de Amazon (Amazon ECR), y las implementaciones se pueden administrar a través de los puntos finales de Sagemaker AI. Para implementar modelos, debe especificar la ID de modelo de abrazadera, el tipo de instancia y las opciones de configuración como variables de entorno.
Para un rendimiento óptimo, recomendamos las siguientes instancias:
- Llama 4 Scout: Ml.P5.48xLarge
- Deepseek R1/V3: ml.p5e.48xLarge
- Qwen 2.5 VL-32B: Ml.G5.12xLarge
- Qwen QWQ 32B: ML.G5.12XLARGE
- Mistral grande: ml.g6e.48xLarge
- GEMMA3-27B: ML.G5.12XLARGE
- Llama 3.3-70b: ml.p4d.24xlarge
Para implementar con LMI V15, siga estos pasos:
- Clonar el computadora portátil a tu Amazon Sagemaker Studio cuaderno o al código Visual Studio (VS Código). Luego puede ejecutar el cuaderno para hacer la configuración inicial e implementar el modelo desde el repositorio de la cara abrazada hasta el punto final Sagemaker AI. Caminamos a través de los bloqueos clave aquí.
- LMI V15 mantiene el mismo patrón de configuración que las versiones anteriores, utilizando variables de entorno en el formulario
OPTION_<CONFIG_NAME>. Este enfoque constante hace que sea sencillo que los usuarios familiarizados con versiones LMI anteriores migren a V15.HF_MODEL_IDEstablece la identificación del modelo de la cara abrazada. También puedes descargar modelo de Servicio de almacenamiento simple de Amazon (Amazon S3).HF_TOKENEstablece el token para descargar el modelo. Esto se requiere para modelos cerrados como Llama-4OPTION_MAX_MODEL_LEN. Esta es la longitud del contexto del modelo MAX.OPTION_MAX_ROLLING_BATCH_SIZEEstablece el tamaño del lote para el modelo.OPTION_MODEL_LOADING_TIMEOUTEstablece el valor de tiempo de espera para Sagemaker para cargar el modelo y ejecutar las verificaciones de salud.SERVING_FAIL_FAST=true. Recomendamos configurar este indicador porque permite a Sagemaker reiniciar con gracia el contenedor cuando se produce un error de motor irracional.OPTION_ROLLING_BATCH= disableDesactiva la implementación del lote de rodillos de LMI, que fue la oferta predeterminada en LMI V14. Recomendamos usar async en su lugar como esta última implementación y proporciona un mejor rendimientoOPTION_ASYNC_MODE=truehabilita el modo async.OPTION_ENTRYPOINTProporciona el punto de entrada para las integraciones Async de VLLM
- Establezca el último contenedor (en este ejemplo que utilizamos
0.33.0-lmi15.0.0-cu128), Región de AWS (us-east-1), y cree un artefacto modelo con todas las configuraciones. Para revisar la última versión de contenedor disponible, ver Imágenes de contenedores de aprendizaje profundo disponibles. - Implementar el modelo al punto final utilizando
model.deploy(). - Invoca el modelo, la inferencia de Sagemaker proporciona dos API para invocar el modelo-
InvokeEndpointyInvokeEndpointWithResponseStream. Puede elegir cualquiera de las opciones según sus necesidades.
Para ejecutar una inferencia multimodal con Llama-4 Scout, ver el computadora portátil Para la muestra de código completo para ejecutar solicitudes de inferencia con imágenes.
Conclusión
Amazon Sagemaker LMI Container V15 representa un paso adelante significativo en las grandes capacidades de inferencia de modelos. Con el nuevo motor VLLM V1, el modo de funcionamiento Async, el soporte del modelo ampliado y el rendimiento optimizado, puede implementar LLM de vanguardia con mayor rendimiento y flexibilidad. Las opciones configurables del contenedor le brindan la flexibilidad para ajustar las implementaciones para sus necesidades específicas, ya sea optimización de latencia, rendimiento o costo.
Le recomendamos que explore este lanzamiento para implementar sus modelos de IA generativos.
Mira el Proporcionado cuadernos de ejemplo Para comenzar a implementar modelos con LMI V15.
Sobre los autores
Vivek Gangasani es un arquitecto de soluciones especializadas principales para la inferencia en AWS. Ayuda a las empresas de IA generativas emergentes a construir soluciones innovadoras utilizando servicios de AWS y cómputo acelerado. Actualmente, se centra en desarrollar estrategias para ajustar y optimizar el rendimiento de inferencia de modelos de idiomas grandes. En su tiempo libre, Vivek disfruta de caminar, ver películas y probar diferentes cocinas.
Siddharth Venkatesan es ingeniero de software en AWS Deep Learning. Actualmente se centra en construir soluciones para una gran inferencia de modelos. Antes de AWS, trabajó en Amazon Grocery Org Building New Pague Functions para clientes en todo el mundo. Fuera del trabajo, le gusta esquiar, el aire libre y ver deportes.
Felipe López es un arquitecto senior de soluciones especializadas de IA/ML en AWS. Antes de unirse a AWS, Felipe trabajó con GE Digital y SLB, donde se centró en los productos de modelado y optimización para aplicaciones industriales.
Banu nagasundaram Lidera las asociaciones de productos, ingeniería y estratégicos para Amazon Sagemaker JumpStart, el aprendizaje automático de Sagemaker y el centro generativo de IA. Le apasiona construir soluciones que ayuden a los clientes a acelerar su viaje de IA y desbloquear el valor comercial.
Dmitry Soldatkin es un arquitecto senior de soluciones de IA/ML en Amazon Web Services (AWS), que ayuda a los clientes a diseñar y construir soluciones de IA/ML. El trabajo de Dmitry cubre una amplia gama de casos de uso de ML, con un interés principal en la IA generativa, el aprendizaje profundo y la escala de ML en toda la empresa. Ha ayudado a empresas en muchas industrias, incluidos seguros, servicios financieros, servicios públicos y telecomunicaciones. Puedes conectarte con dmitry en LinkedIn.