Supercargue su rendimiento de LLM con Amazon Sagemaker Gran Modelo Inferteer V15

Hoy, estamos entusiasmados de anunciar el lanzamiento del contenedor V15 de Amazon SageMaker Large Model Inferle V15, alimentado por VLLM 0.8.4 con soporte para el motor VLLM V1. Esta versión ahora es compatible con los últimos modelos de código abierto, como Meta’s Llama 4 Models Scout and Maverick, Gemma 3 de Google, Qwen de Alibaba, AI Mistral, Deepseek-R y muchos más. Amazon Sagemaker AI continúa evolucionando su IA generativa capacidades de inferencia para satisfacer las crecientes demandas en el rendimiento y el soporte del modelo para modelos de base (FMS).

Esta versión introduce mejoras de rendimiento significativas, una compatibilidad del modelo ampliada con la multimodalidad (es decir, la capacidad de comprender y analizar el texto a texto, imágenes a texto y datos de texto a imágenes), y proporciona una integración incorporada con VLLM para ayudarlo a implementar y servir sin problemas modelos de idiomas grandes (LLMS) con el rendimiento más alto a escala.

¿Qué hay de nuevo?

LMI V15 trae varias mejoras que mejoran el rendimiento, el latencia y la usabilidad:

Un modo Async que se integra directamente con AsynCllMEngine de VLLM para mejorar el manejo de solicitudes. Este modo crea un bucle de fondo más eficiente que procesa continuamente las solicitudes entrantes, lo que le permite manejar múltiples solicitudes concurrentes y salidas de transmisión con mayor rendimiento que la implementación anterior de lote de rodillos en V14.
Soporte para el motor VLLM V1, que ofrece un rendimiento de hasta 111% más alto en comparación con el motor V0 anterior para modelos más pequeños a alta concurrencia. Esta mejora del rendimiento proviene de una sobrecarga de CPU reducida, rutas de ejecución optimizadas y una utilización de recursos más eficiente en la arquitectura V1. LMI V15 admite los motores V1 y V0, siendo V1 el valor predeterminado. Si necesita usar V0, puede usar el motor V0 especificando VLLM_USE_V1=0. El motor de VLLM V1 también viene con una rearquitectura de núcleo del motor de servicio con programación simplificada, almacenamiento en caché de prefijo de ida y vuelta cero, inferencia limpia de tensor-paralelo, preparación de entrada eficiente y optimizaciones avanzadas con antorch.compile y flash Atention 3. Para obtener más información, consulte el blog vllm.
Soporte de esquema API ampliado con tres opciones flexibles para permitir una integración perfecta con aplicaciones construidas sobre patrones de API populares:
1. Formato de mensaje compatible con la API de finalización de chat de OpenAI.
2. Formato de finalización de OpenAI.
3. Esquema de inferencia de generación de texto (TGI) para admitir la compatibilidad hacia atrás con modelos más antiguos.
Soporte multimodal, con capacidades mejoradas para modelos en idioma de visión que incluyen optimizaciones como el almacenamiento en caché de prefijo multimodal
Soporte incorporado para llamadas de funciones y llamadas de herramientas, habilitando flujos de trabajo sofisticados basados en agentes.

Soporte de modelo mejorado

LMI V15 admite una lista en expansión de modelos de última generación, incluidos los últimos lanzamientos de proveedores de modelos líderes. El contenedor ofrece compatibilidad lista para implementar para: pero no se limita a:

LLAMA 4 -Llama-4-Scout-17B-16E y Llama-4-Maverick-17B-128E-Instructo
Gemma 3 – Los modelos livianos y eficientes de Google, conocidos por su fuerte rendimiento a pesar del tamaño más pequeño
Qwen 2.5 -Modelos avanzados de Alibaba que incluyen QWQ 2.5 y QWEN2-VL con capacidades multimodales
Modelos de IA Mistral -Modelos de alto rendimiento de la IA Mistral que ofrecen escala eficiente y capacidades especializadas
Deepseek-r1/v3 – Modelos de razonamiento de última generación

Cada familia modelo se puede implementar utilizando el contenedor LMI V15 especificando la ID del modelo apropiada, por ejemplo, Meta-Llama/LLAMA-4-Scout-17B-16E, y los parámetros de configuración como variables de entorno, sin requerir un código de optimización o código de optimización personalizado.

Puntos de referencia

Nuestros puntos de referencia demuestran las ventajas de rendimiento del motor V1 de LMI V15 en comparación con las versiones anteriores:

	Modelo	Tamaño por lotes	Tipo de instancia	LMI V14 RESULTADO [tokens/s] (Motor V0)	Rendimiento de LMI V15 [tokens/s] (Motor V1)	Mejora
1	Deepseek-ai/Deepseek-r1-Distill-llama-70b	128	P4D.24XLARGE	1768	2198	24%
2	Meta-llama/Llama-3.1-8b-Instructo	64	ml.g6e.2xlarge	1548	2128	37%
3	Mistralai/Mistral-7B-Instructo-V0.3	64	ml.g6e.2xlarge	942	1988	111%

Deepseek-r1 Llama 70b para varios niveles de concurrencia

Llama 3.1 Instruir 8B para varios niveles de concurrencia

Mistral 7b para varios niveles de concurrencia

El motor Async en LMI V15 muestra fuerza en escenarios de alta concurrencia, donde múltiples solicitudes simultáneas se benefician del manejo de solicitudes optimizadas. Estos puntos de referencia destacan que el motor V1 en modo Async ofrece entre 24% y 111% de rendimiento más alto en comparación con LMI V14 utilizando lotes de rodadura en los modelos probados en escenarios de alta concurrencia para un tamaño de lote de 64 y 128. Sugerimos tener en cuenta las siguientes consideraciones para un rendimiento óptimo:

Los tamaños de lotes más altos aumentan la concurrencia, pero vienen con una compensación natural en términos de latencia
Los tamaños de lotes de 4 y 8 proporcionan la mejor latencia para la mayoría de los casos de uso
Los tamaños de lotes de hasta 64 y 128 logran un rendimiento máximo con compensaciones de latencia aceptables

Formatos API

LMI V15 admite tres esquemas de API: completaciones de chat de OpenAI, finalizaciones de OpenAI y TGI.

Finalización de chat – El formato de mensaje es compatible con la API de finalización de chat de OpenAI. Use este esquema para la llamada de herramientas, el razonamiento y los casos de uso multimodal. Aquí hay una muestra de la invocación con la API de mensajes:
```
body = {
    "messages": [
        {"role": "user", "content": "Name popular places to visit in London?"}
    ],
    "temperature": 0.9,
    "max_tokens": 256,
    "stream": True,
}
```

Formato de finalización de OpenAI – El punto final de la API de finalización ya no recibe actualizaciones:

body = {
 "prompt": "Name popular places to visit in London?",
 "temperature": 0.9,
 "max_tokens": 256,
 "stream": True,
}

TGI – Admite compatibilidad con modelos más antiguos:

body = {
"inputs": "Name popular places to visit in London?",
"parameters": {
"max_new_tokens": 256,
"temperature": 0.9,
},
"stream": True,
}

Comenzando con LMI V15

Comenzar con LMI V15 es sin problemas, y puede implementar con LMI V15 en solo unas pocas líneas de código. El contenedor está disponible a través de Registro de contenedores elásticos de Amazon (Amazon ECR), y las implementaciones se pueden administrar a través de los puntos finales de Sagemaker AI. Para implementar modelos, debe especificar la ID de modelo de abrazadera, el tipo de instancia y las opciones de configuración como variables de entorno.

Para un rendimiento óptimo, recomendamos las siguientes instancias:

Llama 4 Scout: Ml.P5.48xLarge
Deepseek R1/V3: ml.p5e.48xLarge
Qwen 2.5 VL-32B: Ml.G5.12xLarge
Qwen QWQ 32B: ML.G5.12XLARGE
Mistral grande: ml.g6e.48xLarge
GEMMA3-27B: ML.G5.12XLARGE
Llama 3.3-70b: ml.p4d.24xlarge

Para implementar con LMI V15, siga estos pasos:

Clonar el computadora portátil a tu Amazon Sagemaker Studio cuaderno o al código Visual Studio (VS Código). Luego puede ejecutar el cuaderno para hacer la configuración inicial e implementar el modelo desde el repositorio de la cara abrazada hasta el punto final Sagemaker AI. Caminamos a través de los bloqueos clave aquí.
LMI V15 mantiene el mismo patrón de configuración que las versiones anteriores, utilizando variables de entorno en el formulario OPTION_<CONFIG_NAME>. Este enfoque constante hace que sea sencillo que los usuarios familiarizados con versiones LMI anteriores migren a V15.
```
vllm_config = {
    "HF_MODEL_ID": "meta-llama/Llama-4-Scout-17B-16E",
    "HF_TOKEN": "entertoken",
    "OPTION_MAX_MODEL_LEN": "250000",
    "OPTION_MAX_ROLLING_BATCH_SIZE": "8",
    "OPTION_MODEL_LOADING_TIMEOUT": "1500",
    "SERVING_FAIL_FAST": "true",
    "OPTION_ROLLING_BATCH": "disable",
    "OPTION_ASYNC_MODE": "true",
    "OPTION_ENTRYPOINT": "djl_python.lmi_vllm.vllm_async_service"
}
```
- HF_MODEL_ID Establece la identificación del modelo de la cara abrazada. También puedes descargar modelo de Servicio de almacenamiento simple de Amazon (Amazon S3).
- HF_TOKEN Establece el token para descargar el modelo. Esto se requiere para modelos cerrados como Llama-4
- OPTION_MAX_MODEL_LEN. Esta es la longitud del contexto del modelo MAX.
- OPTION_MAX_ROLLING_BATCH_SIZE Establece el tamaño del lote para el modelo.
- OPTION_MODEL_LOADING_TIMEOUT Establece el valor de tiempo de espera para Sagemaker para cargar el modelo y ejecutar las verificaciones de salud.
- SERVING_FAIL_FAST=true. Recomendamos configurar este indicador porque permite a Sagemaker reiniciar con gracia el contenedor cuando se produce un error de motor irracional.
- OPTION_ROLLING_BATCH= disable Desactiva la implementación del lote de rodillos de LMI, que fue la oferta predeterminada en LMI V14. Recomendamos usar async en su lugar como esta última implementación y proporciona un mejor rendimiento
- OPTION_ASYNC_MODE=true habilita el modo async.
- OPTION_ENTRYPOINT Proporciona el punto de entrada para las integraciones Async de VLLM
Establezca el último contenedor (en este ejemplo que utilizamos 0.33.0-lmi15.0.0-cu128), Región de AWS (us-east-1), y cree un artefacto modelo con todas las configuraciones. Para revisar la última versión de contenedor disponible, ver Imágenes de contenedores de aprendizaje profundo disponibles.

Implementar el modelo al punto final utilizando model.deploy().

CONTAINER_VERSION = '0.33.0-lmi15.0.0-cu128'
REGION = 'us-east-1'
# Construct container URI
container_uri = f'763104351884.dkr.ecr.{REGION}.amazonaws.com/djl-inference:{CONTAINER_VERSION}'

# Select instance type
instance_type = "ml.p5.48xlarge"

model = Model(image_uri=container_uri,
              role=role,
              env=vllm_config)
endpoint_name = sagemaker.utils.name_from_base("Llama-4")

print(endpoint_name)
model.deploy(
    initial_instance_count=1,
    instance_type=instance_type,
    endpoint_name=endpoint_name,
    container_startup_health_check_timeout = 1800
)

Invoca el modelo, la inferencia de Sagemaker proporciona dos API para invocar el modelo- InvokeEndpoint y InvokeEndpointWithResponseStream. Puede elegir cualquiera de las opciones según sus necesidades.

# Create SageMaker Runtime client
smr_client = boto3.client('sagemaker-runtime')
##Add your endpoint here 
endpoint_name=""

# Invoke with messages format
body = {
"messages": [
{"role": "user", "content": "Name popular places to visit in London?"}
],
"temperature": 0.9,
"max_tokens": 256,
"stream": True,
}

# Invoke with endpoint streaming
resp = smr_client.invoke_endpoint_with_response_stream(
EndpointName=endpoint_name,
Body=json.dumps(body),
ContentType="application/json",
)

Para ejecutar una inferencia multimodal con Llama-4 Scout, ver el computadora portátil Para la muestra de código completo para ejecutar solicitudes de inferencia con imágenes.

Conclusión

Amazon Sagemaker LMI Container V15 representa un paso adelante significativo en las grandes capacidades de inferencia de modelos. Con el nuevo motor VLLM V1, el modo de funcionamiento Async, el soporte del modelo ampliado y el rendimiento optimizado, puede implementar LLM de vanguardia con mayor rendimiento y flexibilidad. Las opciones configurables del contenedor le brindan la flexibilidad para ajustar las implementaciones para sus necesidades específicas, ya sea optimización de latencia, rendimiento o costo.

Le recomendamos que explore este lanzamiento para implementar sus modelos de IA generativos.

Mira el Proporcionado cuadernos de ejemplo Para comenzar a implementar modelos con LMI V15.

Sobre los autores

Vivek Gangasani es un arquitecto de soluciones especializadas principales para la inferencia en AWS. Ayuda a las empresas de IA generativas emergentes a construir soluciones innovadoras utilizando servicios de AWS y cómputo acelerado. Actualmente, se centra en desarrollar estrategias para ajustar y optimizar el rendimiento de inferencia de modelos de idiomas grandes. En su tiempo libre, Vivek disfruta de caminar, ver películas y probar diferentes cocinas.

Siddharth Venkatesan es ingeniero de software en AWS Deep Learning. Actualmente se centra en construir soluciones para una gran inferencia de modelos. Antes de AWS, trabajó en Amazon Grocery Org Building New Pague Functions para clientes en todo el mundo. Fuera del trabajo, le gusta esquiar, el aire libre y ver deportes.

Felipe López es un arquitecto senior de soluciones especializadas de IA/ML en AWS. Antes de unirse a AWS, Felipe trabajó con GE Digital y SLB, donde se centró en los productos de modelado y optimización para aplicaciones industriales.

Banu nagasundaram Lidera las asociaciones de productos, ingeniería y estratégicos para Amazon Sagemaker JumpStart, el aprendizaje automático de Sagemaker y el centro generativo de IA. Le apasiona construir soluciones que ayuden a los clientes a acelerar su viaje de IA y desbloquear el valor comercial.

Dmitry Soldatkin es un arquitecto senior de soluciones de IA/ML en Amazon Web Services (AWS), que ayuda a los clientes a diseñar y construir soluciones de IA/ML. El trabajo de Dmitry cubre una amplia gama de casos de uso de ML, con un interés principal en la IA generativa, el aprendizaje profundo y la escala de ML en toda la empresa. Ha ayudado a empresas en muchas industrias, incluidos seguros, servicios financieros, servicios públicos y telecomunicaciones. Puedes conectarte con dmitry en LinkedIn.

Supercargue su rendimiento de LLM con Amazon Sagemaker Gran Modelo Inferteer V15

ByEquipo de 7 minutos

¿Qué hay de nuevo?

Soporte de modelo mejorado

Puntos de referencia

Formatos API

Comenzando con LMI V15

Conclusión

Sobre los autores

By Equipo de 7 minutos

Related Post

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT

Qwen Team Open-Sources Qwen3.6-35B-A3B: un modelo de lenguaje de visión MoE disperso con parámetros activos 3B y capacidades de codificación agente

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

You missed

Irán abre Ormuz. El petróleo se desploma un 12%. La guerra continúa.

El Ayuntamiento de Alicante ofrece financiación para ayudar a los municipios de la Vega Baja a cubrir los costes del transporte de residuos – The Leader

RM de BTS revela cómo convenció al sello para mantener la letra explícita de la canción ‘Seven’ de Jung Kook

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT