Ejecute y brinde VLM más rápido como Pixtral y Phi-3.5 Vision con vLLM

Comprender cuánta memoria necesita para servir un VLM

Una imagen codificada por Pixtral — Imagen del autor

vLLM es actualmente uno de los motores de inferencia más rápidos para modelos de lenguaje grandes (LLM). Admite una amplia gama de arquitecturas de modelos y métodos de cuantificación.

vLLM también admite modelos de lenguaje visual (VLM) con entradas multimodales que contienen imágenes y mensajes de texto. Por ejemplo, vLLM ahora puede admitir modelos como Phi-3.5 Vision y Pixtral, que se destacan en tareas como subtítulos de imágenes, reconocimiento óptico de caracteres (OCR) y respuestas visuales a preguntas (VQA).

En este artículo, le mostraré cómo usar VLM con vLLM, centrándome en los parámetros clave que afectan el consumo de memoria. Veremos por qué los VLM consumen mucha más memoria que los LLM estándar. Usaremos Phi-3.5 Vision y Pixtral como casos de estudio para una aplicación multimodal que procesa mensajes que contienen texto e imágenes.

El código para ejecutar Phi-3.5 Vision y Pixtral con vLLM se proporciona en este cuaderno:

Consigue el cuaderno (#105)

En los modelos de transformadores, generar texto token por token es lento porque cada predicción depende de todos los tokens anteriores…