FastSwitch: un gran avance en el manejo de cargas de trabajo complejas de LLM con generación de tokens mejorada y gestión de recursos basada en prioridades

Los modelos de lenguajes grandes (LLM) han transformado las aplicaciones de inteligencia artificial, impulsando tareas como la traducción de idiomas, asistentes virtuales y generación de código. Estos modelos dependen de una infraestructura que consume muchos recursos, en particular GPU con memoria de gran ancho de banda, para gestionar sus demandas computacionales. Sin embargo, brindar un servicio de alta calidad a numerosos usuarios simultáneamente presenta desafíos importantes. La asignación eficiente de estos recursos limitados es fundamental para cumplir los objetivos de nivel de servicio (SLO) para métricas urgentes, garantizando que el sistema pueda atender a más usuarios sin comprometer el rendimiento.

Un problema persistente en los sistemas de prestación de servicios de LLM es lograr una distribución justa de los recursos manteniendo la eficiencia. Los sistemas existentes a menudo priorizan el rendimiento, descuidando los requisitos de equidad, como el equilibrio de la latencia entre los usuarios. Los mecanismos de programación preventiva, que ajustan dinámicamente las prioridades de las solicitudes, abordan este problema. Sin embargo, estos mecanismos introducen gastos generales de cambio de contexto, como inactividad de la GPU y utilización ineficiente de E/S, que degradan indicadores clave de rendimiento como el tiempo hasta el primer token (TTFT) y el tiempo entre tokens (TBT). Por ejemplo, el tiempo de estancamiento causado por la preferencia en escenarios de alto estrés puede alcanzar hasta el 59,9% de la latencia P99, lo que lleva a una disminución significativa en la experiencia del usuario.

Las soluciones actuales, como vLLM, se basan en la administración de memoria basada en paginación para abordar las limitaciones de memoria de la GPU mediante el intercambio de datos entre la memoria de la GPU y la CPU. Si bien estos enfoques mejoran el rendimiento, enfrentan limitaciones. Persisten problemas como la asignación de memoria fragmentada, la baja utilización del ancho de banda de E/S y las transferencias de datos redundantes durante conversaciones de varios turnos, lo que socava su eficacia. Por ejemplo, el tamaño de bloque fijo de 16 tokens de vLLM da como resultado una granularidad subóptima, lo que reduce la eficiencia del ancho de banda PCIe y aumenta la latencia durante el cambio de contexto preventivo.

Investigadores de la Universidad Purdue, el Instituto Qi Zhi de Shanghai y la Universidad Tsinghua desarrollaron Cambio rápidoun sistema de servicio de LLM consciente de la equidad que aborda las ineficiencias en el cambio de contexto. FastSwitch presenta tres optimizaciones principales: un administrador de grupos de bloques dinámicos, un administrador de intercambio de subprocesos múltiples y un mecanismo de reutilización de caché KV. Estas innovaciones se combinan para mejorar la utilización de E/S, reducir la inactividad de la GPU y minimizar las transferencias de datos redundantes. El diseño del sistema se basa en vLLM pero se centra en la asignación de memoria de grano grueso y operaciones asincrónicas para mejorar la gestión de recursos.

El administrador de grupos de bloques dinámicos de FastSwitch optimiza la asignación de memoria agrupando bloques contiguos, aumentando la granularidad de la transferencia. Este enfoque reduce la latencia hasta 3,11 veces en comparación con los métodos existentes. El administrador de intercambio de subprocesos múltiples mejora la eficiencia de la generación de tokens al permitir el intercambio asíncrono, lo que mitiga el tiempo de inactividad de la GPU. Incorpora una sincronización detallada para evitar conflictos entre las solicitudes nuevas y en curso, lo que garantiza un funcionamiento perfecto durante los procesos superpuestos. Mientras tanto, el mecanismo de reutilización de la caché KV conserva datos parcialmente válidos en la memoria de la CPU, lo que reduce la latencia de preferencia al evitar transferencias redundantes de la caché KV. Estos componentes abordan colectivamente desafíos clave y mejoran el rendimiento general de los sistemas de servicio LLM.

Los investigadores evaluaron FastSwitch utilizando los modelos LLaMA-8B y Qwen-32B en GPU como NVIDIA A10 y A100. Los escenarios de prueba incluyeron actualizaciones de prioridad de alta frecuencia y conversaciones de varios turnos derivadas del conjunto de datos ShareGPT, que promedia 5,5 turnos por conversación. FastSwitch superó a vLLM en varias métricas. Logró aceleraciones de 4,3-5,8x en P95 TTFT y de 3,6-11,2x en P99.9 TBT para diferentes modelos y cargas de trabajo. Además, FastSwitch mejoró el rendimiento hasta 1,44 veces, lo que demuestra su capacidad para manejar cargas de trabajo complejas de manera eficiente. El sistema también redujo sustancialmente la sobrecarga del cambio de contexto, mejorando la utilización de E/S en 1,3 veces y la GPU en 1,42 veces en comparación con vLLM.

Las optimizaciones de FastSwitch dieron como resultado beneficios tangibles. Por ejemplo, su mecanismo de reutilización de caché KV redujo los bloques de intercambio en un 53 %, lo que redujo significativamente la latencia. El administrador de intercambio de subprocesos múltiples mejoró la eficiencia de la generación de tokens, logrando una mejora del 21,8% en la latencia P99 en comparación con los sistemas básicos. El administrador de grupos de bloques dinámicos mantuvo la granularidad al asignar memoria en porciones más grandes, equilibrando la eficiencia y la utilización. Estos avances resaltan la capacidad de FastSwitch para mantener la equidad y la eficiencia en entornos de alta demanda.

Las conclusiones clave de la investigación incluyen:

Administrador de grupos de bloques dinámicos: Se mejoró la utilización del ancho de banda de E/S a través de transferencias de memoria más grandes, lo que reduce la latencia de cambio de contexto en 3,11 veces.
Administrador de intercambio multiproceso: Aumento de la eficiencia de generación de tokens en un 21,8 % con latencia P99, lo que minimiza el tiempo de inactividad de la GPU con operaciones asincrónicas.
Mecanismo de reutilización de caché KV: Reducción del volumen de intercambio en un 53 %, lo que permite la reutilización eficiente de los datos de la caché y reduce la latencia de preferencia.
Métricas de rendimiento: FastSwitch logró aceleraciones de hasta 11,2 veces en TBT y mejoró el rendimiento en 1,44 veces bajo cargas de trabajo de alta prioridad.
Escalabilidad: Rendimiento sólido demostrado en modelos como LLaMA-8B y Qwen-32B, mostrando versatilidad en diversos escenarios operativos.

En conclusión, FastSwitch aborda las ineficiencias fundamentales en el servicio de LLM mediante la introducción de optimizaciones innovadoras que equilibran la equidad y la eficiencia. La reducción de los gastos generales del cambio de contexto y la mejora de la utilización de recursos garantizan una prestación de servicios escalable y de alta calidad para entornos multiusuario. Estos avances la convierten en una solución transformadora para las implementaciones modernas de LLM.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

🎙️ 🚨’Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming Lea el informe completo _(Promovido)

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

FastSwitch: un gran avance en el manejo de cargas de trabajo complejas de LLM con generación de tokens mejorada y gestión de recursos basada en prioridades

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Investigadores de Stanford presentan TRACE: un sistema de capacitación de agentes dirigido a capacidades que convierte las fallas recurrentes de los agentes en un entorno de RL sintético

Prime Intellect lanza Verifiers v1: conjuntos de tareas, arneses y tiempos de ejecución componibles para capacitación y evaluaciones de Agentic RL

Un nuevo método tiene como objetivo mantener a los niños a salvo del contenido ilegal generado por IA | Noticias del MIT

You missed

Se insta al Consejo de San Miguel a actuar a medida que se profundiza la crisis de residuos de la Laguna Azul – The Leader

Un esquivo zorro gris trepa a los árboles para esconderse a plena vista, y puede ser mucho más raro de lo que se pensaba

¿Qué demonio republicano ocupará el lugar de Lindsey Graham?

300 millones de euros para Iberian BioTech y DeepTech mientras CriteriaCaixa renueva su división de capital riesgo