En el mundo acelerado de la IA, los modelos de idiomas grandes (LLM) como GPT-4 y LLAMA están impulsando todo, desde chatbots hasta asistentes de código. Pero aquí hay un secreto sucio: su inferencia de LLM, el proceso de generación de respuestas, se ejecuta hasta cinco veces más lenta de lo necesario. El culpable? Un enfoque demasiado cauteloso para manejar la incertidumbre en las longitudes de salida.
A Nuevo documento de investigadores de la Universidad de Stanford y HKUST Revela un algoritmo que cambia el juego que podría reducir la latencia y aumentar el rendimiento sin tocar su modelo o hardware. Al pasar del pesimismo al optimismo adaptativo, logra el rendimiento casi idéntico a un programador “perfecto” que conoce el futuro. Vamos a sumergirnos en por qué esto importa y cómo funciona.
El cuello de botella oculto en la inferencia de LLM
La inferencia de LLM no se trata solo de hacer números; Es un rompecabezas operativo. Cuando llega un aviso, el modelo lo procesa en dos fases: una “refrescante” rápida para manejar la entrada, seguida de una fase de “decodificación” de token-by-token donde la salida se genera de manera autorregresiva. La longitud de entrada se conoce por adelantado, pero la longitud de salida? Ese es un comodín, podría ser un breve “sí” o un ensayo de divagación.
Esta incertidumbre causa estragos en la programación. Las LLM se ejecutan en GPU con memoria de caché de KV (clave de clave) limitado, que almacena los cálculos intermedios para acelerar la generación. Para evitar desbordamientos, los programadores deben predecir y asignar la memoria sabiamente. Pero las predicciones no son perfectas; A menudo vienen como intervalos (por ejemplo, “entre 50 y 500 fichas”) de modelos ML o heurística.
La solución estándar? Ser conservador. Algoritmos como el “Amax” de referencia de la investigación suponen que cada solicitud alcanzará la longitud predicha máxima. Esto evita los choques, pero conduce a una subutilización masiva: los lotes se mantienen pequeños, GPUs inactivos y globos de latencia. En experimentos en conjuntos de datos reales como LMSYS-CHAT-1M, el rendimiento de Amax se degradó bruscamente a medida que crecía la incertidumbre de predicción, lo que a veces resultó en latencias 5x más altas que óptimas.
¿Por qué importa esto? La inferencia es hambrienta de energía y costosa. Con miles de millones de solicitudes que llegan a los servicios diariamente, incluso pequeñas ineficiencias suman millones en usuarios desperdiciados y frustrados.
Amin: El planificador optimista que aprende sobre la marcha
El equipo de investigación de la Universidad de Pekín, Stanford y Hkust, propone “Amin”, un algoritmo que voltea el guión. En lugar de temer lo peor, Amin comienza optimista: supone que la producción de cada solicitud es la predicha mínimo longitud (el límite inferior del intervalo). Esto maximiza los tamaños de lotes iniciales, empacando más solicitudes en el caché de KV de inmediato.
Pero el optimismo solo podría causar desbordamientos si las salidas funcionan mucho. La salsa secreta de Amin es adaptabilidad:
- Refinamiento dinámico: A medida que los tokens generan, Amin actualiza su “pseudo” límite inferior para cada solicitud en tiempo real. Si una solicitud ya ha producido, digamos, 100 tokens, sabe que la longitud real es al menos tanto: refinar las decisiones de programación futuras.
- Desalojo ordenado: Cuando la memoria se aprieta, Amin no se asustan. Ordena los trabajos activos por sus límites pseudo -inferiores actuales y desalienta a aquellos con el menor progreso primero (romper los lazos al azar). Esto protege los trabajos que están más avanzados, minimizando el trabajo desperdiciado de los reinicios.
- No se necesitan límites superiores: Crucialmente, Amin ignora el límite superior por completo. Predecir los límites superiores ajustados es notoriamente duro y propenso a los errores, pero los límites inferiores son más fáciles y más confiables. Esto hace que Amin sea práctico para la implementación del mundo real.
El algoritmo se ejecuta en el tiempo O (M log M) por paso (donde M es el tamaño de la caché de KV), lo que lo hace eficiente incluso en sistemas grandes. En el pseudocódigo, se ve así: inicializar con límites inferiores, clasificar y lotes con avidez, monitorear los desbordamientos, desalojar de manera inteligente y repetir.
La prueba está en el rendimiento: casi óptima y robusta
Lo que distingue a Amin no solo la intuición, es riguroso matemáticas y experimentos.
El equipo de investigación analiza la “relación competitiva” de Amin, comparando su latencia con un programador óptimo retrospectivo (H-SF) que conoce todas las longitudes de salida verdaderas de antemano. Proban que Amin logra una relación O (log (α⁻¹)), donde α es la relación de límite inferior a superior (una medida de incertidumbre de predicción). A medida que crece la incertidumbre (se encoge α), la proporción de Amax explota uniformemente, piense en O (α⁻¹⁵) en el peor de los casos. Amin permanece logarítmico, asegurando ineficiencia limitada.
Para distribuciones específicas:
- Bajo salidas de dos puntos (todas cortas o largas), la relación de Amin es como máximo 1.5.
- Para distribuciones geométricas (decadencia exponencial, común en datos reales), está limitado por 1.7.
- Para la geometría ponderada linealmente, es estrechamente 1.56.
Pruebas numéricas en 2,000 muestras de LMSYS-CHAT-1M Cuentan la historia:
- Con predicciones crudas ([1000] Para todos), Amin coincidió con la latencia de H-SF, mientras que Amax se quedó 2X detrás.2508.14544v1.pdf
- Con intervalos agrupados (por ejemplo,), Amin redujo a la mitad de la brecha de latencia de Amax.2508.14544v1.pdf
- Bajo una precisión variable (intervalos como [0.9x true, 1.1x true]), Amin se mantuvo robusta, entregando hasta 5 veces una latencia mejor que Amax cuando las predicciones eran ruidosas.
En una simulación, Amin manejó cargas de trabajo de alta incertidumbre con latencias que se acercan al mínimo teórico, lo que demuestra que no solo es rápido, es resistente.
Conclusión
El pesimismo ha retrasado la inferencia de LLM durante demasiado tiempo. Al adoptar el optimismo adaptativo, Amin muestra que podemos expulsar el rendimiento casi perfecto de las predicciones imperfectas. A medida que explotan las cargas de trabajo de IA, herramientas como esta serán esenciales para la escala sostenible.
Si está construyendo o implementando LLMS, escote el papel, es una lectura rápida con el pseudocodo listo para adaptarse. Su tubería de inferencia podría obtener un impulso de velocidad 5x. ¿Qué te detiene?
Preguntas frecuentes
1) ¿Qué hace que el algoritmo Amin sea más rápido que el programador conservador estándar?
Amin aprovica la programación optimista: Inicialmente sostiene que la salida de cada solicitud será la longitud mínima predicha, lo que permite que se empaqueten más trabajos en el caché de KV de la GPU, maximizando la concurrencia y el rendimiento. A medida que avanza la decodificación, Amin actualiza dinámicamente el límite inferior para cada trabajo y desalienta de manera inteligente a los trabajos con el menor progreso si la memoria se está agotando, logrando una latencia casi óptima incluso bajo una alta incertidumbre.
2) ¿Por qué usar solo la predicción de límite inferior práctica para la inferencia del mundo real?
Los límites inferiores son más fáciles y más confiables para predecir: Amin requiere solo el límite inferior de cada longitud de salida, evitando las dificultades computacionales y estadísticas asociadas con la predicción del límite superior. Esto lo hace robusto y práctico para la implementación en escenarios de producción donde la precisión de predicción puede variar.
3) ¿Cómo se compara el rendimiento de Amin con la programación pesimista tradicional?
La relación competitiva de Amin se escala logarítmicamente con incertidumbre de predicción: A diferencia de los programadores conservadores que se vuelven extremadamente ineficientes a medida que crece la incertidumbre, Amin garantiza un rendimiento robusto con hasta 5 veces una latencia en cargas de trabajo realistas. A menudo coincide con el rendimiento de un programador óptimo retrospectivo, estableciendo un nuevo punto de referencia para la eficiencia de inferencia bajo incertidumbre
Mira el Papel completo aquí. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.