La decodificación especulativa es una técnica para acelerar la inferencia de modelos de lenguaje grandes. Un modelo de borrador pequeño y rápido propone varios tokens. El modelo de destino grande los verifica en paralelo. Si se acepta, la inferencia es más rápida. Si se rechaza, el sistema retrocede con gracia.
EAGLE Team, vLLM Team y TorchSpec Team han lanzado la serie EAGLE, que incluye EAGLE 1, EAGLE 2 y EAGLE 3, y se ha convertido en una de las familias de algoritmos de decodificación especulativa más adoptadas y prácticamente implementadas en sistemas de investigación y producción. Hoy, esa familia recibe una mejora de confiabilidad específica con la introducción de EAGLE 3.1.
¿Qué estaba yendo mal?
Si bien la decodificación especulativa funciona bien en entornos controlados, el rendimiento a menudo se degrada bajo diferentes plantillas de chat, entradas de contexto prolongado o indicaciones del sistema fuera de distribución.
El equipo de EAGLE atribuyó esta fragilidad a un fenómeno llamado deriva de la atención. A medida que aumenta la profundidad de la especulación, el redactor gradualmente desvía la atención de los tokens de hundimiento hacia sus propios tokens generados.
En términos más simples: el redactor es un modelo pequeño que predice tokens futuros. A medida que la especulación se profundiza, comienza a prestar atención a sus propios resultados anteriores en lugar del contexto original. Esto degrada la longitud de aceptación y la estabilidad de salida.
Se identificaron dos cuestiones subyacentes. En primer lugar, la representación de la entrada fusionada se vuelve cada vez más desequilibrada a medida que los estados ocultos de capas superiores dominan la entrada del redactor. En segundo lugar, la magnitud del estado oculto crece a lo largo de los pasos de especulación debido a la ruta residual no normalizada. Juntos, estos efectos hacen que el redactor sea cada vez menos estable en profundidades de especulación más profundas.
Dos correcciones arquitectónicas en EAGLE 3.1
Para abordar la desviación de la atención, EAGLE 3.1 viene con dos mejoras arquitectónicas clave: normalización de FC después de cada estado oculto objetivo y antes de la capa FC, y alimentación de estados ocultos posteriores a la norma en el siguiente paso de decodificación.
La normalización FC estabiliza los estados ocultos que el redactor recibe del modelo de destino. Sin él, la magnitud del estado oculto crece a lo largo de los pasos, lo que hace que el redactor sea cada vez menos confiable. La aplicación de la normalización en cada paso mantiene las entradas limitadas.
El diseño posnorma hace que el método se comporte más como una invocación recursiva del redactor a lo largo de los pasos de decodificación, en lugar de simplemente agregar capas adicionales al modelo de destino.
https://vllm.ai/blog/2026-05-26-eagle-3-1
" data-large-file="https://www.marktechpost.com/wp-content/uploads/2026/05/Screenshot-2026-05-27-at-12.17.50-AM-1024x399.png" fifu-data-src="https://i1.wp.com/www.marktechpost.com/wp-content/uploads/2026/05/Screenshot-2026-05-27-at-12.17.50-AM.png?ssl=1" alt="https://vllm.ai/blog/2026-05-26-eagle-3-1" class="wp-image-80133 lazyload" style="width:752px;height:auto"/>Qué ofrecen estas soluciones
En comparación con EAGLE 3, EAGLE 3.1 demuestra: mejor extrapolación del tiempo de entrenamiento al tiempo de inferencia, mayor solidez en el contexto a largo plazo, mayor resiliencia a la plantilla de chat y variación de indicaciones del sistema, y una duración de aceptación más estable en diversos entornos de servicio.
En cargas de trabajo de contexto largo, EAGLE 3.1 logra una duración de aceptación hasta 2 veces mayor en comparación con EAGLE 3.
Infraestructura de formación: TorchSpec
TorchSpec ahora proporciona soporte de capacitación eficiente para EAGLE 3.1 y futuros algoritmos de decodificación especulativa. Al reducir la sobrecarga de capacitación y simplificar los flujos de trabajo de experimentación, TorchSpec ayuda a acelerar la iteración y la exploración para la investigación e implementación de decodificación especulativa de próxima generación.
Basado en TorchSpec y vLLM, el equipo de investigación también entrenó y abrió un modelo borrador EAGLE 3.1 para Kimi K2.6, disponible en HuggingFace. El modelo sirve como ejemplo de implementación de EAGLE 3.1 con capacitación de TorchSpec y soporte de servicio vLLM en un modelo de servicio del mundo real.
Integración de vLLM: basada en configuración y compatible con versiones anteriores
EAGLE 3.1 llega a vLLM como una extensión basada en configuración de la implementación EAGLE 3 existente. La integración incluye soporte de normalización de FC, retroalimentación de estado oculto posterior a la norma y eliminación de suposiciones codificadas en torno a estados ocultos objetivo.
La compatibilidad con versiones anteriores de los puntos de control EAGLE 3 existentes se conserva por completo. Los modelos borrador de EAGLE 3.1 se pueden conectar directamente a través de la misma ruta de código de decodificación especulativa.
Resultados de las pruebas comparativas en Kimi K2.6
El equipo de investigación comparó el modelo preliminar Kimi K2.6 EAGLE 3.1 en Kimi-K2.6-NVFP4 con vLLM (TP=4, GB200, sin desagg) en el conjunto de datos de codificación SPEED-Bench. EAGLE 3.1 ofrece un rendimiento de salida por usuario 2,03 veces mayor en simultaneidad 1. La aceleración sigue siendo significativa a medida que aumenta la concurrencia: 1,71 veces en C=4 y 1,66 veces en C=16.
Explicador visual de Marktechpost
Conclusiones clave
EAGLE 3.1 corrige la desviación de la atención, una inestabilidad recientemente identificada en la que el redactor pierde el foco en las fichas de hundimiento en profundidades de especulación más profundas. Dos cambios arquitectónicos (normalización FC y retroalimentación de estado oculto posterior a la norma) estabilizan al redactor en los pasos de especulación. En cargas de trabajo de contexto largo, EAGLE 3.1 ofrece una duración de aceptación hasta 2 veces mayor en comparación con EAGLE 3. Las pruebas comparativas en Kimi-K2.6-NVFP4 muestran un rendimiento de salida por usuario de 2,03 veces en la simultaneidad 1, cayendo a 1,66 veces en C=16. EAGLE 3.1 es compatible con versiones anteriores de los puntos de control EAGLE 3 y ya está fusionado con vLLM main y se envía en v0.22.0.
Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.