Conozca EAGLE 3.1: el algoritmo de decodificación especulativa que soluciona la desviación de la atención en la inferencia LLM

La decodificación especulativa es una técnica para acelerar la inferencia de modelos de lenguaje grandes. Un modelo de borrador pequeño y rápido propone varios tokens. El modelo de destino grande los verifica en paralelo. Si se acepta, la inferencia es más rápida. Si se rechaza, el sistema retrocede con gracia.

EAGLE Team, vLLM Team y TorchSpec Team han lanzado la serie EAGLE, que incluye EAGLE 1, EAGLE 2 y EAGLE 3, y se ha convertido en una de las familias de algoritmos de decodificación especulativa más adoptadas y prácticamente implementadas en sistemas de investigación y producción. Hoy, esa familia recibe una mejora de confiabilidad específica con la introducción de EAGLE 3.1.

¿Qué estaba yendo mal?

Si bien la decodificación especulativa funciona bien en entornos controlados, el rendimiento a menudo se degrada bajo diferentes plantillas de chat, entradas de contexto prolongado o indicaciones del sistema fuera de distribución.

El equipo de EAGLE atribuyó esta fragilidad a un fenómeno llamado deriva de la atención. A medida que aumenta la profundidad de la especulación, el redactor gradualmente desvía la atención de los tokens de hundimiento hacia sus propios tokens generados.

En términos más simples: el redactor es un modelo pequeño que predice tokens futuros. A medida que la especulación se profundiza, comienza a prestar atención a sus propios resultados anteriores en lugar del contexto original. Esto degrada la longitud de aceptación y la estabilidad de salida.

Se identificaron dos cuestiones subyacentes. En primer lugar, la representación de la entrada fusionada se vuelve cada vez más desequilibrada a medida que los estados ocultos de capas superiores dominan la entrada del redactor. En segundo lugar, la magnitud del estado oculto crece a lo largo de los pasos de especulación debido a la ruta residual no normalizada. Juntos, estos efectos hacen que el redactor sea cada vez menos estable en profundidades de especulación más profundas.

Dos correcciones arquitectónicas en EAGLE 3.1

Para abordar la desviación de la atención, EAGLE 3.1 viene con dos mejoras arquitectónicas clave: normalización de FC después de cada estado oculto objetivo y antes de la capa FC, y alimentación de estados ocultos posteriores a la norma en el siguiente paso de decodificación.

La normalización FC estabiliza los estados ocultos que el redactor recibe del modelo de destino. Sin él, la magnitud del estado oculto crece a lo largo de los pasos, lo que hace que el redactor sea cada vez menos confiable. La aplicación de la normalización en cada paso mantiene las entradas limitadas.

El diseño posnorma hace que el método se comporte más como una invocación recursiva del redactor a lo largo de los pasos de decodificación, en lugar de simplemente agregar capas adicionales al modelo de destino.

https://vllm.ai/blog/2026-05-26-eagle-3-1

" data-image-caption="

https://vllm.ai/blog/2026-05-26-eagle-3-1

" data-large-file="https://www.marktechpost.com/wp-content/uploads/2026/05/Screenshot-2026-05-27-at-12.17.50-AM-1024x399.png" fifu-data-src="https://i1.wp.com/www.marktechpost.com/wp-content/uploads/2026/05/Screenshot-2026-05-27-at-12.17.50-AM.png?ssl=1" alt="https://vllm.ai/blog/2026-05-26-eagle-3-1" class="wp-image-80133 lazyload" style="width:752px;height:auto"/>
https://vllm.ai/blog/2026-05-26-eagle-3-1

Qué ofrecen estas soluciones

En comparación con EAGLE 3, EAGLE 3.1 demuestra: mejor extrapolación del tiempo de entrenamiento al tiempo de inferencia, mayor solidez en el contexto a largo plazo, mayor resiliencia a la plantilla de chat y variación de indicaciones del sistema, y ​​una duración de aceptación más estable en diversos entornos de servicio.

En cargas de trabajo de contexto largo, EAGLE 3.1 logra una duración de aceptación hasta 2 veces mayor en comparación con EAGLE 3.

Infraestructura de formación: TorchSpec

TorchSpec ahora proporciona soporte de capacitación eficiente para EAGLE 3.1 y futuros algoritmos de decodificación especulativa. Al reducir la sobrecarga de capacitación y simplificar los flujos de trabajo de experimentación, TorchSpec ayuda a acelerar la iteración y la exploración para la investigación e implementación de decodificación especulativa de próxima generación.

Basado en TorchSpec y vLLM, el equipo de investigación también entrenó y abrió un modelo borrador EAGLE 3.1 para Kimi K2.6, disponible en HuggingFace. El modelo sirve como ejemplo de implementación de EAGLE 3.1 con capacitación de TorchSpec y soporte de servicio vLLM en un modelo de servicio del mundo real.

Integración de vLLM: basada en configuración y compatible con versiones anteriores

EAGLE 3.1 llega a vLLM como una extensión basada en configuración de la implementación EAGLE 3 existente. La integración incluye soporte de normalización de FC, retroalimentación de estado oculto posterior a la norma y eliminación de suposiciones codificadas en torno a estados ocultos objetivo.

La compatibilidad con versiones anteriores de los puntos de control EAGLE 3 existentes se conserva por completo. Los modelos borrador de EAGLE 3.1 se pueden conectar directamente a través de la misma ruta de código de decodificación especulativa.

vllm sirve nvidia/Kimi-K2.6-NVFP4 \ –trust-remote-code \ –tensor-parallel-size 4 \ –tool-call-parser kimi_k2 \ –enable-auto-tool-choice \ –reasoning-parser kimi_k2 \ –attention-backend tokenspeed_mla \ –speculative-config ‘{“model”:”lightseekorg/kimi-k2.6-eagle3.1-mla”,”method”:”eagle3″,”num_speculative_tokens”:3}’ \ –language-model-only

Resultados de las pruebas comparativas en Kimi K2.6

El equipo de investigación comparó el modelo preliminar Kimi K2.6 EAGLE 3.1 en Kimi-K2.6-NVFP4 con vLLM (TP=4, GB200, sin desagg) en el conjunto de datos de codificación SPEED-Bench. EAGLE 3.1 ofrece un rendimiento de salida por usuario 2,03 veces mayor en simultaneidad 1. La aceleración sigue siendo significativa a medida que aumenta la concurrencia: 1,71 veces en C=4 y 1,66 veces en C=16.

Explicador visual de Marktechpost

01 / 07

vLLM · mayo 26, 2026


El equipo de EAGLE, el equipo de vLLM y el equipo de TorchSpec lanzaron conjuntamente EAGLE 3.1, una solución específica para la inestabilidad de decodificación especulativa en el servicio de producción de LLM.

#decodificación-especulativa
#vLLM
#LLM inferencia
#actuación

02 / 07

Fondo

¿Qué es la decodificación especulativa?


Una técnica para acelerar la inferencia LLM utilizando dos modelos trabajando juntos.

Un pequeño y rápido borrador del modelo propone varias fichas por delante El gran modelo objetivo verifica todos los tokens propuestos en una sola pasada. Los tokens aceptados se conservan; los tokens rechazados retroceden correctamente. Resultado: mayor rendimiento de salida sin cambios en la calidad de la salida.

03 / 07

El problema

Desvío de atención en EAGLE 3


El rendimiento de EAGLE 3 se degrada en implementaciones del mundo real bajo tres condiciones:

Diferente plantillas de chat
contexto largo insumos Fuera de distribución indicaciones del sistema

Causa principal: deriva de atención — A medida que aumenta la profundidad de la especulación, el redactor desvía la atención de los tokens de sumidero hacia sus propios tokens generados.

04 / 07

Causa principal

Dos cuestiones subyacentes

El representación de entrada fusionada se vuelve cada vez más desequilibrado: los estados ocultos de capas superiores dominan la entrada del redactor
Magnitud del estado oculto crece a través de pasos de especulación debido a la ruta residual no normalizada. Juntos, estos hacen que el redactor progresivamente menos estable en profundidades de especulación más profundas

05 / 07

Arquitectura

Dos arreglos arquitectónicos

Arreglar 1
normalización FC se aplica después de cada estado oculto del objetivo y antes de la capa FC. Mantiene la magnitud del estado oculto limitada entre los pasos de decodificación.

Arreglar 2
Retroalimentación de estado oculto posterior a la norma – estados ocultos normalizados que se introducen en el siguiente paso de decodificación, lo que hace que el redactor se comporte como una invocación recursiva en lugar de capas agregadas.

06 / 07

Puntos de referencia · Codificación SPEED-Bench · GB200 TP=4

Rendimiento por usuario versus línea base sin especificaciones

2,03×Concurrencia 1

1,71×Concurrencia 4

1,66×Concurrencia 16

En cargas de trabajo de contexto prolongado, EAGLE 3.1 logra hasta Longitud de aceptación 2 veces más larga en comparación con EAGLE 3. Probado en Kimi-K2.6-NVFP4 con vLLM.

07 / 07

Implementación · vLLM v0.22.0

Cómo implementar EAGLE 3.1


Compatible con versiones anteriores de los puntos de control EAGLE 3. Ya fusionado en vLLM principal. Lanzamiento estable: v0.22.0.

vllm sirve nvidia/Kimi-K2.6-NVFP4 \ –trust-remote-code \ –tensor-parallel-size 4 \ –tool-call-parser kimi_k2 \ –enable-auto-tool-choice \ –reasoning-parser kimi_k2 \ –attention-backend tokenspeed_mla \ –speculative-config \ ‘{“model”:”lightseekorg/kimi-k2.6-eagle3.1-mla”, “method”:”eagle3″, “num_speculative_tokens”:3}’ \ –language-model-only

Conclusiones clave

EAGLE 3.1 corrige la desviación de la atención, una inestabilidad recientemente identificada en la que el redactor pierde el foco en las fichas de hundimiento en profundidades de especulación más profundas. Dos cambios arquitectónicos (normalización FC y retroalimentación de estado oculto posterior a la norma) estabilizan al redactor en los pasos de especulación. En cargas de trabajo de contexto largo, EAGLE 3.1 ofrece una duración de aceptación hasta 2 veces mayor en comparación con EAGLE 3. Las pruebas comparativas en Kimi-K2.6-NVFP4 muestran un rendimiento de salida por usuario de 2,03 veces en la simultaneidad 1, cayendo a 1,66 veces en C=16. EAGLE 3.1 es compatible con versiones anteriores de los puntos de control EAGLE 3 y ya está fusionado con vLLM main y se envía en v0.22.0.

Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.