EAGLE-2: un método de muestreo especulativo eficiente y sin pérdidas que logra índices de aceleración de 3,05x - 4,26x, que es entre un 20% y un 40% más rápido que EAGLE-1

Los modelos de lenguaje grande (LLM) han avanzado significativamente en el campo del procesamiento del lenguaje natural (PLN). Estos modelos, reconocidos por su capacidad para generar y comprender el lenguaje humano, se aplican en diversos ámbitos, como chatbots, servicios de traducción y creación de contenido. El desarrollo continuo en este campo tiene como objetivo mejorar la eficiencia y eficacia de estos modelos, haciéndolos más receptivos y precisos para aplicaciones en tiempo real.

Un desafío importante que enfrentan los LLM es el costo computacional sustancial y el tiempo requerido para la inferencia. A medida que estos modelos aumentan, la generación de cada token durante las tareas autorregresivas se vuelve más lenta, lo que impide las aplicaciones en tiempo real. Abordar este problema es crucial para mejorar el rendimiento de las aplicaciones y la experiencia del usuario que dependen de los LLM, particularmente cuando las respuestas rápidas son esenciales.

Los métodos actuales para aliviar este problema incluyen técnicas de muestreo especulativo, que generan y verifican tokens en paralelo para reducir la latencia. Los métodos tradicionales de muestreo especulativo a menudo se basan en árboles de borrador estáticos que no tienen en cuenta el contexto, lo que genera ineficiencias y tasas de aceptación subóptimas de los tokens de borrador. Estos métodos tienen como objetivo reducir el tiempo de inferencia, pero aún enfrentan limitaciones en el rendimiento.

Investigadores de la Universidad de Pekín, Microsoft Research, la Universidad de Waterloo y el Vector Institute presentaron EAGLE-2, un método que aprovecha un árbol de borrador dinámico consciente del contexto para mejorar el muestreo especulativo. EAGLE-2 se basa en el método EAGLE anterior y ofrece mejoras significativas en la velocidad manteniendo la calidad del texto generado. Este método ajusta dinámicamente el borrador del árbol según el contexto, utilizando puntuaciones de confianza del borrador del modelo para aproximar las tasas de aceptación.

EAGLE-2 ajusta dinámicamente el borrador del árbol según el contexto, mejorando el muestreo especulativo. Su metodología contempla dos fases principales: expansión y reranking. El proceso comienza con la fase de expansión, donde el modelo preliminar ingresa los nodos más prometedores de la última capa del árbol preliminar para formar la siguiente capa. Las puntuaciones de confianza del modelo preliminar se aproximan a las tasas de aceptación, lo que permite una predicción y verificación eficiente de los tokens. Durante la fase de reclasificación, los tokens con mayores probabilidades de aceptación se seleccionan para la entrada del LLM original durante la verificación. Este enfoque de dos fases garantiza que el borrador del árbol se adapte al contexto, lo que mejora significativamente las tasas de aceptación de tokens y la eficiencia general. Este método elimina la necesidad de realizar múltiples pases hacia adelante, acelerando así el proceso de inferencia sin comprometer la calidad del texto generado.

El método propuesto mostró resultados notables. Por ejemplo, en conversaciones de varios turnos, EAGLE-2 logró una aceleración de aproximadamente 4,26x, mientras que en tareas de generación de código alcanzó hasta 5x. El número promedio de tokens generados por ciclo de verificación de redacción fue significativamente mayor que el de otros métodos, aproximadamente el doble que el del muestreo especulativo estándar. Este aumento de rendimiento convierte a EAGLE-2 en una herramienta valiosa para aplicaciones de PNL en tiempo real.

Las evaluaciones de rendimiento también muestran que EAGLE-2 logra índices de aceleración de entre 3,05x y 4,26x en diversas tareas y LLM, superando al método EAGLE anterior entre un 20% y un 40%. Mantiene la distribución del texto generado, asegurando que no se pierda la calidad de salida a pesar del aumento de velocidad. EAGLE-2 demostró el mejor rendimiento en pruebas exhaustivas en seis tareas y tres series de LLM, lo que confirma su solidez y eficiencia.

En conclusión, EAGLE-2 aborda eficazmente las ineficiencias computacionales en la inferencia LLM mediante la introducción de un árbol de borrador dinámico consciente del contexto. Este método ofrece un aumento sustancial del rendimiento sin comprometer la calidad del texto generado, lo que lo convierte en un avance significativo en PNL. Las investigaciones y aplicaciones futuras deberían considerar la integración de ajustes dinámicos del contexto para mejorar aún más el desempeño de los LLM.

Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 45.000 ml

🚀 Cree, edite y aumente datos tabulares con el primer sistema de IA compuesto, Gretel Navigator, ¡ahora disponible de forma generalizada! [Advertisement]

Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

[Announcing Gretel Navigator] Cree, edite y aumente datos tabulares con el primer sistema de IA compuesto en el que confían EY, Databricks, Google y Microsoft.

EAGLE-2: un método de muestreo especulativo eficiente y sin pérdidas que logra índices de aceleración de 3,05x – 4,26x, que es entre un 20% y un 40% más rápido que EAGLE-1

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

OpenClaw vs Hermes Agent: Por qué el agente de mejora automática de Nous Research ahora lidera las clasificaciones globales de OpenRouter

NVIDIA AI acaba de lanzar cuda-oxide: un backend experimental del compilador Rust-to-CUDA que compila núcleos de GPU SIMT directamente en PTX

Una implementación de codificación para recuperar IOC de malware oculto con FLARE-FLOSS más allá del análisis de cadenas clásico

You missed

Comienzan las evacuaciones de cruceros por hantavirus después de un brote mortal

OpenClaw vs Hermes Agent: Por qué el agente de mejora automática de Nous Research ahora lidera las clasificaciones globales de OpenRouter

La prueba de orina reduce las biopsias de próstata innecesarias en casi dos tercios en un ensayo comparativo con la resonancia magnética

Jaque mate en Irán