Investigadores de Snowflake y CMU presentan SuffixDecoding: un nuevo enfoque sin modelos para acelerar la inferencia de modelos de lenguaje grande (LLM) mediante decodificación especulativa

Los modelos de lenguajes grandes (LLM) se han convertido rápidamente en un componente fundamental de las aplicaciones empresariales y de consumo actuales. Sin embargo, la necesidad de una generación rápida de tokens sigue siendo un desafío persistente, convirtiéndose a menudo en un cuello de botella en las aplicaciones emergentes. Por ejemplo, la tendencia reciente de escalamiento del tiempo de inferencia utiliza resultados mucho más largos para realizar búsquedas y otros algoritmos complejos, mientras que los sistemas LLM multiagente y canalizados apuntan a mejorar la precisión y la confiabilidad, pero ambos a menudo sufren de largos tiempos de respuesta debido a la espera. para múltiples etapas de procesamiento. Abordar esta necesidad de generación acelerada de tokens es crucial para el avance continuo y la adopción generalizada de aplicaciones impulsadas por LLM.

Los métodos de decodificación especulativa basados ​​en modelos existentes tienen limitaciones que obstaculizan su capacidad para abordar eficazmente el desafío de acelerar la generación de tokens en los LLM. En primer lugar, estos métodos dependen en gran medida del tamaño y la calidad del borrador del modelo, que puede no siempre estar disponible, lo que requiere una capacitación o ajustes costosos para crear un modelo adecuado. En segundo lugar, la integración de modelos borrador y LLM en GPU puede generar complicaciones e ineficiencias, como conflictos entre el uso de memoria del modelo borrador y la caché de valores-clave del LLM. Para abordar estos problemas, trabajos recientes han explorado la incorporación de cabezales de decodificación adicionales directamente dentro del LLM para realizar decodificación especulativa. Sin embargo, estos enfoques aún enfrentan desafíos similares, ya que los cabezales adicionales requieren ajustes para cada LLM y consumen una cantidad significativa de memoria de GPU. Superar estas limitaciones es crucial para desarrollar técnicas más sólidas y eficientes para acelerar la inferencia LLM.

Investigadores de Snowflake AI Research y la Universidad Carnegie Mellon presentan SufijoDecodificaciónun enfoque robusto sin modelos que evita la necesidad de modelos preliminares o cabezales de decodificación adicionales. En lugar de depender de modelos separados, SuffixDecoding utiliza índices de árbol de sufijos eficientes creados a partir de generaciones de resultados anteriores y la solicitud de inferencia actual en curso. El proceso comienza tokenizando cada par de pregunta-respuesta utilizando el vocabulario del LLM, extrayendo todos los sufijos posibles (subsecuencias desde cualquier posición hasta el final) para construir la estructura de árbol de sufijos. Cada nodo del árbol representa un token y la ruta desde la raíz a cualquier nodo corresponde a una subsecuencia que apareció en los datos de entrenamiento. Este enfoque sin modelos elimina las complicaciones y la sobrecarga de GPU asociadas con la integración de modelos en borrador o cabezales de decodificación adicionales, lo que presenta una alternativa más eficiente para acelerar la inferencia LLM.

Para cada nueva solicitud de inferencia, SuffixDecoding construye un árbol de sufijos por solicitud independiente a partir de los tokens de solicitud actuales. Este diseño es crucial para tareas en las que se espera que el resultado del LLM haga referencia o reutilice el contenido del mensaje de entrada, como el resumen de documentos, la respuesta a preguntas, las conversaciones de chat de varios turnos y la edición de código. El árbol de sufijos mantiene recuentos de frecuencia en cada nodo para rastrear la frecuencia con la que ocurren diferentes secuencias de tokens, lo que permite una coincidencia de patrones eficiente. Dada cualquier secuencia de tokens recientes de la generación actual, SuffixDecoding puede recorrer rápidamente el árbol para encontrar todas las posibles continuaciones que aparecieron en el mensaje o en las salidas anteriores. En cada paso de inferencia, SuffixDecoding selecciona los mejores subárboles de tokens de continuación en función de las estadísticas de frecuencia y la probabilidad empírica. Estos tokens especulados luego se pasan al LLM para su verificación, que se lleva a cabo en un único paso hacia adelante gracias a un operador de atención de árbol con una máscara causal consciente de la topología.

De manera similar a trabajos anteriores como LLMA y Prompt Lookup Decoding, SuffixDecoding es un enfoque sin modelos que obtiene secuencias candidatas de un corpus de referencia. Sin embargo, a diferencia de los métodos anteriores que solo consideraban pequeños textos de referencia, como un puñado de fragmentos o simplemente el mensaje actual, SuffixDecoding está diseñado para utilizar un corpus de escala mucho mayor, que consta de cientos o incluso miles de resultados generados previamente.

Al operar en este corpus de referencia más grande, SuffixDecoding puede utilizar estadísticas de frecuencia de una manera más basada en principios para seleccionar posibles secuencias candidatas. Para permitir una producción rápida de estas secuencias candidatas, SuffixDecoding construye un árbol de sufijos sobre su corpus de referencia. El nodo raíz del árbol representa el comienzo de un sufijo de cualquier documento del corpus, donde un documento es el resultado de una inferencia anterior o el mensaje y el resultado de la inferencia actual en curso. La ruta desde la raíz a cada nodo representa una subsecuencia que aparece en el corpus de referencia, y cada nodo secundario representa una posible continuación del token.

SuffixDecoding utiliza esta estructura de árbol de sufijos para realizar una coincidencia de patrones eficiente. Dada la indicación más los tokens generados de la inferencia actual, identifica una secuencia de patrón y recorre el árbol de sufijos para encontrar todas las posibles continuaciones que aparecieron en el corpus de referencia. Si bien esto puede producir un gran conjunto de secuencias candidatas, SuffixDecoding emplea un procedimiento de puntuación y expansión voraz para construir un árbol de especulación más pequeño y más probable, que luego se utiliza en el paso final de decodificación especulativa basada en árboles.

Los resultados experimentales de un extremo a otro demuestran los puntos fuertes del enfoque SuffixDecoding. En el conjunto de datos AgenticSQL, que representa una canalización LLM compleja y de múltiples etapas, SuffixDecoding logra un rendimiento de salida hasta 2,9 veces mayor y una latencia de tiempo por token (TPOT) hasta 3 veces menor en comparación con la línea base de SpecInfer. Para tareas más abiertas, como chat y generación de código, SuffixDecoding aún ofrece un rendimiento sólido, con un rendimiento hasta 1,4 veces mayor y una latencia TPOT 1,1 veces menor que SpecInfer.

La evaluación también examina la efectividad de las capacidades de decodificación especulativa de SuffixDecoding. SuffixDecoding puede lograr un número promedio significativamente mayor de tokens especulados aceptados por paso de verificación en comparación con el enfoque SpecInfer basado en un modelo borrador. Esto indica que la estructura de árbol de sufijos sin modelo de SuffixDecoding permite una generación de tokens especulativos más precisa y confiable, maximizando la aceleración potencial de la decodificación especulativa sin la sobrecarga de mantener un modelo borrador separado.

Este trabajo presenta SufijoDecodificaciónun enfoque sin modelos para acelerar la inferencia LLM mediante el uso de árboles de sufijos creados a partir de resultados anteriores. SuffixDecoding logra aceleraciones competitivas frente a los métodos de decodificación especulativa basados ​​en modelos existentes en diversas cargas de trabajo y, al mismo tiempo, es particularmente adecuado para procesos de LLM complejos y de múltiples etapas. Al escalar el corpus de referencia en lugar de depender de modelos preliminares, SuffixDecoding demuestra una dirección sólida para mejorar la eficiencia de la decodificación especulativa y desbloquear todo el potencial de los grandes modelos de lenguaje en aplicaciones del mundo real.


Mira el Detalles aquí. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[FREE AI WEBINAR] Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.