NVIDIA AI presenta Fast-DLLM: un marco sin entrenamiento que trae almacenamiento en caché de KV y decodificación paralela a Difusión LLMS

Los modelos de lenguaje grande (LLM) basados en difusión se están explorando como una alternativa prometedora a los modelos autorregresivos tradicionales, que ofrecen el potencial de generación simultánea de múltiples token. Al usar mecanismos de atención bidireccionales, estos modelos tienen como objetivo acelerar la decodificación, proporcionando teóricamente una inferencia más rápida que los sistemas autorregresivos. Sin embargo, a pesar de su promesa, los modelos de difusión a menudo luchan en la práctica para ofrecer velocidades de inferencia competitiva, lo que limita su capacidad para igualar el rendimiento del mundo real de los modelos de idiomas grandes agresivos LLM.

El desafío principal radica en la ineficiencia de la inferencia en los LLM basados en difusión. Estos modelos generalmente no admiten mecanismos de caché de valor clave (KV), que son esenciales para acelerar la inferencia al reutilizar los estados de atención previamente calculados. Sin el almacenamiento en caché de KV, cada paso de nueva generación en los modelos de difusión repite los cálculos de atención, lo que los hace computacionalmente intensivos. Además, al decodificar múltiples tokens simultáneamente, una característica clave de los modelos de difusión, la calidad de la generación a menudo se deteriora debido a las interrupciones en las dependencias de tokens bajo el supuesto de independencia condicional. Esto hace que los modelos de difusión no sean confiables para la implementación práctica a pesar de sus fortalezas teóricas.

Los intentos de mejorar la difusión LLM se han centrado en estrategias como la generación de bloques y el almacenamiento en caché parcial. Por ejemplo, modelos como Llada y Dream incorporan técnicas de difusión enmascaradas para facilitar la generación de múltiples toking. Sin embargo, aún carecen de un sistema de caché de valor clave (KV) efectivo, y la decodificación paralela en estos modelos a menudo resulta en salidas incoherentes. Si bien algunos enfoques utilizan modelos auxiliares para aproximar las dependencias de token, estos métodos introducen complejidad adicional sin abordar completamente los problemas de rendimiento subyacentes. Como resultado, la velocidad y la calidad de la generación en difusión LLMS continúan retrasando los modelos autorregresivos.

Investigadores de Nvidia, la Universidad de Hong Kong y el MIT introdujeron Fast-DLLM, un marco desarrollado para abordar estas limitaciones sin requerir el reentrenamiento. Fast-DLLM aporta dos innovaciones a Difusión LLM: un mecanismo de caché KV aproximado de bloque y una estrategia de decodificación paralela consciente de la confianza. El caché de KV aproximado se adapta a la naturaleza bidireccional de los modelos de difusión, lo que permite que las activaciones de pasos de decodificación anteriores se reutilicen de manera eficiente. La decodificación paralela consciente de la confianza decodifica selectivamente los tokens basados en un umbral de confianza, reduciendo los errores que surgen de la suposición de la independencia del token. Este enfoque ofrece un equilibrio entre la velocidad y la calidad de la generación, lo que lo convierte en una solución práctica para las tareas de generación de texto basadas en difusión.

En profundidad, el método KV de caché de Fast-DLLM se implementa dividiendo secuencias en bloques. Antes de generar un bloque, las activaciones de KV para otros bloques se calculan y almacenan, lo que permite la reutilización durante los pasos de decodificación posteriores. Después de generar un bloque, el caché se actualiza en todos los tokens, lo que minimiza la redundancia de cálculo mientras se mantiene la precisión. La versión DualCache extiende este enfoque al almacenar en caché tanto el prefijo como los tokens de sufijo, aprovechando la alta similitud entre los pasos de inferencia adyacentes, como lo demuestran los mapas de calor de similitud de coseno en el papel. Para el componente de decodificación paralelo, el sistema evalúa la confianza de cada token y decodifica solo aquellos que exceden un umbral establecido. Esto evita las violaciones de dependencia del muestreo simultáneo y garantiza la generación de mayor calidad, incluso cuando múltiples tokens se decodifican en un solo paso.

Fast-DLLM logró mejoras de rendimiento significativas en las pruebas de referencia. En el conjunto de datos GSM8K, por ejemplo, logró una aceleración de 27.6 × sobre los modelos de línea de base en configuraciones de 8 disparos en una longitud de generación de 1024 tokens, con una precisión del 76.0%. En el punto de referencia de matemáticas, se logró una aceleración de 6.5 × con una precisión de alrededor del 39.3%. El punto de referencia Humaneval vio una aceleración de 3.2 × con precisión mantenida en 54.3%, mientras que en MBPP, el sistema logró una aceleración de 7.8 × a una longitud de generación de 512 tokens. En todas las tareas y modelos, la precisión permaneció dentro de 1–2 puntos de la línea de base, lo que demuestra que la aceleración de Fast-DLLM no degrada significativamente la calidad de la salida.

El equipo de investigación abordó efectivamente los cuellos de botella centrales en LLM basados en difusión mediante la introducción de una nueva estrategia de almacenamiento en caché y un mecanismo de decodificación basado en la confianza. Al abordar la ineficiencia de la inferencia y mejorar la calidad de decodificación, Fast-DLLM demuestra cómo la difusión LLM puede abordar o incluso superar los modelos autorregresivos en la velocidad mientras mantiene una alta precisión, lo que los hace viables para la implementación en aplicaciones de generación de idiomas del mundo real.

Mira el Papel y Página del proyecto . Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

NVIDIA AI presenta Fast-DLLM: un marco sin entrenamiento que trae almacenamiento en caché de KV y decodificación paralela a Difusión LLMS

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Cree un agente impulsado por el aprendizaje por refuerzo que aprenda a recuperar recuerdos relevantes a largo plazo para responder con precisión a las preguntas de LLM

Una carrera en datos no siempre es una línea recta, y eso está bien

Microsoft ha aflojado su control exclusivo sobre OpenAI y ahora la carrera por la inteligencia artificial parece abierta de par en par

You missed

Los arrecifes de coral en un archipiélago remoto hicieron caso omiso a una ola de calor masiva

Vance duda de la descripción que hace el Pentágono de la guerra de Irán

El quinteto de restaurantes de alta cocina de Galaxy Macau reconocido en la guía de restaurantes “100 Top Tables 2026” de SCMP

El titán nacionalista catalán, de 95 años, se salva del juicio por corrupción por motivos de salud