Investigadores de Microsoft y la Universidad de Tsinghua presentan la decodificación destilada: un nuevo método para acelerar la generación de imágenes en modelos autorregresivos sin pérdida de calidad

Los modelos autorregresivos (AR) han cambiado el campo de la generación de imágenes, estableciendo nuevos puntos de referencia en la producción de imágenes de alta calidad. Estos modelos dividen el proceso de creación de imágenes en pasos secuenciales, cada token generado en base a tokens anteriores, creando resultados con un realismo y coherencia excepcionales. Los investigadores han adoptado ampliamente técnicas de RA para aplicaciones de visión por computadora, juegos y creación de contenido digital. Sin embargo, El potencial de los modelos AR a menudo se ve limitado por sus ineficiencias inherentes, en particular su lento proceso de generación, que sigue siendo un obstáculo importante en las aplicaciones en tiempo real.

Entre muchas preocupaciones, una crítica a la que se enfrentan los modelos AR es su velocidad. El proceso de generación token por token es inherentemente secuencial, lo que significa que cada token nuevo debe esperar a que se complete su predecesor. Este enfoque limita la escalabilidad y genera una alta latencia durante las tareas de generación de imágenes. Por ejemplo, generar una imagen de 256 × 256 utilizando modelos AR tradicionales como LlamaGen requiere 256 pasos, lo que se traduce en aproximadamente cinco segundos en las GPU modernas. Estos retrasos dificultan su implementación en aplicaciones que exigen resultados instantáneos. Además, si bien los modelos AR destacan por mantener la fidelidad de sus resultados, tienen dificultades para satisfacer la creciente demanda de velocidad y calidad en implementaciones a gran escala.

Los esfuerzos para acelerar los modelos AR han dado como resultado varios métodos, como predecir múltiples tokens simultáneamente o adoptar estrategias de enmascaramiento durante la generación. Estos enfoques tienen como objetivo reducir los pasos necesarios, pero a menudo comprometen la calidad de las imágenes generadas. Por ejemplo, en las técnicas de generación de múltiples tokens, el supuesto de independencia condicional entre tokens introduce artefactos que socavan la cohesión del resultado. De manera similar, los métodos basados ​​en enmascaramiento permiten una generación más rápida mediante el entrenamiento de modelos para predecir tokens específicos en función de otros, pero su efectividad disminuye cuando los pasos de generación se reducen drásticamente. Estas limitaciones resaltan la necesidad de un nuevo enfoque para mejorar la eficiencia del modelo AR.

Los investigadores de la Universidad de Tsinghua y Microsoft Research han presentado una solución a estos desafíos: Decodificación destilada (DD). Este método se basa en la coincidencia de flujo, un mapeo determinista que conecta el ruido gaussiano con la distribución de salida de modelos AR previamente entrenados. A diferencia de los métodos convencionales, DD no requiere acceso a los datos de entrenamiento originales de los modelos AR, lo que hace que su implementación sea más práctica. La investigación demostró que DD puede transformar el proceso de generación de cientos de pasos a tan solo uno o dos, preservando al mismo tiempo la calidad del resultado. Por ejemplo, en ImageNet-256, DD logró una aceleración de 6,3x para los modelos VAR y un impresionante 217,8x para LlamaGen, reduciendo los pasos de generación de 256 a solo uno.

La base técnica de DD se basa en su capacidad para crear una trayectoria determinista para la generación de tokens. Utilizando la coincidencia de flujo, DD asigna entradas ruidosas a tokens para alinear su distribución con el modelo AR previamente entrenado. Durante el entrenamiento, el mapeo se destila en una red liviana que puede predecir directamente la secuencia de datos final a partir de una entrada de ruido. Este proceso garantiza una generación más rápida y proporciona flexibilidad para equilibrar la velocidad y la calidad al permitir pasos intermedios cuando sea necesario. A diferencia de los métodos existentes, DD elimina el equilibrio entre velocidad y fidelidad, lo que permite implementaciones escalables en diversas tareas.

En experimentos, DD destaca su superioridad sobre los métodos tradicionales. Por ejemplo, utilizando modelos VAR-d16, DD logró una generación en un solo paso con un aumento de la puntuación FID de 4,19 a 9,96, lo que muestra una degradación mínima de la calidad a pesar de una aceleración de 6,3 veces. Para los modelos LlamaGen, la reducción de pasos de 256 a uno dio como resultado una puntuación FID de 11,35, en comparación con 4,11 en el modelo original, con una notable mejora de velocidad de 217,8 veces. DD demostró una eficiencia similar en tareas de conversión de texto a imagen, reduciendo los pasos de generación de 256 a dos y manteniendo una puntuación FID comparable de 28,95 frente a 25,70. Los resultados subrayan la capacidad de DD para mejorar drásticamente la velocidad sin una pérdida significativa de la calidad de la imagen, una hazaña incomparable con los métodos básicos.

Varias conclusiones clave de la investigación sobre DD incluyen:

  1. DD reduce los pasos de generación en órdenes de magnitud, logrando una generación hasta 217,8 veces más rápida que los modelos AR tradicionales.
  2. A pesar del proceso acelerado, DD mantiene niveles de calidad aceptables, y los aumentos de la puntuación FID se mantienen dentro de rangos manejables.
  3. DD demostró un rendimiento constante en diferentes modelos de AR, incluidos VAR y LlamaGen, independientemente de sus definiciones de secuencia de tokens o tamaños de modelo.
  4. El enfoque permite a los usuarios equilibrar la calidad y la velocidad eligiendo rutas de generación de uno, dos o varios pasos según sus requisitos.
  5. El método elimina la necesidad de los datos de entrenamiento del modelo AR original.lo que lo hace factible para aplicaciones prácticas en escenarios donde dichos datos no están disponibles.
  6. Debido a su eficiente enfoque de destilación, DD puede potencialmente impactar otros dominios, como la síntesis de texto a imagen, el modelado de lenguaje y la generación de imágenes.

En conclusión, Con la introducción de Distilled Decoding, los investigadores han abordado con éxito el antiguo equilibrio entre velocidad y calidad que ha plagado los procesos de generación de AR aprovechando la coincidencia de flujo y los mapeos deterministas. El método acelera la síntesis de imágenes al reducir drásticamente los pasos y preserva la fidelidad y escalabilidad de los resultados. Con su sólido rendimiento, adaptabilidad y ventajas prácticas de implementación, Distilled Decoding abre nuevas fronteras en aplicaciones en tiempo real de modelos AR. Prepara el escenario para una mayor innovación en el modelado generativo.


Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.