Screenshot 2024 06 21 At 1.32.43 Am.png

Los modelos de generación de imágenes autorregresivos tradicionalmente se han basado en representaciones cuantificadas por vectores, lo que introduce varios desafíos importantes. El proceso de cuantificación de vectores requiere una gran cantidad de cálculos y, a menudo, da como resultado una calidad de reconstrucción de imágenes subóptima. Esta dependencia limita la flexibilidad y eficiencia de los modelos, lo que dificulta capturar con precisión las distribuciones complejas de datos de imágenes continuas. Superar estos desafíos es crucial para mejorar el rendimiento y la aplicabilidad de los modelos autorregresivos en la generación de imágenes.

Los métodos actuales para abordar este desafío implican convertir datos de imágenes continuas en tokens discretos mediante cuantificación vectorial. Técnicas como los codificadores automáticos variacionales cuantificados vectoriales (VQ-VAE) codifican imágenes en un espacio latente discreto y luego modelan este espacio de forma autorregresiva. Sin embargo, estos métodos enfrentan limitaciones considerables. El proceso de cuantificación vectorial no sólo requiere una gran cantidad de cálculos, sino que también introduce errores de reconstrucción, lo que resulta en una pérdida de calidad de la imagen. Además, la naturaleza discreta de estos tokenizadores limita la capacidad de los modelos para capturar con precisión las distribuciones complejas de datos de imágenes, lo que afecta la fidelidad de las imágenes generadas.

Un equipo de investigadores del MIT CSAIL, Google DeepMind y la Universidad de Tsinghua ha desarrollado una técnica novedosa que elimina la necesidad de cuantificación vectorial. Este método aprovecha un proceso de difusión para modelar la distribución de probabilidad por token dentro de un espacio de valores continuos. Al emplear una función de pérdida de difusión, el modelo predice tokens sin convertir datos en tokens discretos, manteniendo así la integridad de los datos continuos. Esta estrategia innovadora aborda las deficiencias de los métodos existentes mejorando la calidad de la generación y la eficiencia de los modelos autorregresivos. La contribución principal radica en la aplicación de modelos de difusión para predecir tokens de forma autorregresiva en un espacio continuo, lo que mejora significativamente la flexibilidad y el rendimiento de los modelos de generación de imágenes.

La técnica recientemente introducida utiliza un proceso de difusión para predecir vectores de valores continuos para cada token. Comenzando con una versión ruidosa del token de destino, el proceso lo refina de forma iterativa utilizando una pequeña red de eliminación de ruido condicionada a tokens anteriores. Esta red de eliminación de ruido, implementada como un perceptrón multicapa (MLP), se entrena junto con el modelo autorregresivo mediante retropropagación utilizando la función de pérdida de difusión. Esta función mide la discrepancia entre el ruido previsto y el ruido real agregado a los tokens. El método se ha evaluado en grandes conjuntos de datos como ImageNet, lo que demuestra su eficacia para mejorar el rendimiento de variantes de modelos autorregresivos y autorregresivos enmascarados.

Los resultados demuestran mejoras significativas en la calidad de generación de imágenes, como lo demuestran métricas de rendimiento clave como la distancia de inicio de Fréchet (FID) y la puntuación de inicio (IS). Los modelos que utilizan pérdida de difusión logran consistentemente una FID más baja y una IS más alta en comparación con aquellos que usan la pérdida de entropía cruzada tradicional. Específicamente, los modelos autorregresivos enmascarados (MAR) con pérdida de difusión logran un FID de 1,55 y un IS de 303,7, lo que indica una mejora sustancial con respecto a los métodos anteriores. Esta mejora se observa en varias variantes del modelo, lo que confirma la eficacia de este nuevo enfoque para aumentar tanto la calidad como la velocidad de generación de imágenes, logrando tasas de generación de menos de 0,3 segundos por imagen.

En conclusión, la innovadora técnica basada en difusión ofrece una solución innovadora al desafío de la dependencia de la cuantificación vectorial en la generación de imágenes autorregresivas. Al introducir un método para modelar tokens de valor continuo, los investigadores mejoran significativamente la eficiencia y la calidad de los modelos autorregresivos. Esta novedosa estrategia tiene el potencial de revolucionar la generación de imágenes y otros dominios de valor continuo, proporcionando una solución sólida a un desafío crítico en la investigación de la IA.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 45.000 ml


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.