En los últimos años se han producido cambios drásticos en el campo de la generación de imágenes, debido principalmente al desarrollo de modelos generativos basados ​​en latentes, como Modelos de difusión latente (LDM) y Modelos de imagen de máscara (MIM). Autocodificadores reconstructivos, como VQGAN y VAEpuede reducir imágenes a formas más pequeñas y sencillas llamadas espacio latente de baja dimensión. Esto permite que estos modelos creen imágenes muy realistas. Considerando la gran influencia de los autorregresivos (Arkansas) modelos generativos, como los modelos de lenguaje grande en procesamiento del lenguaje natural (PNL), es interesante explorar si enfoques similares pueden funcionar con imágenes. Aunque los modelos autorregresivos utilizan el mismo espacio latente que modelos como LDM y MIM, todavía fallan en alguna parte en la generación de imágenes. Esto contrasta marcadamente con procesamiento del lenguaje natural (PNL), donde el modelo autorregresivo GPT ha alcanzado un dominio importante.

métodos actuales como LDM y MIM utilizar codificadores automáticos reconstructivos, como VQGAN y VAEpara transformar las imágenes en un espacio latente. Sin embargo, estos enfoques también enfrentan desafíos de estabilidad y rendimiento. Se ve que, en el modelo VQGAN, a medida que mejora la calidad de reconstrucción de la imagen (indicado por una puntuación FID más baja), la calidad general de la generación en realidad puede disminuir. Para abordar estos problemas, los investigadores han propuesto un nuevo método llamado Transformador de imagen generativo discriminativo (DiGIT). A diferencia de los enfoques tradicionales de codificador automático, DiGIT separa el entrenamiento de codificadores y decodificadores, comenzando con el entrenamiento solo del codificador a través de un modelo autosupervisado discriminativo.

Un equipo de investigadores de la Escuela de Ciencia de Datos y la Escuela de Ciencia y Tecnología Informática de la Universidad de Ciencia y Tecnología de China, así como del Laboratorio Estatal Clave de Inteligencia Cognitiva y la Universidad de Zhejiang proponen Transformador de imagen generativa discriminativa (DiGIT). Este método separa el entrenamiento de codificadores y decodificadores, comenzando con el codificador y entrenando a través de un modelo autosupervisado discriminativo. Esta estrategia mejora la estabilidad del espacio latente, haciéndolo más robusto para el modelado autorregresivo. Utilizan un método inspirado en VQGAN para convertir el espacio de características latentes del codificador en tokens discretos utilizando la agrupación de K-medias. La investigación sugiere que los modelos autorregresivos de imágenes pueden funcionar de manera similar a los modelos GPT en el procesamiento del lenguaje natural. Las principales contribuciones de este trabajo incluyen una perspectiva unificada sobre la relación entre el espacio latente y los modelos generativos, enfatizando la importancia de los espacios latentes estables; un método novedoso que separa el entrenamiento de codificadores y decodificadores para estabilizar el espacio latente; y un tokenizador de imágenes discreto eficaz que mejora el rendimiento de los modelos autorregresivos de imágenes.

La arquitectura de DiGIT

Durante las pruebas, los investigadores compararon cada parche de imagen con el token más cercano del libro de códigos. Después de entrenar un Transformer causal para predecir el siguiente token usando estos tokens, los investigadores obtuvieron buenos resultados en ImageNet. El modelo DiGIT supera las técnicas anteriores en comprensión y generación de imágenes, lo que demuestra que el uso de una cuadrícula de tokens más pequeña puede conducir a una mayor precisión. Los experimentos realizados por investigadores destacaron la eficacia del tokenizador discriminativo propuesto, que aumenta significativamente el rendimiento del modelo a medida que aumenta el número de parámetros. El estudio también encontró que aumentar el número de grupos de K-Means mejora la precisión, lo que refuerza las ventajas de un vocabulario más amplio en el modelado autorregresivo.

En conclusión, este artículo presenta una visión unificada de cómo se relacionan el espacio latente y los modelos generativos, destacando la importancia de un espacio latente estable en la generación de imágenes e introduciendo un tokenizador de imágenes simple pero efectivo y un modelo generativo autorregresivo llamado Dígito. Los resultados también desafían la creencia común de que ser bueno en la reconstrucción significa también tener un espacio latente efectivo para la generación autorregresiva. A través de este trabajo, los investigadores pretenden reavivar el interés en el preentrenamiento generativo de modelos autorregresivos de imágenes, fomentar una reevaluación de los componentes fundamentales que definen el espacio latente para los modelos generativos y hacer de esto un paso hacia nuevas tecnologías y métodos.


Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)


Divyesh es pasante de consultoría en Marktechpost. Está cursando un BTech en Ingeniería Agrícola y Alimentaria en el Instituto Indio de Tecnología de Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el ámbito agrícola y resolver desafíos.