Salesforce AI presenta GlueGen: revolucionando los modelos de texto a imagen con actualizaciones eficientes del codificador y capacidades multimodales

En el panorama en rápida evolución de los modelos de texto a imagen (T2I), está surgiendo una nueva frontera con la introducción de GlueGen. Los modelos T2I han demostrado capacidades impresionantes para generar imágenes a partir de descripciones de texto, pero su rigidez en términos de modificar o mejorar su funcionalidad ha sido un desafío importante. GlueGen tiene como objetivo cambiar este paradigma alineando codificadores monomodales o multimodales con los modelos T2I existentes. Este enfoque de investigadores de la Universidad Northwestern, Salesforce AI Research y la Universidad de Stanford simplifica las actualizaciones y ampliaciones y marca el comienzo de una nueva era de soporte multilingüe, generación de sonido a imagen y codificación de texto mejorada. En este artículo, profundizaremos en el potencial transformador de GlueGen, explorando su papel en el avance de la generación X-to-image (X2I).

Los métodos existentes en la generación de T2I, particularmente aquellos basados ​​en procesos de difusión, han demostrado un éxito significativo en la generación de imágenes basadas en subtítulos proporcionados por el usuario. Sin embargo, estos modelos sufren el desafío de acoplar estrechamente codificadores de texto con decodificadores de imágenes, lo que hace que las modificaciones o actualizaciones sean engorrosas. Algunas referencias a otros enfoques T2I incluyen métodos basados ​​en GAN como Generative Adversarial Nets (GAN), Stack-GAN, Attn-GAN, SD-GAN, DM-GAN, DF-GAN, LAFITE, así como modelos de transformadores autorregresivos como DALL-E y CogView. Además, se han utilizado modelos de difusión como GLIDE, DALL-E 2 e Imagen para la generación de imágenes dentro de este dominio.

Los modelos generativos T2I han avanzado considerablemente, impulsados ​​por mejoras algorítmicas y amplios datos de entrenamiento. Los modelos T2I basados ​​en difusión destacan en la calidad de la imagen, pero tienen dificultades con la controlabilidad y la composición, lo que a menudo requiere una ingeniería rápida para obtener los resultados deseados. Otra limitación es la formación predominante sobre subtítulos de texto en inglés, lo que limita su utilidad multilingüe.

El marco GlueGen presenta GlueNet para alinear características de varios codificadores monomodales o multimodales con el espacio latente de un modelo T2I existente. Su enfoque emplea un nuevo objetivo de capacitación que utiliza corpus paralelos para alinear espacios de representación en diferentes codificadores. Las capacidades de GlueGen se extienden a la alineación de modelos de idiomas multilingües como XLM-Roberta con modelos T2I, lo que facilita la generación de imágenes de alta calidad a partir de subtítulos en idiomas distintos del inglés. Además, puede alinear codificadores multimodales, como AudioCLIP, con el modelo de difusión estable, lo que permite la generación de sonido a imagen.

GlueGen ofrece la capacidad de alinear diversas representaciones de características, facilitando la integración perfecta de nuevas funciones en los modelos T2I existentes. Lo logra alineando modelos de idiomas multilingües, como XLM-Roberta, con modelos T2I para generar imágenes de alta calidad a partir de subtítulos que no están en inglés. Además, GlueGen alinea codificadores multimodales, como AudioCLIP, con el modelo Stable Diffusion, lo que permite la generación de sonido a imagen. Este método también mejora la estabilidad y precisión de la imagen en comparación con GlueNet básico, gracias a su técnica de reponderación objetiva. La evaluación se realiza utilizando puntuaciones FID y estudios de usuarios.

En conclusión, GlueGen ofrece una solución para alinear varias representaciones de características, mejorando la adaptabilidad de los modelos T2I existentes. Al alinear modelos de lenguajes multilingües y codificadores multimodales, amplía las capacidades de los modelos T2I para generar imágenes de alta calidad a partir de diversas fuentes. La eficacia de GlueGen se demuestra a través de una mayor estabilidad y precisión de la imagen, con la ayuda de la técnica de reponderación objetiva propuesta. Además, aborda el desafío de romper el estrecho acoplamiento entre codificadores de texto y decodificadores de imágenes en los modelos T2I, allanando el camino para actualizaciones y reemplazos más sencillos. En general, GlueGen presenta un enfoque prometedor para mejorar las funcionalidades de generación de X a imágenes.


Revisar la Papel, github, Proyecto, y Artículo SF. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.