El rápido progreso de los modelos de difusión de texto a imagen (T2I) ha hecho posible generar imágenes muy detalladas y precisas a partir de entradas de texto. Sin embargo, a medida que aumenta la longitud del texto de entrada, los métodos de codificación actuales, como CLIP (Preentrenamiento de imagen-lenguaje contrastivo), encuentran varias limitaciones. Estos métodos tienen dificultades para capturar toda la complejidad de las descripciones de texto largas, lo que dificulta mantener la alineación entre el texto y las imágenes generadas, lo que crea desafíos para representar correctamente los problemas detallados de los textos más largos, lo cual es crucial para generar imágenes que reflejen el contenido deseado. . Además, existe una necesidad creciente de técnicas de codificación más avanzadas capaces de manejar entradas de texto y simultáneamente preservar la precisión y coherencia de las imágenes generadas. Si bien los métodos alternativos como los codificadores basados ​​en modelos de lenguaje grande (LLM) pueden manejar secuencias más largas, no logran proporcionar el mismo nivel de alineación que los codificadores contrastivos previos al entrenamiento.

La creciente popularidad de los modelos de difusión ha sido impulsada por los avances en las técnicas de muestreo rápido y la generación condicionada de texto. Los modelos de difusión transforman una distribución gaussiana en una distribución de datos objetivo mediante un proceso de eliminación de ruido de varios pasos. La función de pérdida ayuda a predecir el ruido agregado a los datos limpios, con DDIM y DDPM limpiando este proceso. Stable Diffusion integra un VAE, CLIP y un modelo de difusión para generar imágenes a partir de indicaciones de texto.

Los modelos de preferencias se perfeccionan con comentarios humanos para alinear mejor las imágenes generadas con las indicaciones de texto. Sin embargo, el ajuste de recompensas, que utiliza estos modelos como señales, enfrenta desafíos como el sobreajuste y la retropropagación ineficiente. Técnicas como DRTune ayudan truncando los gradientes para mejorar los pasos de muestreo, aunque persiste el sobreajuste. Los modelos de espacio latente y en cascada permiten la generación de imágenes de alta resolución, lo que mejora la creación y edición de contenido con estilo coherente. Las métricas de evaluación tradicionales, como la puntuación inicial (IS) y la distancia inicial de Fréchet (FID), tienen limitaciones, lo que lleva a enfoques más nuevos como las métricas de similitud perceptual (LPIPS), los modelos de detección y los modelos de preferencia humana. Métodos como DPOK y DiffusionCLIP optimizan los resultados utilizando las preferencias humanas, mientras que DRTune aumenta la velocidad del entrenamiento controlando los gradientes de entrada, mejorando la eficiencia. Para abordar estas cuestiones, un grupo de investigadores de La Universidad de Hong Kong, Sea AI Lab, Singapur, la Universidad Renmin de China y la Universidad de Zhejiang han propuesto LongAlign.que incluye un método de codificación a nivel de segmento para procesar textos largos y un método de optimización de preferencias descompuestas para un entrenamiento de alineación eficaz.

Los investigadores han propuesto un método de codificación a nivel de segmento para permitir que los modelos con capacidad de entrada limitada procesen entradas de texto largo de manera efectiva. Se introduce un enfoque de descomposición de preferencias, que permite que los modelos de preferencias generen puntuaciones de alineación T2I junto con puntuaciones de preferencias generales, lo que mejora la alineación del texto durante el ajuste de los modelos generativos. Después de aproximadamente 20 horas de ajuste, el modelo longSD propuesto supera a los modelos básicos más sólidos en la alineación de texto largo, lo que demuestra un potencial significativo de mejora más allá de la arquitectura del modelo. La codificación a nivel de segmento de LongAlign supera los límites de longitud de entrada al procesar segmentos de texto por separado. El método de optimización de preferencias descompuestas utiliza modelos de preferencias basados ​​en CLIP, descomponiendo las puntuaciones de preferencias en partes relevantes e irrelevantes para el texto. Se aplica una estrategia de reponderación para reducir el sobreajuste y mejorar la alineación. El ajuste fino de Difusión Estable (SD) v1.5 con LongAlign durante 20 horas dio como resultado una alineación T2I superior en comparación con modelos como PixArt-α y Kandinsky v2.2

LongAlign divide el texto en segmentos, los codifica individualmente y fusiona los resultados. Para los modelos de difusión, utiliza concatenación de incrustación y, para los modelos de preferencia, una pérdida a nivel de segmento para puntuaciones de preferencia detalladas. El límite de tokens de CLIP se aborda mediante codificación a nivel de segmento. La concatenación de incrustaciones directas dio como resultado una calidad de imagen deficiente, pero conservar las incrustaciones de inicio de texto, eliminar las incrustaciones de final de texto e introducir una nueva incrustación de relleno mejoró la fusión. Tanto CLIP como T5 se pueden utilizar para codificación de texto largo. Los modelos de difusión se ajustan con textos largos y de gran escala combinados con sus imágenes correspondientes para garantizar una representación precisa de los segmentos de texto. En la optimización de preferencias, los modelos basados ​​en CLIP se alinean dividiendo las condiciones de texto largo en segmentos y definiendo una nueva pérdida de entrenamiento de preferencias a nivel de segmento. Esto permite un aprendizaje débilmente supervisado y genera puntuaciones detalladas a nivel de segmento. El uso de modelos de preferencia como señales de recompensa para ajustar los modelos de difusión T2I presenta desafíos en la propagación hacia atrás de gradientes y la gestión del sobreajuste. Se introduce un enfoque de gradiente reponderado para abordar estos problemas. LongAlign combina estos métodos para mejorar la alineación de textos largos; Algunos experimentos realizados demostraron que el modelo LongAlign logró mejores resultados de generación en comparación con los modelos de referencia, al tiempo que manejaba eficazmente entradas de texto largo y mostraba sus ventajas.

En conclusión, el modelo LongAlign mejora significativamente la alineación de las imágenes generadas con entrada de texto largo. Supera a los modelos existentes al introducir codificación a nivel de segmento y un método de optimización de preferencias descompuestas, lo que demuestra su eficiencia en el manejo de descripciones de texto largas y complejas. Esta estrategia de avance va más allá de los modelos basados ​​en CLIP con la limitación de que el método aún no captura completamente la generación del número exacto de entidades especificadas por las indicaciones, en parte debido a las limitaciones de CLIP.


Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.

[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)


Nazmi Syed es pasante de consultoría en MarktechPost y está cursando una licenciatura en ciencias en el Instituto Indio de Tecnología (IIT) Kharagpur. Tiene una profunda pasión por la ciencia de datos y explora activamente las amplias aplicaciones de la inteligencia artificial en diversas industrias. Fascinada por los avances tecnológicos, Nazmi está comprometida a comprender e implementar innovaciones de vanguardia en contextos del mundo real.