Screenshot 2024 03 14 At 5.16.20 Am.png

Con los modelos de difusión, el campo de la generación de texto a imagen ha logrado avances significativos. Sin embargo, los modelos actuales utilizan con frecuencia CLIP como codificador de texto, lo que restringe su capacidad para comprender indicaciones complicadas con muchos elementos, detalles minuciosos, relaciones complejas y alineación amplia del texto. Para superar estos desafíos, en este estudio se presenta el Adaptador eficiente de modelo de lenguaje grande (ELLA), un método novedoso. Al integrar potentes modelos de lenguaje grande (LLM) en modelos de difusión de texto a imagen, ELLA los mejora sin requerir capacitación en U-Net o LLM. Una innovación significativa es el Conector Semántico Timestep-Aware (TSC), un módulo que extrae dinámicamente condiciones que varían con el paso de tiempo del LLM que ya ha sido entrenado. ELLA ayuda a interpretar indicaciones largas y complejas modificando características semánticas en varias fases de eliminación de ruido.

En los últimos años, los modelos de difusión han sido la principal motivación detrás de la generación de texto a imagen, produciendo imágenes estéticamente agradables y relevantes para el texto. Sin embargo, los modelos comunes, incluidas las variaciones basadas en CLIP, tienen dificultades con indicaciones densas, lo que limita su capacidad para manejar conexiones complejas y descripciones exhaustivas de muchos elementos. Como alternativa liviana, ELLA mejora los modelos actuales al incorporar sin problemas potentes LLM, lo que eventualmente aumenta las capacidades de seguimiento rápido y hace posible comprender textos largos y densos sin la necesidad de capacitación LLM o U-Net.

Los LLM previamente capacitados, como T5, TinyLlama o LLaMA-2, se integran con un TSC en la arquitectura de ELLA para proporcionar alineación semántica durante todo el proceso de eliminación de ruido. TSC ajusta automáticamente las características semánticas en varias etapas de eliminación de ruido según la arquitectura del remuestreador. Se agrega información de paso de tiempo a TSC, lo que mejora su capacidad de extracción de características de texto dinámico y permite un mejor acondicionamiento de la U-Net congelada en diferentes niveles semánticos.

El artículo presenta el Dense Prompt Graph Benchmark (DPG-Bench), que consta de 1065 mensajes densos y largos, para evaluar el rendimiento de los modelos de texto a imagen en mensajes densos. El conjunto de datos proporciona una evaluación más exhaustiva que los puntos de referencia actuales al evaluar las capacidades de alineación semántica para abordar señales difíciles y ricas en información. Además, se muestra la idoneidad de ELLA para su uso con modelos comunitarios actuales y herramientas posteriores, lo que ofrece una vía prometedora para seguir mejorando.

El artículo ofrece un resumen perspicaz de investigaciones relevantes en los campos de los modelos compositivos de difusión de texto a imagen, los modelos de difusión de texto a imagen y sus deficiencias cuando se trata de seguir instrucciones complejas. Establece las bases para las contribuciones creativas de ELLA al resaltar las deficiencias de los modelos basados ​​en CLIP y la importancia de agregar potentes LLM como T5 y LLaMA-2 a los modelos existentes.

Utilizando LLM como codificadores de texto, el diseño de ELLA introduce el TSC para la alineación semántica dinámica. En la investigación se llevan a cabo pruebas en profundidad, mediante las cuales ELLA se compara con los modelos más sofisticados con indicaciones densas utilizando DPG-Bench y preguntas de composición cortas en un subconjunto de T2I-CompBench. Los resultados muestran que ELLA es superior, especialmente en el seguimiento de indicaciones complejas, composiciones con muchos objetos y diversos atributos y relaciones.

La influencia de varias opciones de LLM y diseños de arquitectura alternativos en el desempeño de ELLA se investiga mediante investigación de ablación. La solidez del método sugerido queda demostrada por el fuerte impacto del diseño del módulo TSC y la selección de LLM en la comprensión del modelo de indicaciones tanto simples como complejas.

ELLA mejora eficazmente la creación de texto a imagen, permitiendo que los modelos comprendan indicaciones complejas sin necesidad de volver a capacitarse en LLM o U-Net. El documento admite sus deficiencias, como las limitaciones congeladas de U-Net y la sensibilidad de MLLM. Recomienda direcciones para realizar estudios futuros, incluida la resolución de problemas y la investigación de una integración adicional de MLLM con modelos de difusión.

En conclusión, ELLA representa un avance importante en la industria, ya que abre la puerta a capacidades mejoradas de generación de texto a imagen sin requerir mucho reentrenamiento, lo que eventualmente conducirá a modelos más eficientes y versátiles en este dominio.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 38k+ ML


Vibhanshu Patidar es pasante de consultoría en MarktechPost. Actualmente cursa una licenciatura en el Instituto Indio de Tecnología (IIT) Kanpur. Es un entusiasta de la robótica y el aprendizaje automático con una habilidad especial para desentrañar las complejidades de los algoritmos que unen la teoría y las aplicaciones prácticas.