TL;DR: Mensaje de texto -> LLM -> Representación intermedia (como un diseño de imagen) -> Difusión estable -> Imagen.
Los avances recientes en la generación de texto a imagen con modelos de difusión han producido resultados notables al sintetizar imágenes diversas y muy realistas. Sin embargo, a pesar de sus impresionantes capacidades, los modelos de difusión, como Difusión establea menudo tienen dificultades para seguir con precisión las indicaciones cuando se requiere razonamiento espacial o de sentido común.
La siguiente figura enumera cuatro escenarios en los que Stable Diffusion no logra generar imágenes que correspondan con precisión a las indicaciones dadas, a saber negación, aritméticay asignación de atributos, relaciones espaciales. Por el contrario, nuestro método, llMETRO-conectado a tierra Dinfusión (LMD), ofrece una comprensión mucho mejor de la generación de texto a imagen en esos escenarios.
Figura 1: La difusión basada en LLM mejora la capacidad de comprensión rápida de los modelos de difusión de texto a imagen.
Una posible solución para abordar este problema es, por supuesto, recopilar un vasto conjunto de datos multimodal que incluya subtítulos complejos y entrenar un modelo de difusión grande con un codificador de lenguaje grande. Este enfoque conlleva costos significativos: lleva mucho tiempo y es costoso entrenar tanto modelos de lenguajes grandes (LLM) como modelos de difusión.
Nuestra solución
Para resolver eficientemente este problema con un costo mínimo (es decir, sin costos de capacitación), en su lugar equipar los modelos de difusión con un razonamiento espacial y de sentido común mejorado mediante el uso de LLM congelados disponibles en el mercado en un novedoso proceso de generación de dos etapas.
Primero, adaptamos un LLM para que sea un generador de diseños guiado por texto a través del aprendizaje en contexto. Cuando se le proporciona un mensaje de imagen, un LLM genera un diseño de escena en forma de cuadros delimitadores junto con las descripciones individuales correspondientes. En segundo lugar, dirigimos un modelo de difusión con un controlador novedoso para generar imágenes condicionadas al diseño. Ambas etapas utilizan modelos preentrenados congelados sin ningún LLM ni optimización de parámetros del modelo de difusión. Invitamos a los lectores a lea el artículo sobre arXiv para detalles adicionales.
Figura 2: LMD es un modelo generativo de texto a imagen con un novedoso proceso de generación de dos etapas: un generador de texto a diseño con un LLM + aprendizaje en contexto y una novedosa difusión estable guiada por el diseño. Ambas etapas son libres de entrenamiento.
Capacidades adicionales de LMD
Además, LMD permite naturalmente especificación de escena de múltiples rondas basada en diálogo, permitiendo aclaraciones adicionales y modificaciones posteriores para cada mensaje. Además, LMD es capaz de manejar indicaciones en un lenguaje que no está bien respaldado por el modelo de difusión subyacente.
Figura 3: Al incorporar un LLM para una comprensión rápida, nuestro método es capaz de realizar la especificación y generación de escenas basadas en diálogos a partir de indicaciones en un idioma (chino en el ejemplo anterior) que el modelo de difusión subyacente no admite.
Dado un LLM que admite diálogos de múltiples rondas (por ejemplo, GPT-3.5 o GPT-4), LMD permite al usuario proporcionar información o aclaraciones adicionales al LLM consultando el LLM después de la primera generación del diseño en el diálogo y generando imágenes con el diseño actualizado en la respuesta posterior del LLM. Por ejemplo, un usuario podría solicitar agregar un objeto a la escena o cambiar los objetos existentes en la ubicación o las descripciones (la mitad izquierda de la Figura 3).
Además, al dar un ejemplo de un mensaje que no está en inglés con un diseño y una descripción de fondo en inglés durante el aprendizaje en contexto, LMD acepta entradas de mensajes que no están en inglés y generará diseños, con descripciones de cuadros y el fondo en inglés para posteriores. generación de diseño a imagen. Como se muestra en la mitad derecha de la Figura 3, esto permite la generación a partir de mensajes en un lenguaje que los modelos de difusión subyacentes no admiten.
Visualizaciones
Validamos la superioridad de nuestro diseño comparándolo con el modelo de difusión base (SD 2.1) que LMD utiliza bajo el capó. Invitamos a los lectores a nuestro trabajo para obtener más evaluaciones y comparaciones.
Figura 4: LMD supera al modelo de difusión base al generar imágenes con precisión de acuerdo con indicaciones que requieren tanto lenguaje como razonamiento espacial. LMD también permite la generación de texto a imagen contrafactual que el modelo de difusión base no puede generar (la última fila).
Para obtener más detalles sobre la difusión basada en LLM (LMD), Visite nuestro sitio web y lea el artículo sobre arXiv.
BibTex
Si la difusión basada en LLM inspira su trabajo, cítelo con:
@article{lian2023llmgrounded,
title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models},
author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
journal={arXiv preprint arXiv:2305.13655},
year={2023}
}