En la generación de imágenes, los modelos de difusión han avanzado significativamente, lo que ha llevado a la disponibilidad generalizada de modelos de primer nivel en plataformas de código abierto. A pesar de estos avances, persisten los desafíos en los sistemas de conversión de texto a imagen, particularmente en la gestión de entradas diversas y la limitación a resultados de un solo modelo. Los esfuerzos unificados comúnmente abordan dos facetas distintas: primero, el análisis de varios mensajes durante la etapa de entrada y segundo, la activación de modelos expertos para generar resultados.
En los últimos años se ha visto el auge de modelos de difusión como DALLE-2 e Imagen, transformando la edición y estilización de imágenes. Sin embargo, su naturaleza de código no abierto impide su adopción generalizada. Stable Diffusion (SD), un modelo de texto a imagen de código abierto, y su última versión, SDXL, han ganado popularidad. Los desafíos incluyen limitaciones del modelo y restricciones rápidas, que se abordan mediante enfoques como SD1.5+Lora e ingeniería rápida. A pesar de los avances, aún es necesario lograr un rendimiento óptimo. Varios métodos, como la ingeniería rápida y las plantillas fijas, abordan parcialmente los desafíos de los modelos de difusión estable. Sin embargo, la falta de una solución integral plantea la pregunta: ¿Se puede diseñar un marco unificado para desbloquear las restricciones rápidas y activar modelos expertos en el dominio?
Investigadores de ByteDance y la Universidad Sun Yat-Sen han propuesto DifusiónGPT, empleando un modelo de lenguaje grande (LLM) para crear un sistema de generación que lo abarque todo. Utilizando una estructura de árbol de pensamiento (ToT), integra varios modelos generativos basados en conocimientos previos y comentarios humanos. El LLM analiza el mensaje y guía al ToT para seleccionar el modelo más adecuado para generar el resultado deseado. Las bases de datos Advantage mejoran el ToT con valiosos comentarios humanos, alineando el proceso de selección de modelos con las preferencias humanas, proporcionando así una solución integral e informada por el usuario.
El sistema(DifusiónGPT) sigue un flujo de trabajo de cuatro pasos: análisis rápido, creación y búsqueda de modelos en árbol de pensamiento, selección de modelos con retroalimentación humana y ejecución de generación. La etapa Prompt Parse extrae información destacada de diversas indicaciones, mientras que el Árbol de pensamiento de modelos construye un árbol modelo jerárquico para una búsqueda eficiente. Model Selection aprovecha la retroalimentación humana a través de Advantage Databases, asegurando la alineación con las preferencias del usuario. El modelo generativo elegido luego se somete a la Ejecución de Generación, con un Agente de Extensión Rápida que mejora la calidad rápida para obtener mejores resultados.
Los investigadores emplearon ChatGPT como controlador LLM en la configuración experimental, integrándolo en el marco LangChain para una guía precisa. DiffusionGPT mostró un rendimiento superior en comparación con los modelos básicos como SD1.5 y SD XL en varios tipos de mensajes. En particular, DiffusionGPT abordó las limitaciones semánticas y mejoró la estética de la imagen, superando a SD1.5 en puntuaciones estéticas y de recompensa de imagen en un 0,35% y 0,44%, respectivamente.
Para concluir, la propuesta Difusión-GPT por investigadores de ByteDance Inc. y la Universidad Sun Yat-Sen presenta un marco integral que integra perfectamente modelos generativos de alta calidad, manejando eficazmente una variedad de indicaciones. Utilizando LLM y una estructura ToT, Difusión-GPT Interpreta hábilmente las indicaciones de entrada y selecciona el modelo más adecuado. Esta solución adaptable y sin capacitación muestra un rendimiento excepcional en diversos mensajes y dominios. También incorpora comentarios humanos a través de Advantage Databases, ofreciendo una solución plug-and-play eficiente y fácilmente integrable que favorece el desarrollo comunitario en el campo.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.