Screenshot 2023 10 18 At 10.09.00 Am.png

El objetivo del “diseño y generación de imágenes” es generar una imagen basada en un concepto amplio proporcionado por el usuario. Esta IDEA de entrada puede incluir imágenes de referencia, como «el perro se parece al de la imagen», o instrucciones instructivas que definen con más detalle la aplicación prevista del diseño, como «un logotipo para el sistema Idea2Img». Los humanos pueden utilizar modelos de texto a imagen (T2I) para crear una imagen basada en una descripción detallada de una imagen imaginada (IDEA). Los usuarios deben explorar manualmente varias opciones hasta encontrar la que mejor describa el problema (el mensaje T2I).

A la luz de las impresionantes capacidades de los grandes modelos multimodales (LMM), los investigadores investigan si podemos o no entrenar sistemas basados ​​en LMM para que adquieran la misma capacidad iterativa de autorrefinamiento, liberando a las personas de la laboriosa tarea de traducir conceptos en imágenes. Al aventurarse en lo desconocido o afrontar tareas difíciles, los humanos tienen la propensión innata a mejorar continuamente sus métodos. Las tareas de procesamiento del lenguaje natural, como la generación de acrónimos, la recuperación de sentimientos, la exploración de entornos basados ​​en texto, etc., pueden abordarse mejor con la ayuda del autorefinamiento, como lo demuestran los sistemas de agentes de modelos de lenguaje grandes (LLM). Los desafíos a la hora de mejorar, calificar y verificar contenidos multimodales, como muchas secuencias de imágenes y texto entrelazadas, surgen cuando pasamos de actividades de sólo texto a entornos multimodales.

La autoexploración permite que un marco LMM aprenda automáticamente a abordar una amplia gama de desafíos del mundo real, como usar una interfaz gráfica de usuario (GUI) para interactuar con un dispositivo digital, atravesar lo desconocido con un agente encarnado, jugar un juego digital. , etcétera. Investigadores de Microsoft Azure estudian la capacidad multimodal de autorrefinamiento iterativo centrándose en el “diseño y generación de imágenes” como trabajo a investigar. Para ello presentan Idea2Img, un framework multimodal autorrefinanciable para el desarrollo y diseño de imágenes de forma automática. Un LMM, GPT-4V (visión), interactúa con un modelo T2I en Idea2Img para investigar la aplicación del modelo e identificar una señal T2I útil. Tanto el análisis de la señal de retorno del modelo T2I (es decir, imágenes borrador) como la creación de las consultas de la ronda posterior (es decir, indicaciones de texto T2I) serán manejados por el LMM.

La generación de mensajes T2I, la selección de borradores de imágenes y la reflexión de retroalimentación contribuyen a la capacidad de autorrefinamiento iterativo multimodal. Para ser más específicos, GPT-4V realiza los siguientes pasos:

  1. Generación de mensajes: GPT-4V genera N mensajes de texto que corresponden a la IDEA del usuario multimodal de entrada, condicionados a los comentarios de texto anteriores y al historial de refinamiento.
  2. Selección de imágenes borrador: GPT-4V compara cuidadosamente N imágenes borradores para la misma IDEA y selecciona la más prometedora
  3. Reflexión de retroalimentación: GPT-4V analiza la discrepancia entre la imagen borrador y la IDEA. Luego, GPT-4V brinda información sobre qué salió mal, por qué salió mal y cómo se podrían mejorar las indicaciones de T2I.

Además, Idea2Img tiene un módulo de memoria incorporado que realiza un seguimiento de su historial de exploración para cada tipo de mensaje (imagen, texto y comentarios). Para la creación y generación automatizada de imágenes, el marco Idea2Img alterna repetidamente entre estos tres procesos basados ​​en GPT-4V. Como ayuda mejorada para el diseño y la creación de imágenes, Idea2Img es una herramienta útil para los usuarios. Al aceptar instrucciones de diseño en lugar de una descripción exhaustiva de la imagen, acomodar la entrada multimodal de IDEA y producir imágenes con mayor calidad semántica y visual, Idea2Img se destaca de los modelos T2I.

El equipo revisó algunos casos de muestra de creación y diseño de imágenes. Por ejemplo, Idea2Img puede procesar IDEA con secuencias de imagen y texto entrelazadas arbitrariamente, incluir el diseño visual y la descripción del uso previsto en IDEA y extraer información visual arbitraria de la imagen de entrada. Con base en estas características actualizadas y casos de uso, crearon un conjunto IDEA de evaluación de 104 muestras con preguntas complejas que los humanos podrían equivocarse la primera vez. El equipo emplea Idea2Img y varios modelos T2I para realizar estudios de preferencias de los usuarios. Las mejoras en las puntuaciones de preferencia del usuario en muchos modelos de generación de imágenes, como +26,9 % con SDXL, demuestran la eficacia de Idea2Img en esta área.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.