Recientemente, los modelos de difusión de texto a imagen (T2I) han mostrado resultados prometedores, lo que ha provocado exploraciones en numerosas tareas generativas. Se han realizado algunos esfuerzos para invertir modelos de texto a imagen previamente entrenados para obtener representaciones de incrustación de texto, lo que permite capturar apariencias de objetos en imágenes de referencia. Sin embargo, ha habido una exploración limitada de la captura de las relaciones entre objetos, una tarea más desafiante que implica la comprensión de las interacciones entre los objetos y la composición de la imagen. Los métodos de inversión existentes tienen dificultades para realizar esta tarea debido a la filtración de entidades a partir de imágenes de referencia, lo que ocurre cuando un modelo filtra información confidencial sobre entidades o individuos, lo que lleva a violaciones de la privacidad.
No obstante, abordar este desafío es de gran importancia.
Este estudio se centra en la tarea de Inversión de relaciones, cuyo objetivo es aprender relaciones en imágenes ejemplares determinadas. El objetivo es derivar una relación dentro del espacio de incrustación de texto de un modelo de difusión de texto a imagen previamente entrenado, donde los objetos en cada imagen ejemplar siguen una relación específica. La combinación del mensaje de relación con mensajes de texto definidos por el usuario permite a los usuarios generar imágenes correspondientes a relaciones específicas mientras personalizan objetos, estilos, fondos y más.
Se introduce una preposición previa para mejorar la representación de conceptos de relación de alto nivel utilizando el mensaje que se puede aprender. Esto se basa en la observación de que las preposiciones están estrechamente vinculadas a relaciones, las preposiciones y las palabras de otras partes del discurso se agrupan individualmente en el espacio de incrustación del texto, y las relaciones complejas del mundo real se pueden expresar utilizando un conjunto básico de preposiciones.
Sobre la base de la preposición anterior, se propone un marco novedoso denominado ReVersion para abordar el problema de la inversión de relaciones. A continuación se ilustra una descripción general del marco.
Este marco incorpora un novedoso esquema de aprendizaje contrastivo de dirección de relaciones para guiar la relación hacia una región densa en relaciones en el espacio de incrustación del texto. Las preposiciones básicas se utilizan como muestras positivas para fomentar la incrustación en el área escasamente activada. Al mismo tiempo, las palabras de otras partes del discurso en las descripciones de texto se consideran negativas, desenredando la semántica relacionada con las apariencias de los objetos. Se diseña una estrategia de muestreo de importancia focal de relación para enfatizar las interacciones de objetos sobre los detalles de bajo nivel, lo que limita el proceso de optimización para mejorar los resultados de inversión de relaciones.
Además, los investigadores presentan ReVersion Benchmark, que ofrece una variedad de imágenes ejemplares que presentan diversas relaciones. Este punto de referencia sirve como herramienta de evaluación para futuras investigaciones en la tarea de Inversión de Relación. Los resultados en varias relaciones demuestran la efectividad de la preposición previa y el marco ReVersion.
Como se presenta en el estudio, informamos algunos de los resultados proporcionados a continuación. Dado que se trata de una tarea novedosa, no existe ningún otro enfoque de vanguardia con el que compararse.
Este fue el resumen de ReVersion, un novedoso marco de modelo de difusión de IA diseñado para abordar la tarea de inversión de relaciones. Si está interesado y desea obtener más información al respecto, no dude en consultar los enlaces que se citan a continuación.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Daniele Lorenzi recibió su M.Sc. en TIC para Ingeniería de Internet y Multimedia en 2021 de la Universidad de Padua, Italia. Es un doctorado. Candidato en el Instituto de Tecnología de la Información (ITEC) de la Alpen-Adria-Universität (AAU) de Klagenfurt. Actualmente trabaja en el Laboratorio Christian Doppler ATHENA y sus intereses de investigación incluyen transmisión de video adaptativa, medios inmersivos, aprendizaje automático y evaluación de QoS/QoE.