Meta AI propone ‘Imagínese a sí mismo’: un modelo de última generación para la generación de imágenes personalizadas sin ajustes específicos del sujeto

La generación de imágenes personalizadas está ganando terreno debido a su potencial en diversas aplicaciones, desde las redes sociales hasta la realidad virtual. Sin embargo, los métodos tradicionales suelen requerir una gran cantidad de ajustes para cada usuario, lo que limita la eficiencia y la escalabilidad. Imagínate a ti mismoun modelo innovador que supera estas limitaciones al eliminar la necesidad de realizar ajustes específicos para cada usuario, lo que permite que un único modelo satisfaga las diversas necesidades de los usuarios. Este modelo aborda las deficiencias de los métodos existentes, como su tendencia a replicar imágenes de referencia sin variación, lo que allana el camino para un proceso de generación de imágenes más versátil y fácil de usar. Imagínate a ti mismo Se destaca en áreas clave como la preservación de la identidad, la calidad visual y la alineación rápida, superando significativamente a los modelos anteriores.

Los métodos actuales de generación de imágenes personalizadas a menudo dependen de modelos de ajuste para cada usuario, lo que es ineficiente y carece de generalización. Si bien los enfoques más nuevos intentan personalizar sin ajustar, a menudo se sobreajustan, lo que genera un efecto de copiar y pegar. Los investigadores de Meta introdujeron Imagínate a ti mismo, Un nuevo modelo que mejora la personalización sin necesidad de un ajuste específico del sujeto. Los componentes clave incluyen la generación de datos sintéticos por pares para fomentar la diversidad, una arquitectura de atención totalmente paralela que integra tres codificadores de texto y un codificador de visión entrenable, y un proceso de ajuste fino de múltiples etapas de grueso a fino. Estas innovaciones permiten que el modelo genere imágenes diversas y de alta calidad, manteniendo al mismo tiempo una sólida preservación de la identidad y la alineación del texto.

Imagínate a ti mismo Extrae información de identidad mediante un codificador de parches CLIP entrenable y la integra con indicaciones textuales a través de un módulo de atención cruzada paralelo, lo que garantiza la preservación precisa de la identidad y la respuesta a indicaciones complejas. El modelo utiliza adaptadores de bajo rango (LoRA) para ajustar solo partes específicas de la arquitectura, manteniendo una alta calidad visual.

Una característica destacada de Imagine Yourself es la generación de datos pareados sintéticos (SynPairs). Al crear datos pareados de alta calidad que incluyen variaciones en la expresión, la pose y la iluminación, el modelo puede aprender de manera más eficaz y producir resultados diversos. En particular, logra una notable mejora del +27,8 % en la alineación del texto en comparación con los modelos de última generación al manejar indicaciones complejas.

Los investigadores utilizaron un conjunto de 51 identidades diversas y 65 indicaciones para evaluar Imagine Yourself cuantitativamente, generando 3315 imágenes para evaluación humana. El modelo se comparó con modelos basados ​​en adaptadores y controles de última generación (SOTA), centrándose en métricas como el atractivo visual, la preservación de la identidad y la alineación de las indicaciones. Las anotaciones humanas calificaron las imágenes generadas en función de la similitud de identidad, la alineación de las indicaciones y el atractivo visual. Imagínate a ti mismo Demostró una mejora significativa del +45,1 % en la alineación rápida en comparación con el modelo basado en adaptadores y una mejora del +30,8 % en comparación con el modelo basado en controles, lo que reafirma su superioridad. Si bien el modelo basado en controles se destacó en la preservación de la identidad, a menudo dependía de un efecto de copiar y pegar, lo que generaba resultados menos naturales a pesar de las altas métricas de identidad.

El modelo Imagine Yourself representa un avance significativo en la generación de imágenes personalizadas. Este modelo aborda desafíos críticos a los que se enfrentaban los métodos anteriores al eliminar la necesidad de ajustes específicos para cada sujeto e introducir componentes innovadores como la generación de datos sintéticos por pares y una arquitectura de atención paralela. Su desempeño superior en la preservación de la identidad, la alineación con las indicaciones y el mantenimiento de la calidad visual marca un avance prometedor para las aplicaciones que requieren la creación de imágenes personalizadas. La investigación destaca el potencial de los modelos sin ajustes y establece un nuevo estándar para futuros desarrollos en esta área dinámica de la inteligencia artificial.


Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí


Shreya Maji es pasante de consultoría en MarktechPost. Estudió su licenciatura en el Instituto Indio de Tecnología (IIT) en Bhubaneswar. Es una entusiasta de la inteligencia artificial y le gusta mantenerse al día de los últimos avances. Shreya está particularmente interesada en las aplicaciones reales de la tecnología de vanguardia, especialmente en el campo de la ciencia de datos.