Esta investigación de IA de Corea presenta MagiCapture: un método de personalización para integrar conceptos de tema y estilo para generar imágenes de retratos de alta resolución

Las personas a menudo necesitan asistir a un estudio fotográfico, seguido de un procedimiento de edición de imágenes costoso y que requiere mucho tiempo, para producir retratos fotográficos de alta calidad adecuados para currículums o celebraciones de bodas. Imagine una situación en la que pudiera obtener retratos de alta calidad en estilos particulares, como fotografías de pasaporte o de perfil, utilizando solo unos pocos selfies y fotografías de referencia. Este documento automatiza el procedimiento. Ahora se pueden lograr fotografías de retratos realistas y de alta fidelidad gracias a los recientes desarrollos en modelos de conversión de texto a imagen a gran escala como Stable Diffusion e Imagen. El estudio actual sobre la personalización de estos modelos tiene como objetivo combinar ciertos temas o estéticas utilizando fotografías de trenes disponibles.

Definen su objetivo en su artículo como un desafío de personalización de múltiples conceptos. El resultado compuesto se produce una vez que se han aprendido el material fuente y el estilo de referencia, respectivamente. El uso de imágenes de referencia en lugar de la edición basada en texto permite a los usuarios ofrecer consejos detallados, lo que lo hace más apropiado para este propósito. Sin embargo, a pesar de los resultados alentadores de las técnicas de personalización anteriores, con frecuencia dan como resultado imágenes que carecen de realismo y no son comercialmente viables. Este problema generalmente ocurre al intentar actualizar los parámetros de modelos grandes con solo unas pocas fotos. En una generación de conceptos múltiples, donde la falta de imágenes reales para los conceptos combinados comúnmente da como resultado la mezcla artificial de diferentes conceptos o la divergencia de los conceptos originales, esta reducción en la calidad es aún más obvia.

Debido a su sesgo humano intrínseco, cualquier artefacto artificial o cambio de identidad es fácilmente evidente en la producción de retratos, donde este problema es más obvio. Investigadores de KAIST AI y la Universidad de Sogang presentan MagiCapture, un enfoque de personalización de múltiples conceptos para fusionar ideas de temas y estilos para crear fotografías de retratos de alta resolución utilizando solo unas pocas referencias de temas y estilos, como una solución a estos problemas. Su enfoque utiliza el aprendizaje con indicaciones compuestas, que incluye la indicación compuesta como parte del proceso de capacitación y fortalece la estrecha integración del material fuente y el estilo de referencia. Para lograr esto se utilizan etiquetas auxiliares de pérdida y falsas. También sugieren la pérdida de reenfoque de la atención en combinación con un objetivo de reconstrucción disfrazado, una táctica esencial para lograr desenredar la información y evitar la fuga de información durante la inferencia. MagiCapture funciona mejor que otras líneas de base en evaluaciones cuantitativas y cualitativas y, con solo unos pocos ajustes, puede aplicarse a otros objetos no humanos.

Las siguientes son las contribuciones clave de su artículo:

• Proporcionan una técnica de personalización de múltiples conceptos que puede producir fotografías de retratos de alta resolución que replican con precisión las características de las fotografías de origen y de referencia.

• Proporcionan una nueva pérdida de Reenfoque de Atención con un objetivo de reconstrucción enmascarado que separa con éxito la información necesaria de las imágenes de entrada y evita que la información se filtre durante la producción.

• Proporcionan una estrategia de aprendizaje rápido construida que utiliza pérdida auxiliar y pseudoetiquetas para fusionar el material fuente y el estilo de referencia de manera efectiva. Su método supera los enfoques básicos existentes en evaluaciones cuantitativas y cualitativas y, con ligeras modificaciones, puede aplicarse para producir imágenes de objetos no humanos.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.