Screenshot 2024 07 09 At 11.08.10 Pm.png

La adaptación generativa de dominios (GDA) con pocos ejemplos es un concepto de aprendizaje automático y adaptación de dominios que aborda el desafío de adaptar un modelo entrenado en un dominio de origen para que funcione bien en un dominio de destino, utilizando solo unos pocos ejemplos del dominio de destino. Esta técnica es particularmente útil cuando se obtiene una gran cantidad de datos etiquetados del dominio de destino, lo que resulta costoso o poco práctico.

La principal solución existente para GDA se centra en mejorar un modelo de IA especial llamado «generador», que crea nuevas muestras de datos que se asemejan al dominio de destino, incluso con solo unos pocos ejemplos. Técnicas como la pérdida de consistencia y la inversión de GAN ayudan al generador a producir datos diversos y de alta calidad. Estos métodos garantizan que los datos generados mantengan similitudes y diferencias con precisión en todos los dominios. Sin embargo, surgen desafíos cuando los dominios de origen y destino tienen diferencias significativas. En tales casos, garantizar que el generador pueda adaptarse y generar con precisión datos que se ajusten a ambos dominios sigue siendo un desafío considerable.

Para abordar estos desafíos, un artículo reciente presentado en NeurIPS presenta la Re-Modulación de Dominio (DoRM) para GDA. A diferencia de los métodos anteriores, DoRM mejora la calidad de la síntesis de imágenes, la diversidad y la consistencia entre dominios, al tiempo que integra capacidades de memoria y asociación de dominios inspiradas en el aprendizaje humano. Al modificar el espacio de estilo a través de nuevos módulos de mapeo y afines, DoRM puede generar imágenes de alta fidelidad en múltiples dominios, incluidos híbridos que no se ven en el entrenamiento. Los autores del artículo también presentaron una novedosa pérdida de estructura basada en similitud para una mejor alineación entre dominios, mostrando un rendimiento superior en evaluaciones experimentales en comparación con los enfoques existentes.

Concretamente, DoRM mejora las capacidades del generador para GDA introduciendo varias innovaciones clave:

1. Preparación del generador fuente: Inicialmente, el método comienza con un generador StyleGAN2 previamente entrenado que sirve como base para adaptaciones posteriores.

2. Introducción de módulos M&A: el generador de origen se congela para adaptarse al nuevo dominio de destino y se introducen nuevos módulos de mapeo y afinidad (M&A). Estos módulos son cruciales, ya que se especializan en capturar atributos específicos exclusivos del dominio de destino. Al activar selectivamente estos módulos, el generador puede ajustar con precisión su salida para que coincida con los matices de los diferentes dominios.

3. Ajuste del espacio de estilo: transformación del código latente del dominio de origen en un nuevo espacio adaptado al estilo visual del dominio de destino. Este ajuste permite al generador sintetizar resultados que reflejen con precisión las características del dominio de destino.

4. Cambio de dominio lineal: DoRM facilita un cambio de dominio combinable linealmente en el espacio de estilo del generador mediante múltiples módulos M&A. Estos módulos permiten realizar ajustes precisos para dominios específicos, lo que mejora la flexibilidad del generador para sintetizar imágenes en diversos dominios y crear combinaciones perfectas de atributos a partir de múltiples fuentes de entrenamiento.

5. Mejora de la coherencia entre dominios: DoRM introduce una nueva pérdida de estructura basada en similitudes (Lss) para garantizar la coherencia entre dominios. Esta pérdida aprovecha los tokens del codificador de imágenes CLIP para alinear los mapas de autocorrelación entre las imágenes de origen y destino, lo que preserva la coherencia estructural y la fidelidad a las características del dominio de destino en los resultados generados.

6. Marco de entrenamiento: DoRM integra una función de pérdida inclusiva que combina la pérdida adversarial original de StyleGAN2 con Lss durante el entrenamiento. Este marco integrado optimiza el aprendizaje del generador y del discriminador, lo que garantiza una dinámica de entrenamiento estable y una adaptación robusta a cambios de dominio complejos.

El equipo de investigación evaluó el método DoRM propuesto utilizando el conjunto de datos Flickr-Faces-HQ (FFHQ). Aplicaron un modelo StyleGAN2 previamente entrenado para permitir un entrenamiento estable en GDA de 10 disparos. DoRM demostró una calidad de síntesis superior y una consistencia entre dominios en comparación con otros métodos, especialmente en dominios como Sketches y FFHQ-Babies. Las métricas cuantitativas como la distancia de inicio de Fréchet (FID) y la similitud de identidad mostraron de manera consistente que DoRM superaba a sus competidores. El método también se destacó en la generación de dominios múltiples e híbridos, mostrando su capacidad para integrar diversos dominios y sintetizar nuevos resultados híbridos de manera eficiente. Los estudios de ablación confirmaron la efectividad de la estructura del generador de DoRM en varias configuraciones experimentales.

Para concluir, el equipo de investigación presenta DoRM, una estructura de generador optimizada diseñada para GDA. DoRM incorpora una novedosa pérdida de estructura basada en similitud para garantizar una consistencia sólida entre dominios. A través de evaluaciones rigurosas, el método demuestra una calidad de síntesis, diversidad y consistencia entre dominios superiores en comparación con los enfoques existentes. Al igual que el cerebro humano, DoRM integra el conocimiento en todos los dominios, lo que permite la generación de imágenes en nuevos dominios híbridos que no se encuentran durante el entrenamiento.


Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios


Mahmoud es un investigador de doctorado en aprendizaje automático. También posee un título
Licenciatura en Ciencias Físicas y maestría en
sistemas de telecomunicaciones y redes. Sus áreas actuales de especialización
La investigación se centra en la visión por computadora, la predicción del mercado de valores y la profundidad
aprendizaje. Produjo varios artículos científicos sobre la persona.
Identificación y estudio de la robustez y estabilidad de las profundidades.
redes.