¿Cómo transforma el codificador UNet los modelos de difusión?  Este artículo sobre IA explora su impacto en la velocidad y calidad de la generación de imágenes y vídeos

Los modelos de difusión representan un enfoque de vanguardia para la generación de imágenes y ofrecen un marco dinámico para capturar cambios temporales en los datos. El codificador UNet dentro de los modelos de difusión ha sido recientemente objeto de un intenso escrutinio, revelando patrones intrigantes en las transformaciones de características durante la inferencia. Estos modelos utilizan un esquema de propagación de codificador para revolucionar el muestreo de difusión al reutilizar características anteriores, lo que permite un procesamiento paralelo eficiente.

Investigadores de la Universidad de Nankai, la Universidad de IA Mohamed bin Zayed, la Universidad de Linkoping, la Universidad de Ingeniería de Harbin y la Universidad Autónoma de Barcelona examinaron el codificador UNet en modelos de difusión. Introdujeron un esquema de propagación del codificador y un método de inyección de ruido previo para mejorar la calidad de la imagen. El método propuesto preserva la información estructural de manera efectiva, pero al eliminar el codificador y el decodificador no se logra una eliminación completa del ruido.

Originalmente diseñado para la segmentación de imágenes médicas, UNet ha evolucionado, especialmente en la segmentación de imágenes médicas en 3D. En modelos de difusión de texto a imagen como Stable Diffusion (SD) y DeepFloyd-IF, UNet es fundamental para avanzar en tareas como la edición de imágenes, la superresolución, la segmentación y la detección de objetos. Propone un enfoque para acelerar los modelos de difusión, empleando propagación y caída del codificador para un muestreo eficiente. En comparación con ControlNet, el método propuesto se aplica simultáneamente a dos codificadores, lo que reduce el tiempo de generación y la carga computacional y, al mismo tiempo, mantiene la preservación del contenido en la generación de imágenes guiadas por texto.

Los modelos de difusión, integrales en la generación de imágenes guiadas por referencia y de texto a video, aprovechan la arquitectura UNet, que comprende un codificador, un cuello de botella y un decodificador. Si bien las investigaciones anteriores se centraron en el decodificador UNet, fueron pioneras en un examen en profundidad del codificador UNet en modelos de difusión. Explora los cambios en las características del codificador y decodificador durante la inferencia e introduce un esquema de propagación del codificador para muestreo de difusión acelerada.

El estudio propone un esquema de propagación del codificador que reutiliza características anteriores del codificador de paso de tiempo para acelerar el muestreo de difusión. También introduce un método de inyección de ruido previo para mejorar los detalles de la textura en las imágenes generadas. El estudio también presenta un enfoque para el muestreo por difusión acelerada sin depender del conocimiento de técnicas de destilación.

https://arxiv.org/abs/2312.09608

La investigación investiga a fondo el codificador UNet en modelos de difusión, revelando cambios suaves en las características del codificador y variaciones sustanciales en las características del decodificador durante la inferencia. La introducción de un esquema de propagación del codificador, la reutilización cíclica de componentes de pasos de tiempo anteriores para el decodificador, acelera el muestreo de difusión y permite el procesamiento en paralelo. Un método de inyección de ruido previo mejora los detalles de la textura en las imágenes generadas. El enfoque se valida en varias tareas, logrando una notable aceleración del 41 % y 24 % en el muestreo de modelos SD y DeepFloyd-IF mientras se mantiene la generación de alta calidad. Un estudio de usuarios confirma el rendimiento comparable del método propuesto con los métodos de referencia mediante comparaciones por pares con 18 usuarios.

En conclusión, el estudio realizado se puede presentar en los siguientes puntos:

  • La investigación es pionera en el primer estudio exhaustivo del codificador UNet en modelos de difusión.
  • El estudio examina los cambios en las características del codificador durante la inferencia.
  • Un innovador esquema de propagación del codificador acelera el muestreo de difusión al reutilizar cíclicamente las funciones del codificador, lo que permite el procesamiento en paralelo.
  • Un método de inyección de ruido mejora los detalles de la textura en las imágenes generadas.
  • El enfoque ha sido validado en diversas tareas y muestra una aceleración de muestreo significativa para modelos SD y DeepFloyd-IF sin destilación de conocimientos, manteniendo al mismo tiempo una generación de alta calidad.
  • El lanzamiento del código FasterDiffusion mejora la reproducibilidad y fomenta más investigaciones en el campo.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.