Stability AI presenta la destilación por difusión adversa (ADD): el método innovador para la síntesis de imágenes de alta fidelidad en tiempo real en pasos mínimos

En el modelado generativo, los modelos de difusión (DM) han asumido un papel fundamental, facilitando el progreso reciente en la producción de síntesis de imágenes y videos de alta calidad. La escalabilidad y la iteración son dos de las principales ventajas de los DM; les permiten realizar tareas complejas como la creación de imágenes a partir de señales de texto de formato libre. Desafortunadamente, los numerosos pasos de muestra necesarios para el proceso de inferencia iterativo actualmente dificultan el uso de DM en tiempo real. Por otro lado, la formulación de un solo paso y la velocidad intrínseca de las Redes Generativas Adversarias (GAN) las distinguen. Sin embargo, con respecto a la calidad de la muestra, las GAN frecuentemente necesitan más DM a pesar de los esfuerzos por expandirse a conjuntos de datos masivos.

Los investigadores de Stability AI en este estudio tienen como objetivo fusionar la velocidad innata de las GAN con la mayor calidad de muestra de los DM. Su estrategia es conceptualmente sencilla: el equipo de estudio sugiere la destilación por difusión adversaria (ADD), una técnica genérica que mantiene una buena fidelidad de muestreo y puede mejorar potencialmente el rendimiento general del modelo al reducir el número de pasos de inferencia de un modelo de difusión previamente entrenado a 1- 4 pasos de muestreo. El equipo de investigación combina dos objetivos de capacitación: (i) una pérdida de destilación equivalente al muestreo de destilación por puntuación (SDS) con una pérdida adversa.

En cada paso hacia adelante, la pérdida adversa alienta al modelo a producir muestras que se encuentran directamente en la variedad de imágenes reales, eliminando artefactos como la borrosidad que se ve comúnmente en otras técnicas de destilación. Para conservar la alta composicionalidad observada en los grandes DM y hacer un uso eficiente del conocimiento sustancial del DM previamente entrenado, la pérdida por destilación emplea a otro DM previamente entrenado (y fijo) como maestro. Su método minimiza aún más los requisitos de memoria al no utilizar una guía sin clasificador durante la inferencia. La ventaja sobre los métodos anteriores basados ​​en GAN de un solo paso es que el equipo de investigación puede continuar desarrollando el modelo de forma iterativa y mejorar los resultados.

Figura 1 muestra fotografías de alta fidelidad generadas en una sola operación. La capacitación en destilación por difusión adversa (ADD) se utiliza para crear una única evaluación U-Net para cada muestra.

A continuación se presenta un resumen de sus contribuciones:

• El equipo de investigación presenta ADD, una técnica que requiere sólo de 1 a 4 pasos de muestreo para convertir modelos de difusión previamente entrenados en generadores de imágenes de alta fidelidad en tiempo real. El equipo de estudio consideró cuidadosamente varias decisiones de diseño para su enfoque único, que combina el entrenamiento adversario con la destilación de puntajes.

• ADD-XL supera a su modelo docente SDXL-Base con una resolución de 5122 px utilizando cuatro pasos de muestreo. • ADD puede manejar composiciones de imágenes complejas manteniendo un alto realismo en un solo paso de inferencia. • ADD supera significativamente líneas de base sólidas como LCM, LCM-XL y GAN de un solo paso.

En conclusión, este estudio presenta una técnica genérica para destilar un modelo de difusión previamente entrenado en un modelo rápido de generación de imágenes de unos pocos pasos: la destilación por difusión adversaria. Utilizando datos reales a través del discriminador y conocimiento estructural a través del instructor de difusión, el equipo de investigación combina un objetivo de confrontación y de destilación de puntuación para destilar los modelos públicos de Difusión Estable y SDXL. Su análisis muestra que su técnica supera a todos los enfoques concurrentes y funciona especialmente bien en el régimen de muestreo ultrarrápido de uno o dos pasos. Además, el equipo de estudio aún puede mejorar las muestras mediante varios procesos. Su modelo funciona mejor con cuatro pasos de muestra que los generadores de varios pasos populares como IF, SDXL y OpenMUSE. Su metodología abre nuevas posibilidades para la generación en tiempo real utilizando modelos básicos al permitir el desarrollo de fotografías de alta calidad en un solo paso.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.