Se han observado avances significativos en el desarrollo de modelos de difusión para diversas tareas de síntesis de imágenes en el campo de la visión por computadora. Investigaciones anteriores han ilustrado la aplicabilidad de la difusión previa, integrada en modelos de síntesis como Difusión Estable, a una variedad de tareas de creación de contenido posteriores, incluida la edición de imágenes y videos.
En este artículo, la investigación va más allá de la creación de contenido y explora las ventajas potenciales de emplear antecedentes de difusión para tareas de superresolución (SR). La superresolución, una tarea de visión de bajo nivel, introduce un desafío adicional debido a su demanda de alta fidelidad de imagen, que contrasta con la naturaleza estocástica inherente de los modelos de difusión.
Una solución común a este desafío implica entrenar un modelo de superresolución desde cero. Estos métodos incorporan la imagen de baja resolución (LR) como entrada adicional para limitar el espacio de salida, con el objetivo de preservar la fidelidad. Si bien estos enfoques han logrado resultados encomiables, a menudo requieren recursos computacionales sustanciales para entrenar el modelo de difusión. Además, iniciar el entrenamiento de la red desde cero puede potencialmente comprometer los antecedentes generativos capturados en los modelos de síntesis, lo que podría conducir a un rendimiento de la red subóptimo.
En respuesta a estas limitaciones, se ha explorado un enfoque alternativo. Esta alternativa implica introducir restricciones en el proceso de difusión inversa de un modelo de síntesis previamente entrenado. Este paradigma elimina la necesidad de una formación exhaustiva del modelo y al mismo tiempo aprovecha los beneficios de la difusión previa. Sin embargo, vale la pena señalar que el diseño de estas restricciones supone un conocimiento previo de las degradaciones de la imagen, que normalmente es desconocido e intrincado. En consecuencia, tales métodos demuestran una generalización limitada.
Para abordar las limitaciones mencionadas, los investigadores presentan StableSR, un enfoque diseñado para retener los antecedentes de difusión previamente entrenados sin requerir suposiciones explícitas sobre las degradaciones de la imagen. A continuación se ilustra una descripción general de la técnica presentada.
A diferencia de enfoques anteriores que concatenan la imagen de baja resolución (LR) con salidas intermedias, lo que requiere el entrenamiento de un modelo de difusión desde cero, StableSR implica ajustar un codificador liviano con reconocimiento de tiempo y algunas capas de modulación de características diseñadas específicamente para súper -tareas de resolución (SR).
El codificador incorpora una capa de incrustación de tiempo para generar características con reconocimiento del tiempo, lo que permite la modulación adaptativa de características dentro del modelo de difusión en diferentes iteraciones. Esto no sólo mejora la eficiencia del entrenamiento sino que también mantiene la integridad del proceso generativo previo. Además, el codificador con reconocimiento de tiempo proporciona una guía adaptativa durante el proceso de restauración, con una guía más fuerte en las iteraciones anteriores y una guía más débil en las etapas posteriores, lo que contribuye significativamente a mejorar el rendimiento.
Para abordar la aleatoriedad inherente del modelo de difusión y mitigar la pérdida de información durante el proceso de codificación del codificador automático, StableSR aplica un módulo de ajuste de funciones controlable. Este módulo introduce un coeficiente ajustable para refinar las salidas del modelo de difusión durante el proceso de decodificación, utilizando características intermedias multiescala del codificador de manera residual. El coeficiente ajustable permite un equilibrio continuo entre fidelidad y realismo, acomodándose a una amplia gama de niveles de degradación.
Además, la adaptación de modelos de difusión para tareas de superresolución con resoluciones arbitrarias ha planteado históricamente desafíos. Para superar esto, StableSR introduce una estrategia de muestreo de agregación progresiva. Este enfoque divide la imagen en parches superpuestos y los fusiona utilizando un núcleo gaussiano en cada iteración de difusión. El resultado es una transición más suave en los límites, lo que garantiza un resultado más coherente.
En la siguiente figura se muestran algunos ejemplos de resultados de StableSR presentados en el artículo original en comparación con los enfoques más modernos.
En resumen, StableSR ofrece una solución única para adaptar los antecedentes generativos a los desafíos de superresolución de imágenes del mundo real. Este enfoque aprovecha los modelos de difusión previamente entrenados sin hacer suposiciones explícitas sobre las degradaciones, abordando problemas de fidelidad y resolución arbitraria mediante la incorporación del codificador con tiempo, un módulo de ajuste de características controlable y una estrategia de muestreo de agregación progresiva. StableSR sirve como una base sólida, inspirando investigaciones futuras en la aplicación de antecedentes de difusión para tareas de restauración.
Si está interesado y desea obtener más información al respecto, no dude en consultar los enlaces que se citan a continuación.
Revisar la Papel, GitHuby Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Daniele Lorenzi recibió su M.Sc. en TIC para Ingeniería de Internet y Multimedia en 2021 de la Universidad de Padua, Italia. Es un doctorado. Candidato en el Instituto de Tecnología de la Información (ITEC) de la Alpen-Adria-Universität (AAU) de Klagenfurt. Actualmente trabaja en el Laboratorio Christian Doppler ATHENA y sus intereses de investigación incluyen transmisión de video adaptativa, medios inmersivos, aprendizaje automático y evaluación de QoS/QoE.