Los investigadores de CMU y Google DeepMind presentan AlignProp: un enfoque de IA basado en retropropagación directa para ajustar los modelos de difusión de texto a imagen para la función de recompensa deseada

Los modelos de difusión probabilística se han convertido en la norma establecida para el modelado generativo en dominios continuos. DALLE es líder en modelos de difusión de texto a imagen. Estos modelos han ganado importancia por su capacidad para generar imágenes entrenándose en extensos conjuntos de datos a escala web. El artículo analiza la reciente aparición de modelos de difusión de texto a imagen a la vanguardia de la generación de imágenes. Estos modelos se han entrenado en conjuntos de datos de texto a imagen a gran escala no supervisados ​​o débilmente supervisados. Sin embargo, debido a su naturaleza no supervisada, controlar su comportamiento en tareas posteriores, como optimizar la calidad de la imagen percibida por el ser humano, la alineación de la imagen y el texto o la generación ética de imágenes, es una tarea desafiante.

Investigaciones recientes han intentado ajustar los modelos de difusión utilizando técnicas de aprendizaje por refuerzo, pero este enfoque es conocido por su alta varianza en los estimadores de gradiente. En respuesta, el artículo presenta “AlignProp”, un método que alinea los modelos de difusión con funciones de recompensa descendentes mediante la retropropagación de un extremo a otro del gradiente de recompensa durante el proceso de eliminación de ruido.

El enfoque innovador de AlignProp mitiga los altos requisitos de memoria que normalmente se asociarían con la retropropagación a través de modelos modernos de texto a imagen. Lo logra ajustando los módulos de peso del adaptador de bajo rango e implementando puntos de control de gradiente.

El artículo evalúa el rendimiento de AlignProp en el ajuste de modelos de difusión para diversos objetivos, incluida la alineación semántica imagen-texto, la estética, la compresibilidad de la imagen y la controlabilidad del número de objetos en las imágenes generadas, así como combinaciones de estos objetivos. Los resultados demuestran que AlignProp supera a los métodos alternativos al lograr mayores recompensas en menos pasos de entrenamiento. Además, destaca por su simplicidad conceptual, lo que lo convierte en una opción sencilla para optimizar modelos de difusión basados ​​en funciones de recompensa de interés diferenciables.

El enfoque AlignProp utiliza gradientes obtenidos de la función de recompensa con el fin de ajustar los modelos de difusión, lo que resulta en mejoras tanto en la eficiencia del muestreo como en la efectividad computacional. Los experimentos realizados demuestran consistentemente la efectividad de AlignProp para optimizar una amplia gama de funciones de recompensa, incluso para tareas que son difíciles de definir únicamente mediante indicaciones. En el futuro, las posibles direcciones de investigación podrían implicar extender estos principios a modelos de lenguaje basados ​​en la difusión, con el objetivo de mejorar su alineación con la retroalimentación humana.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Janhavi Lande, se graduó en Ingeniería Física del IIT Guwahati, promoción de 2023. Es una futura científica de datos y ha estado trabajando en el mundo de la investigación ml/ai durante los últimos dos años. Lo que más le fascina es este mundo en constante cambio y su constante exigencia de que los humanos se mantengan al día. En su pasatiempo le gusta viajar, leer y escribir poemas.