Google DeepMind presenta Direct Reward Fine-Tuning (DRaFT): un método eficaz de inteligencia artificial para ajustar modelos de difusión para maximizar funciones de recompensa diferenciables

Los modelos de difusión han revolucionado el modelado generativo en varios tipos de datos. Sin embargo, en aplicaciones prácticas como generar imágenes estéticamente agradables a partir de descripciones de texto, a menudo es necesario realizar ajustes. Los modelos de difusión de texto a imagen emplean técnicas como guía sin clasificadores y conjuntos de datos seleccionados como LAION Aesthetics para mejorar la alineación y la calidad de la imagen.

En su investigación, los autores presentan un método sencillo y eficiente para el ajuste de recompensas basado en gradientes, que implica diferenciar a través del proceso de muestreo de difusión. Introducen el concepto de ajuste fino de recompensa directa (DRaFT), que esencialmente se propaga hacia atrás a través de toda la cadena de muestreo, generalmente representada como un gráfico de cálculo desenrollado con una longitud de 50 pasos. Para gestionar la memoria y los costos computacionales de manera efectiva, emplean técnicas de puntos de control de gradiente y optimizan los pesos de LoRA en lugar de modificar todo el conjunto de parámetros del modelo.

La imagen de arriba demuestra DRaFT utilizando modelos de recompensa de preferencia humana. Además, los autores introducen mejoras en el método DRaFT para mejorar su eficiencia y rendimiento. Primero, proponen DRaFT-K, una variante que limita la retropropagación solo a los últimos K pasos del muestreo al calcular el gradiente para el ajuste fino. Los resultados empíricos demuestran que este enfoque de gradiente truncado supera significativamente la retropropagación completa con la misma cantidad de pasos de entrenamiento, ya que la retropropagación completa puede generar problemas con gradientes explosivos.

Además, los autores presentan DRaFT-LV, una variación de DRaFT-1 que calcula estimaciones de gradiente de varianza más baja promediando múltiples muestras de ruido, lo que mejora aún más la eficiencia de su enfoque.

Los autores del estudio aplicaron DRaFT a Stable Diffusion 1.4 y realizaron evaluaciones utilizando varias funciones de recompensa y conjuntos de indicaciones. Sus métodos, que aprovechan los gradientes, demostraron importantes ventajas de eficiencia en comparación con las líneas base de ajuste fino basadas en RL. Por ejemplo, lograron una mejora de velocidad de más de 200 veces al maximizar las puntuaciones del Clasificador de Estética LAION en comparación con los algoritmos RL.

DRaFT-LV, una de las variaciones propuestas, mostró una eficiencia excepcional, aprendiendo aproximadamente el doble de rápido que ReFL, un método de ajuste fino basado en gradientes anterior. Además, demostraron la versatilidad de DRaFT combinando o interpolando modelos DRaFT con modelos previamente entrenados, lo que se puede lograr ajustando los pesos de LoRA mediante mezcla o escalado.

En conclusión, ajustar directamente los modelos de difusión en recompensas diferenciables ofrece una vía prometedora para mejorar las técnicas de modelado generativo, con implicaciones para aplicaciones que abarcan imágenes, texto y más. Su eficiencia, versatilidad y eficacia lo convierten en una valiosa adición al conjunto de herramientas de investigadores y profesionales en el campo de la aprendizaje automático y modelado generativo.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Janhavi Lande, se graduó en Ingeniería Física del IIT Guwahati, promoción de 2023. Es una futura científica de datos y ha estado trabajando en el mundo de la investigación ml/ai durante los últimos dos años. Lo que más le fascina es este mundo en constante cambio y su constante exigencia de que los humanos se mantengan al día. En su pasatiempo le gusta viajar, leer y escribir poemas.