DanceGrpo: un marco unificado para el aprendizaje de refuerzo en la generación visual en múltiples paradigmas y tareas

Los avances recientes en modelos generativos, especialmente modelos de difusión y flujos rectificados, han revolucionado la creación de contenido visual con una mejor calidad de salida y versatilidad. La integración de retroalimentación humana durante el entrenamiento es esencial para alinear los resultados con las preferencias humanas y los estándares estéticos. Los enfoques actuales como los métodos de reflejo dependen de modelos de recompensa diferenciables que introduzcan ineficiencia VRAM para la generación de videos. Las variantes DPO solo logran mejoras visuales marginales. Además, los métodos basados ​​en RL enfrentan desafíos, incluidos los conflictos entre el muestreo basado en ODE de los modelos de flujo rectificados y las formulaciones de procesos de decisión de Markov, la inestabilidad al escalar más allá de los pequeños conjuntos de datos y la falta de validación para las tareas de generación de videos.

Alinear LLMS emplea el aprendizaje de refuerzo de la retroalimentación humana (RLHF), que capacita las funciones de recompensa basadas en datos de comparación para capturar las preferencias humanas. Los métodos de gradiente de políticas han demostrado ser efectivos, pero son computacionalmente intensivos y requieren un ajuste extenso, mientras que la optimización de políticas directas (DPO) ofrece rentabilidad, pero ofrece un rendimiento inferior. Deepseek-R1 mostró recientemente que RL a gran escala con funciones de recompensa especializadas puede guiar a los LLM hacia procesos de pensamiento autoemergentes. Los enfoques actuales incluyen métodos de estilo DPO, backpropagation directo con señales de recompensa como Refly y métodos basados ​​en gradientes de políticas como DPOK y DDPO. Los modelos de producción utilizan principalmente DPO y Refle debido a la inestabilidad de los métodos de gradiente de políticas en aplicaciones a gran escala.

Investigadores de Bytedance Seed y la Universidad de Hong Kong han propuesto DanceGrpo, un marco unificado que adapta la optimización de políticas relativas al grupo a los paradigmas de generación visual. Esta solución funciona a la perfección en los modelos de difusión y los flujos rectificados, manejando el texto a la imagen, el texto al video y las tareas de imagen a video. El marco se integra con cuatro modelos de base (difusión estable, hunyuanvideo, flujo, skyreels-i2v) y cinco modelos de recompensas que cubren la estética de imagen/video, alineación de imágenes de texto, calidad de movimiento de video y evaluaciones de recompensas binarias. DanceGrpo supera a las líneas de base hasta un 181% en puntos de referencia clave, incluidos HPS-V2.1, Clip Score, Vamealign y Gineval.

La arquitectura utiliza cinco modelos de recompensa especializados para optimizar la calidad de la generación visual:

  • Estética de la imagen Cuantifica el atractivo visual utilizando modelos ajustados en datos con clasificación humana.
  • Alineación de imagen de texto Utiliza el clip para maximizar la consistencia intermodal.
  • Calidad de videos estéticos extiende la evaluación a dominios temporales utilizando modelos de lenguaje de visión (VLMS).
  • Calidad de movimiento de video Evalúa el realismo del movimiento a través del análisis VLM consciente de la física.
  • Umbral de recompensa binaria Emplea un mecanismo de discretización donde los valores que exceden un umbral reciben 1, otros 0, diseñados específicamente para evaluar la capacidad de los modelos generativos para aprender distribuciones de recompensas abruptas bajo la optimización basada en el umbral.

DanceGrpo muestra mejoras significativas en las métricas de recompensa para la difusión estable V1.4 con un aumento en la puntuación de HPS de 0.239 a 0.365, y el puntaje de clip de 0.363 a 0.395. Las evaluaciones de Pick-A-Pic y Gineval confirman la efectividad del método, con DanceGrpo superando todos los enfoques competitivos. Para Hunyuanvideo-T2I, la optimización utilizando el modelo HPS-V2.1 aumenta la puntuación de recompensa media de 0.23 a 0.33, que muestra una mejor alineación con las preferencias estéticas humanas. Con Hunyuanvideo, a pesar de excluir la alineación de videos de texto debido a la inestabilidad, la metodología logra mejoras relativas de 56% y 181% en métricas visuales y de calidad de movimiento, respectivamente. DanceGrpo utiliza la métrica de calidad de movimiento del modelo de recompensa VideLign, logrando una mejora relativa considerable del 91% en esta dimensión.

En este documento, los investigadores han introducido DanceGrpo, un marco unificado para mejorar los modelos de difusión y los flujos rectificados a través de tareas de texto a imagen, texto a video y imagen a video. Aborda las limitaciones críticas de los métodos anteriores al cerrar la brecha entre el lenguaje y las modalidades visuales, logrando un rendimiento superior a través de la alineación eficiente con las preferencias humanas y la escala robusta a la configuración compleja de varias tareas. Los experimentos demuestran mejoras sustanciales en la fidelidad visual, la calidad del movimiento y la alineación de texto de texto. El trabajo futuro explorará la extensión de GRPO a la generación multimodal, unificando aún más los paradigmas de optimización a través de la IA generativa.


Mira el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.