Cómo la atención radial reduce los costos en la difusión de video en 4.4 × sin sacrificar la calidad

Introducción a los modelos de difusión de video y desafíos computacionales

Los modelos de difusión han hecho un progreso impresionante en la generación de videos coherentes de alta calidad, basándose en su éxito en la síntesis de imágenes. Sin embargo, el manejo de la dimensión temporal adicional en los videos aumenta significativamente las demandas computacionales, especialmente porque la autoatencia escala mal con la longitud de la secuencia. Esto hace que sea difícil entrenar o ejecutar estos modelos de manera eficiente en videos largos. Los intentos como el videógeno escaso utilizan la clasificación de la cabeza de atención para acelerar la inferencia, pero luchan con la precisión y la generalización durante el entrenamiento. Otros métodos reemplazan la atención Softmax con alternativas lineales, aunque estos a menudo requieren cambios arquitectónicos significativos. Curiosamente, la descomposición de la energía natural de las señales con el tiempo en la física inspira nuevas estrategias de modelado más eficientes.

Evolución de los mecanismos de atención en la síntesis de video

Los primeros modelos de video extendieron las arquitecturas 2D incorporando componentes temporales, pero los enfoques más nuevos, como DIT y Latte, mejoran el modelado espacial-temporal a través de mecanismos de atención avanzados. Si bien la atención 3D densa logra el rendimiento de última generación, su costo computacional aumenta rápidamente con la longitud del video, lo que hace que la generación de videos largos sea costoso. Las técnicas como la destilación de tiempo de tiempo, la cuantización y la atención escasa ayudan a reducir esta carga, pero a menudo pasan por alto la estructura única de los datos de video. Aunque las alternativas como la atención lineal o jerárquica mejoran la eficiencia, generalmente luchan por mantener los detalles o la escala de manera efectiva en la práctica.

Introducción a la desintegración de energía espacio -temporal y atención radial

Investigadores de MIT, Nvidia, Princeton, UC Berkeley, Stanford y First Intelligence han identificado un fenómeno en los modelos de difusión de video llamados Decadencia de Energía Spatiotemporaldonde los puntajes de atención entre los tokens disminuyen a medida que aumenta la distancia espacial o temporal, lo que refleja cómo las señales se desvanecen naturalmente. Motivados por esto, propusieron atención radial, un mecanismo de atención escaso con la complejidad O (n log n). Utiliza una máscara de atención estática donde las fichas asisten principalmente a las cercanas, con la ventana de atención que se encoge con el tiempo. Esto permite que los modelos previamente capacitados generen videos hasta cuatro veces más, reduciendo los costos de capacitación en 4.4 veces y el tiempo de inferencia en 3.7 veces, todo al preservar la calidad del video.

Atención escasa utilizando principios de descomposición de energía

La atención radial se basa en la idea de que los puntajes de atención en los modelos de video disminuyen con el aumento de la distancia espacial y temporal, un fenómeno conocido como descomposición de energía espacio -temporal. En lugar de atender todos los tokens por igual, la atención radial reduce estratégicamente el cálculo donde la atención es más débil. Presenta una escasa máscara de atención que decae exponencialmente hacia afuera tanto en el espacio como en el tiempo, preservando solo las interacciones más relevantes. Esto da como resultado una complejidad O (n log n), lo que lo hace significativamente más rápido y más eficiente que la atención densa. Además, con el ajuste mínimo con adaptadores Lora, los modelos previamente capacitados se pueden adaptar para generar videos mucho más largos de manera eficiente y efectiva.

Evaluación a través de modelos de difusión de video

La atención radial se evalúa en tres modelos principales de difusión de texto a video: Mochi 1, Hunyuanvideo y WAN2.1, lo que demuestra mejoras de velocidad y calidad. En comparación con las líneas de base de atención escasa existente, como SVG y PowerAtent, la atención radial ofrece una mejor calidad perceptiva y ganancias computacionales significativas, incluida una inferencia hasta 3.7 veces más rápida y 4.4 veces un costo de capacitación menor para videos extendidos. Escala eficientemente a 4 × longitudes de video más largas y mantiene la compatibilidad con las loras existentes, incluidas las de estilo. Es importante destacar que el ajuste de Lora con atención radial supera a los ajustes finos completos en algunos casos, lo que demuestra su efectividad y eficiencia de recursos para la generación de videos largos de alta calidad.

Conclusión: generación de videos largos escalables y eficientes

En conclusión, la atención radial es un mecanismo de atención escaso diseñado para manejar la generación de videos largos en modelos de difusión de manera eficiente. Inspirado en la disminución observada en los puntajes de atención con el aumento de las distancias espaciales y temporales, un fenómeno que los investigadores terminan la atención radial de la descomposición de energía espacio -temporal, este enfoque imita la descomposición natural para reducir el cálculo. Utiliza un patrón de atención estática con ventanas que reducen exponencialmente, alcanzando un rendimiento hasta 1.9 veces más rápido y videos de apoyo hasta 4 veces más. Con el ajuste fino a base de Lora liviano, reduce significativamente el entrenamiento (por 4.4 ×) e inferencia (por 3.7 ×), todo al tiempo que preserva la calidad del video en múltiples modelos de difusión de última generación.


Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo, YouTube y Spotify Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.