Desafíos de modelado generativo en la generación de videos controlables de movimiento presentan importantes obstáculos de investigación. Los enfoques actuales en la generación de videos luchan con un control preciso de movimiento en diversos escenarios. El campo utiliza tres técnicas primarias de control de movimiento: control de movimiento del objeto local utilizando cuadros o máscaras delimitadoras, parametrización global de movimiento de la cámara y transferencia de movimiento de videos de referencia. A pesar de estos enfoques, los investigadores han identificado limitaciones críticas que incluyen modificaciones complejas del modelo, dificultades para adquirir parámetros de movimiento precisos y la compensación fundamental entre la precisión de control de movimiento y la calidad visual espacio-temporal. Los métodos existentes a menudo requieren intervenciones técnicas que restringen su generalización y aplicabilidad práctica en diferentes contextos de generación de videos.
La investigación existente sobre la generación de videos controlables de movimiento ha explorado múltiples enfoques metodológicos para abordar los desafíos de control de movimiento. Los modelos de difusión de imágenes y video han utilizado técnicas como deformación de ruido y atención temporal para mejorar las capacidades de generación de videos. Los métodos de acogida de ruido como Hiwyn intentan crear ruido latente correlacionado temporalmente, aunque sufren de preservación espacial de la gaussiania y problemas de complejidad computacional. Los modelos avanzados de difusión de video como Animatediff y Cogvideox han hecho un progreso significativo al ajustar las capas de atención temporal y combinar estrategias de codificación espacial y temporal. Además, los enfoques de control de movimiento se han centrado en el control de movimiento del objeto local, la parametrización del movimiento global de la cámara y la transferencia de movimiento de los videos de referencia.
Investigadores de Netflix Eyeline Studios, Netflix, Stony Brook University, University of Maryland y Stanford University han propuesto un enfoque novedoso para mejorar el control de movimiento en los modelos de difusión de video. Su método introduce una técnica estructurada de muestreo de ruido latente que transforma la generación de videos mediante el preprocesamiento de videos de entrenamiento para producir ruido estructurado. A diferencia de los enfoques existentes, esta técnica no requiere modificaciones para modelar las arquitecturas o las tuberías de entrenamiento, lo que lo hace de manera única adaptable en diferentes modelos de difusión. Este enfoque innovador proporciona una solución para el control de movimiento, incluido el movimiento de objetos locales, el movimiento global de la cámara y la transferencia de movimiento con una mejor coherencia temporal y la calidad del píxel por cuadro.
El método propuesto consta de dos componentes principales: un algoritmo de agua y variedad de videos de difusión. El algoritmo de deformación de ruido funciona de forma independiente del proceso de entrenamiento del modelo de difusión, generando patrones de ruido utilizados para entrenar el modelo de difusión sin introducir parámetros adicionales en el modelo de difusión de video. Inspirados en las técnicas de deformación de ruido existentes, los investigadores usan el ruido deformado como mecanismo de acondicionamiento de movimiento para los modelos de generación de videos. El método modelos de difusión de video de vanguardia como COGVideox-5B, utilizando un conjunto de datos de video de uso general masivo de 4 millones de videos con resoluciones de 720 × 480 o más. Además, el enfoque es tanto de datos como agnóstico del modelo, lo que permite la adaptación del control de movimiento en varios modelos de difusión de video.
Los resultados experimentales demuestran la efectividad y eficiencia del método propuesto en múltiples métricas de evaluación. El análisis estadístico utilizando el índice I de Moran revela que el método alcanzó un valor de correlación transversal espacial excepcionalmente bajo de 0.00014, con un alto valor P de 0.84, lo que indica una excelente preservación de gaussiismo espacial. La prueba de Kolmogorov-Smirnov (KS) valida aún más el rendimiento del método, obtener una estadística KS de 0.060 y un valor p de 0.44, lo que sugiere que el ruido deformado sigue de cerca una distribución normal estándar. Las pruebas de eficiencia de rendimiento realizadas en una GPU NVIDIA A100 40GB muestran que el método propuesto supera las líneas de base existentes, que se ejecuta 26 veces más rápido que el enfoque publicado más recientemente.
En conclusión, el método propuesto representa un avance significativo en la generación de videos controlable de movimiento, abordando desafíos críticos en el modelado generativo. Los investigadores han desarrollado un enfoque perfecto para incorporar el control de movimiento en el muestreo de ruido de difusión de video. Esta técnica innovadora transforma el panorama de la generación de videos al proporcionar un paradigma unificado para el control de movimiento fácil de usar en varias aplicaciones. El método une la brecha entre el ruido aleatorio y las salidas estructuradas, lo que permite una manipulación precisa del movimiento de video sin comprometer la calidad visual o la eficiencia computacional. Además, este método sobresale en la controlabilidad del movimiento, la consistencia temporal y la fidelidad visual, posicionándose como una solución robusta y versátil para los modelos de difusión de video de próxima generación.
Verificar el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.
🚨 [Recommended Read] Nebius AI Studio se expande con modelos de visión, nuevos modelos de idiomas, incrustaciones y Lora (Promocionado)
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
