ByteDance presenta PixelDance: un novedoso enfoque de generación de video basado en modelos de difusión que incorpora instrucciones de imagen con instrucciones de texto

Un equipo de investigadores de ByteDance Research presenta PixelDance, un enfoque de generación de videos que utiliza instrucciones de texto e imágenes para crear videos con movimientos diversos e complejos. A través de este método, los investigadores demuestran la eficacia de su sistema sintetizando vídeos que presentan escenas y acciones complejas, estableciendo así un nuevo estándar en el campo de la generación de vídeos. PixelDance se destaca en la síntesis de videos con configuraciones y actividades complejas, superando a los modelos existentes que a menudo producen videos con movimientos limitados. El modelo se extiende a varias instrucciones de imagen y combina videoclips temporalmente consistentes para generar tomas compuestas.

A diferencia de los modelos de texto a video limitados a escenas simples, PixelDance utiliza instrucciones de imagen para los cuadros iniciales y finales, lo que mejora la complejidad del video y permite la generación de clips más largos. Esta innovación supera las limitaciones de movimiento y detalle observadas en enfoques anteriores, particularmente con contenido fuera de dominio. Al enfatizar las ventajas de las instrucciones de imágenes, establece PixelDance como una solución para generar videos altamente dinámicos con escenas intrincadas, acciones dinámicas y movimientos de cámara complejos.

La arquitectura PixelDance integra modelos de difusión y codificadores automáticos variacionales para codificar instrucciones de imágenes en el espacio de entrada. Las técnicas de entrenamiento e inferencia se centran en aprender la dinámica del video, utilizando datos de video públicos. PixelDance se extiende a varias instrucciones de imágenes, incluidos mapas semánticos, bocetos, poses y cuadros delimitadores. El análisis cualitativo evalúa el impacto del texto, las instrucciones del primer fotograma y del último fotograma en la calidad del vídeo generado.

PixelDance superó a los modelos anteriores en conjuntos de datos MSR-VTT y UCF-101 basados ​​en métricas FVD y CLIPSIM. Los estudios de ablación en UCF-101 muestran la eficacia de los componentes de PixelDance, como el texto y las instrucciones del último fotograma, en la generación continua de clips. El método sugiere vías de mejora, incluido el entrenamiento con datos de vídeo de alta calidad, el ajuste específico del dominio y el escalado del modelo. PixelDance demuestra la edición de video zero-shot, transformándola en una tarea de edición de imágenes. Logra resultados cuantitativos impresionantes al generar videos complejos de alta calidad alineados con indicaciones textuales en conjuntos de datos MSR-VTT y UCF-101.

PixelDance se destaca en la síntesis de videos de alta calidad con escenas y acciones complejas, superando a los modelos de última generación. La competencia del modelo, alineada con indicaciones de texto, muestra su potencial para avanzar en la generación de videos. Se identifican áreas de mejora, incluido el ajuste fino de dominios específicos y la ampliación del modelo. PixelDance introduce la edición de vídeo zero-shot, la transforma en una tarea de edición de imágenes y produce constantemente vídeos temporalmente coherentes. Las evaluaciones cuantitativas confirman su capacidad para generar vídeos complejos y de alta calidad condicionados a indicaciones de texto.

La dependencia de PixelDance de instrucciones explícitas de imágenes y texto puede dificultar la generalización a escenarios invisibles. La evaluación se centra principalmente en métricas cuantitativas y necesita una evaluación de calidad más subjetiva. El impacto de las fuentes de datos de capacitación y los posibles sesgos no se exploran exhaustivamente. La escalabilidad, los requisitos computacionales y la eficiencia deben discutirse a fondo. Aún es necesario aclarar las limitaciones del modelo en el manejo de tipos de contenido de vídeo específicos, como escenas altamente dinámicas. Se debe abordar ampliamente la generalización a diversos dominios y tareas de edición de video más allá de los ejemplos.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.