Los modelos de generación de videos se han convertido en una tecnología central para crear contenido dinámico al transformar las indicaciones de texto en secuencias de video de alta calidad. Los modelos de difusión, en particular, se han establecido como un enfoque principal para esta tarea. Estos modelos funcionan comenzando con ruido aleatorio y iterativamente refinándolo en marcos de video realistas. Los modelos de texto a video (T2V) extienden esta capacidad incorporando elementos temporales y alineando contenido generado con indicaciones textuales, produciendo videos que son visualmente convincentes y semánticamente precisos. A pesar de los avances en el diseño de la arquitectura, como los modelos de difusión latente y los módulos de atención conscientes del movimiento, queda un desafío significativo: garantizar la generación de videos consistente y de alta calidad en diferentes ejecuciones, particularmente cuando el único cambio es la semilla de ruido aleatoria inicial. Este desafío ha resaltado la necesidad de estrategias de selección de ruido más inteligentes y conscientes del modelo para evitar resultados impredecibles y recursos computacionales desperdiciados.
El problema central radica en cómo los modelos de difusión inicializan su proceso de generación a partir del ruido gaussiano. La semilla de ruido específica utilizada puede afectar drásticamente la calidad final del video, la coherencia temporal y la fidelidad rápida. Por ejemplo, el mismo indicador de texto podría generar videos completamente diferentes según la semilla de ruido aleatorio. Los enfoques actuales a menudo intentan abordar este problema mediante el uso de antecedentes de ruido artesanales o ajustes basados en la frecuencia. Métodos como FreeInit y Freqprior aplican técnicas de filtrado externos, mientras que otros como Pyoco introducen patrones de ruido estructurados. Sin embargo, estos métodos se basan en suposiciones que pueden no mantenerse en diferentes conjuntos de datos o modelos, requieren múltiples pases de muestreo completos (que resultan en altos costos computacionales) y no logran aprovechar las señales de atención interna del modelo, lo que podría indicar qué semillas son más prometedoras para la generación. Como resultado, existe la necesidad de un método más de principios y consciente del modelo que pueda guiar la selección de ruido sin incurrir en grandes sanciones computacionales o depender de los antecedentes artesanales.
El equipo de investigación de Samsung Research introdujo Anse (Acitive nortede la vía SElección para GmiNeración), un marco de selección de ruido activo para modelos de difusión de video. ANSE aborda el problema de selección de ruido mediante el uso de señales de modelo internas, específicamente estimaciones de incertidumbre basadas en la atención, para guiar la selección de semillas de ruido. En el centro de Anse está Bansa (selección bayesiana de ruido activo a través de la atención)una nueva función de adquisición que cuantifica la consistencia y la confianza de los mapas de atención del modelo bajo perturbaciones estocásticas. El equipo de investigación diseñó a Bansa para operar de manera eficiente durante la inferencia al aproximarse a sus cálculos a través del muestreo de atención en masa en Bernoulli, que introduce aleatoriedad directamente en el cálculo de atención sin requerir múltiples pases hacia adelante. Este método estocástico permite al modelo estimar la estabilidad de su comportamiento de atención en diferentes semillas de ruido y seleccionar aquellos que promueven patrones de atención más seguros y coherentes, que están empíricamente vinculados a una mejor calidad de video.
Bansa trabaja evaluando la entropía en los mapas de atención, que se generan en capas específicas durante los primeros pasos de renovación. Los investigadores identificaron que las capas 14 para el modelo COGVideox-2B y la capa 19 para el modelo COGVIDEOX-5B proporcionaron una correlación suficiente (por encima de un umbral de 0.7) con la estimación de incertidumbre de capa completa, reduciendo significativamente la sobrecarga computacional. La puntuación BANSA se calcula comparando la entropía promedio de los mapas de atención individuales con la entropía de su media, donde una puntuación BANANSA más baja indica una mayor confianza y consistencia en los patrones de atención. Esta puntuación se utiliza para clasificar las semillas de ruido candidato de un grupo de 10 (M = 10), cada una evaluada utilizando 10 pases hacia adelante estocásticos (k = 10). La semilla de ruido con la puntuación BANSA más baja se usa para generar el video final, logrando una calidad mejorada sin requerir reentrenamiento de modelos o antecedentes externos.
En el modelo COGVideox-2B, el puntaje total de VBench mejoró de 81.03 a 81.66 (+0.63), con una ganancia de +0.48 en la puntuación de calidad y la ganancia de +1.23 en la alineación semántica. En el modelo COGVideox-5B más grande, ANSE aumentó el puntaje total de VBench de 81.52 a 81.71 (+0.25), con una ganancia de +0.17 en calidad y ganancia +0.60 en alineación semántica. En particular, estas mejoras vinieron con solo un aumento del 8.68% en el tiempo de inferencia para COGVIDEOX-2B y 13.78% para COGVIDEOX-5B. Por el contrario, los métodos anteriores, como FreeInit y Freqprior, requirieron un aumento del 200% en el tiempo de inferencia, lo que hace que Anse sea significativamente más eficiente. Las evaluaciones cualitativas destacaron aún más los beneficios, lo que demuestra que Anse mejoró la claridad visual, la consistencia semántica y la representación de movimiento. Por ejemplo, los videos de “un koala tocando el piano” y “una carrera de cebra” mostraron un movimiento más natural y anatómicamente correcto bajo Anse, mientras que en indicaciones como “explosión”, videos generados por Anse capturaron transiciones dinámicas de manera más efectiva.
La investigación también exploró diferentes funciones de adquisición, comparando a Bansa con la selección de ruido aleatorio y los métodos basados en la entropía. Bansa utilizando la atención en masa de Bernoulli logró los puntajes totales más altos (81.66 para COGVideox-2B), superando los métodos aleatorios (81.03) y basados en entropía (81.13). El estudio también encontró que aumentar el número de pases hacia adelante estocásticos (k) mejoró el rendimiento hasta K = 10, más allá del cual las ganancias se vierten. Del mismo modo, el rendimiento saturado en un tamaño de grupo de ruido (M) de 10. Un experimento de control en el que el modelo seleccionó intencionalmente las semillas con las puntuaciones bansa más altas dio como resultado una calidad de video degradada, lo que confirma que las puntuaciones BANANA más bajas se correlacionan con los resultados de mejor generación.
Si bien ANSE mejora la selección de ruido, no modifica el proceso de generación en sí, lo que significa que algunas semillas de bajo bansa aún pueden dar como resultado videos subóptimos. El equipo reconoció esta limitación y sugirió que Bansa se ve mejor como un sustituto práctico para métodos más intensivos computacionalmente, como el muestreo por semilla con filtrado post-hoc. También propusieron que el trabajo futuro podría integrar refinamientos teóricos de información o estrategias de aprendizaje activo para mejorar aún más la calidad de la generación.
Varias conclusiones clave de la investigación incluyen:
- ANSE mejora las puntuaciones totales de VBench para la generación de videos: de 81.03 a 81.66 en COGVIDEOX-2B y de 81.52 a 81.71 en COGVIDEOX-5B.
- Las ganancias de calidad y alineación semántica son +0.48 y +1.23 para cogvideox-2b, y +0.17 y +0.60 para cogvideox-5b, respectivamente.
- Los aumentos de tiempo de inferencia son modestos: +8.68% para COGVIDidox-2B y +13.78% para COGVIDEOX-5B.
- Las puntuaciones Bansa derivadas de la atención de Bernoulli superponen los métodos aleatorios y basados en entropía para la selección de ruido.
- La estrategia de selección de capas reduce la carga computacional al calcular la incertidumbre en las capas 14 y 19 para COGVideox-2B y COGVIDidox-5B, respectivamente.
- ANSE logra la eficiencia al evitar múltiples pases de muestreo completo, en contraste con métodos como FreeInit, que requieren 200% más de tiempo de inferencia.
- La investigación confirma que los puntajes BANSA bajos se correlacionan de manera confiable con una mayor calidad de video, por lo que es un criterio efectivo para la selección de semillas.
En conclusión, la investigación abordó el desafío de la generación de videos impredecible en los modelos de difusión al introducir un marco de selección de ruido consciente de modelo que aprovecha las señales de atención internas. Al cuantificar la incertidumbre a través de Bansa y seleccionar semillas de ruido que minimicen esta incertidumbre, los investigadores proporcionaron un método principalmente y eficiente para mejorar la calidad del video y la alineación semántica en los modelos de texto a video. El diseño de Anse, que combina la estimación de incertidumbre basada en la atención con la eficiencia computacional, le permite escalar en diferentes tamaños de modelo sin incurrir en costos significativos de tiempo de ejecución, proporcionando una solución práctica para mejorar la generación de videos en los sistemas T2V.
Mira el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.