NOVA: un novedoso modelo autorregresivo de vídeo sin cuantificación vectorial

LLM autorregresivos Son redes neuronales complejas que generan texto coherente y contextualmente relevante a través de predicción secuencial. Estos LLms se destacan en el manejo de grandes conjuntos de datos y son muy sólidos en traducción, resumen e inteligencia artificial conversacional. Sin embargo, lograr una alta calidad en generación de visión A menudo esto tiene el costo de mayores demandas computacionales, especialmente para resoluciones más altas o videos más largos. A pesar del aprendizaje eficiente con espacios latentes comprimidos, los modelos de difusión de video se limitan a salidas de duración fija y carecen de adaptabilidad contextual en modelos autorregresivos como GPT.

Los modelos actuales de generación de vídeo autorregresivos enfrentan muchas limitaciones. Modelos de difusión realizan excelentes tareas de conversión de texto a imagen y de texto a video, pero dependen de tokens de longitud fija, lo que limita su versatilidad y escalabilidad en generaciones de video. Los modelos autorregresivos suelen sufrir cuantificación vectorial problemas porque transforman datos visuales en espacios simbólicos de valor discreto. Los tokens de mayor calidad requieren más tokens, mientras que su uso aumenta el costo computacional. Mientras que avances como var y MAR mejorar la calidad de la imagen y el modelado generativo, su aplicación a la generación de vídeo sigue estando limitada por ineficiencias en el modelado y desafíos en la adaptación a escenarios multicontexto.

Para abordar estos problemas, investigadores de BUPT, ICT-CAS, DLUT y BAAI propusieron ESTRELLA NUEVAun modelo autorregresivo no cuantificado para la generación de vídeo. NOVA aborda la generación de vídeo prediciendo fotogramas secuencialmente a lo largo del tiempo y conjuntos de tokens espaciales dentro de cada fotograma en un orden flexible. Este modelo combina basado en el tiempo y basado en el espacio predicción separando cómo se generan los fotogramas y los conjuntos espaciales. Utiliza un modelo de lenguaje previamente entrenado para procesar indicaciones de texto y flujo óptico para rastrear el movimiento. Para la predicción basada en el tiempo, el modelo aplica un método de enmascaramiento causal por bloques, mientras que para la predicción basada en el espacio, utiliza un enfoque bidireccional para predecir conjuntos de tokens. El modelo introduce capas de escala y desplazamiento para mejorar la estabilidad y utiliza incrustaciones de seno-coseno para un mejor posicionamiento. También agrega pérdida de difusión para ayudar a predecir las probabilidades de los tokens en un espacio continuo, lo que hace que el entrenamiento y la inferencia sean más eficientes y mejora la calidad y escalabilidad del video.

Los investigadores se capacitaron ESTRELLA NUEVA utilizando conjuntos de datos de alta calidad, comenzando con 16 millones de pares imagen-texto de fuentes como Comp. de datos, COYO, desempaquetary ViajeDBque luego se ampliaron a 600 millones de pares de LAION, Comp. de datosy COYO. Para la conversión de texto a vídeo, los investigadores utilizaron 19 millones pares vídeo-texto de Panda70M y otros conjuntos de datos internos, además 1 millón pares de Pexels-un motor de subtítulos basado en Emú2-17B descripciones generadas. La arquitectura de NOVA incluía un espacio Arkansas capa, una eliminación de ruido MLP bloque, y un 16 capas Estructura codificador-decodificador para manejar componentes espaciales y temporales. Las dimensiones temporales del codificador-decodificador oscilaron entre 768 a 1536y el MLP de eliminación de ruido tenía tres bloques con 1280 dimensiones. Un modelo VAE previamente entrenado capturó características de la imagen mediante programadores de enmascaramiento y difusión. NOVA fue entrenado en dieciséis A100 nodos con el optimizador AdamW. Primero fue entrenado para tareas de conversión de texto a imagen y luego para tareas de conversión de texto a video.

Resultados de evaluaciones sobre T2I-CompBench, evaluación generaly Banco DPG demostró que NOVA superó a modelos como PixArt-α y SD v1/v2 en tareas de generación de texto a imagen y de texto a vídeo. NOVA generó imágenes y videos de mayor calidad con imágenes más claras y detalladas. También proporcionó resultados más precisos y coincidió mejor con las entradas de texto y las salidas generadas.

En resumen, el modelo NOVA propuesto avanza significativamente la generación de texto a imagen y de texto a video. El método reduce la complejidad computacional y mejora la eficiencia al integrar predicciones temporales cuadro por cuadro y espaciales conjunto por conjunto con resultados de buena calidad. Su rendimiento supera a los modelos existentes, con una calidad de imagen y fidelidad de vídeo casi comerciales. Este trabajo proporciona una base para futuras investigaciones, ofreciendo una base para desarrollar modelos escalables y generación de video en tiempo real y abriendo nuevas posibilidades para avances en el campo.


Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Divyesh es pasante de consultoría en Marktechpost. Está cursando un BTech en Ingeniería Agrícola y Alimentaria en el Instituto Indio de Tecnología de Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el ámbito agrícola y resolver desafíos.