Procesamiento fluido de vídeos de dos horas: este artículo sobre inteligencia artificial presenta LONGVILA, un avance en los modelos de lenguaje visual de contexto extenso para vídeos largos

El principal desafío en el desarrollo de modelos avanzados de lenguaje visual (VLM) radica en permitir que estos modelos procesen y comprendan de manera efectiva secuencias de video largas que contienen información contextual extensa. La comprensión del contexto largo es crucial para aplicaciones como el análisis detallado de video, los sistemas autónomos y las implementaciones de IA en el mundo real donde las tareas requieren la comprensión de entradas complejas y multimodales durante períodos prolongados. Sin embargo, los modelos actuales tienen una capacidad limitada para manejar secuencias largas, lo que restringe su desempeño y usabilidad en tareas que requieren un análisis contextual profundo. Este desafío es significativo porque superarlo liberaría el potencial de los sistemas de IA para realizar tareas más sofisticadas en tiempo real y en varios dominios.

Los métodos existentes diseñados para manejar tareas de lenguaje visual de contexto largo a menudo enfrentan problemas de escalabilidad y eficiencia. Enfoques como Ring-Style Sequence Parallelism y Megatron-LM han extendido la longitud del contexto en los modelos de lenguaje, pero tienen dificultades cuando se aplican a tareas multimodales que involucran datos visuales y textuales. Estos métodos se ven obstaculizados por sus demandas computacionales, lo que los hace poco prácticos para aplicaciones en tiempo real o tareas que requieren el procesamiento de secuencias muy largas. Además, la mayoría de los modelos de lenguaje visual están optimizados para contextos cortos, lo que limita su efectividad para secuencias de video más largas. Estas restricciones impiden que los modelos de IA alcancen los niveles de rendimiento necesarios en tareas que exigen una comprensión del contexto extendido, como el resumen de videos y el subtitulado de videos de formato largo.

Un equipo de investigadores de NVIDIA, MIT, UC Berkeley y UT Austin propone LongVILA, un enfoque innovador que ofrece una solución integral para modelos de lenguaje visual de contexto largo. LongVILA presenta el sistema Multi-Modal Sequence Parallelism (MM-SP), que mejora significativamente la eficiencia del entrenamiento y la inferencia de contexto largo al permitir que los modelos procesen secuencias de hasta 2 millones de tokens de longitud utilizando 256 GPU. Este sistema es más eficiente que los métodos existentes, logrando una aceleración de 2,1× – 5,7× en comparación con Ring-Style Sequence Parallelism y una mejora de 1,1× – 1,4× en comparación con Megatron-LM. La novedad de LongVILA radica en su capacidad para escalar la longitud del contexto mientras se integra perfectamente con marcos como Hugging Face Transformers. El proceso de entrenamiento de cinco etapas mejora aún más las capacidades del modelo, centrándose en la alineación multimodal, el preentrenamiento a gran escala, la extensión del contexto y el ajuste fino supervisado, lo que genera mejoras sustanciales en el rendimiento en tareas de video largas.

La base de LongVILA es el sistema MM-SP, diseñado para gestionar el entrenamiento y la inferencia de VLM de contexto largo mediante la distribución de cargas computacionales en múltiples GPU. El sistema emplea una estrategia de fragmentación de dos etapas que garantiza un procesamiento equilibrado tanto del codificador de imágenes como de las etapas de modelado del lenguaje. Esta estrategia es crucial para gestionar de manera eficiente los diversos tipos de datos involucrados en tareas multimodales, en particular cuando se procesan secuencias de video extremadamente largas. El proceso de entrenamiento se compone de cinco etapas: alineación multimodal, preentrenamiento a gran escala, ajuste fino supervisado de corta duración, extensión del contexto y ajuste fino supervisado de larga duración. Cada etapa extiende de manera incremental la capacidad del modelo desde el manejo de contextos cortos hasta el procesamiento de secuencias de video largas con hasta 1024 cuadros. También se desarrolló un nuevo conjunto de datos para el seguimiento de instrucciones de video largas, que comprende 15,292 videos, cada uno de aproximadamente 10 minutos de duración, para respaldar la etapa final de ajuste fino supervisado.

El enfoque LongVILA logra mejoras sustanciales en el manejo de tareas de video largas, particularmente en su capacidad para procesar secuencias extendidas con alta precisión. El modelo demostró una precisión significativa del 99,5 % al procesar videos con una longitud de contexto de 274 000 tokens, superando ampliamente las capacidades de los modelos anteriores que se limitaban a secuencias más cortas. Además, LongVILA-8B supera constantemente a los modelos de última generación existentes en los puntos de referencia para tareas de video de diferentes duraciones, lo que demuestra su capacidad superior para administrar y analizar contenido de video largo de manera efectiva. Las mejoras de rendimiento logradas por LongVILA resaltan su eficiencia y escalabilidad, lo que lo convierte en una solución líder para tareas que requieren una comprensión contextual profunda en secuencias extendidas.

En conclusión, LongVILA representa un avance significativo en el campo de la IA, en particular para tareas que requieren una comprensión de contextos extensos en entornos multimodales. Al ofrecer una solución integral que incluye un novedoso sistema de paralelismo de secuencias, un proceso de entrenamiento de múltiples etapas y conjuntos de datos especializados, LongVILA aborda de manera eficaz el desafío crítico de procesar secuencias de video extensas. Este método no solo mejora la escalabilidad y la eficiencia de los modelos de lenguaje visual, sino que también establece un nuevo estándar de desempeño en tareas de video extensas, lo que marca una contribución sustancial al avance de la investigación de la IA.


Echa un vistazo a la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Más de 49 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasionan la ciencia de datos y el aprendizaje automático, y cuenta con una sólida formación académica y experiencia práctica en la resolución de desafíos reales interdisciplinarios.