Screenshot 2024 07 24 At 11.29.33 Pm.png

Los modelos de lenguaje de video de gran tamaño (LLM, por sus siglas en inglés) han surgido como herramientas poderosas para procesar entradas de video y generar respuestas contextualmente relevantes a los comandos del usuario. Sin embargo, estos modelos enfrentan desafíos significativos en sus metodologías actuales. El problema principal radica en los altos costos computacionales y de etiquetado asociados con el entrenamiento en conjuntos de datos de video de ajuste fino supervisado (SFT, por sus siglas en inglés). Además, los LLM de video existentes luchan con dos desventajas principales: tienen una capacidad limitada para procesar una gran cantidad de cuadros de entrada, lo que dificulta la captura de contenido espacial y temporal de grano fino en todos los videos, y carecen de un diseño de modelado temporal adecuado, dependiendo únicamente de la capacidad del LLM para modelar patrones de movimiento sin componentes de procesamiento de video especializados.

Los investigadores han intentado resolver los desafíos del procesamiento de video utilizando varios enfoques LLM. Los LLM de imagen como Flamingo, BLIP-2 y LLaVA demostraron ser exitosos en tareas visuales y textuales, mientras que los LLM de video como Video-ChatGPT y Video-LLaVA extendieron estas capacidades al procesamiento de video. Sin embargo, estos modelos a menudo requieren un ajuste fino costoso en grandes conjuntos de datos de video. Los métodos sin entrenamiento como FreeVA e IG-VLM surgieron como alternativas rentables, que utilizan LLM de imagen preentrenados sin ajustes finos adicionales. A pesar de los resultados prometedores, estos enfoques aún tienen dificultades para procesar videos más largos y capturar dependencias temporales complejas, lo que limita su efectividad en el manejo de contenido de video diverso.

Investigadores de Apple presentan SF-LLaVAun LLM de video sin capacitación único que aborda los desafíos del procesamiento de video al introducir un diseño SlowFast inspirado en redes de dos flujos exitosas para el reconocimiento de acciones. Este enfoque captura tanto la semántica espacial detallada como el contexto temporal de largo alcance sin requerir un ajuste fino adicional. La vía lenta extrae características a una velocidad de cuadros baja con una resolución espacial más alta, mientras que la vía rápida opera a una velocidad de cuadros alta con un agrupamiento espacial agresivo. Este diseño de vía dual equilibra la capacidad de modelado y la eficiencia computacional, lo que permite el procesamiento de más cuadros de video para preservar los detalles adecuados. SF-LLaVA integra características complementarias de la semántica visual que cambia lentamente y la dinámica del movimiento que cambia rápidamente, lo que proporciona una comprensión integral de los videos y supera las limitaciones de los métodos anteriores.

SlowFast-LLaVA (SF-LLaVA) presenta una arquitectura SlowFast única para LLM de video sin entrenamiento, inspirada en redes de dos flujos para el reconocimiento de acciones. Este diseño captura de manera efectiva tanto la semántica espacial detallada como el contexto temporal de largo alcance sin exceder los límites de tokens de los LLM comunes. La vía lenta procesa características de alta resolución pero de baja velocidad de cuadros (por ejemplo, 8 cuadros con 24×24 tokens cada uno) para capturar detalles espaciales. Por el contrario, la vía rápida maneja características de baja resolución pero de alta velocidad de cuadros (por ejemplo, 64 cuadros con 4×4 tokens cada uno) para modelar un contexto temporal más amplio. Este enfoque de doble vía permite a SF-LLaVA preservar tanto la información espacial como la temporal, agregándolas en una representación poderosa para una comprensión integral del video sin requerir ajustes adicionales.

SF-LLaVA demuestra un rendimiento impresionante en varias tareas de comprensión de video, a menudo superando a los métodos sin entrenamiento de última generación y compitiendo con los modelos SFT. En tareas de VideoQA abiertas, SF-LLaVA supera a otros métodos sin entrenamiento en todos los puntos de referencia, con mejoras de hasta el 5,7 % en algunos conjuntos de datos. Para VideoQA de opción múltiple, SF-LLaVA muestra ventajas significativas, particularmente en tareas complejas de razonamiento temporal de formato largo como EgoSchema, donde supera a IG-VLM en un 11,4 % utilizando un LLM de 7B. En tareas de generación de texto, SF-LLaVA-34B supera todas las líneas de base sin entrenamiento en promedio y se destaca en la comprensión temporal. Si bien SF-LLaVA ocasionalmente se queda corto en la captura de detalles espaciales finos en comparación con algunos métodos, su diseño SlowFast le permite cubrir contextos temporales más largos de manera eficiente, demostrando un rendimiento superior en la mayoría de las tareas, especialmente aquellas que requieren razonamiento temporal.

Esta investigación presenta SF-LLaVA, un LLM de video sin entrenamiento único, que representa un avance significativo en la comprensión del video sin la necesidad de realizar ajustes adicionales. Basado en LLaVA-NeXT, presenta un diseño SlowFast que utiliza entradas de dos flujos para capturar tanto la semántica espacial detallada como el contexto temporal de largo alcance de manera efectiva. Este enfoque innovador agrega características de fotogramas en una representación de video integral, lo que permite que SF-LLaVA tenga un rendimiento excepcionalmente bueno en varias tareas de video. Los experimentos exhaustivos en 8 puntos de referencia de video diferentes demuestran la superioridad de SF-LLaVA sobre los métodos sin entrenamiento existentes, con un rendimiento que a menudo iguala o supera a los LLM de video afinados y supervisados ​​de última generación. SF-LLaVA no solo sirve como una base sólida en el campo de los LLM de video, sino que también ofrece información valiosa para futuras investigaciones en el modelado de representaciones de video para LLM multimodales a través de sus opciones de diseño.


Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.