Los LLM han mostrado capacidades impresionantes en tareas de razonamiento como la cadena de pensamiento (COT), mejorando la precisión e interpretabilidad en la resolución de problemas complejos. Mientras que los investigadores están extendiendo estas capacidades a dominios multimodales, los videos presentan desafíos únicos debido a su dimensión temporal. A diferencia de las imágenes estáticas, los videos requieren comprender las interacciones dinámicas con el tiempo. Los métodos de cuna visuales actuales sobresalen con entradas estáticas pero luchan con el contenido de video porque no pueden localizar o revisar explícitamente momentos específicos en secuencias. Los humanos superan estos desafíos descomponiendo problemas complejos, identificando y revisando momentos clave y sintetizando observaciones en respuestas coherentes. Este enfoque destaca la necesidad de sistemas de IA para administrar múltiples habilidades de razonamiento.
Los avances recientes de comprensión de video han mejorado tareas como subtítulos y respuesta a las preguntas, pero los modelos a menudo carecen de correspondencia e interpretación de tierra visual, especialmente para videos de forma larga. Video Temporal La conexión a tierra aborda esto al requerir una localización precisa. Grandes modelos multimodales entrenados con una lucha supervisada de ajuste de instrucciones con tareas de razonamiento complejas. Han surgido dos enfoques principales para abordar estas limitaciones: interfaces basadas en agentes y paradigmas de razonamiento basados en texto puros ejemplificados por procesos de cuna. Además, las técnicas de búsqueda de tiempo de inferencia son valiosas en dominios como la robótica, los juegos y la navegación al permitir que los modelos refinen iterativamente las salidas sin cambiar los pesos subyacentes.
Investigadores de la Universidad Politécnica de Hong Kong y Show Lab, Universidad Nacional de Singapur, han propuesto Videomind, un agente en video diseñado para la comprensión de videos temporales. Videomind presenta dos innovaciones clave para abordar los desafíos del razonamiento de video. Primero, identifica capacidades esenciales para el razonamiento temporal de video e implementa un flujo de trabajo de agente basado en roles con componentes especializados: un planificador, un terreno, un verificador y un respondedor. En segundo lugar, propone una estrategia de cadena de lora que permite un cambio de roles sin problemas a través de adaptadores lora livianos, evitando la sobrecarga de múltiples modelos mientras equilibra la eficiencia y la flexibilidad. Los experimentos en 14 puntos de referencia públicos muestran un rendimiento de vanguardia en diversas tareas de comprensión de video.
Videomind se basa en el QWEN2-VL, que combina una columna vertebral LLM con un codificador visual a base de VIT capaz de manejar entradas de resolución dinámica. Su innovación central es su estrategia de cadena de lora, que activa dinámicamente los adaptadores de Lora específicos durante la inferencia a través de la autocalación. Además, contiene cuatro componentes especializados: (a) Planificador, que coordina todos los demás roles y determina qué funcione llamar a continuación a continuación en función de la consulta, (b) Grounder, que localiza los momentos relevantes al identificar el inicio y la finalización de las campañas de tiempo de inicio en base a las consultas de texto (c) Verificador, que proporciona binarios (“sí”/”No”) respuestas a los intervalos temporales y (d) Responderes de los respuestas, basadas en los respuestas de los respuestas temporales, basadas en los que generan los respuestas temporales. Identificado por el Grounder o todo el video cuando la respuesta directa es más apropiada.
En las métricas de conexión a tierra, el modelo 2B liviano de Videomind supera a la mayoría de los modelos comparados, incluidos Internvl2-78b y Claude-3.5-Ennet, con solo GPT-4O que muestra resultados superiores. Sin embargo, la versión 7B de Videomind supera incluso GPT-4O, logrando un rendimiento general competitivo. En el próximo punto de referencia de GQA, el modelo 2B coincide con los modelos 7B de vanguardia en los enfoques basados en agentes y de extremo a extremo, comparando favorablemente con soluciones basadas en agentes ricos en texto como LLOVI, LANGREPO y SEVILA. Videomind muestra capacidades excepcionales de disparo cero, superando todos los métodos de conexión a tierra temporales basados en LLM y logrando resultados competitivos en comparación con los expertos en base temporal sintonizados. Además, VideOmind sobresale en tareas de control de calidad de video general a través de Video-MME (Long), MLVU y LVBench, que muestra la localización efectiva de los segmentos de referencia antes de responder preguntas.
En este documento, los investigadores introdujeron Videomind, un avance significativo en el razonamiento de videos fundamentados temporales. Aborda los complejos desafíos de la comprensión de video a través del flujo de trabajo de agente, combinando un planificador, tierra, verificador, respondedor y una estrategia eficiente de cadena de lora para el cambio de roles. Experimentos en tres dominios clave, respuesta de video en video fundamental, puesta en marcha temporal de video y respuesta de video general, confirman la efectividad de VideOmind para tareas de razonamiento de video de forma larga donde proporciona respuestas precisas y basadas en evidencia. Este trabajo establece una base para futuros desarrollos en agentes de videos multimodales y capacidades de razonamiento, abriendo nuevas vías para sistemas de comprensión de video más complejos.
Verificar el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
