Comprender los videos de forma larga, que van de minutos a horas, presenta un desafío importante en la visión por computadora, especialmente a medida que las tareas de comprensión de video se expanden más allá de los clips cortos. Una de las dificultades clave radica en identificar eficientemente los pocos cuadros relevantes de miles dentro de un largo video necesario para responder una consulta dada. La mayoría de los VLM, como Llava y Tarsier, procesan cientos de tokens por imagen, lo que hace análisis de cuadros por cuadro de videos largos computacionalmente caros. Para abordar esto, un nuevo paradigma conocido como búsqueda temporal ha ganado prominencia. A diferencia de la localización temporal tradicional, que generalmente identifica segmentos continuos dentro de un video, la búsqueda temporal tiene como objetivo recuperar un conjunto escaso de marcos altamente relevantes dispersos en toda la línea de tiempo, por favor para encontrar una “aguja en una paja”.
Si bien los avances en los mecanismos de atención y los transformadores de video han mejorado el modelado temporal, estos métodos aún enfrentan limitaciones en la captura de dependencias de largo alcance. Algunos enfoques intentan superar esto comprimiendo datos de video o seleccionando marcos específicos para reducir el tamaño de entrada. Aunque existen puntos de referencia para la comprensión de los videos a largo plazo, evalúan principalmente el rendimiento en función de las tareas de respuesta de preguntas posteriores en lugar de evaluar directamente la efectividad de la búsqueda temporal. Por el contrario, el enfoque emergente en la selección de cuadros del cuadro y la recuperación de cuadros de grano fino, que se extiende desde métodos basados en una mirada hasta guiones, ofrece un enfoque más específico y eficiente para comprender el contenido de video de forma larga.
Los investigadores de Stanford, Northwestern y Carnegie Mellon revisaron la búsqueda temporal de la comprensión de video en forma larga, presentando LV-Haystack, un gran punto de referencia con 480 horas de videos del mundo real y más de 15,000 instancias de control de calidad anotadas. Enmarcan la tarea como encontrar algunos marcos clave de miles, destacando las limitaciones de los modelos actuales. Para abordar esto, proponen T, un marco que reinventa la búsqueda temporal como una búsqueda espacial utilizando técnicas adaptativas con zoom en el tiempo y el espacio. T aumenta significativamente el rendimiento al tiempo que reduce el costo computacional, mejorando la precisión de modelos como GPT-4O y LLAVA-OV utilizando muchos menos marcos.
El estudio introduce una tarea de búsqueda temporal (TS) para mejorar la comprensión de video en los modelos de lenguaje visual de contexto largo. El objetivo es seleccionar un plazo de clave mínimo de un video que retenga toda la información necesaria para responder una pregunta determinada. El marco T propuesto realiza esto utilizando tres etapas: conexión a tierra, búsqueda temporal iterativa y finalización de tareas. Identifica objetos relevantes en la pregunta, los ubica a través de los cuadros utilizando un modelo de búsqueda espacial y actualiza una estrategia de muestreo de cuadro basada en puntajes de confianza. Evaluado en el punto de referencia LV-Haystack, T muestra una mejor eficiencia y precisión con costos computacionales significativamente más bajos.
El estudio evalúa el marco de búsqueda temporal T propuesto en múltiples conjuntos de datos y tareas, incluidos LV-Haystack, LongVideObench, VideoMme, Next-QA, Egoschema y Ego4D Longvideo QA. T se integra en modelos en idioma de visión de código abierto y patentado, mejorando constantemente el rendimiento, especialmente en videos largos y escenarios de cuadros limitados. Utiliza atención, detección de objetos o modelos capacitados para una selección eficiente del fotograma clave, logrando una alta precisión con un costo computacional reducido. Los experimentos muestran que t alinea progresivamente el muestreo con marcos relevantes sobre las iteraciones, aborda el rendimiento a nivel humano con más marcos y supera significativamente los métodos de muestreo uniformes y de recuperación en varios puntos de referencia de evaluación.
En conclusión, el trabajo aborda el desafío de comprender los videos de forma larga al revisar los métodos de búsqueda temporal utilizados en los VLM de última generación. Los autores enmarcan la tarea como el problema de “video de video largo”, identificando algunos cuadros relevantes de decenas de miles. Presentan LV-Haystack, un punto de referencia con 480 horas de video y más de 15,000 instancias anotadas por los humanos para apoyar esto. Los resultados muestran que los métodos existentes funcionan mal. Proponen T, un marco liviano que transforma la búsqueda temporal en un problema espacial utilizando técnicas de zoom adaptativas para abordar esto. T aumenta significativamente el rendimiento de los VLM principales bajo presupuestos de marcos estrechos, lo que demuestra su efectividad.
Verificar el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.