VISMAP: resumen no supervisado de videos de una hora utilizando meta-promting y conjuntos de datos de forma corta

Los modelos de subtítulos de video generalmente están entrenados en conjuntos de datos que consisten en videos cortos, generalmente menos de tres minutos de longitud, emparejados con los subtítulos correspondientes. Si bien esto les permite describir acciones básicas como caminar o hablar, estos modelos luchan con la complejidad de los videos de forma larga, como vlogs, eventos deportivos y películas que pueden durar más de una hora. Cuando se aplican a tales videos, a menudo generan descripciones fragmentadas centradas en acciones aisladas en lugar de capturar la historia más amplia. Los esfuerzos como MA-LMM y Lavila tienen un subtítulos de video extendido a clips de 10 minutos usando LLM, pero los videos de una hora siguen siendo un desafío debido a la escasez de conjuntos de datos adecuados. Aunque Ego4D introdujo un gran conjunto de datos de videos de una hora, su perspectiva en primera persona limita su aplicabilidad más amplia. El resumen de video abordó esta brecha entrenando en videos de una hora con anotaciones de granularidad múltiple, sin embargo, este enfoque es costoso y propenso a las inconsistencias de anotación. Por el contrario, los conjuntos de datos de video de forma corta anotados están ampliamente disponibles y más fáciles de usar.

Los avances en los modelos de idiomas visuales han mejorado significativamente la integración de las tareas de visión y lenguaje, con trabajos tempranos como clip y alineación de la base. Los modelos posteriores, como Llava y Minigpt-4, extendieron estas capacidades a las imágenes, mientras que otros los adaptaron para la comprensión de video al enfocarse en el modelado de secuencias temporales y la construcción de conjuntos de datos más robustos. A pesar de estos desarrollos, la escasez de conjuntos de datos de video de forma larga anotados y anotados sigue siendo un obstáculo significativo para el progreso. Las tareas tradicionales de video de forma corta, como la respuesta de las preguntas de video, el subtítulos y la base, requieren principalmente una comprensión espacial o temporal, mientras que resumir videos de una hora exige identificar marcos clave en medio de una redundancia sustancial. Si bien algunos modelos, como Longva y Llava-Video, pueden realizar VQA en videos largos, luchan con las tareas de resumen debido a las limitaciones de los datos.

Los investigadores de la Universidad Queen Mary y Spotify presentan Vismap, un método sin supervisión para resumir videos de una hora sin requerir anotaciones costosas. Los modelos tradicionales funcionan bien en videos cortos y pre-segmentados, pero luchan con contenido más largo donde los eventos importantes están dispersos. VISMAP une esta brecha mediante el uso de LLMS y una estrategia de meta-promtidura para generar y refinar iterativamente pseudo-los amamantados de las descripciones de clip creadas por modelos de video de forma corta. El proceso implica tres LLM que trabajan en secuencia para generación, evaluación y optimización inmediata. VISMAP logra un rendimiento comparable a los modelos totalmente supervisados ​​en múltiples conjuntos de datos al tiempo que mantiene la adaptabilidad del dominio y elimina la necesidad de un etiquetado manual extenso.

El estudio aborda el resumen de videos de dominio cruzado mediante la capacitación en un conjunto de datos de video de forma corta etiquetada y adaptándose a videos no etiquetados de una hora de un dominio diferente. Inicialmente, un modelo está capacitado para resumir videos de 3 minutos utilizando características de Timesformer, un módulo de alineación en idioma visual y un decodificador de texto, optimizado por pérdidas de entropía transversal y contraste. Para manejar videos más largos, se segmentan en clips de 3 minutos y se generan pseudopalocaciones. Un enfoque iterativo de metadrompting con múltiples LLM (generador, evaluador, optimizador) refina resúmenes. Finalmente, el modelo está ajustado en estos pseudo-humedades utilizando una pérdida simétrica de entropía cruzada para manejar etiquetas ruidosas y mejorar la adaptación.

El estudio evalúa el VISMAP en tres escenarios: resumen de videos largos utilizando EGO4D-HCAP, generalización de dominio cruzado en MSRVTT, MSVD y DATASS de Youcook2, y adaptación a videos cortos usando Egoschema. VISMAP, entrenado en videos de una hora de duración, se compara con los métodos supervisados ​​y de disparo cero, como la recapitulación de video y Lavila+GPT3.5, lo que demuestra un rendimiento competitivo o superior sin supervisión. Las evaluaciones usan sidra, rouge-L, puntajes de meteoritos y precisión de QA. Los estudios de ablación destacan los beneficios de los módulos de meta-promtificación y componentes, como el aprendizaje contrastante y la pérdida de SCE. Los detalles de implementación incluyen el uso de Timesformer, Distilbert y GPT-2, con capacitación realizada en una GPU NVIDIA A100.

En conclusión, VISMAP es un enfoque no supervisado para resumir videos largos utilizando conjuntos de datos de videos cortos anotados y una estrategia de meta-prompting. Primero crea resúmenes de alta calidad a través de meta-prompting y luego entrena un modelo de resumen, reduciendo la necesidad de anotaciones extensas. Los resultados experimentales demuestran que VISMAP se desempeña a la par con métodos completamente supervisados ​​y se adapta de manera efectiva en varios conjuntos de datos de video. Sin embargo, su dependencia de las etiquetas de pseudo de un modelo de dominio de origen puede afectar el rendimiento bajo importantes cambios de dominio. Además, VISMAP actualmente se basa únicamente en la información visual. El trabajo futuro podría integrar datos multimodales, introducir resumen jerárquico y desarrollar técnicas de meta-prompting más generalizables.


Mira el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.