Los investigadores de ByteDance presentan Tarsier2: un modelo de lenguaje-visión grande (LVLM) con parámetros 7B, diseñado para abordar los desafíos centrales de la comprensión del video

La comprensión del vídeo ha presentado durante mucho tiempo desafíos únicos para AI investigadores. A diferencia de las imágenes estáticas, los vídeos implican dinámicas temporales intrincadas y razonamiento espacio-temporal, lo que dificulta que los modelos generen descripciones significativas o respondan preguntas específicas del contexto. Problemas como las alucinaciones, donde los modelos fabrican detalles, comprometen aún más la confiabilidad de los sistemas existentes. A pesar de los avances con modelos como GPT-4o y Gemini-1.5-Pro, lograr la comprensión de vídeo a nivel humano sigue siendo una tarea compleja. La percepción precisa de los eventos y la comprensión de la secuencia, junto con la reducción de las alucinaciones, son obstáculos cruciales que hay que superar.

Los investigadores de ByteDance han presentado Tarsier2, un gran modelo de visión y lenguaje (LVLM) con 7 mil millones de parámetros, diseñado para abordar los desafíos centrales de la comprensión de videos. Tarsier2 sobresale en generar descripciones de video detalladas, superando a modelos como GPT-4o y Gemini-1.5-Pro. Más allá de las descripciones de los videos, demuestra un sólido desempeño en tareas como respuesta a preguntas, conexión a tierra e inteligencia incorporada. Con un conjunto de datos previo al entrenamiento ampliado de 40 millones de pares de video-texto, alineación temporal detallada y optimización de preferencias directas (DPO) durante el entrenamiento, Tarsier2 logra mejoras notables. Por ejemplo, en el conjunto de datos DREAM-1K, supera al GPT-4o en un 2,8% y al Gemini-1.5-Pro ​​en un 5,8% en puntuaciones de F1.

Innovaciones técnicas y beneficios

Tarsier2 integra varios avances técnicos para mejorar el rendimiento. La arquitectura del modelo incluye un codificador de visión, un adaptador de visión y un modelo de lenguaje grandecombinados en un proceso formativo de tres etapas:

  1. Pre-entrenamiento: Un conjunto de datos de 40 millones de pares de vídeo y texto, enriquecido con vídeos de comentarios que capturan tanto acciones de bajo nivel como detalles de la trama de alto nivel, proporciona una base sólida para el aprendizaje.
  2. Ajuste Supervisado (SFT): La alineación temporal detallada durante esta etapa garantiza que el modelo asocie con precisión los eventos con los cuadros de video correspondientes, lo que reduce las alucinaciones y mejora la precisión.
  3. Optimización de preferencias directas (DPO): Esta fase emplea datos de preferencias generados automáticamente para refinar la toma de decisiones del modelo y minimizar las alucinaciones.

Estos avances no solo mejoran la generación de descripciones de video detalladas, sino que también mejoran la versatilidad general del modelo en tareas centradas en video.

Resultados y conocimientos

Tarsier2 logra resultados impresionantes en múltiples puntos de referencia. Las evaluaciones humanas revelan una ventaja de rendimiento del 8,6% sobre GPT-4o y una mejora del 24,9% sobre Gemini-1.5-Pro. En el punto de referencia DREAM-1K, se convierte en el primer modelo que supera una puntuación de recuperación general del 40%, lo que destaca su capacidad para detectar y describir acciones dinámicas de manera integral. Además, establece nuevos récords de desempeño en 15 puntos de referencia públicos, incluidas tareas como respuesta a preguntas en video y razonamiento temporal. En la prueba ET Bench-Grounding, Tarsier2 logra la puntuación media F1 más alta del 35,5%, lo que subraya sus capacidades en comprensión temporal. Los estudios de ablación subrayan aún más el papel fundamental del conjunto de datos previo al entrenamiento ampliado y la fase DPO para mejorar las métricas de rendimiento como las puntuaciones y la precisión de F1.

Conclusión

Tarsier2 marca un importante paso adelante en la comprensión del vídeo al abordar desafíos clave como la alineación temporal, la reducción de las alucinaciones y la escasez de datos. Los investigadores de ByteDance han creado un modelo que no solo supera a las principales alternativas en métricas clave, sino que también proporciona un marco escalable para futuros avances. A medida que el contenido de vídeo sigue dominando los medios digitales, modelos como Tarsier2 tienen un inmenso potencial para aplicaciones que van desde la creación de contenidos hasta la vigilancia inteligente.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 Recomendar plataforma de código abierto: Parlant es un marco que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.