T* y LV-Haystack: un marco de búsqueda temporal guiado espacialmente para una comprensión eficiente de video largo
Comprender los videos de forma larga, que van de minutos a horas, presenta un desafío importante en la visión por computadora, especialmente a medida que las tareas de comprensión de…