VISMAP: resumen no supervisado de videos de una hora utilizando meta-promting y conjuntos de datos de forma corta
Los modelos de subtítulos de video generalmente están entrenados en conjuntos de datos que consisten en videos cortos, generalmente menos de tres minutos de longitud, emparejados con los subtítulos correspondientes.…