Mit Spatiotemporal 01 Press.jpg

Internet está inundado de videos instructivos que pueden enseñar a los espectadores curiosos de todo, desde cocinar el panqueque perfecto hasta realizar una maniobra de Heimlich que salva vidas.

Pero identificar cuándo y dónde ocurre una acción particular en un vídeo largo puede resultar tedioso. Para agilizar el proceso, los científicos están intentando enseñar a las computadoras a realizar esta tarea. Idealmente, un usuario podría simplemente describir la acción que está buscando y un modelo de IA saltaría a su ubicación en el video.

Sin embargo, enseñar a los modelos de aprendizaje automático a hacer esto generalmente requiere una gran cantidad de datos de video costosos que han sido cuidadosamente etiquetados a mano.

Un enfoque nuevo y más eficiente de investigadores del MIT y del MIT-IBM Watson AI Lab entrena un modelo para realizar esta tarea, conocida como conexión a tierra espacio-temporal, utilizando solo videos y sus transcripciones generadas automáticamente.

Los investigadores enseñan a un modelo a comprender un vídeo sin etiquetar de dos maneras distintas: observando pequeños detalles para descubrir dónde se encuentran los objetos (información espacial) y mirando la imagen más grande para comprender cuándo ocurre la acción (información temporal).

En comparación con otros enfoques de IA, su método identifica con mayor precisión acciones en vídeos más largos con múltiples actividades. Curiosamente, descubrieron que el entrenamiento simultáneo de información espacial y temporal hace que un modelo identifique mejor a cada uno de ellos individualmente.

Además de agilizar los procesos de aprendizaje en línea y capacitación virtual, esta técnica también podría ser útil en entornos de atención médica al encontrar rápidamente momentos clave en videos de procedimientos de diagnóstico, por ejemplo.

“Desenmarañamos el desafío de intentar codificar información espacial y temporal al mismo tiempo y, en cambio, pensamos en ello como dos expertos trabajando por su cuenta, lo que resulta ser una forma más explícita de codificar la información. Nuestro modelo, que combina estas dos ramas separadas, conduce al mejor rendimiento”, afirma Brian Chen, autor principal de un artículo sobre esta técnica.

Chen, un graduado de la Universidad de Columbia en 2023 que realizó esta investigación mientras era estudiante visitante en el Laboratorio de IA Watson del MIT-IBM, está acompañado en el artículo por James Glass, científico investigador senior, miembro del Laboratorio de IA Watson del MIT-IBM y director. del Grupo de Sistemas de Lenguaje Hablado del Laboratorio de Informática e Inteligencia Artificial (CSAIL); Hilde Kuehne, miembro del MIT-IBM Watson AI Lab, que también está afiliado a la Universidad Goethe de Frankfurt; y otros en el MIT, la Universidad Goethe, el MIT-IBM Watson AI Lab y Quality Match GmbH. La investigación se presentará en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones.

Aprendizaje global y local

Los investigadores suelen enseñar a los modelos a realizar una conexión a tierra espacio-temporal utilizando vídeos en los que los humanos han anotado los tiempos de inicio y finalización de tareas particulares.

Generar estos datos no solo es costoso, sino que puede resultar difícil para los humanos descubrir exactamente qué etiquetar. Si la acción es “cocinar un panqueque”, ¿esa acción comienza cuando el chef comienza a mezclar la masa o cuando la vierte en la sartén?

“Esta vez, la tarea puede ser cocinar, pero la próxima vez, podría ser arreglar un auto. Hay muchísimos dominios diferentes para que la gente pueda anotar. Pero si podemos aprender todo sin etiquetas, será una solución más general”, afirma Chen.

Para su enfoque, los investigadores utilizan videos instructivos sin etiquetar y transcripciones de texto que los acompañan de un sitio web como YouTube como datos de entrenamiento. Estos no necesitan ninguna preparación especial.

Dividieron el proceso de formación en dos partes. Por un lado, enseñan un modelo de aprendizaje automático para mirar el vídeo completo y comprender qué acciones suceden en determinados momentos. Esta información de alto nivel se denomina representación global.

Para el segundo, le enseñan al modelo a centrarse en una región específica en partes del vídeo donde ocurre la acción. En una cocina grande, por ejemplo, es posible que el modelo solo necesite centrarse en la cuchara de madera que usa un chef para mezclar la masa para panqueques, en lugar de toda la encimera. Esta información detallada se denomina representación local.

Los investigadores incorporan un componente adicional en su marco para mitigar los desajustes que ocurren entre la narración y el video. Quizás el chef habla primero de cocinar el panqueque y realiza la acción después.

Para desarrollar una solución más realista, los investigadores se centraron en vídeos sin cortes de varios minutos de duración. Por el contrario, la mayoría de las técnicas de IA se entrenan utilizando clips de unos segundos que alguien recortó para mostrar solo una acción.

Un nuevo punto de referencia

Pero cuando llegaron a evaluar su enfoque, los investigadores no pudieron encontrar un punto de referencia efectivo para probar un modelo en estos videos más largos y sin cortes, por lo que crearon uno.

Para construir su conjunto de datos de referencia, los investigadores idearon una nueva técnica de anotación que funciona bien para identificar acciones de varios pasos. Hicieron que los usuarios marcaran la intersección de objetos, como el punto donde el filo de un cuchillo corta un tomate, en lugar de dibujar un cuadro alrededor de objetos importantes.

«Esto está más claramente definido y acelera el proceso de anotación, lo que reduce el trabajo humano y el costo», dice Chen.

Además, hacer que varias personas hagan anotaciones en el mismo vídeo puede capturar mejor las acciones que ocurren a lo largo del tiempo, como el flujo de leche que se vierte. No todos los anotadores marcarán exactamente el mismo punto en el flujo de líquido.

Cuando utilizaron este punto de referencia para probar su enfoque, los investigadores descubrieron que era más preciso para identificar acciones que otras técnicas de IA.

Su método también fue mejor al centrarse en las interacciones entre humanos y objetos. Por ejemplo, si la acción es “servir un panqueque”, muchos otros enfoques podrían centrarse sólo en objetos clave, como una pila de panqueques sobre un mostrador. En cambio, su método se centra en el momento real en el que el chef voltea un panqueque en un plato.

A continuación, los investigadores planean mejorar su enfoque para que los modelos puedan detectar automáticamente cuando el texto y la narración no están alineados y cambiar el enfoque de una modalidad a la otra. También quieren ampliar su marco a los datos de audio, ya que normalmente existen fuertes correlaciones entre las acciones y los sonidos que emiten los objetos.

Esta investigación está financiada, en parte, por el MIT-IBM Watson AI Lab.