Denseav.jpg

Mark Hamilton, estudiante de doctorado del MIT en ingeniería eléctrica e informática y afiliado del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, quiere utilizar máquinas para comprender cómo se comunican los animales. Para lograrlo, primero se propuso crear un sistema que pudiera aprender el lenguaje humano “desde cero”.

“Curiosamente, el momento clave de inspiración vino de la película ‘La marcha de los pingüinos’. Hay una escena en la que un pingüino cae mientras cruza el hielo y deja escapar un pequeño gemido mientras se levanta. Cuando lo miras, es casi obvio que este gemido reemplaza una palabra de cuatro letras. Este fue el momento en el que pensamos: tal vez necesitemos usar audio y video para aprender un idioma”. dice Hamilton. «¿Hay alguna manera de que podamos dejar que un algoritmo mire televisión todo el día y a partir de esto averiguar de qué estamos hablando?»

“Nuestro modelo, ‘DenseAV’, pretende aprender el lenguaje prediciendo lo que ve a partir de lo que escucha, y viceversa. Por ejemplo, si escuchas el sonido de alguien que dice «hornea el pastel a 350», es probable que estés viendo un pastel o un horno. Para tener éxito en este juego de combinación de audio y vídeo a través de millones de vídeos, el modelo tiene que aprender de qué habla la gente”, afirma Hamilton.

Una vez que entrenaron a DenseAV en este juego de correspondencias, Hamilton y sus colegas observaron qué píxeles buscaba el modelo cuando escuchaba un sonido. Por ejemplo, cuando alguien dice «perro», el algoritmo inmediatamente comienza a buscar perros en la transmisión de video. Al ver qué píxeles selecciona el algoritmo, se puede descubrir qué cree el algoritmo que significa una palabra.

Curiosamente, ocurre un proceso de búsqueda similar cuando DenseAV escucha el ladrido de un perro: busca un perro en la transmisión de video. “Esto despertó nuestro interés. Queríamos ver si el algoritmo conocía la diferencia entre la palabra ‘perro’ y el ladrido de un perro”, dice Hamilton. El equipo exploró esto dándole al DenseAV un «cerebro de dos lados». Curiosamente, descubrieron que un lado del cerebro de DenseAV se centraba naturalmente en el lenguaje, como la palabra «perro», y el otro lado se centraba en sonidos como los ladridos. Esto demostró que DenseAV no solo aprendió el significado de las palabras y la ubicación de los sonidos, sino que también aprendió a distinguir entre estos tipos de conexiones intermodales, todo ello sin intervención humana ni ningún conocimiento del lenguaje escrito.

Una rama de las aplicaciones es aprender de la enorme cantidad de vídeos que se publican en Internet cada día: «Queremos sistemas que puedan aprender de grandes cantidades de contenido de vídeo, como vídeos instructivos», afirma Hamilton. “Otra aplicación interesante es la comprensión de nuevos lenguajes, como la comunicación con delfines o ballenas, que no tienen una forma de comunicación escrita. Nuestra esperanza es que DenseAV pueda ayudarnos a comprender estos idiomas que han eludido los esfuerzos de traducción humana desde el principio. Finalmente, esperamos que este método pueda usarse para descubrir patrones entre otros pares de señales, como los sonidos sísmicos que produce la Tierra y su geología”.

Al equipo le esperaba un reto formidable: aprender un idioma sin necesidad de introducir texto. Su objetivo era redescubrir el significado del lenguaje desde cero, evitando el uso de modelos lingüísticos previamente entrenados. Este enfoque está inspirado en cómo los niños aprenden observando y escuchando su entorno para comprender el lenguaje.

Para lograr esta hazaña, DenseAV utiliza dos componentes principales para procesar datos de audio y visuales por separado. Esta separación hizo imposible que el algoritmo hiciera trampa, al permitir que el lado visual mirara el audio y viceversa. Obligó al algoritmo a reconocer objetos y creó características detalladas y significativas para señales visuales y de audio. DenseAV aprende comparando pares de señales de audio y visuales para encontrar qué señales coinciden y cuáles no. Este método, llamado aprendizaje contrastivo, no requiere ejemplos etiquetados y permite a DenseAV descubrir los patrones predictivos importantes del lenguaje mismo.

Una diferencia importante entre DenseAV y los algoritmos anteriores es que los trabajos anteriores se centraban en una noción única de similitud entre sonido e imágenes. Un clip de audio completo, en el que alguien decía «el perro se sentó en el césped», se comparó con una imagen completa de un perro. Esto no permitió que los métodos anteriores descubrieran detalles finos, como la conexión entre la palabra «hierba» y la hierba debajo del perro. El algoritmo del equipo busca y agrega todas las coincidencias posibles entre un clip de audio y los píxeles de una imagen. Esto no sólo mejoró el rendimiento, sino que permitió al equipo localizar sonidos con precisión de una manera que los algoritmos anteriores no podían. “Los métodos convencionales utilizan un token de clase única, pero nuestro enfoque compara cada píxel y cada segundo de sonido. Este método detallado permite a DenseAV realizar conexiones más detalladas para una mejor localización”, afirma Hamilton.

Los investigadores entrenaron a DenseAV en AudioSet, que incluye 2 millones de vídeos de YouTube. También crearon nuevos conjuntos de datos para probar qué tan bien el modelo puede vincular sonidos e imágenes. En estas pruebas, DenseAV superó a otros modelos superiores en tareas como identificar objetos por sus nombres y sonidos, lo que demuestra su eficacia. “Los conjuntos de datos anteriores solo admitían evaluaciones aproximadas, por lo que creamos un conjunto de datos utilizando conjuntos de datos de segmentación semántica. Esto ayuda con anotaciones de píxeles perfectos para una evaluación precisa del rendimiento de nuestro modelo. Podemos activar el algoritmo con sonidos o imágenes específicas y obtener esas localizaciones detalladas”, afirma Hamilton.

Debido a la enorme cantidad de datos involucrados, el proyecto tardó aproximadamente un año en completarse. El equipo dice que la transición a una arquitectura de transformador grande presentó desafíos, ya que estos modelos pueden pasar por alto fácilmente detalles finos. Alentar al modelo a centrarse en estos detalles fue un obstáculo importante.

De cara al futuro, el equipo pretende crear sistemas que puedan aprender de cantidades masivas de datos de vídeo o audio únicamente. Esto es crucial para dominios nuevos donde hay muchos modos, pero no juntos. También pretenden ampliar esto utilizando redes troncales más grandes y posiblemente integrar conocimientos de modelos de lenguaje para mejorar el rendimiento.

“Reconocer y segmentar objetos visuales en imágenes, así como sonidos ambientales y palabras habladas en grabaciones de audio, son problemas difíciles en sí mismos. Históricamente, los investigadores han dependido de anotaciones costosas proporcionadas por humanos para entrenar modelos de aprendizaje automático para realizar estas tareas”, dice David Harwath, profesor asistente de ciencias de la computación en la Universidad de Texas en Austin, que no participó en el trabajo. “DenseAV logra avances significativos en el desarrollo de métodos que pueden aprender a resolver estas tareas simultáneamente simplemente observando el mundo a través de la vista y el sonido, basándose en la idea de que las cosas que vemos y con las que interactuamos a menudo emiten sonidos, y también usamos el lenguaje hablado para hablar. a cerca de ellos. Este modelo tampoco hace suposiciones sobre el idioma específico que se habla y, por lo tanto, en principio podría aprender de datos en cualquier idioma. Sería emocionante ver qué podría aprender DenseAV ampliándolo a miles o millones de horas de datos de video en una multitud de idiomas”.

Autores adicionales en un documento que describe el trabajo son Andrew Zisserman, profesor de ingeniería de visión por computadora en la Universidad de Oxford; John R. Hershey, investigador de percepción de IA de Google; y William T. Freeman, profesor de ingeniería eléctrica e informática del MIT e investigador principal de CSAIL. Su investigación fue apoyada, en parte, por la Fundación Nacional de Ciencias de EE. UU., una cátedra de investigación de la Royal Society y una subvención del programa EPSRC Visual AI. Este trabajo se presentará en la Conferencia de Reconocimiento de Patrones y Visión por Computadora IEEE/CVF este mes.