Mit Langnav 01.jpg

Algún día, es posible que desee que su robot doméstico lleve una carga de ropa sucia al piso de abajo y la deposite en la lavadora en el extremo izquierdo del sótano. El robot deberá combinar sus instrucciones con sus observaciones visuales para determinar los pasos que debe seguir para completar esta tarea.

Para un agente de IA, esto es más fácil decirlo que hacerlo. Los enfoques actuales a menudo utilizan múltiples modelos de aprendizaje automático hechos a mano para abordar diferentes partes de la tarea, cuya construcción requiere una gran cantidad de esfuerzo humano y experiencia. Estos métodos, que utilizan representaciones visuales para tomar decisiones de navegación directamente, exigen cantidades masivas de datos visuales para el entrenamiento, que a menudo son difíciles de conseguir.

Para superar estos desafíos, investigadores del MIT y del MIT-IBM Watson AI Lab idearon un método de navegación que convierte representaciones visuales en fragmentos de lenguaje, que luego se introducen en un gran modelo de lenguaje que logra todas las partes de la tarea de navegación de varios pasos.

En lugar de codificar características visuales a partir de imágenes del entorno de un robot como representaciones visuales, lo cual requiere un uso computacional intensivo, su método crea leyendas de texto que describen el punto de vista del robot. Un modelo de lenguaje grande utiliza los subtítulos para predecir las acciones que debe realizar un robot para cumplir las instrucciones basadas en el lenguaje de un usuario.

Debido a que su método utiliza representaciones puramente basadas en el lenguaje, pueden usar un modelo de lenguaje grande para generar de manera eficiente una gran cantidad de datos de entrenamiento sintéticos.

Si bien este enfoque no supera a las técnicas que utilizan características visuales, funciona bien en situaciones que carecen de suficientes datos visuales para el entrenamiento. Los investigadores descubrieron que combinar sus entradas basadas en el lenguaje con señales visuales conduce a un mejor rendimiento de navegación.

“Al utilizar únicamente el lenguaje como representación perceptiva, nuestro enfoque es más sencillo. Dado que todas las entradas pueden codificarse como lenguaje, podemos generar una trayectoria comprensible para los humanos”, dice Bowen Pan, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y autor principal de un artículo. documento sobre este enfoque.

Los coautores de Pan incluyen a su asesora, Aude Oliva, directora de participación estratégica de la industria en el MIT Schwarzman College of Computing, directora del MIT Watson AI Lab del MIT-IBM y científica investigadora senior en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). ); Philip Isola, profesor asociado de EECS y miembro de CSAIL; el autor principal Yoon Kim, profesor asistente de EECS y miembro de CSAIL; y otros en el MIT-IBM Watson AI Lab y Dartmouth College. La investigación será presentada en la Conferencia del Capítulo Norteamericano de la Asociación de Lingüística Computacional.

Resolver un problema de visión con el lenguaje

Dado que los modelos de lenguaje grandes son los modelos de aprendizaje automático más poderosos disponibles, los investigadores buscaron incorporarlos en la compleja tarea conocida como navegación de visión y lenguaje, dice Pan.

Pero estos modelos reciben entradas basadas en texto y no pueden procesar datos visuales de la cámara de un robot. Entonces, el equipo necesitaba encontrar una manera de utilizar el lenguaje.

Su técnica utiliza un modelo de subtítulos simple para obtener descripciones textuales de las observaciones visuales de un robot. Estos subtítulos se combinan con instrucciones basadas en el lenguaje y se introducen en un modelo de lenguaje de gran tamaño, que decide qué paso de navegación debe tomar el robot a continuación.

El modelo de lenguaje grande genera un título de la escena que el robot debería ver después de completar ese paso. Esto se utiliza para actualizar el historial de trayectoria para que el robot pueda realizar un seguimiento de dónde ha estado.

El modelo repite estos procesos para generar una trayectoria que guía al robot hacia su objetivo, paso a paso.

Para agilizar el proceso, los investigadores diseñaron plantillas para que la información de observación se presente al modelo en una forma estándar, como una serie de elecciones que el robot puede tomar en función de su entorno.

Por ejemplo, una leyenda podría decir «a tu izquierda, en un ángulo de 30 grados, hay una puerta con una maceta al lado, a tu espalda hay una pequeña oficina con un escritorio y una computadora», etc. El modelo elige si el robot debe moverse hacia la puerta o la oficina.

«Uno de los mayores desafíos fue descubrir cómo codificar este tipo de información en un lenguaje de manera adecuada para que el agente entienda cuál es la tarea y cómo debe responder», dice Pan.

Ventajas del idioma

Cuando probaron este enfoque, si bien no podía superar a las técnicas basadas en la visión, descubrieron que ofrecía varias ventajas.

En primer lugar, debido a que el texto requiere menos recursos computacionales para sintetizarse que los datos de imágenes complejos, su método se puede utilizar para generar rápidamente datos de entrenamiento sintéticos. En una prueba, generaron 10.000 trayectorias sintéticas basadas en 10 trayectorias visuales del mundo real.

La técnica también puede cerrar la brecha que puede impedir que un agente entrenado en un entorno simulado se desempeñe bien en el mundo real. Esta brecha a menudo ocurre porque las imágenes generadas por computadora pueden parecer bastante diferentes de las escenas del mundo real debido a elementos como la iluminación o el color. Pero el lenguaje que describe una imagen sintética versus una real sería mucho más difícil de distinguir, dice Pan.

Además, las representaciones que utiliza su modelo son más fáciles de entender para un humano porque están escritas en lenguaje natural.

“Si el agente no logra alcanzar su objetivo, podremos determinar más fácilmente dónde falló y por qué falló. Quizás la información histórica no sea lo suficientemente clara o la observación ignore algunos detalles importantes”, dice Pan.

Además, su método podría aplicarse más fácilmente a diversas tareas y entornos porque utiliza solo un tipo de entrada. Siempre que los datos puedan codificarse como lenguaje, pueden utilizar el mismo modelo sin realizar ninguna modificación.

Pero una desventaja es que su método pierde naturalmente parte de la información que sería capturada por modelos basados ​​en la visión, como la información de profundidad.

Sin embargo, los investigadores se sorprendieron al ver que la combinación de representaciones basadas en el lenguaje con métodos basados ​​en la visión mejora la capacidad de navegación de un agente.

«Tal vez esto signifique que el lenguaje puede capturar información de nivel superior que no se puede capturar con funciones de visión pura», dice.

Ésta es un área que los investigadores quieren seguir explorando. También quieren desarrollar un subtítulo orientado a la navegación que podría mejorar el rendimiento del método. Además, quieren probar la capacidad de grandes modelos lingüísticos para exhibir conciencia espacial y ver cómo esto podría ayudar a la navegación basada en el lenguaje.

Esta investigación está financiada, en parte, por el MIT-IBM Watson AI Lab.