Creando agentes interactivos con aprendizaje por imitación

Investigación

Publicado
Autores

Josh Abramson, Arun Ahuja, Arthur Brussee, Federico Carnevale, Mary Cassin, Felix Fischer, Petko Georgiev, Alex Goldin, Tim Harley, Felix Hill, Peter C Humphreys, Alden Hung, Jessica Landon, Timothy Lillicrap, Hamza Merzic, Alistair Muldal, Adam Santoro, Guy Scully, Tamara von Glehn, Gregory Wayne, Nathaniel Wong, Chen Yan, Rui Zhu, Mary Cassin, Hamza Merzic

Los humanos somos una especie interactiva. Interactuamos con el mundo físico y entre nosotros. Para que la inteligencia artificial (IA) sea útil en general, debe poder interactuar de manera competente con los humanos y su entorno. En este trabajo presentamos el Agente Interactivo Multimodal (MIA), que combina percepción visual, comprensión y producción del lenguaje, navegación y manipulación para participar en interacciones físicas y lingüísticas extendidas y a menudo sorprendentes con los humanos.

Nos basamos en el enfoque introducido por Abramson et al. (2020), que utiliza principalmente el aprendizaje por imitación para formar agentes. Después del entrenamiento, MIA muestra un comportamiento inteligente rudimentario que esperamos perfeccionar más adelante utilizando la retroalimentación humana. Este trabajo se centra en la creación de este comportamiento previo inteligente y dejamos más aprendizaje basado en retroalimentación para trabajos futuros.

Creamos el entorno Playhouse, un entorno virtual 3D compuesto por un conjunto aleatorio de habitaciones y una gran cantidad de objetos domésticos interactuables, para proporcionar un espacio y un entorno para que humanos y agentes interactúen juntos. Los humanos y los agentes pueden interactuar en Playhouse controlando robots virtuales que se mueven, manipulan objetos y se comunican a través de texto. Este entorno virtual permite una amplia gama de diálogos situados, que van desde instrucciones simples (por ejemplo, “Por favor, toma el libro del suelo y colócalo en la estantería azul”) hasta juegos creativos (por ejemplo, “Trae comida a la mesa para que podemos comer”).

Recopilamos ejemplos humanos de interacciones en Playhouse utilizando juegos de lenguaje, una colección de señales que incitan a los humanos a improvisar ciertos comportamientos. En un juego de lenguaje, un jugador (el planteador) recibe un mensaje escrito previamente que indica un tipo de tarea para proponer al otro jugador (el solucionador). Por ejemplo, el colocador podría recibir el mensaje “Pregúntale al otro jugador una pregunta sobre la existencia de un objeto”, y después de un poco de exploración, el colocador podría preguntar: “Por favor, dime si hay un pato azul en una habitación que no existe”. Tampoco tengo muebles”. Para garantizar suficiente diversidad de comportamiento, también incluimos indicaciones de forma libre, que otorgaban a los organizadores libertad de elección para improvisar interacciones (por ejemplo, “Ahora toma cualquier objeto que te guste y golpea la pelota de tenis del taburete para que rueda cerca del reloj, o en algún lugar cerca de él.”). En total, recopilamos 2,94 años de interacciones humanas en tiempo real en Playhouse.

Ejemplo de dos humanos interactuando en Playhouse.

Nuestra estrategia de formación es una combinación de predicción supervisada de acciones humanas (clonación conductual) y aprendizaje autosupervisado. Al predecir las acciones humanas, descubrimos que el uso de una estrategia de control jerárquico mejoraba significativamente el desempeño de los agentes. En este entorno, el agente recibe nuevas observaciones aproximadamente 4 veces por segundo. Para cada observación, produce una secuencia de acciones de movimiento de bucle abierto y, opcionalmente, emite una secuencia de acciones de lenguaje. Además de la clonación conductual, utilizamos una forma de aprendizaje autosupervisado, que asigna a los agentes la tarea de clasificar si ciertas entradas de visión y lenguaje pertenecen al mismo episodio o a episodios diferentes.

Para evaluar el desempeño de los agentes, pedimos a los participantes humanos que interactuaran con los agentes y proporcionaran retroalimentación binaria que indicara si el agente llevó a cabo con éxito una instrucción. MIA logra una tasa de éxito de más del 70 % en interacciones en línea calificadas por humanos, lo que representa el 75 % de la tasa de éxito que los propios humanos logran cuando juegan como solucionadores. Para comprender mejor el papel de varios componentes en MIA, realizamos una serie de ablaciones, eliminando, por ejemplo, entradas visuales o lingüísticas, la pérdida autosupervisada o el control jerárquico.

La investigación contemporánea sobre el aprendizaje automático ha descubierto notables regularidades de rendimiento con respecto a diferentes parámetros de escala; en particular, el rendimiento del modelo se escala como una ley de potencia con el tamaño del conjunto de datos, el tamaño del modelo y la computación. Estos efectos se han notado más claramente en el dominio del lenguaje, que se caracteriza por conjuntos de datos de gran tamaño y arquitecturas y protocolos de entrenamiento altamente evolucionados. En este trabajo, sin embargo, nos encontramos en un régimen decididamente diferente: con conjuntos de datos comparativamente pequeños y funciones objetivo multimodales y multitarea que entrenan arquitecturas heterogéneas. Sin embargo, demostramos efectos claros del escalamiento: a medida que aumentamos el tamaño del conjunto de datos y del modelo, el rendimiento aumenta apreciablemente.

Rendimiento de tareas de sondeo con script y evaluación humana para escalado de datos y modelos. En ambos casos, mejoras de rendimiento al aumentar tanto el tamaño del conjunto de datos como el tamaño del modelo.

En un caso ideal, la capacitación se vuelve más eficiente si se cuenta con un conjunto de datos razonablemente grande, ya que el conocimiento se transfiere entre experiencias. Para investigar cuán ideales son nuestras circunstancias, examinamos cuántos datos se necesitan para aprender a interactuar con un objeto nuevo, nunca antes visto, y para aprender a seguir una orden/verbo nuevo, nunca antes escuchado. Dividimos nuestros datos en datos de fondo y datos que involucran una instrucción de lenguaje que se refiere al objeto o al verbo. Cuando reintrodujimos los datos referentes al nuevo objeto, descubrimos que menos de 12 horas de interacción humana eran suficientes para adquirir el rendimiento del techo. De manera análoga, cuando introdujimos el nuevo comando o verbo ‘limpiar’ (es decir, quitar todos los objetos de una superficie), descubrimos que sólo 1 hora de demostraciones humanas era suficiente para alcanzar el máximo rendimiento en tareas que involucraban esta palabra.

Al aprender un nuevo comando u objeto, el desempeño del agente mejora rápidamente con solo unas horas de experiencia de demostración.

MIA exhibe un comportamiento sorprendentemente rico, que incluye una diversidad de comportamientos que no fueron preconcebidos por los investigadores, como ordenar una habitación, encontrar múltiples objetos específicos y hacer preguntas aclaratorias cuando una instrucción es ambigua. Estas interacciones nos inspiran continuamente. Sin embargo, el carácter abierto del comportamiento del MIA presenta inmensos desafíos para la evaluación cuantitativa. El desarrollo de metodologías integrales para capturar y analizar el comportamiento abierto en las interacciones entre humanos y agentes será un enfoque importante en nuestro trabajo futuro.

Para una descripción más detallada de nuestro trabajo, consulte nuestro papel.