Presentamos un marco para crear agentes de IA que puedan comprender instrucciones humanas y realizar acciones en entornos abiertos.
El comportamiento humano es notablemente complejo. Incluso una simple solicitud como “Pon la pelota cerca de la caja.”todavía requiere una comprensión profunda de la intención y el lenguaje situados. El significado de una palabra como “cerca” puede ser difícil de precisar: colocar la pelota adentro La caja puede ser técnicamente la más cercana, pero es probable que el orador quiera colocar la pelota. junto a la caja. Para que una persona actúe correctamente según la solicitud, debe poder comprender y juzgar la situación y el contexto circundante.
La mayoría de los investigadores de inteligencia artificial (IA) creen ahora que escribir código informático que pueda capturar los matices de las interacciones situadas es imposible. Alternativamente, los investigadores modernos del aprendizaje automático (ML) se han centrado en aprender sobre este tipo de interacciones a partir de datos. Para explorar estos enfoques basados en el aprendizaje y construir rápidamente agentes que puedan entender las instrucciones humanas y realizar acciones de forma segura en condiciones abiertas, creamos un marco de investigación dentro de un entorno de videojuego.
Hoy estamos publicando un artículo y colección de vídeosque muestra nuestros primeros pasos en la creación de IA para videojuegos que puedan comprender conceptos humanos confusos y, por lo tanto, puedan comenzar a interactuar con las personas en sus propios términos.
Gran parte del progreso reciente en el entrenamiento de la IA de los videojuegos se basa en optimizar la puntuación de un juego. Potentes agentes de IA para Barco de estrellas y dota fueron entrenados utilizando ganancias/pérdidas claras calculadas por código de computadora. En lugar de optimizar la puntuación de un juego, pedimos a las personas que inventen tareas y juzguen su progreso por sí mismas.
Utilizando este enfoque, desarrollamos un paradigma de investigación que nos permite mejorar el comportamiento de los agentes a través de una interacción sólida y abierta con los humanos. Aunque aún está en sus inicios, este paradigma crea agentes que pueden escuchar, hablar, hacer preguntas, navegar, buscar y recuperar, manipular objetos y realizar muchas otras actividades en tiempo real.
Esta recopilación muestra comportamientos de agentes tras tareas planteadas por participantes humanos:
Aprendiendo en “la casa de juegos”
Nuestro marco comienza con personas que interactúan con otras personas en el mundo de los videojuegos. Utilizando el aprendizaje por imitación, imbuimos a los agentes de un conjunto amplio pero poco refinado de comportamientos. Este “comportamiento previo” es crucial para permitir interacciones que puedan ser juzgadas por los humanos. Sin esta fase inicial de imitación, los agentes son completamente aleatorios y prácticamente imposible interactuar con ellos. Un mayor juicio humano sobre el comportamiento del agente y la optimización de estos juicios mediante el aprendizaje por refuerzo (RL) produce mejores agentes, que luego pueden mejorarse nuevamente.
Primero, construimos un mundo de videojuego simple basado en el concepto de una “casa de juegos” para niños. Este entorno proporcionó un entorno seguro para que humanos y agentes interactuaran y facilitó la recopilación rápida de grandes volúmenes de estos datos de interacción. La casa presentaba una variedad de habitaciones, muebles y objetos configurados en nuevos arreglos para cada interacción. También creamos una interfaz para la interacción.
Tanto el humano como el agente tienen un avatar en el juego que les permite moverse y manipular el entorno. También pueden chatear entre ellos en tiempo real y colaborar en actividades, como transportar objetos y entregárselos, construir una torre de bloques o limpiar una habitación juntos. Los participantes humanos establecen los contextos para las interacciones navegando por el mundo, estableciendo objetivos y haciendo preguntas a los agentes. En total, el proyecto recopiló más de 25 años de interacciones en tiempo real entre agentes y cientos de participantes (humanos).
Observar los comportamientos que emergen.
Los agentes que entrenamos son capaces de realizar una amplia gama de tareas, algunas de las cuales no fueron previstas por los investigadores que las construyeron. Por ejemplo, descubrimos que estos agentes pueden construir filas de objetos usando dos colores alternos o recuperar un objeto de una casa que es similar a otro objeto que el usuario sostiene.
Estas sorpresas surgen porque el lenguaje permite un conjunto casi infinito de tareas y preguntas a través de la composición de significados simples. Además, como investigadores, no especificamos los detalles del comportamiento de los agentes. En cambio, a los cientos de humanos que participan en interacciones se les ocurrieron tareas y preguntas durante el curso de estas interacciones.
Construyendo el marco para crear estos agentes
Para crear nuestros agentes de IA, aplicamos tres pasos. Comenzamos entrenando agentes para que imitaran los elementos básicos de interacciones humanas simples en las que una persona le pide a otra que haga algo o responda una pregunta. Nos referimos a esta fase como la creación de un comportamiento previo que permite a los agentes tener interacciones significativas con un ser humano con alta frecuencia. Sin esta fase imitativa, los agentes simplemente se mueven al azar y dicen tonterías. Es casi imposible interactuar con ellos de manera razonable y darles retroalimentación es aún más difícil. Esta fase fue cubierta en dos de nuestros artículos anteriores, Imitando la inteligencia interactivay Creando agentes interactivos multimodales con imitación y aprendizaje autosupervisadoque exploró la construcción de agentes basados en la imitación.
Más allá del aprendizaje por imitación
Si bien el aprendizaje por imitación conduce a interacciones interesantes, trata cada momento de interacción como igualmente importante. Para aprender un comportamiento eficiente y dirigido a una meta, un agente necesita perseguir un objetivo y dominar movimientos y decisiones particulares en momentos clave. Por ejemplo, los agentes basados en la imitación no toman atajos de manera confiable ni realizan tareas con mayor destreza que un jugador humano promedio.
Aquí mostramos un agente basado en aprendizaje por imitación y un agente basado en RL siguiendo la misma instrucción humana:
Para dotar a nuestros agentes de un sentido de propósito, superando lo que es posible mediante la imitación, confiamos en RL, que utiliza prueba y error combinado con una medida de desempeño para una mejora iterativa. A medida que nuestros agentes intentaron diferentes acciones, aquellas que mejoraron el desempeño fueron reforzadas, mientras que aquellas que disminuyeron el desempeño fueron penalizadas.
En juegos como Atari, Dota, Go y StarCraft, la puntuación proporciona una medida del rendimiento que se debe mejorar. En lugar de utilizar una puntuación, pedimos a los humanos que evaluaran las situaciones y proporcionaran comentarios, lo que ayudó a nuestros agentes. aprender un modelo de recompensa.
Entrenando el modelo de recompensa y optimizando agentes
Para entrenar un modelo de recompensa, pedimos a los humanos que juzgaran si observaban eventos que indicaran un progreso notorio hacia la meta actual instruida o errores o errores notorios. Luego trazamos una correspondencia entre estos eventos positivos y negativos y las preferencias positivas y negativas. Dado que tienen lugar a lo largo del tiempo, los llamamos “intertemporales”. Entrenamos una red neuronal para predecir estas preferencias humanas y obtuvimos como resultado un modelo de recompensa (o utilidad/puntuación) que refleja la retroalimentación humana.
Una vez que entrenamos el modelo de recompensa utilizando las preferencias humanas, lo usamos para optimizar a los agentes. Colocamos a nuestros agentes en el simulador y les indicamos que respondieran preguntas y siguieran instrucciones. Mientras actuaban y hablaban en el entorno, nuestro modelo de recompensa entrenado calificó su comportamiento y utilizamos un algoritmo RL para optimizar el desempeño de los agentes.
Entonces, ¿de dónde vienen las instrucciones de las tareas y las preguntas? Exploramos dos enfoques para esto. Primero, reciclamos las tareas y preguntas planteadas en nuestro conjunto de datos humanos. En segundo lugar, capacitamos a agentes para imitar cómo los humanos establecen tareas y plantean preguntas, como se muestra en este video, donde dos agentes, uno entrenado para imitar a los humanos estableciendo tareas y planteando preguntas (azul) y otro capacitado para seguir instrucciones y responder preguntas (amarillo) , Interactuar el uno con el otro:
Evaluando e iterando para seguir mejorando los agentes
Utilizamos una variedad de mecanismos independientes para evaluar a nuestros agentes, desde pruebas escritas a mano hasta un nuevo mecanismo para la puntuación humana fuera de línea de tareas abiertas creadas por personas, desarrollado en nuestro trabajo anterior. Evaluación de agentes interactivos multimodales. Es importante destacar que pedimos a las personas que interactuaran con nuestros agentes en tiempo real y juzgaran su desempeño. Nuestros agentes entrenados por RL se desempeñaron mucho mejor que aquellos entrenados únicamente mediante aprendizaje por imitación.
Finalmente, experimentos recientes muestran que podemos iterar el proceso de RL para mejorar repetidamente el comportamiento de los agentes. Una vez que un agente se entrena a través de RL, le pedimos a las personas que interactúen con este nuevo agente, anoten su comportamiento, actualicen nuestro modelo de recompensa y luego realicen otra iteración de RL. El resultado de este enfoque fueron agentes cada vez más competentes. Para algunos tipos de instrucciones complejas, incluso podríamos crear agentes que superaran en promedio a los jugadores humanos.
El futuro del entrenamiento de IA para preferencias humanas situadas
La idea de entrenar IA utilizando las preferencias humanas como recompensa existe desde hace mucho tiempo. En Aprendizaje por refuerzo profundo a partir de las preferencias humanas., los investigadores fueron pioneros en enfoques recientes para alinear agentes basados en redes neuronales con las preferencias humanas. Un trabajo reciente para desarrollar agentes de diálogo por turnos exploró ideas similares para Asistentes de capacitación con RL a partir de retroalimentación humana.. Nuestra investigación ha adaptado y ampliado estas ideas para construir IA flexibles que puedan dominar una amplia gama de interacciones multimodales, encarnadas y en tiempo real con personas.
Esperamos que nuestro marco algún día conduzca a la creación de IA para juegos que sean capaces de responder a nuestros significados expresados de forma natural, en lugar de depender de planes de comportamiento escritos a mano. Nuestro marco también podría ser útil para crear asistentes digitales y robóticos con los que las personas interactúen todos los días. Esperamos explorar la posibilidad de aplicar elementos de este marco para crear una IA segura que sea realmente útil.
¿Estás emocionado de saber más? Verificar nuestro último artículo. Comentarios y opiniones son bienvenidos.