Evaluación de agentes interactivos multimodales

Para capacitar a los agentes para que interactúen bien con los humanos, debemos poder medir el progreso. Pero la interacción humana es compleja y medir el progreso es difícil. En este trabajo desarrollamos un método, llamado Standardized Test Suite (STS), para evaluar agentes en interacciones multimodales temporalmente extendidas. Examinamos interacciones que consisten en participantes humanos que piden a los agentes que realicen tareas y respondan preguntas en un entorno simulado en 3D.

La metodología STS coloca a los agentes en un conjunto de escenarios de comportamiento extraídos de datos de interacción humana real. Los agentes ven el contexto de un escenario repetido, reciben una instrucción y luego se les da el control para completar la interacción fuera de línea. Estas continuaciones de agentes se registran y luego se envían a evaluadores humanos para que las anoten como éxito o fracaso. Luego, los agentes se clasifican según la proporción de escenarios en los que tuvieron éxito.

Figura 1: Ejemplo de un escenario original tomado de dos humanos que interactúan junto con continuaciones de agentes exitosas y fallidas.

Muchos de los comportamientos que son una segunda naturaleza para los humanos en nuestras interacciones cotidianas son difíciles de expresar con palabras e imposibles de formalizar. Por lo tanto, el mecanismo utilizado para resolver juegos (como Atari, Go, DotA y Starcraft) con aprendizaje por refuerzo no funcionará cuando intentamos enseñar a los agentes a tener interacciones fluidas y exitosas con los humanos. Por ejemplo, piensa en la diferencia entre estas dos preguntas: “¿Quién ganó este juego de Go?” versus “¿Qué estás mirando?” En el primer caso, podemos escribir un código informático que cuente las piedras en el tablero al final del juego y determine con certeza el ganador. En el segundo caso, no tenemos idea de cómo codificar esto: la respuesta puede depender de los hablantes, el tamaño y las formas de los objetos involucrados, si el hablante está bromeando y otros aspectos del contexto en el que se da el enunciado. Los seres humanos comprenden intuitivamente la infinidad de factores relevantes que intervienen en la respuesta a esta pregunta aparentemente mundana.

La evaluación interactiva por parte de participantes humanos puede servir como piedra de toque para comprender el desempeño de los agentes, pero esto es ruidoso y costoso. Es difícil controlar las instrucciones exactas que los humanos dan a los agentes cuando interactúan con ellos para su evaluación. Este tipo de evaluación también se realiza en tiempo real, por lo que es demasiado lento para lograr un progreso rápido. Trabajos anteriores se han basado en sustitutos de la evaluación interactiva. Los proxy, como las pérdidas y las tareas de sondeo programadas (por ejemplo, “levantar la x”, donde x se selecciona aleatoriamente del entorno y la función de éxito está minuciosamente elaborada a mano), son útiles para obtener información sobre los agentes rápidamente, pero en realidad no se correlacionan. así de bien con la evaluación interactiva. Nuestro nuevo método tiene ventajas, principalmente brindando control y velocidad a una métrica que se alinea estrechamente con nuestro objetivo final: crear agentes que interactúen bien con los humanos.

Figura 2: Evaluación STS en comparación con otras métricas de evaluación utilizadas para evaluar agentes interactivos. El STS se correlaciona mejor con la evaluación interactiva en comparación con los proxy utilizados anteriormente.

El desarrollo de MNIST, ImageNet y otros conjuntos de datos anotados por humanos ha sido esencial para el progreso del aprendizaje automático. Estos conjuntos de datos han permitido a los investigadores entrenar y evaluar modelos de clasificación por un costo único de insumos humanos. La metodología STS pretende hacer lo mismo con la investigación de la interacción humano-agente. Este método de evaluación todavía requiere que los humanos anoten las continuaciones de los agentes; sin embargo, los primeros experimentos sugieren que la automatización de estas anotaciones puede ser posible, lo que permitiría una evaluación automatizada rápida y eficaz de los agentes interactivos. Mientras tanto, esperamos que otros investigadores puedan utilizar la metodología y el diseño del sistema para acelerar su propia investigación en esta área.