Una forma más rápida de enseñar a un robot |  Noticias del MIT

Imagínese comprar un robot para realizar tareas domésticas. Este robot fue construido y entrenado en una fábrica para realizar un determinado conjunto de tareas y nunca ha visto los elementos de su casa. Cuando le pides que recoja una taza de la mesa de tu cocina, es posible que no la reconozca (tal vez porque esta taza está pintada con una imagen inusual, digamos, de la mascota del MIT, Tim el Castor). Entonces el robot falla.

“En este momento, por la forma en que entrenamos a estos robots, cuando fallan, no sabemos realmente por qué. Entonces simplemente levantarías las manos y dirías: ‘Está bien, supongo que tenemos que empezar de nuevo’. Un componente crítico que falta en este sistema es permitir que el robot demuestre por qué está fallando para que el usuario pueda darle su opinión”, afirma Andi Peng, estudiante de postgrado en ingeniería eléctrica e informática (EECS) del MIT.

Peng y sus colaboradores del MIT, la Universidad de Nueva York y la Universidad de California en Berkeley crearon un estructura que permite a los humanos enseñar rápidamente a un robot lo que quieren que haga, con un mínimo de esfuerzo.

Cuando un robot falla, el sistema utiliza un algoritmo para generar explicaciones contrafactuales que describen lo que se necesita cambiar para que el robot tenga éxito. Por ejemplo, tal vez el robot habría podido levantar la taza si ésta fuera de un determinado color. Muestra estos contrafácticos al ser humano y solicita comentarios sobre por qué falló el robot. Luego, el sistema utiliza esta retroalimentación y las explicaciones contrafácticas para generar nuevos datos que utiliza para ajustar el robot.

El ajuste fino implica modificar un modelo de aprendizaje automático que ya ha sido entrenado para realizar una tarea, de modo que pueda realizar una segunda tarea similar.

Los investigadores probaron esta técnica en simulaciones y descubrieron que podía enseñar a un robot de manera más eficiente que otros métodos. Los robots entrenados con este marco funcionaron mejor, mientras que el proceso de capacitación consumió menos tiempo de un humano.

Este marco podría ayudar a los robots a aprender más rápido en nuevos entornos sin necesidad de que el usuario tenga conocimientos técnicos. A largo plazo, esto podría ser un paso para permitir que los robots de uso general realicen de manera eficiente tareas diarias para personas mayores o personas con discapacidades en una variedad de entornos.

A Peng, el autor principal, se unen los coautores Aviv Netanyahu, un estudiante de posgrado de EECS; Mark Ho, profesor asistente del Instituto de Tecnología Stevens; Tianmin Shu, postdoctorado del MIT; Andreea Bobu, estudiante de posgrado de UC Berkeley; y los autores principales Julie Shah, profesora de aeronáutica y astronáutica del MIT y directora del Grupo de Robótica Interactiva en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), y Pulkit Agrawal, profesor de EECS y afiliado de CSAIL. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.

En el trabajo de formación

Los robots a menudo fallan debido al cambio de distribución: al robot se le presentan objetos y espacios que no vio durante el entrenamiento y no entiende qué hacer en este nuevo entorno.

Una forma de volver a entrenar a un robot para una tarea específica es el aprendizaje por imitación. El usuario podría demostrar la tarea correcta para enseñarle al robot qué hacer. Si un usuario intenta enseñarle a un robot a tomar una taza, pero lo demuestra con una taza blanca, el robot podría aprender que todas las tazas son blancas. Es posible que entonces no pueda recoger una taza roja, azul o marrón “Tim-the-Beaver”.

Entrenar a un robot para que reconozca que una taza es una taza, independientemente de su color, podría requerir miles de demostraciones.

“No quiero tener que manifestarme con 30.000 tazas. Quiero demostrarlo con solo una taza. Pero luego tengo que enseñarle al robot para que reconozca que puede coger una taza de cualquier color”, afirma Peng.

Para lograrlo, el sistema de los investigadores determina qué objeto específico le interesa al usuario (una taza) y qué elementos no son importantes para la tarea (quizás el color de la taza no importe). Utiliza esta información para generar datos nuevos y sintéticos cambiando estos conceptos visuales “sin importancia”. Este proceso se conoce como aumento de datos.

El marco tiene tres pasos. Primero, muestra la tarea que provocó que el robot fallara. Luego recopila una demostración del usuario de las acciones deseadas y genera contrafactuales buscando en todas las características en el espacio que muestran lo que se necesita cambiar para que el robot tenga éxito.

El sistema muestra estos contrafactuales al usuario y solicita comentarios para determinar qué conceptos visuales no impactan la acción deseada. Luego utiliza esta retroalimentación humana para generar muchas demostraciones aumentadas nuevas.

De esta manera, el usuario podría demostrar cómo coger una taza, pero el sistema produciría demostraciones mostrando la acción deseada con miles de tazas diferentes alterando el color. Utiliza estos datos para ajustar el robot.

Crear explicaciones contrafactuales y solicitar comentarios del usuario son fundamentales para que la técnica tenga éxito, dice Peng.

Del razonamiento humano al razonamiento robótico

Debido a que su trabajo busca poner al ser humano en el circuito de entrenamiento, los investigadores probaron su técnica con usuarios humanos. Primero realizaron un estudio en el que preguntaron a las personas si las explicaciones contrafácticas les ayudaban a identificar elementos que podrían cambiarse sin afectar la tarea.

“Fue muy claro desde el principio. Los humanos son muy buenos en este tipo de razonamiento contrafáctico. Y este paso contrafactual es lo que permite que el razonamiento humano se traduzca en razonamiento robótico de una manera que tenga sentido”, afirma.

Luego aplicaron su marco a tres simulaciones en las que los robots tenían tareas: navegar hasta un objeto objetivo, tomar una llave y abrir una puerta, y tomar un objeto deseado y luego colocarlo sobre una mesa. En cada caso, su método permitió que el robot aprendiera más rápido que con otras técnicas, y requirió menos demostraciones por parte de los usuarios.

En el futuro, los investigadores esperan probar este marco en robots reales. También quieren centrarse en reducir el tiempo que le toma al sistema crear nuevos datos utilizando modelos generativos de aprendizaje automático.

“Queremos que los robots hagan lo que hacen los humanos y queremos que lo hagan de una manera semánticamente significativa. Los humanos tienden a operar en este espacio abstracto, donde no piensan en cada propiedad de una imagen. Al fin y al cabo, se trata realmente de permitir que un robot aprenda una buena representación similar a la humana a un nivel abstracto”, afirma Peng.

Esta investigación cuenta con el apoyo, en parte, de una beca de investigación para graduados de la Fundación Nacional de Ciencias, Open Philanthropy, una beca de IA/ML de Apple, Hyundai Motor Corporation, el laboratorio de IA Watson del MIT-IBM y el Instituto de Inteligencia Artificial y Fundamentales de la Fundación Nacional de Ciencias. Interacciones.