Enseñar a los robots habilidades de manipulación complicadas mediante la observación de demostraciones humanas ha mostrado resultados prometedores. Ofrecer demostraciones exhaustivas de manipulación requiere mucho tiempo y mano de obra, lo que dificulta la ampliación de este paradigma a operaciones a largo plazo en el mundo real. Sin embargo, no todas las facetas de una tarea son iguales.
Un nuevo estudio realizado por NVIDIA y el Instituto de Tecnología de Georgia explora enfoques para mejorar los sistemas de planificación de tareas y movimientos (TAMP), que han demostrado ser particularmente efectivos para resolver problemas con una amplia gama de posibles resultados futuros. Al explorar todas las posibles permutaciones de un conjunto limitado de habilidades primitivas, los enfoques TAMP pueden planificar el comportamiento para diversas tareas de manipulación de varios pasos. Cada habilidad se diseña tradicionalmente a mano, pero cerrar una tapa con resorte o insertar una varilla en un agujero son dos ejemplos de tareas que son extremadamente difíciles de modelar de manera eficiente. En cambio, el equipo aprovecha la teleoperación humana con aprendizaje de circuito cerrado para incorporar solo las habilidades necesarias y dejar el resto a la automatización. Estas capacidades dependen de la teleoperación humana durante la recopilación de datos y de una política aprendida de los datos recopilados durante la implementación. Existen importantes obstáculos tecnológicos asociados con la integración de los sistemas TAMP con la teleoperación humana, y se debe prestar especial atención para garantizar una transferencia fluida entre ellos.
Para superar estos obstáculos, proporcionan Human-in-the-Loop Task and Motion Planning (HITL-TAMP), un sistema que integra TAMP y teleoperación de forma complementaria. El mecanismo de control controlado por TAMP utilizado por el dispositivo permite la recopilación de demostración cambiando entre un sistema TAMP y un teleoperador humano. Es importante destacar que el sistema TAMP solicita a los operadores humanos que participen solo en puntos específicos de un plan de trabajo para que puedan gestionar una flota de robots participando de forma asincrónica en una sesión de demostración a la vez. La técnica mejora drásticamente el rendimiento de la recopilación de datos. Reduce el esfuerzo requerido para recopilar enormes conjuntos de datos sobre trabajos de largo plazo y con muchos contactos al solicitar demostraciones humanas solo cuando son necesarias. Para entrenar una estrategia controlada por TAMP utilizando datos humanos, integran su sistema de recopilación de datos con un marco de aprendizaje de imitación. En términos de los datos necesarios para enseñar una tarea al robot, el tiempo necesario para enseñar la tarea y la tasa de éxito de las políticas enseñadas, muestran que esto conduce a un mayor rendimiento que reunir demostraciones humanas de la tarea completa.
Los investigadores probaron HITL-TAMP frente a un sistema de teleoperación estándar con 15 participantes. Con su método, los usuarios podrían adquirir más del triple de demostraciones simultáneamente. Se podrían utilizar solo 10 minutos de datos de teleoperación no expertos para capacitar a los agentes con más del 75 % de éxito. HITL-TAMP genera con frecuencia agentes casi perfectos al recopilar 2,1 mil demostraciones que abarcan 12 tareas ricas en contactos y de largo horizonte, como la preparación de café en el mundo real.
En comparación con la recopilación de demostraciones humanas sobre el trabajo completo, la eficiencia de la recopilación de datos y el aprendizaje de políticas en HITL-TAMP mejora enormemente mediante la combinación de TAMP y teleoperación.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
también estamos en Telegrama y WhatsApp.
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.