Screenshot 2024 05 22 At 9.34.07 Pm.png

Aprender en simulación y aplicar la política aprendida al mundo real es un enfoque potencial para habilitar robots generalistas y resolver tareas complejas de toma de decisiones. Sin embargo, el desafío de este enfoque es abordar las brechas entre la simulación y la realidad (sim-to-real). Además, se necesita una gran cantidad de datos mientras se aprende a resolver estas tareas, y la carga de recopilar datos en tiempo real con robots físicos aumenta debido a que se brinda supervisión de entrenamiento ilimitada mediante simulación de última generación. Por lo tanto, resulta importante transferir e implementar sin problemas políticas de control de robots en hardware del mundo real mediante el aprendizaje por refuerzo (RL).

Aprendizaje robótico mediante transferencia Sim-to-Real Las simulaciones basadas en la física se utilizan como fuerza impulsora para desarrollar habilidades robóticas en manipulaciones como las de mesa y móviles, aunque las brechas no se hayan superado por completo. Un enfoque actual, las brechas de simulación a real, incluye la identificación de sistemas, la aleatorización de dominios, la adaptación al mundo real y el aumento del simulador. Una transferencia exitosa de simulación a real contiene locomoción, manipulación no prensil, etc., y ayuda en esta variación del rendimiento. Otro método, el aprendizaje robótico Human-in-The-Loop, es un marco común que introduce conocimiento humano en sistemas autónomos. En este método se utilizan varias retroalimentación humana para resolver tareas secuenciales de toma de decisiones.

Investigadores de la Universidad de Stanford propusieron TRANSIC, un método basado en datos para permitir una transferencia exitosa de políticas de simulación a real utilizando un marco humano en el circuito. Permite a los humanos mejorar las políticas de simulación para abordar múltiples brechas de simulación a real no modeladas con la ayuda de intervención y corrección en línea. Las correcciones humanas ayudan a aprender políticas residuales y se integran con políticas de simulación para la autoejecución. Además, la transferencia de simulación a real en tareas de manipulación difíciles se logra con éxito utilizando TRANSIC, y este método muestra buenas propiedades como escalar con esfuerzo humano.

Para cerrar cada brecha entre simulación y real utilizando la capacidad de TRANSIC, se crean 5 pares diferentes de simulación-realidad, y para cada par se crean intencionalmente grandes brechas entre la simulación y el mundo real. TRANSIC logra una tasa de éxito promedio del 77 % para los 5 pares con brechas de simulación a real y supera al mejor método de referencia, IWR, que puede lograr una tasa de éxito promedio de solo el 18 %. Algunas de las capacidades de TRANSIC incluyen aprender habilidades reutilizables para la generalización de objetos a nivel de categoría, operar en un entorno completamente autónomo una vez que se ha aprendido el mecanismo de activación, abordar observaciones parciales de nubes de puntos y datos de corrección, y aprender características visuales constantes entre la simulación y la simulación. realidad.

Los investigadores demostraron que TRANSIC supera a la mejor base, IWR, en escalabilidad de datos humanos. Cuando el tamaño de los datos de corrección aumenta del 25% al ​​75%, el método propuesto logra una mejora relativa del 42% en la tasa de éxito promedio, superando al IWR, que logra solo una mejora relativa del 23%. Además, el rendimiento de IWR se vuelve constante en una etapa temprana y comienza a disminuir cuando hay más datos humanos disponibles. IWR no logra modelar los modos de comportamiento de los humanos y los robots entrenados, pero TRANSIC supera estos desafíos aprendiendo políticas residuales cerradas a partir de la corrección humana.

En conclusión, investigadores de la Universidad de Stanford presentaron TRANSIC, un método humano para manejar la transferencia de políticas de simulación a real para tareas de manipulación. Para lograr el éxito, una buena política base aprendida de la simulación se integra con datos limitados del mundo real. El método propuesto resuelve el problema del uso eficiente de datos de corrección humana para abordar la brecha entre simulación y real. Sin embargo, algunas de las limitaciones de este método son: (a) Las tareas actuales están vinculadas únicamente al escenario de mesa con una pinza suave de mandíbulas paralelas. (b) Se necesita un operador humano durante la fase de recopilación de datos de corrección. (c) Es un desafío aprender por sí solo, por lo que TRANSIC necesita políticas de simulación con desempeños razonables.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.