Nuestros últimos avances en destreza robótica

El método ALOHA Unleashed se basa en nuestra plataforma ALOHA 2, que se basó en el ALOHA original (un sistema de hardware de código abierto de bajo costo para teleoperación bimanual) de la Universidad de Stanford.

ALOHA 2 es significativamente más hábil que los sistemas anteriores porque tiene dos manos que pueden teleoperarse fácilmente con fines de capacitación y recopilación de datos, y permite que los robots aprendan a realizar nuevas tareas con menos demostraciones.

También hemos mejorado la ergonomía del hardware robótico y mejorado el proceso de aprendizaje en nuestro último sistema. Primero, recopilamos datos de demostración operando remotamente el comportamiento del robot, realizando tareas difíciles como atar cordones de zapatos y colgar camisetas. A continuación, aplicamos un método de difusión, prediciendo las acciones del robot a partir de ruido aleatorio, similar a cómo nuestro modelo Imagen genera imágenes. Esto ayuda al robot a aprender de los datos para que pueda realizar las mismas tareas por sí solo.

Aprender comportamientos robóticos a partir de algunas demostraciones simuladas.

Controlar una diestra mano robótica es una tarea compleja, que se vuelve aún más compleja con cada dedo, articulación y sensor adicionales. En otro artículo nuevo, presentamos DemoStart, que utiliza un algoritmo de aprendizaje por refuerzo para ayudar a los robots a adquirir comportamientos diestros en la simulación. Estos comportamientos aprendidos son especialmente útiles para encarnaciones complejas, como manos con varios dedos.

DemoStart primero aprende de estados fáciles y, con el tiempo, comienza a aprender de estados más difíciles hasta que domina una tarea lo mejor que puede. Se requieren 100 veces menos demostraciones simuladas para aprender a resolver una tarea en simulación que lo que normalmente se necesita cuando se aprende de ejemplos del mundo real para el mismo propósito.

El robot logró una tasa de éxito de más del 98% en una serie de tareas diferentes en simulación, incluida la reorientación de cubos que muestran un color determinado, apretar una tuerca y un perno y ordenar herramientas. En la configuración del mundo real, logró una tasa de éxito del 97 % en la reorientación y elevación del cubo, y del 64 % en una tarea de inserción de enchufes que requería coordinación y precisión de los dedos.