Apilando nuestro camino hacia robots más generales

Investigación

Publicado
Autores

El equipo de robótica

Presentamos RGB-Stacking como un nuevo punto de referencia para la manipulación robótica basada en visión

Coger un palo y equilibrarlo sobre un tronco o apilar un guijarro sobre una piedra pueden parecer acciones sencillas (y bastante similares) para una persona. Sin embargo, la mayoría de los robots tienen dificultades para realizar más de una tarea de este tipo a la vez. Manipular un palo requiere un conjunto de comportamientos diferente al de apilar piedras, sin mencionar el hecho de apilar varios platos uno encima del otro o ensamblar muebles. Antes de que podamos enseñar a los robots cómo realizar este tipo de tareas, primero deben aprender a interactuar con una gama mucho mayor de objetos. Como parte de La misión de DeepMind y como un paso hacia la creación de robots más generalizables y útiles, estamos explorando cómo permitir que los robots comprendan mejor las interacciones de objetos con diversas geometrías.

En un trabajo que se presentará en CORL 2021 (Conferencia sobre aprendizaje de robots) y disponible ahora como preimpresión en AbrirRevisión, presentamos RGB-Stacking como un nuevo punto de referencia para la manipulación robótica basada en visión. En este punto de referencia, un robot tiene que aprender a agarrar diferentes objetos y equilibrarlos uno encima del otro. Lo que diferencia nuestra investigación de trabajos anteriores es la diversidad de objetos utilizados y la gran cantidad de evaluaciones empíricas realizadas para validar nuestros hallazgos. Nuestros resultados demuestran que se puede utilizar una combinación de simulación y datos del mundo real para aprender manipulación compleja de múltiples objetos y sugieren una base sólida para el problema abierto de generalizar a objetos nuevos. Para apoyar a otros investigadores, estamos fuente abierta una versión de nuestro entorno simulado y lanzar el diseños para construir nuestro entorno de apilamiento RGB de robot real, junto con los modelos de objetos RGB y la información para imprimirlos en 3D. También somos de código abierto una colección de bibliotecas y herramientas utilizado en nuestra investigación sobre robótica de manera más amplia.

Punto de referencia de apilamiento RGB

Con RGB-Stacking, nuestro objetivo es entrenar un brazo robótico mediante el aprendizaje por refuerzo para apilar objetos de diferentes formas. Colocamos una pinza paralela unida a un brazo robótico encima de una canasta y tres objetos en la canasta: uno rojo, uno verde y uno azul, de ahí el nombre RGB. La tarea es simple: apilar el objeto rojo encima del objeto azul en 20 segundos, mientras el objeto verde sirve como obstáculo y distracción. El proceso de aprendizaje garantiza que el agente adquiera habilidades generalizadas mediante el entrenamiento en múltiples conjuntos de objetos. Variamos intencionalmente las posibilidades de agarrar y apilar, las cualidades que definen cómo el agente puede agarrar y apilar cada objeto. Este principio de diseño obliga al agente a exhibir comportamientos que van más allá de una simple estrategia de escoger y colocar.

Cada triplete plantea sus propios desafíos al agente: el triplete 1 requiere una comprensión precisa del objeto superior; El triplete 2 a menudo requiere que el objeto superior se utilice como herramienta para voltear el objeto inferior antes de apilarlo; El triplete 3 requiere equilibrio; El triplete 4 requiere un apilamiento de precisión (es decir, los centroides del objeto deben alinearse); y el objeto superior de Triplet 5 puede caerse fácilmente si no se apila con cuidado. Al evaluar los desafíos de esta tarea, descubrimos que nuestra línea base escrita a mano tenía una tasa de éxito del 51 % en el apilamiento.

Nuestro punto de referencia RGB-Stacking incluye dos versiones de tareas con diferentes niveles de dificultad. En “Skill Mastery”, nuestro objetivo es entrenar a un único agente que tenga la habilidad de apilar un conjunto predefinido de cinco tripletes. En “Generalización de habilidades”, utilizamos los mismos tripletes para la evaluación, pero entrenamos al agente en un gran conjunto de objetos de entrenamiento, por un total de más de un millón de tripletes posibles. Para probar la generalización, estos objetos de entrenamiento excluyen la familia de objetos de la que se eligieron los tríos de prueba. En ambas versiones, disociamos nuestro proceso de aprendizaje en tres etapas:

  • Primero, entrenamos en simulación usando un algoritmo RL disponible en el mercado: Optimización máxima de políticas a posteriori (MPO). En esta etapa, utilizamos el estado del simulador, lo que permite un entrenamiento rápido ya que las posiciones de los objetos se le dan directamente al agente en lugar de que el agente tenga que aprender a encontrar los objetos en imágenes. La política resultante no es directamente transferible al robot real ya que esta información no está disponible en el mundo real.
  • A continuación, entrenamos una nueva política en simulación que utiliza sólo observaciones realistas: imágenes y el estado propioceptivo del robot. Utilizamos una simulación de dominio aleatorio para mejorar la transferencia a imágenes y dinámicas del mundo real. La política estatal actúa como maestro, proporcionando al agente de aprendizaje correcciones a sus comportamientos, y esas correcciones se resumen en la nueva política.
  • Por último, recopilamos datos utilizando esta política en robots reales y entrenamos una política mejorada a partir de estos datos fuera de línea ponderando las buenas transiciones basadas en una función Q aprendida, como se hace en Regresión crítica regularizada (CRR). Esto nos permite utilizar los datos que se recopilan pasivamente durante el proyecto en lugar de ejecutar un algoritmo de capacitación en línea que consume mucho tiempo en los robots reales.

Desacoplar nuestro proceso de aprendizaje de esta manera resulta crucial por dos razones principales. En primer lugar, nos permite resolver el problema por completo, ya que simplemente llevaría demasiado tiempo si tuviéramos que empezar desde cero directamente con los robots. En segundo lugar, aumenta nuestra velocidad de investigación, ya que diferentes personas de nuestro equipo pueden trabajar en diferentes partes del proceso antes de que combinemos estos cambios para una mejora general.

Nuestro agente muestra comportamientos novedosos para apilar los 5 trillizos. El resultado más sólido con Skill Mastery fue un agente basado en visión que logró un 79% de éxito promedio en simulación (Etapa 2), un 68% de éxito en robots reales (Etapa 2) y un 82% después de la mejora de la política de un solo paso desde datos reales (Etapa 3). El mismo proceso para la generalización de habilidades dio como resultado un agente final que logró un 54 % de éxito en robots reales (Etapa 3). Cerrar esta brecha entre el dominio de las habilidades y la generalización sigue siendo un desafío abierto.

En los últimos años, se ha trabajado mucho en la aplicación de algoritmos de aprendizaje para resolver problemas difíciles de manipulación de robots reales a escala, pero el enfoque de dicho trabajo se ha centrado principalmente en tareas como agarrar, empujar u otras formas de manipulación de objetos individuales. El enfoque de RGB-Stacking que describimos en nuestro artículo, acompañado de nuestros recursos de robótica ahora disponibles en GitHub, da como resultado estrategias de apilamiento sorprendentes y el dominio del apilamiento de un subconjunto de estos objetos. Aun así, este paso sólo roza la superficie de lo que es posible, y el desafío de la generalización sigue sin resolverse por completo. Mientras los investigadores siguen trabajando para resolver el desafío abierto de la verdadera generalización en robótica, esperamos que este nuevo punto de referencia, junto con el entorno, los diseños y las herramientas que hemos lanzado, contribuyan a nuevas ideas y métodos que puedan hacer que la manipulación sea aún más fácil y que los robots sean más capaces. .