Screenshot 2024 05 24 At 3.50.01 Pm.png

En cuanto al aprendizaje robótico, la práctica estándar es utilizar conjuntos de datos adaptados al robot y al trabajo en particular para capacitar políticas. Empezar desde cero de esta manera requiere una cantidad sustancial de recopilación de datos para cada actividad, y las políticas que se producen generalmente muestran poca generalización. En teoría, los datos recopilados de robots y trabajos anteriores podrían ser una solución; Los modelos de capacitación sobre diversas cuestiones de control podrían mejorar su capacidad para generalizar y desempeñarse mejor en tareas posteriores. En contraste con la omnipresencia de los modelos de propósito general en la visión por computadora y el procesamiento del lenguaje natural, crear un “modelo de robot de propósito general” capaz de controlar varios robots ha demostrado ser un desafío formidable. Tratar con realizaciones de robots, configuraciones de sensores, espacios de acción, especificaciones de tareas, entornos y presupuestos de computación son cuestiones únicas cuando se entrena una estrategia de control unificado en robótica.

Varias publicaciones han propuesto modelos básicos de robótica que logran precisamente eso (traducir directamente las observaciones de los robots en acciones) y ofrecer generalización a nuevos dominios y robots con pocos o ningún disparo. Debido a su versatilidad en el control visomotor de bajo nivel en actividades, entornos y sistemas robóticos, estos modelos generalmente se denominan «políticas robóticas generalistas» (GRP). Si bien ha habido avances hacia un “modelo de robot de propósito general”, a estos modelos todavía les queda mucho camino por recorrer. Por ejemplo, no permiten un ajuste efectivo de nuevos dominios; los más grandes ni siquiera están disponibles al público. Otro problema es que limitan a los usuarios intermedios a un conjunto predefinido y a menudo restrictivo de observaciones de entrada, como una sola transmisión de cámara.

Para adaptarse mejor a la variedad de interfaces de usuario que se encuentran en aplicaciones robóticas más adelante, investigadores de UC Berkeley, Stanford, la Universidad Carnegie Mellon y Google Deepmind proporcionan un método para entrenar previamente políticas de robots generalistas.

Octo es una estrategia basada en transformadores previamente entrenada que utiliza demostraciones de robots de 800.000 del conjunto de datos Open X-Embodiment, el conjunto de datos más grande sobre manipulación de robots. Octo es la primera política generalista de manipulación de robots que es completamente de código abierto, incluidos los datos, los puntos de control del modelo y el proceso de capacitación. También es el primer GRP que se adapta eficazmente a nuevas observaciones y espacios de acción.

Cuando se entrena con un conjunto de datos variado de robots y tareas, el modelo es una arquitectura transformadora que puede convertir cualquier cantidad de tokens de entrada (generados a partir de observaciones y tareas) en acciones. Esta política se puede entrenar una vez y usarse para varios robots, diferentes configuraciones de cámara (por ejemplo, cámaras de muñeca o de espacio de trabajo) y otros métodos de entrada (por ejemplo, comandos de lenguaje, imágenes de objetivos) simplemente cambiando los tokens proporcionados en el modelo. El modelo se puede ajustar fácilmente para adaptarse a otras configuraciones de robot, entradas sensoriales, espacios de acción o morfologías incorporando los adaptadores necesarios y refinándolo utilizando un pequeño conjunto de datos del dominio objetivo y un presupuesto informático razonable.

Investigaciones anteriores han profundizado en los componentes individuales de Octo, como una columna vertebral transformadora, soporte para la especificación de imágenes de objetivos y un cabezal de difusión para modelar distribuciones de acciones expresivas. Sin embargo, el verdadero poder de esta combinación como política generalista de robots es un concepto nuevo e innovador. Los investigadores llevaron a cabo extensos experimentos con nueve robots de cuatro universidades diferentes, demostrando que su sistema integrado logra resultados de última generación en control multirobot listo para usar para tareas de manipulación con uno o dos brazos. También demostraron que Octo se puede utilizar eficazmente como inicialización para ajustar nuevos espacios de observación y acción en configuraciones invisibles. A lo largo de estos experimentos, analizaron el impacto de varias opciones de diseño en la calidad del GRP previamente entrenado, incluida la distribución de datos, la arquitectura del modelo y la formulación de políticas. La evaluación subrayó la importancia de la escala y la flexibilidad para lograr un desempeño óptimo.

Además de esta publicación, el equipo está poniendo a disposición todos los recursos necesarios para entrenar, utilizar, reproducir y perfeccionar un modelo Octo. Con parámetros de 27M y 93M, respectivamente, sus puntos de control del modelo Octo previamente entrenados permiten la especificación de tareas de lenguaje e imagen de objetivo listas para usar y múltiples entradas de cámara RGB. Además de todo su proceso de preentrenamiento, que incluye cargadores de datos óptimos, implementaciones de transformadores para entradas multimodales y herramientas para monitorear el progreso del entrenamiento, también ofrecen scripts para ajustar estos modelos en nuevos dominios.

Si bien el equipo reconoce que todavía hay margen de mejora en el modelo, como el condicionamiento del lenguaje, la compatibilidad con cámaras de muñeca y la incorporación de datos más allá de las demostraciones ideales, Octo representa un paso significativo hacia la creación de políticas robóticas generalistas que sean compatibles con una variedad de de la configuración del robot. Octo tiene como objetivo proporcionar una plataforma práctica donde investigadores y profesionales puedan acceder a conjuntos de datos más grandes relacionados con la robótica. Prevén que su trabajo permitirá el uso de modelos previamente entrenados para un rápido aprendizaje y generalización de tareas, avanzando así en el campo de la robótica y el aprendizaje automático.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.