RoboCat: un agente robótico que se mejora a sí mismo

Investigación

Publicado: 20 junio 2023
Autores: El equipo de RoboCat

El nuevo agente de la fundación aprende a operar diferentes brazos robóticos, resuelve tareas en tan solo 100 demostraciones y mejora a partir de datos autogenerados.

Los robots se están convirtiendo rápidamente en parte de nuestra vida cotidiana, pero a menudo sólo están programados para realizar bien tareas específicas. Si bien aprovechar los avances recientes en IA podría conducir a robots que podrían ayudar de muchas más maneras, el progreso en la construcción de robots de uso general es más lento, en parte debido al tiempo necesario para recopilar datos de entrenamiento en el mundo real.

Nuestro último artículo presenta un agente de IA para robótica que se mejora a sí mismo, RoboCat, que aprende a realizar una variedad de tareas en diferentes brazos y luego autogenera nuevos datos de entrenamiento para mejorar su técnica.

Investigaciones anteriores han explorado cómo desarrollar robots que pueden aprender a realizar múltiples tareas a escala y combinar la comprensión de los modelos de lenguaje con las capacidades del mundo real de un robot ayudante. RoboCat es el primer agente que resuelve y se adapta a múltiples tareas y lo hace a través de diferentes robots reales.

RoboCat aprende mucho más rápido que otros modelos de última generación. Puede realizar una nueva tarea con tan solo 100 demostraciones porque se basa en un conjunto de datos grande y diverso. Esta capacidad ayudará a acelerar la investigación en robótica, ya que reduce la necesidad de capacitación supervisada por humanos y es un paso importante hacia la creación de un robot de uso general.

Cómo se mejora RoboCat

RoboCat se basa en nuestro modelo multimodal gato (Gato en español), que puede procesar lenguaje, imágenes y acciones tanto en entornos físicos como simulados. Combinamos la arquitectura de Gato con un gran conjunto de datos de entrenamiento de secuencias de imágenes y acciones de varios brazos robóticos que resuelven cientos de tareas diferentes.

Después de esta primera ronda de capacitación, lanzamos RoboCat en un ciclo de capacitación de “superación personal” con un conjunto de tareas nunca antes vistas. El aprendizaje de cada nueva tarea siguió cinco pasos:

Reúna entre 100 y 1000 demostraciones de una nueva tarea o robot, utilizando un brazo robótico controlado por un humano.
Ajuste RoboCat en esta nueva tarea/brazo, creando un agente derivado especializado.
El agente derivado practica en esta nueva tarea/brazo una media de 10.000 veces, generando más datos de entrenamiento.
Incorpore los datos de demostración y los datos autogenerados al conjunto de datos de capacitación existente de RoboCat.
Entrene una nueva versión de RoboCat en el nuevo conjunto de datos de entrenamiento.

El ciclo de formación de RoboCat, impulsado por su capacidad de generar de forma autónoma datos de formación adicionales.

La combinación de toda esta capacitación significa que el último RoboCat se basa en un conjunto de datos de millones de trayectorias, tanto de brazos robóticos reales como simulados, incluidos datos autogenerados. Utilizamos cuatro tipos diferentes de robots y muchos brazos robóticos para recopilar datos basados en la visión que representan las tareas para las que RoboCat estaría entrenado para realizar.

RoboCat aprende de una amplia gama de tipos de datos de entrenamiento y tareas: vídeos de un brazo robótico real recogiendo engranajes, un brazo simulado apilando bloques y RoboCat usando un brazo robótico para recoger un pepino.

Aprender a operar nuevos brazos robóticos y resolver tareas más complejas

Gracias a la variada formación de RoboCat, aprendió a operar diferentes brazos robóticos en unas pocas horas. Si bien había sido entrenado en brazos con pinzas de dos puntas, pudo adaptarse a un brazo más complejo con una pinza de tres dedos y el doble de entradas controlables.

Izquierda: RoboCat aprendió a controlar un nuevo brazo robótico
Bien: Video de RoboCat usando el brazo para recoger engranajes

Después de observar 1.000 demostraciones controladas por humanos, recopiladas en apenas unas horas, RoboCat pudo dirigir este nuevo brazo con la suficiente destreza como para coger marcha con éxito el 86% de las veces. Con el mismo nivel de demostraciones, podría adaptarse para resolver tareas que combinaran precisión y comprensión, como sacar la fruta correcta de un cuenco y resolver un rompecabezas de combinación de formas, que son necesarios para un control más complejo.

Ejemplos de tareas que RoboCat puede adaptarse para resolver después de 500-1000 demostraciones.

El generalista en superación personal

RoboCat tiene un círculo virtuoso de capacitación: cuantas más tareas nuevas aprende, mejor aprende nuevas tareas adicionales. La versión inicial de RoboCat tuvo éxito sólo el 36% de las veces en tareas nunca antes vistas, después de aprender de 500 demostraciones por tarea. Pero el último RoboCat, que se había entrenado en una mayor diversidad de tareas, duplicó con creces esta tasa de éxito en las mismas tareas.

La gran diferencia en el rendimiento entre el RoboCat inicial (una ronda de capacitación) en comparación con la versión final (capacitación extensa y diversa, incluida la superación personal) después de que ambas versiones se perfeccionaron en 500 demostraciones de tareas nunca antes vistas.

Estas mejoras se debieron a la creciente experiencia de RoboCat, similar a cómo las personas desarrollan una gama más diversa de habilidades a medida que profundizan su aprendizaje en un dominio determinado. La capacidad de RoboCat para aprender habilidades de forma independiente y mejorarse rápidamente, especialmente cuando se aplica a diferentes dispositivos robóticos, ayudará a allanar el camino hacia una nueva generación de agentes robóticos de uso general más útiles.

RoboCat: un agente robótico que se mejora a sí mismo

ByEquipo de 7 minutos

Cómo se mejora RoboCat

Aprender a operar nuevos brazos robóticos y resolver tareas más complejas

El generalista en superación personal

By Equipo de 7 minutos

Related Post

Una implementación de codificación en Qwen 3.6-35B-A3B que cubre inferencia multimodal, control de pensamiento, llamada de herramientas, enrutamiento MoE, RAG y persistencia de sesión

Moonshot AI lanza Kimi K2.6 con codificación de horizonte largo, enjambre de agentes ampliado a 300 subagentes y 4000 pasos coordinados

La apuesta del LLM | Hacia la ciencia de datos

You missed

El riesgo de un ‘megaterremoto’ en Japón aumenta tras un potente terremoto

Jollibee Group informa ingresos operativos récord en el cuarto trimestre; Publica sólidos resultados para todo el año 2025

353 casas de lujo en un solar abandonado « Euro Weekly News

Fotos de Queen Naija y Clarence “Ring”, mamá habla (fotos + vídeos)