Investigadores de CMU presentan RoboTool: un sistema de inteligencia artificial que acepta instrucciones en lenguaje natural y genera código ejecutable para controlar robots en entornos simulados y del mundo real

Investigadores de la Universidad Carnegie Mellon y Google DeepMind han colaborado para desarrollar RoboTool, un sistema que aprovecha los modelos de lenguaje grande (LLM) para dotar a los robots de la capacidad de utilizar herramientas de forma creativa en tareas que implican limitaciones físicas implícitas y planificación a largo plazo. El sistema consta de cuatro componentes clave:

  1. Analizador para interpretar el lenguaje natural.
  2. Planificador para generar estrategias.
  3. Calculadora para calcular parámetros,
  4. Codificador para traducir planos a código Python ejecutable.

Al utilizar GPT-4, RoboTool tiene como objetivo proporcionar una solución más flexible, eficiente y fácil de usar para tareas robóticas complejas en comparación con los métodos tradicionales de planificación de tareas y movimientos.

El estudio aborda el desafío del uso creativo de herramientas en robots, de forma análoga a la forma en que los animales exhiben inteligencia en el uso de herramientas. Enfatiza la importancia de que los robots no solo utilicen herramientas para el propósito previsto, sino que también las empleen de maneras creativas y poco convencionales para brindar soluciones flexibles. Los métodos tradicionales de planificación de tareas y movimientos (TAMP) deben revisarse para manejar tareas con restricciones implícitas y, a menudo, son costosos desde el punto de vista computacional. Los modelos de lenguaje grande (LLM) se han mostrado prometedores en la codificación de conocimientos beneficiosos para tareas robóticas.

La investigación introduce un punto de referencia para evaluar las capacidades de uso creativo de herramientas, incluida la selección de herramientas, el uso secuencial de herramientas y la fabricación. La RoboTool propuesta se evalúa tanto en entornos simulados como en el mundo real, lo que demuestra competencia en el manejo de tareas que serían desafiantes sin el uso creativo de herramientas. Las tasas de éxito del sistema superan las de los métodos de referencia, lo que demuestra su eficacia para resolver tareas de planificación complejas y a largo plazo con limitaciones implícitas.

La evaluación se realizó calculando 3 tipos de errores:

  1. Error de uso de herramienta que indica si se utiliza la herramienta correcta.
  2. El error lógico se centra en errores de planificación, como utilizar herramientas en el orden incorrecto o ignorar las restricciones proporcionadas.
  3. Error numérico que incluye calcular las posiciones de destino incorrectas o agregar compensaciones incorrectas.

El RoboTool sin el analizador muestra que el uso del analizador tiene un gran error de uso de la herramienta y el RoboTool sin la calculadora tiene un gran error numérico en comparación con el RoboTool que muestra su papel en el modelo.

El estudio muestra los logros de RoboTool en diversas tareas, como atravesar espacios entre sofás, alcanzar objetos colocados fuera del espacio de trabajo de un robot y utilizar creativamente herramientas más allá de sus funciones convencionales. El sistema aprovecha el conocimiento de los LLM sobre las propiedades de los objetos y el sentido común humano para identificar conceptos y razones clave sobre el mundo físico 3D. En experimentos con un brazo robótico y un robot cuadrúpedo, RoboTool demuestra comportamientos creativos en el uso de herramientas, incluida la improvisación, el uso secuencial de herramientas y la fabricación de herramientas. Si bien logra tasas de éxito comparables o superiores a los métodos de referencia en simulación, su rendimiento en el mundo real se ve ligeramente afectado por errores de percepción y errores de ejecución.

En conclusión, RoboTool, impulsado por LLM, es un usuario creativo de herramientas robóticas capaz de resolver problemas de planificación a largo plazo con limitaciones físicas implícitas. La capacidad del sistema para identificar conceptos clave, generar planes creativos, calcular parámetros y producir código ejecutable contribuye a su éxito en el manejo de tareas robóticas complejas que requieren el uso creativo de herramientas.


Revisar la Papel, Proyectoy Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.