Un trabajador de una fábrica de automóviles puede recordar el contenedor de almacenamiento donde dejó un componente parcialmente ensamblado la noche anterior y regresar rápidamente a ese lugar para recogerlo. Pero los robots que puedan trabajar codo a codo con ella tendrían dificultades para desarrollar y acceder a este mismo tipo de memoria “espaciotemporal”.
Ahora, investigadores del MIT han desarrollado un marco de memoria a largo plazo que permite a los robots formar y recordar rápidamente un modelo mental detallado de entornos complicados a gran escala.
En el futuro, este avance podría permitir que el trabajador de la fábrica envíe un asistente robótico a buscar el artículo, simplemente pidiéndole que “vaya y tome el componente que empezamos a ensamblar anoche”.
Este nuevo método combina representaciones de mapas avanzadas con descripciones detalladas del entorno que el robot recopila a medida que viaja durante un largo período de tiempo. El robot puede acceder rápidamente a esta memoria para responder consultas complejas sobre su entorno en un lenguaje sencillo.
Este marco de memoria, que responde preguntas con mayor precisión que los métodos más modernos, se ejecuta lo suficientemente rápido como para que un robot móvil lo utilice en tiempo real.
Además de sus usos potenciales en robótica, este método podría tener aplicaciones en sistemas de realidad aumentada que ayuden a los trabajadores de mantenimiento en la detección de anomalías o ayuden a los viajeros a orientarse.
“Si queremos que los robots trabajen codo a codo con los humanos e interactúen mejor con los humanos, deben hablar el mismo idioma. El robot debe ser capaz de razonar sobre el tiempo y el espacio de la misma manera que lo hacen los humanos. Eso es esencialmente lo que nuestro método está haciendo. Es convertir un mapa tradicional en un mapa basado en el lenguaje al que al robot le resulta más fácil pensar y acceder usando el lenguaje”, dice Luca Carlone, profesor asociado en el Departamento de Aeronáutica y Astronáutica del MIT (AeroAstro), investigador principal en el Laboratorio de Información y Decisión. Systems (LIDS) y director del Laboratorio MIT SPARK.
En el artículo lo acompañan el autor principal Nicolas Gorlo, un estudiante de posgrado del MIT; y Lukas Schmid, ex investigador científico del MIT y ahora profesor de la Universidad Tecnológica de Nuremberg en Alemania. La investigación se presentó recientemente en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (CVPR).
Memoria espaciotemporal
La memoria permite que un sistema de inteligencia artificial, como un chatbot, responda preguntas complejas y razone sobre interacciones previas con su usuario.
“Queremos diseñar un nuevo tipo de memoria, una memoria espaciotemporal, que permita a un robot impulsado por IA recordar interacciones reales y observaciones de sensores. Como ChatGPT, pero basado en el mundo real y capaz de responder cualquier pregunta sobre el entorno, como ‘¿Dónde dejé mi billetera?'”, dice Carlone.
Para desarrollar dicho marco de memoria, los investigadores del MIT unieron dos líneas de trabajo: visión por computadora y mapeo robótico.
Los modelos de visión por computadora multimodal pueden comprender y describir detalladamente los objetos de una escena, pero a menudo solo procesan una única anotación a la vez. Por otro lado, los marcos de mapeo robótico crean mapas 3D de un entorno, como un departamento completo o un campus universitario, pero generalmente carecen de descripciones detalladas de los objetos o son computacionalmente costosos.
El método que crearon los investigadores del MIT, llamado Describe Anything, Anywhere, Anytime, at Any Moment (DAAAM), aprovecha lo mejor de ambos enfoques.
Al utilizar DAAAM, cuando un robot atraviesa su entorno, adjunta descripciones detalladas a los objetos que ve. Por ejemplo, el robot puede notar que un edificio particular en el campus del MIT se llama Stata Center y está diseñado con un cierto tipo de arquitectura, o que un portabicicletas tiene capacidad para cinco bicicletas y la roja tiene una llanta pinchada.
Almacena esta información detallada en una representación basada en mapas 3D que está dispuesta espacialmente, de modo que los objetos se agruparán en regiones separadas. De esta forma, el robot puede recordar que la bicicleta roja con la rueda pinchada está en el portabicicletas fuera del Stata Center.
Pero las técnicas existentes que capturan descripciones tan ricas suelen tardar unos segundos en anotar algunos objetos. Esto es demasiado lento para el rendimiento en tiempo real, ya que un robot podría ver cientos de objetos durante unos minutos de exploración.
“Cuanto más rápido pueda el robot formar esta memoria espacial, más eficiente será realizando acciones en el entorno”, añade Carlone.
Agilizando el proceso
Para acelerar las cosas, DAAAM agrega objetos cercanos a medida que viaja y utiliza un método de optimización para seleccionar fotogramas clave para anotar. Se trata de imágenes con la visión más clara de múltiples objetos, lo que permite al sistema describir minuciosamente varios elementos en paralelo, acelerando diez veces el cálculo.
A medida que el robot explora el espacio, adjunta cada lote de anotaciones a múltiples objetos en una ubicación particular en el mapa 3D.
“Anotamos cada objeto sólo una vez, por lo que nuestro marco puede ejecutarse en entornos a muy gran escala en tiempo real. Y al agrupar objetos en regiones, puede responder a una amplia gama de consultas sobre objetos y ubicaciones en el entorno”, explica Gorlo.
Una vez que el sistema construye esta memoria espacial, debe recuperar información de una enorme base de datos de objetos y descripciones de manera eficiente.
Para permitir esto, los investigadores utilizaron un LLM que recurre a varias herramientas, que pueden recuperar rápidamente información específica de una manera que reduce las alucinaciones. Esto permite a DAAAM responder la consulta de un usuario con precisión en solo unos segundos.
Por ejemplo, si uno le pregunta a un robot sobre cierta escultura que vio cerca de un edificio del campus del MIT, DAAAM puede usar una herramienta de búsqueda semántica para recuperar información basada en la palabra “escultura” o una herramienta diferente para recuperar información basada en la ubicación del edificio.
Cuando se probó y se comparó con otros métodos, DAAAM fue entre un 21 y un 53 por ciento más preciso, según el tipo de pregunta.
En el futuro, los investigadores quieren ampliar DAAAM para que el sistema pueda capturar eventos importantes que sucedieron en el medio ambiente. También están trabajando para incorporar niveles de confianza en las respuestas del sistema.
“En última instancia, queremos tener robots que puedan ayudar con cualquier tipo de tarea. Con este marco, estamos tratando de crear las bases para habilitar un agente generalista que pueda hacer cualquier cosa que le pidas”, dice Gorlo.
Esta investigación fue financiada, en parte, por el Laboratorio de Investigación del Ejército de EE. UU. y la Oficina de Investigación Naval. Carlone se encuentra actualmente en un año sabático como Amazon Scholar; Este artículo describe el trabajo realizado en el MIT y no está asociado con Amazon.