Enseñar a los robots a mapear grandes entornos | Noticias del MIT

Un robot que busca trabajadores atrapados en el pozo de una mina parcialmente colapsada debe generar rápidamente un mapa de la escena e identificar su ubicación dentro de esa escena mientras navega por el traicionero terreno.

Recientemente, los investigadores han comenzado a construir potentes modelos de aprendizaje automático para realizar esta compleja tarea utilizando únicamente imágenes de las cámaras integradas del robot, pero incluso los mejores modelos sólo pueden procesar unas pocas imágenes a la vez. En un desastre del mundo real donde cada segundo cuenta, un robot de búsqueda y rescate necesitaría atravesar rápidamente grandes áreas y procesar miles de imágenes para completar su misión.

Para superar este problema, los investigadores del MIT se basaron en ideas tanto de modelos recientes de visión de inteligencia artificial como de la visión por computadora clásica para desarrollar un nuevo sistema que puede procesar una cantidad arbitraria de imágenes. Su sistema genera con precisión mapas 3D de escenas complicadas, como un pasillo de oficina lleno de gente, en cuestión de segundos.

El sistema impulsado por IA crea y alinea gradualmente submapas más pequeños de la escena, que une para reconstruir un mapa 3D completo mientras estima la posición del robot en tiempo real.

A diferencia de muchos otros enfoques, su técnica no requiere cámaras calibradas ni un experto para ajustar la implementación de un sistema complejo. La naturaleza más simple de su enfoque, junto con la velocidad y la calidad de las reconstrucciones 3D, facilitaría la ampliación para aplicaciones del mundo real.

Más allá de ayudar a los robots de búsqueda y rescate a navegar, este método podría usarse para crear aplicaciones de realidad extendida para dispositivos portátiles como auriculares de realidad virtual o permitir que los robots industriales encuentren y muevan rápidamente mercancías dentro de un almacén.

“Para que los robots realicen tareas cada vez más complejas, necesitan representaciones cartográficas mucho más complejas del mundo que los rodea. Pero al mismo tiempo, no queremos que sea más difícil implementar estos mapas en la práctica. Hemos demostrado que es posible generar una reconstrucción 3D precisa en cuestión de segundos con una herramienta que funciona de inmediato”, dice Dominic Maggio, estudiante graduado del MIT y autor principal de un artículo sobre este método.

A Maggio se unen en el artículo el postdoctorado Hyungtae Lim y el autor principal Luca Carlone, profesor asociado en el Departamento de Aeronáutica y Astronáutica del MIT (AeroAstro), investigador principal en el Laboratorio de Sistemas de Información y Decisión (LIDS) y director del Laboratorio SPARK del MIT. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.

Trazando una solución

Durante años, los investigadores han estado lidiando con un elemento esencial de la navegación robótica llamado localización y mapeo simultáneos (SLAM). En SLAM, un robot recrea un mapa de su entorno mientras se orienta dentro del espacio.

Los métodos de optimización tradicionales para esta tarea tienden a fallar en escenas desafiantes o requieren que las cámaras integradas del robot estén calibradas previamente. Para evitar estos obstáculos, los investigadores entrenan modelos de aprendizaje automático para aprender esta tarea a partir de datos.

Si bien son más sencillos de implementar, incluso los mejores modelos sólo pueden procesar alrededor de 60 imágenes de cámara a la vez, lo que los hace inviables para aplicaciones en las que un robot necesita moverse rápidamente a través de un entorno variado mientras procesa miles de imágenes.

Para solucionar este problema, los investigadores del MIT diseñaron un sistema que genera submapas más pequeños de la escena en lugar del mapa completo. Su método “pega” estos submapas en una reconstrucción 3D general. El modelo todavía solo procesa unas pocas imágenes a la vez, pero el sistema puede recrear escenas más grandes mucho más rápido uniendo submapas más pequeños.

“Parecía una solución muy simple, pero cuando la probé por primera vez, me sorprendió que no funcionara tan bien”, dice Maggio.

En busca de una explicación, indagó en artículos de investigación sobre visión por computadora de las décadas de 1980 y 1990. A través de este análisis, Maggio se dio cuenta de que los errores en la forma en que los modelos de aprendizaje automático procesan las imágenes hacían que la alineación de submapas fuera un problema más complejo.

Los métodos tradicionales alinean submapas aplicando rotaciones y traslaciones hasta que se alinean. Pero estos nuevos modelos pueden introducir cierta ambigüedad en los submapas, lo que hace que sea más difícil alinearlos. Por ejemplo, un submapa 3D de un lado de una habitación puede tener paredes ligeramente dobladas o estiradas. Simplemente rotar y trasladar estos submapas deformados para alinearlos no funciona.

“Necesitamos asegurarnos de que todos los submapas se deformen de manera consistente para poder alinearlos bien entre sí”, explica Carlone.

Un enfoque más flexible

Tomando prestadas ideas de la visión por computadora clásica, los investigadores desarrollaron una técnica matemática más flexible que puede representar todas las deformaciones en estos submapas. Al aplicar transformaciones matemáticas a cada submapa, este método más flexible puede alinearlos de una manera que aborde la ambigüedad.

A partir de las imágenes de entrada, el sistema genera una reconstrucción 3D de la escena y estimaciones de las ubicaciones de las cámaras, que el robot utilizaría para localizarse en el espacio.

“Una vez que Dominic tuvo la intuición de unir estos dos mundos (enfoques basados ​​en el aprendizaje y métodos de optimización tradicionales), la implementación fue bastante sencilla”, dice Carlone. “Crear algo tan eficaz y sencillo tiene potencial para muchas aplicaciones.

Su sistema funcionó más rápido con menos errores de reconstrucción que otros métodos, sin requerir cámaras especiales ni herramientas adicionales para procesar datos. Los investigadores generaron reconstrucciones 3D casi en tiempo real de escenas complejas como el interior de la Capilla del MIT utilizando solo videos cortos capturados con un teléfono celular.

El error medio en estas reconstrucciones 3D fue inferior a 5 centímetros.

En el futuro, los investigadores quieren hacer que su método sea más fiable para escenas especialmente complicadas y trabajar para implementarlo en robots reales en entornos desafiantes.

“Conocer la geometría tradicional vale la pena. Si se comprende profundamente lo que sucede en el modelo, se pueden obtener resultados mucho mejores y hacer que las cosas sean mucho más escalables”, afirma Carlone.

Este trabajo cuenta con el apoyo, en parte, de la Fundación Nacional de Ciencias de EE. UU., la Oficina de Investigación Naval de EE. UU. y la Fundación Nacional de Investigación de Corea. Carlone, actualmente en un año sabático como Amazon Scholar, completó este trabajo antes de unirse a Amazon.