Revolucionando el aprendizaje del robot: cómo el Aria Gen 2 de Meta permite un entrenamiento 400% más rápido con IA egocéntrica

La evolución de la robótica se ha limitado durante mucho tiempo por métodos de entrenamiento lentos y costosos, lo que requiere que los ingenieros tengan a los robots con teleopares manualmente para recopilar datos de capacitación específicos de tareas. Pero con el lanzamiento de Aria Gen 2, una plataforma de investigación de IA de próxima generación del Proyecto Aria del Meta, este paradigma está cambiando. Al aprovechar la IA egocéntrica y la percepción en primera persona, los investigadores ahora están equipando a los robots con una comprensión más humana del mundo: la capacitación de robots más rápida, escalable y rentable … como lo demuestra Georgia Tech.

Desafío histórico: enseñar a los robots a realizar tareas humanas

Los robots de hoy luchan por adaptarse a los entornos del mundo real, principalmente porque requieren conjuntos de datos altamente especializados para la capacitación. Los métodos tradicionales involucran la teleperación de robots, donde los ingenieros guían manualmente a los robots a través de tareas mientras recopilan datos de sensores. Este enfoque es:

  • Pérdida de tiempo: El entrenamiento de un robot para doblar la ropa, por ejemplo, puede llevar semanas de manifestaciones supervisadas.
  • Caro: El costo de los expertos en teleperación humana y el hardware robótico de alta gama hacen que el entrenamiento a gran escala sea poco práctico.
  • Específica de la tarea: Cada nueva habilidad requiere conjuntos de datos completamente nuevos, lo que limita la generalización en diferentes entornos.

¿Qué pasaría si los robots pudieran aprender simplemente viendo a los humanos realizar tareas?

IA egocéntrica: el avance para el aprendizaje de robot escalable

Aquí es donde entra Aria Gen 2. Los investigadores ahora están utilizando la IA egocéntrica, AI que aprende desde la perspectiva de una primera persona de un humano, para entrenar robots más rápido, con menos datos y en una gama más amplia de tareas.

Ventajas clave de Aria Gen 2 para la investigación de robótica:

  • Percepción en tiempo real: equipado con cámaras RGB, sensores de slam, imus y cámaras de seguimiento ocular, las gafas de aria capturan exactamente lo que un humano ve, escucha y experimenta.
  • Procesamiento de IA en el dispositivo: Slam, el seguimiento de las manos y el reconocimiento de voz se procesan directamente en las gafas, lo que permite el aprendizaje impulsado por la IA en tiempo real.
  • Demostraciones de tareas en primera persona: ahora los robots se pueden capacitar utilizando grabaciones egocéntricas humanas, lo que permite una recopilación de datos más natural y escalable.

Egomimic de Georgia Tech: robots aprendiendo de datos humanos

En el laboratorio de aprendizaje y el razonamiento robótico de Georgia Tech, los investigadores dirigidos por el profesor Danfei Xu han sido pioneros en un marco innovador llamado Egomimic, que utiliza datos humanos en primera persona de Aria Gen 2 para capacitar a los robots humanoides.

Cómo funciona egomimic

  1. Los humanos realizan tareas diarias (por ejemplo, lavandería plegable, lavado de platos) mientras usan gafas Aria Gen 2.
  2. ARIA captura datos del sensor centrado en el humano, incluidas la visión, el movimiento y las interacciones manuales.
  3. Los datos recopilados se alimentan en egomimic, que traduce las acciones humanas en comportamientos robóticos.
  4. Los robots aprenden a replicar las acciones humanas sin requerir teleperación manual.

400% de aprendizaje de robot más rápido con IA egocéntrica

En comparación con los métodos tradicionales, la eficiencia de capacitación acelerada egomimic en un 400%, al tiempo que reduce la necesidad de demostraciones teleoperadas. En lugar de cientos de horas de entrenamiento guiado por robots, los robots ahora pueden aprender nuevas tareas utilizando solo 90 minutos de grabaciones egocéntricas humanas.

Cerrar la brecha entre la percepción humana y robot

Lo que hace que este enfoque sea revolucionario es que las gafas de Aria no solo se usan para la recopilación de datos humanos, sino que también actúan como un sistema de percepción en tiempo real para los robots.

  • Las gafas de aria montadas en robots sirven como paquetes de sensores que permiten a los robots percibir su entorno en tiempo real, como un humano.
  • El cliente ARIA SDK transmite datos de sensores en vivo al sistema de IA de un robot, lo que permite una toma de decisiones más adaptativa y del mundo real.
  • Minimización de la “brecha de dominio”, ya que los robots y los humanos recopilan datos de la misma perspectiva egocéntrica, los modelos de IA entrenados en demostraciones humanas se traducen sin problemas en la ejecución robótica.

Entrenamiento potencial de IA escalable para robots humanoides

Con Egomimic y Aria Gen 2, los investigadores imaginan un futuro donde:

  • Los robots pueden ser entrenados a escala utilizando datos egocéntricos, reduciendo significativamente el costo y el tiempo requeridos para la capacitación de IA.
  • Los robots humanoides pueden realizar una variedad de tareas cotidianas, desde ayudar en hogares hasta operar en entornos industriales dinámicos.
  • La IA egocéntrica se convierte en la base de la robótica de uso general, lo que permite a los robots aprender de la misma manera que los humanos lo hacen, a través de la observación y la experiencia.

Aria Gen 2 no es solo una herramienta de investigación de IA, es un punto de inflexión para la robótica. Al cambiar el enfoque de la capacitación basada en la teleperación al aprendizaje egocéntrico escalable, Meta está allanando el camino para la próxima generación de robots inteligentes y adaptables.


Verificar Meta página del proyecto y Página del proyecto Georgia Tech y Enlaces a conjuntos de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Jean-Marc es un exitoso ejecutivo de negocios de IA. Dirige y acelera el crecimiento de las soluciones de IA y comenzó una compañía de visión por computadora en 2006. Es un orador reconocido en AI Conferences y tiene un MBA de Stanford.