Aprendizaje por imitación (IL) es uno de los métodos en robótica donde se entrena a los robots para imitar las acciones humanas basándose en demostraciones de expertos. Este método se basa en el aprendizaje automático supervisado y requiere importantes datos generados por humanos para guiar el comportamiento del robot. Aunque eficaz para tareas complejas, el aprendizaje por imitación está limitado por la falta de conjuntos de datos a gran escala y los desafíos a la hora de ampliar la recopilación de datos, a diferencia de los modelos de lenguaje y visión. Aprender de demostraciones en video humanas enfrenta grandes desafíos porque los robots no pueden igualar la sensibilidad y flexibilidad de las manos humanas. Estas diferencias dificultan que el aprendizaje por imitación funcione de manera efectiva o se amplíe para tareas generales de robots.

El aprendizaje por imitación tradicional (IL) se basaba en robots operados por humanos, que eran eficaces pero enfrentaban limitaciones importantes. Estos sistemas se basan en la teleoperación mediante guantes, captura de movimiento y realidad virtual dispositivos y dependen de configuraciones complejas y del bucle de control de baja latencia. También dependían de robots físicos y hardware de propósito especial, que era difícil de escalar. Aunque los robots podrían realizar tareas como insertar baterías o atar cordones de zapatos utilizando datos de expertos recopilados por estos métodos, la necesidad de equipos especiales hizo que dichos métodos no fueran prácticos para un uso a gran escala o más general.

Para solucionar esto, un grupo de investigadores de Apple y la Universidad de Colorado Boulder propusieron el ARMADA sistema que integra la Apple Visión Pro Auriculares con control de robot externo mediante una combinación de ROS y WebSockets. Esta configuración permitió la comunicación entre los dispositivos, donde el sistema podía ser plug-and-play y era flexible para muchas plataformas de robots, como franca y UR5reemplazando únicamente 3D archivos de modelo y formato de datos para los auriculares. El ARMADA La aplicación manejaba la visualización del robot, el almacenamiento de datos y una interfaz de usuario, recibía cuadros de transformación para enlaces de robots, capturaba cuadros de imágenes de cámaras y rastreaba datos del esqueleto humano para su procesamiento. El nodo robótico administró el control, el almacenamiento de datos y el cálculo de restricciones, transformando datos esqueléticos en comandos de robot y detectando violaciones del espacio de trabajo, singularidades y problemas de velocidad para obtener retroalimentación en tiempo real.

Los movimientos del robot se alinearon con las posiciones de la muñeca y los dedos humanos, y se rastrearon a través de ARKit en visión 2.0, utilizando cinemática inversa para calcular las posiciones de las articulaciones y controlar una pinza en función del espacio entre los dedos. Limitaciones como la singularidad, los límites del espacio de trabajo y las violaciones de velocidad se visualizaron mediante cambios de color, límites virtuales o texto en pantalla. Los investigadores utilizaron el sistema ARMADA para realizar tres tareas: coger un pañuelo de papel de una caja, colocar un juguete en una caja de cartón y limpiar una mesa con ambas manos. Cada tarea tenía cinco estados iniciales y el éxito se basaba en criterios específicos. Usar Apple Vision Pro con el software ARMADA encendido visiónOS 2.0, participantes proporcionados 45 demostraciones bajo tres condiciones de retroalimentación: Sin comentarios, Comentarioy Publicar comentarios. Los movimientos de muñecas y dedos se rastrearon en tiempo real utilizando ARKity los movimientos del robot se controlaron mediante cinemática inversa, con trayectorias articulares registradas para su reproducción.

Tras la evaluación, los resultados mostraron que la visualización de comentarios mejoró significativamente las tasas de éxito de repetición para tareas como Recoger tejido, Ordenary Toallita bimanualcon ganancias de hasta 85% en comparación con ninguna retroalimentación. Las demostraciones posteriores a la retroalimentación también mostraron mejoras, pero fueron menos efectivas que la retroalimentación en tiempo real. Los participantes encontraron la retroalimentación intuitiva y útil para comprender el movimiento del robot, y el sistema funcionó bien para usuarios con distintos niveles de experiencia. Los modos de falla comunes sin retroalimentación incluían posturas imprecisas del robot y problemas con las pinzas. Los participantes ajustaron su comportamiento durante las demostraciones, disminuyendo la velocidad y cambiando la posición de las manos, y pudieron visualizar la retroalimentación después de retirarlas.

En resumen, la propuesta ARMADA El sistema abordó el desafío de la recopilación de datos escalables para el aprendizaje de imitación de robots mediante el uso de realidad aumentada para obtener retroalimentación en tiempo real para mejorar la calidad de los datos y la compatibilidad con los robots físicos. Los resultados mostraron la importancia de la retroalimentación para alinear las demostraciones sin robots con la cinemática real de los robots. Si bien el estudio se centró en tareas más simples, investigaciones futuras pueden explorar otras más complejas y perfeccionar técnicas. Este sistema puede servir como base para futuras investigaciones en robótica, particularmente en el entrenamiento de políticas de control de robots mediante el aprendizaje por imitación con observaciones visuales.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Divyesh es pasante de consultoría en Marktechpost. Está cursando un BTech en Ingeniería Agrícola y Alimentaria en el Instituto Indio de Tecnología de Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el ámbito agrícola y resolver desafíos.

Por automata