En los últimos años, ha habido un desarrollo significativo en el campo de grandes modelos previamente entrenados para el aprendizaje de políticas de robots. El término “representación de políticas” aquí se refiere a las diferentes formas de interactuar con los mecanismos de toma de decisiones de los robots, lo que potencialmente puede facilitar la generalización a nuevas tareas y entornos. Visión-lenguaje-acción (VLA) Los modelos están preentrenados con datos de robots a gran escala para integrar la percepción visual, la comprensión del lenguaje y la toma de decisiones basada en acciones para guiar a los robots en diversas tareas. Encima de modelos visión-lenguaje (VLM)presentan la promesa de generalización a nuevos objetos, escenas y tareas. Sin embargo, VLA todavía necesitan ser más confiables para implementarse fuera de los estrechos entornos de laboratorio en los que están capacitados. Si bien estos inconvenientes pueden mitigarse ampliando el alcance y la diversidad de los conjuntos de datos de robots, esto requiere una gran cantidad de recursos y es un desafío escalar. En palabras simples, estas representaciones de políticas deben proporcionar más contexto o un contexto sobreespecificado que produzca políticas menos sólidas.
Representaciones políticas existentes, como idioma, Imágenes de goly bocetos de trayectoria son ampliamente utilizados y son útiles. Una de las representaciones políticas más comunes es el condicionamiento del lenguaje. La mayoría de los conjuntos de datos de robots están etiquetados con descripciones poco especificadas de la tarea, y la guía basada en el lenguaje no proporciona suficiente orientación sobre cómo realizar la tarea. Las políticas condicionadas por la imagen del objetivo proporcionan información espacial detallada sobre la configuración del objetivo final de la escena. Sin embargo, las imágenes de objetivos tienen muchas dimensiones, lo que presenta desafíos de aprendizaje debido a problemas de especificación excesiva. Las representaciones intermedias, como bocetos de trayectoria o puntos clave, intentan proporcionar planos espaciales para guiar las acciones del robot. Si bien estos planes espaciales brindan orientación, todavía carecen de información suficiente para la política sobre cómo realizar movimientos específicos.
Un equipo de investigadores de Google DeepMind realizó una investigación detallada sobre la representación de políticas para robots y propuso RT-Asequibilidad que es un modelo jerárquico que primero crea un plan de prestaciones dado el lenguaje de la tarea y luego utiliza la política de este plan de prestaciones para guiar las acciones de manipulación del robot. En robótica, asequibilidad se refiere a las interacciones potenciales que un objeto permite para un robot, en función de su forma, tamaño, etc. RT-Asequibilidad El modelo puede conectar fácilmente fuentes heterogéneas de supervisión, incluidos grandes conjuntos de datos web y trayectorias de robots.
Primero, se predice el plan de disponibilidad para el idioma de la tarea dado y la imagen inicial de la tarea. Este plan de prestaciones se combina luego con instrucciones en lenguaje para condicionar la política para la ejecución de la tarea. Luego se proyecta sobre la imagen y, a continuación, la póliza está condicionada a imágenes superpuestas con el plan de prestaciones. El modelo está coentrenado en conjuntos de datos web (la fuente de datos más grande), trayectorias de robots y una cantidad modesta de imágenes baratas de recopilar etiquetadas con posibilidades. Este enfoque se beneficia al aprovechar tanto los datos de la trayectoria del robot como amplios conjuntos de datos web, lo que permite que el modelo se generalice bien a través de nuevos objetos, escenas y tareas.
El equipo de investigación llevó a cabo varios experimentos que se centraron principalmente en cómo los dispositivos ayudan a mejorar el agarre robótico, especialmente para los movimientos de artículos del hogar con formas complejas (como teteras, recogedores y ollas). Una evaluación detallada demostró que RT-A sigue siendo sólido en varios fuera de distribución (OOD) escenarios, como objetos novedosos, ángulos de cámara y fondos. El modelo RT-A funcionó mejor que RT-2 y su variante condicionada por objetivos, logrando tasas de éxito de 68%-76% comparado con el RT-2 24%-28%. En tareas más allá de la comprensión, como colocar objetos en contenedores, RT-A mostró un desempeño significativo con un 70% tasa de éxito. Sin embargo, el rendimiento del RT-A disminuyó ligeramente cuando se enfrentó a objetos completamente nuevos.
En conclusión, las políticas basadas en la asequibilidad están bien orientadas y también funcionan mejor. El método RT-Affordance mejora significativamente la solidez y generalización de las políticas de robots, lo que lo convierte en una herramienta valiosa para diversas tareas de manipulación. Aunque no puede adaptarse a momentos o habilidades completamente nuevas, RT-Affordance supera los métodos tradicionales en términos de rendimiento. ¡Esta técnica de rentabilidad abre la puerta a varias oportunidades de investigación futuras en robótica y puede servir como base para futuros estudios!
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[Sponsorship Opportunity with us] Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad
Divyesh es pasante de consultoría en Marktechpost. Está cursando un BTech en Ingeniería Agrícola y Alimentaria en el Instituto Indio de Tecnología de Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el ámbito agrícola y resolver desafíos.