Una debilidad importante de las políticas actuales de manipulación robótica es su incapacidad para generalizar más allá de sus datos de entrenamiento. Si bien estas políticas, entrenadas para habilidades específicas o instrucciones lingüísticas, pueden adaptarse a nuevas condiciones, como diferentes posiciones de objetos o iluminación, a menudo fallan cuando se enfrentan a distractores de escena u objetos nuevos, y necesitan ayuda para seguir instrucciones de tareas invisibles. Por otro lado, los modelos básicos existentes para la visión y el lenguaje, como CLIP, SigLIP y Llama 2, pueden generalizarse mucho mejor. Esta capacidad se obtiene capacitándolos en conjuntos de datos a gran escala de Internet. Sin embargo, los conjuntos de datos de manipulación robótica más grandes contienen solo entre 100.000 y 1 millón de ejemplos, lo que dificulta igualar este nivel de capacitación previa en robótica.
El artículo analiza tres métodos existentes en este campo. El primero son los modelos de lenguaje condicionado visualmente (VLM, por sus siglas en inglés) que se entrenan en enormes conjuntos de datos de Internet para generar lenguaje natural a partir de imágenes e indicaciones, y se utilizan en tareas como respuesta visual a preguntas y localización de objetos. El segundo enfoque, Políticas de robots generalistas, incluye la capacitación de políticas de robots “generalistas” multitarea en conjuntos de datos grandes y diversos que funcionan en diferentes robots. Por ejemplo, Octo puede controlar varios robots y adaptarse fácilmente a nuevas configuraciones. El último son los modelos de visión, lenguaje y acción (VLM), que se utilizan en robótica para tareas como representaciones visuales de estados, detección de objetos y planificación de alto nivel.
Investigadores de la Universidad de Stanford, UC Berkeley, el Instituto de Investigación Toyota, Google Deepmind y el MIT han propuesto OpenVLA, un VLA de código abierto de 7B parámetros que configura un nuevo robot de última generación para políticas de manipulación. OpenVLA consta de un modelo de lenguaje previamente entrenado y condicionado visualmente, que captura detalles visuales en varios niveles. Está ajustado a un conjunto de datos enorme y diverso de 970.000 trayectorias de manipulación de robots del conjunto de datos de Open-X Embodiment. OpenVLA supera al modelo líder anterior, el RT-2-X de 55B de parámetros, en un 16,5% en tasa de éxito absoluto en 29 tareas en las plataformas WidowX y Google Robot.
Los VLA se ajustan eficazmente en 7 tareas de manipulación diferentes, y las políticas de OpenVLA funcionan mejor que las políticas previamente entrenadas y ajustadas como Octo. Para entrenar OpenVLA, la columna vertebral Prismatic-7B VLM está previamente entrenada para predecir las acciones del robot. Esta tarea de predicción se configura como una tarea de “lenguaje de visión”, donde una imagen de observación de entrada y una instrucción de tarea en lenguaje natural se asignan a una secuencia de acciones predichas del robot. Además, cada dimensión de las acciones del robot se divide en uno de los 256 contenedores, y el ancho de cada contenedor se elige para dividir uniformemente el intervalo entre el percentil 1 y el 99 de las acciones en los datos de entrenamiento.
Los investigadores descubrieron que ambas versiones de la política de difusión son tan buenas o superiores a las políticas generalistas Octo y OpenVLA para tareas más simples de una sola instrucción, como «poner zanahoria en un tazón» y «verter maíz en una olla». Sin embargo, para tareas de ajuste más complejas que involucran múltiples objetos y necesitan instrucciones en lenguaje, las políticas generalistas previamente entrenadas funcionan mejor. El entrenamiento previo de OpenX para Octo y OpenVLA ayuda a los modelos a adaptarse mejor a estas diversas tareas donde la comprensión del lenguaje es importante. OpenVLA es el único enfoque que logra al menos una tasa de éxito del 50% en todas las tareas probadas, lo que lo convierte en una opción predeterminada sólida para tareas de aprendizaje por imitación, especialmente aquellas que involucran una variedad de instrucciones de idiomas.
En conclusión, los investigadores han presentado OpenVLA, un modelo de código abierto de última generación para tareas de visión, lenguaje y acción que muestra un sólido rendimiento para controlar diferentes tipos de robots desde el principio. El método introducido se puede adaptar fácilmente a nuevas configuraciones de robots mediante técnicas de ajuste eficiente de parámetros y es el único enfoque que logra al menos una tasa de éxito del 50% en todas las tareas probadas. Sin embargo, tiene varias limitaciones. Por ahora, OpenVLA solo admite observaciones de una sola imagen. Por lo tanto, el trabajo futuro incluye explorar OpenVLA para admitir múltiples imágenes y entradas propioceptivas, así como el historial de observaciones.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 44k+ ML
Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.