Los investigadores de Microsoft presentan magma: un modelo de IA multimodal que integra la visión, el lenguaje y la acción para la robótica avanzada, la navegación de la interfaz de usuario y la toma de decisiones inteligentes

Los agentes de IA multimodales están diseñados para procesar e integrar varios tipos de datos, como imágenes, texto y videos, para realizar tareas en entornos digitales y físicos. Se utilizan en robótica, asistentes virtuales y automatización de la interfaz de usuario, donde necesitan comprender y actuar en función de las entradas multimodales complejas. Estos sistemas tienen como objetivo unir inteligencia verbal y espacial aprovechando las técnicas de aprendizaje profundo, lo que permite interacciones en múltiples dominios.

Los sistemas de IA a menudo se especializan en la comprensión del idioma de la visión o la manipulación robótica, pero luchan por combinar estas capacidades en un solo modelo. Muchos modelos de IA están diseñados para tareas específicas de dominio, como la navegación de UI en entornos digitales o la manipulación física en robótica, lo que limita su generalización en diferentes aplicaciones. El desafío radica en desarrollar un modelo unificado para comprender y actuar a través de múltiples modalidades, asegurando una toma de decisiones efectiva en entornos estructurados y no estructurados.

Los modelos existentes de acción-lenguaje (VLA) intentan abordar las tareas multimodales que se practican en grandes conjuntos de datos de pares de lenguaje de visión seguidos de datos de trayectoria de acción. Sin embargo, estos modelos generalmente carecen de adaptabilidad en diferentes entornos. Los ejemplos incluyen PIX2ACT y WebGum, que se destacan en la navegación de UI, y OpenVLA y RT-2, que están optimizados para la manipulación robótica. Estos modelos a menudo requieren procesos de entrenamiento separados y no pueden generalizarse en entornos digitales y físicos. Además, los modelos multimodales convencionales luchan por integrar la inteligencia espacial y temporal, lo que limita su capacidad para realizar tareas complejas de forma autónoma.

Investigadores de Microsoft Research, la Universidad de Maryland, la Universidad de Wisconsin-Madison Kaist y la Universidad de Washington. Magmaun modelo de base diseñado para unificar la comprensión multimodal con la ejecución de la acción, lo que permite a los agentes de IA funcionar sin problemas en entornos digitales y físicos. Magma está diseñado para superar las deficiencias de los modelos VLA existentes al incorporar una metodología de capacitación robusta que integra la comprensión multimodal, la base de la acción y la planificación. Magma está entrenado utilizando un conjunto de datos diverso que comprende 39 millones de muestras, incluidas imágenes, videos y trayectorias de acción robótica. Incorpora dos técnicas novedosas,

  1. Conjunto de marcas (SOM): SOM permite que el modelo etiqueta objetos visuales procesables, como botones en entornos de interfaz de usuario
  2. Trace de la marca (TOM): Tom le permite rastrear los movimientos de los objetos a lo largo del tiempo y planificar acciones futuras en consecuencia

Magma emplea una combinación de aprendizaje profundo Arquitecturas y pretrenesa a gran escala para optimizar su rendimiento en múltiples dominios. El modelo utiliza una columna vertebral de visión ConvNext-XXL para procesar imágenes y videos, mientras que un modelo de lenguaje LLAMA-3-8B maneja las entradas textuales. Esta arquitectura permite a Magma integrar la comprensión del idioma de la visión con la ejecución de la acción sin problemas. Está capacitado en un conjunto de datos curado que incluye tareas de navegación de UI de Seeclick y Vision2UI, conjuntos de datos de manipulación robótica de Open-X-Embodiment, y videos instructivos de fuentes como Ego4D, algo v2 V2 y Kitchen Epic-Kitchen. Al aprovechar SOM y Tom, Magma puede aprender efectivamente la base de la base de las capturas de pantalla de la interfaz de usuario y los datos de robótica al tiempo que mejora su capacidad para predecir las acciones futuras basadas en secuencias visuales observadas. Durante el entrenamiento, el modelo procesa hasta 2.7 millones de capturas de pantalla de UI, 970,000 trayectorias robóticas y más de 25 millones de muestras de video para garantizar un aprendizaje multimodal robusto.

En tareas de navegación de interfaz de usuario de cero, Magma logró una precisión de selección de elementos de 57.2%, superiores a modelos como GPT-4V-Omniparser y Seeclick. En las tareas de manipulación robótica, Magma alcanzó una tasa de éxito del 52.3% en las tareas de Google Robot y el 35.4% en las simulaciones de puentes, superando significativamente OpenVLA, que solo logró 31.7% y 15.9% en los mismos puntos de referencia. El modelo también funcionó excepcionalmente bien en las tareas de comprensión multimodal, alcanzando una precisión del 80.0% en VQA V2, 66.5% en TextVQA y 87.4% en evaluaciones del Papa. Magma también demostró fuertes capacidades de razonamiento espacial, obteniendo un 74.8% en el conjunto de datos Blink y el 80.1% en el punto de referencia del razonamiento espacial visual (VSR). En las tareas de respuesta a la pregunta de video, Magma logró una precisión de 88.6% en IntentQA y 72.9% en NextQA, destacando aún más su capacidad para procesar la información temporal de manera efectiva.

Varias conclusiones clave surgen de la investigación sobre magma:

  1. Magma fue entrenado con 39 millones de muestras multimodales, incluidas 2,7 millones de capturas de pantalla de UI, 970,000 trayectorias robóticas y 25 millones de muestras de video.
  2. El modelo combina visión, lenguaje y acción en un marco unificado, superando las limitaciones de los modelos de IA específicos de dominio.
  3. SOM permite un etiquetado preciso de objetos haciendo clic, mientras que Tom permite el seguimiento del movimiento de los objetos con el tiempo, mejorando las capacidades de planificación a largo plazo.
  4. Magma logró una tasa de precisión del 57.2% en la selección de elementos en las tareas de la interfaz de usuario, una tasa de éxito del 52.3% en la manipulación robótica y una tasa de precisión del 80.0% en las tareas de VQA.
  5. Magma superó a los modelos de IA existentes en más del 19.6% en puntos de referencia de razonamiento espacial y mejoró un 28% sobre modelos anteriores en el razonamiento basado en videos.
  6. Magma demostró una generalización superior en múltiples tareas sin requerir un ajuste fino adicional, lo que lo convierte en un agente de IA altamente adaptable.
  7. Las capacidades de Magma pueden mejorar la toma de decisiones y la ejecución en robótica, sistemas autónomos, automatización de la interfaz de usuario, asistentes digitales e IA industrial.

Verificar el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.