Los modelos de lenguaje grandes (LLM) han demostrado un potencial notable para realizar tareas complejas mediante la creación de agentes inteligentes. A medida que las personas interactúan cada vez más con el mundo digital, estos modelos sirven como interfaces virtuales incorporadas para una amplia gama de actividades diarias. El campo emergente de la automatización de GUI tiene como objetivo desarrollar agentes inteligentes que puedan optimizar significativamente los flujos de trabajo humanos en función de las intenciones del usuario. Este avance tecnológico representa un momento crucial en la interacción persona-computadora, donde modelos de lenguaje sofisticados pueden interpretar y ejecutar tareas digitales complejas con precisión y eficiencia cada vez mayores.
Los primeros intentos de automatización de GUI se centraron en agentes basados en lenguaje que dependían de modelos de lenguaje grande de código cerrado basados en API como GPT-4. Estos enfoques iniciales utilizaron principalmente metadatos ricos en texto, como entradas HTML y árboles de accesibilidad, para realizar la navegación y tareas relacionadas. Sin embargo, esta metodología de solo texto revela limitaciones significativas en las aplicaciones del mundo real, donde los usuarios interactúan predominantemente con las interfaces visualmente a través de capturas de pantalla, a menudo sin acceso a la información estructural subyacente. El desafío fundamental radica en cerrar la brecha entre la percepción computacional y la interacción humana con interfaces gráficas de usuario, lo que requiere un enfoque más matizado para la navegación digital y la ejecución de tareas.
El entrenamiento de modelos multimodales para agentes visuales GUI enfrenta desafíos importantes en múltiples dimensiones del diseño computacional. El modelado visual presenta obstáculos sustanciales, particularmente con capturas de pantalla de la interfaz de usuario de alta resolución que generan largas secuencias de tokens y crean complicaciones de procesamiento de contexto prolongado. La mayoría de los modelos existentes luchan por optimizar eficientemente estos datos de alta resolución, lo que genera considerables ineficiencias computacionales. Además, la complejidad de gestionar interacciones intercaladas de visión, lenguaje y acción añade otra capa de complejidad, con acciones que varían dramáticamente entre diferentes plataformas de dispositivos y requieren técnicas de modelado sofisticadas para interpretar con precisión y ejecutar procesos de navegación de manera efectiva.
Investigadores de Show Lab, la Universidad Nacional de Singapur y Microsoft presentan Mostrar UIun modelo único de visión, lenguaje y acción diseñado para abordar desafíos clave en la automatización de GUI. El modelo incorpora tres técnicas innovadoras: Selección de token visual guiada por la interfaz de usuarioque reduce los costos computacionales al transformar capturas de pantalla en gráficos conectados e identificar de manera inteligente relaciones redundantes; Transmisión entrelazada de visión, lenguaje y acciónque permite una gestión flexible de historiales de acción visual y secuencias de acción de consulta de múltiples turnos; y un enfoque sólido para crear conjuntos de datos de seguimiento de instrucciones GUI de alta calidad y a pequeña escala mediante una curación meticulosa de datos y un remuestreo estratégico para mitigar los desequilibrios de los tipos de datos. Estos avances tienen como objetivo mejorar significativamente la eficiencia y eficacia de los agentes visuales GUI.
La estrategia de selección de tokens visual guiada por la interfaz de usuario aborda los desafíos computacionales inherentes al procesamiento de capturas de pantalla de alta resolución. Al reconocer las diferencias fundamentales entre las imágenes naturales y las interfaces de usuario, el método desarrolla un enfoque innovador para la reducción de tokens. Utilizando el espacio de color RGB, los investigadores construyen un gráfico conectado a la interfaz de usuario que identifica y agrupa parches visualmente redundantes al tiempo que preserva elementos funcionalmente críticos como íconos y texto. La técnica gestiona de forma adaptativa la complejidad de los tokens visuales, demostrando una eficiencia notable al reducir las secuencias de tokens de 1296 a tan solo 291 en áreas dispersas como las páginas de búsqueda de Google, mientras mantiene una representación más granular en entornos ricos en texto como las capturas de pantalla al dorso.
El enfoque de transmisión de visión-lenguaje-acción (VLA) entrelazado aborda desafíos complejos de navegación GUI. Al estructurar acciones en un formato JSON estandarizado, el modelo puede gestionar diversas variaciones de acciones específicas del dispositivo y escenarios de interacción novedosos. El método introduce un marco flexible que permite la predicción de acciones en diferentes plataformas al proporcionar un sistema completo ‘README’ que guía la comprensión del modelo de los espacios de acción. Este enfoque permite la ejecución de acciones dinámicas a través de un mecanismo de llamada de funciones, estandarizando efectivamente las interacciones entre interfaces web y móviles mientras mantiene la capacidad de manejar requisitos únicos específicos del dispositivo.
El enfoque de ajuste de instrucción de GUI selecciona cuidadosamente datos de capacitación de diversas fuentes, abordando desafíos críticos en la recopilación y representación de conjuntos de datos. Al analizar varios conjuntos de datos de GUI, el equipo desarrolló una metodología matizada para la selección y el aumento de datos. Para las interfaces basadas en web, recopilaron capturas de pantalla de 22K, centrándose exclusivamente en elementos visualmente ricos como botones y casillas de verificación, filtrando estratégicamente el texto estático. Para entornos de escritorio, los investigadores emplearon técnicas innovadoras de ingeniería inversa, utilizando GPT-4o para transformar anotaciones originales limitadas en consultas ricas y multidimensionales que abarcan apariencia, relaciones espaciales e intenciones del usuario, expandiendo efectivamente la complejidad y utilidad del conjunto de datos.
La evaluación experimental de ShowUI en diversas tareas de navegación revela información crítica sobre el rendimiento del modelo y sus posibles mejoras. Los experimentos realizados en plataformas móviles como AITW demostraron que la incorporación del historial visual mejora significativamente la precisión de la navegación, y ShowUI logró un Aumento de precisión del 1,7 %. Las capacidades de navegación de disparo cero aprendidas de GUIAct mostraron una transferibilidad prometedora, superando a los métodos que dependen de API de código cerrado o información HTML. En particular, el rendimiento varió entre los diferentes dominios, y las tareas de navegación web presentaron desafíos únicos que resaltaron la importancia de la percepción visual y la diversidad de dominios en los datos de entrenamiento.
ShowUI representa un avance significativo en los modelos de visión, lenguaje y acción para interacciones GUI. Los investigadores desarrollaron soluciones innovadoras para abordar desafíos críticos en el modelado visual de la interfaz de usuario y el procesamiento de acciones. Al introducir la selección de tokens visuales guiada por la interfaz de usuario, el modelo procesa de manera eficiente capturas de pantalla de alta resolución, lo que reduce drásticamente la sobrecarga computacional. El marco Interleaved Vision-Language-Action Streaming permite una gestión sofisticada de interacciones multimodales complejas, lo que permite una navegación más matizada y consciente del contexto. A través de una meticulosa selección de datos y un conjunto de datos de seguimiento de instrucciones de alta calidad, ShowUI demuestra un rendimiento notable, particularmente impresionante dado el tamaño liviano de su modelo. Estos logros señalan un camino prometedor hacia el desarrollo de agentes visuales GUI que puedan interactuar con interfaces digitales de maneras más parecidas a la percepción y la toma de decisiones humanas.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.