Guía Los agentes buscan realizar tareas reales en entornos digitales comprendiendo e interactuando con interfaces gráficas como botones y cuadros de texto. Los mayores desafíos abiertos radican en permitir que los agentes procesen interfaces complejas y evolucionadas, planifiquen acciones efectivas y ejecutar tareas de precisión que incluyen encontrar áreas en clic en hacer clic o llenar cuadros de texto. Estos agentes también necesitan sistemas de memoria para recordar acciones pasadas y adaptarse a nuevos escenarios. Un problema importante que enfrenta modelos modernos y unificados de extremo a extremo es la ausencia de percepción, razonamiento y acción integrados dentro de flujos de trabajo sin problemas con datos de alta calidad que abarcan esta amplitud de visión. Al carecer de tales datos, estos sistemas difícilmente pueden adaptarse a una diversidad de entornos dinámicos y escala.
Enfoques actuales para Guía Los agentes en su mayoría están basados en reglas y dependen en gran medida de reglas predefinidas, marcos y participación humana, que no son flexibles o escalables. Agentes basados en reglas, como Automatización de procesos robóticos (RPA), opere en entornos estructurados utilizando heurísticas definidas por humanos y requieren acceso directo a los sistemas, lo que los hace inadecuados para interfaces dinámicas o restringidas. Los agentes basados en marco utilizan modelos de base como GPT-4 Para el razonamiento de varios pasos, pero aún depende de flujos de trabajo manuales, indicaciones y scripts externos. Estos métodos son frágiles, necesitan actualizaciones constantes para tareas en evolución y carecen de una integración perfecta del aprendizaje de las interacciones del mundo real. Los modelos de agentes nativos intentan reunir la percepción, el razonamiento, la memoria y la acción bajo un mismo techo al reducir la ingeniería humana a través del aprendizaje de extremo a extremo. Aún así, estos modelos se basan en datos curados y orientación de capacitación, lo que limita su adaptabilidad. Los enfoques no permiten que los agentes aprendan de manera autónoma, se adapten de manera eficiente o manejen escenarios impredecibles sin intervención manual.
Para abordar los desafíos enfrentados en Guía Desarrollo de agentes, los investigadores de Semilla de bytey y Universidad de Tsinghuapropuso el Marco de ui-tars para impulsar los modelos de agentes de GUI nativos. Integra una percepción mejorada, modelado de acción unificada, razonamiento avanzado y entrenamiento iterativo, lo que ayuda a reducir la intervención humana con una generalización mejorada. Permite una comprensión detallada con el subtítulos precisos de los elementos de la interfaz utilizando un gran conjunto de datos de capturas de pantalla GUI. Esto introduce un espacio de acción unificado para estandarizar las interacciones de la plataforma y utiliza rastros de acción extensos para mejorar la ejecución de múltiples pasos. El marco también incorpora Sistema-2 El razonamiento para la toma de decisiones deliberadas y el iterativamente refina sus capacidades a través de trazas de interacción en línea.
Los investigadores diseñaron el marco con varios principios clave. Se utilizó una percepción mejorada para garantizar que los elementos de la GUI se reconocan con precisión mediante el uso de conjuntos de datos seleccionados para tareas como la descripción del elemento y el subtítulos densos. El modelado de acción unificada vincula las descripciones de los elementos con coordenadas espaciales para lograr una base precisa. El razonamiento del sistema-2 se integró para incorporar diversos patrones lógicos y procesos de pensamiento explícitos, guiando acciones deliberadas. Utilizó el entrenamiento iterativo para la recopilación de datos dinámicos y el refinamiento de interacción, la identificación de errores y la adaptación a través del ajuste de la reflexión para el aprendizaje robusto y escalable con menos participación humana.
Los investigadores probaron el Teatro de ui entrenado en un corpus de aproximadamente 50b Tokens a lo largo de varios ejes, incluida la percepción, la conexión a tierra y las capacidades de los agentes. El modelo se desarrolló en tres variantes: UI-TARS-2B, UI-TARS-7By Ui-tars-72bjunto con extensos experimentos que validan sus ventajas. En comparación con las líneas de base como GPT-4O y Claude-3.5Los UI-Tars se desempeñaron mejor en los puntos de referencia que miden la percepción, como VisualWebbench y WebSRC. Los Tars de UI superaron a modelos como UGROGN-V1-7B En la base en múltiples conjuntos de datos, demostrando capacidades robustas en escenarios de alta complejidad. Con respecto a las tareas de los agentes, las UI-Tars se destacaron en el control multimodal de Mind2Web y Android y entornos como Osworld y Androidworld. Los resultados resaltaron la importancia de sistema-1 y sistema-2 Razonamiento, con el razonamiento del sistema-2, demostrando que en escenarios diversos del mundo real, aunque requirió múltiples resultados candidatos para un rendimiento óptimo. Escalonar el tamaño del modelo mejoró el razonamiento y la toma de decisiones, particularmente en las tareas en línea.
En conclusión, el método propuesto, Teatro de uiavanza la automatización de la GUI integrando la percepción mejorada, el modelado de acción unificada, el razonamiento del sistema-2 y la capacitación iterativa. Logra un rendimiento de vanguardia, superando los sistemas anteriores como Claude y GPT-4O, y maneja efectivamente tareas complejas de GUI con una supervisión humana mínima. Este trabajo establece una sólida línea de base para futuras investigaciones, particularmente en áreas de aprendizaje activas y de por vida, donde los agentes pueden mejorar de forma autónoma a través de interacciones continuas del mundo real, allanando el camino para avances adicionales en la automatización de la GUI.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.
🚨 [Recommended Read] Nebius AI Studio se expande con modelos de visión, nuevos modelos de idiomas, incrustaciones y Lora (Promocionado)
Divyesh es un pasante de consultoría en MarktechPost. Está buscando un BTech en ingeniería agrícola y alimentaria del Instituto Indio de Tecnología, Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el dominio agrícola y resolver desafíos.