Salesforce AI lanzó GTA1: un agente de GUI escalado a tiempo de prueba que supera a la CUA de OpenAI

La investigación de AI de Salesforce ha introducido GTA1un nuevo agente gráfico de interfaz de usuario (GUI) que redefine la interacción de estado humano de última generación. Diseñado para operar de forma autónoma en entornos de sistemas operativos reales como Linux, GTA1 aborda dos cuellos de botella críticos en el desarrollo de agentes GUI: planificación de tareas ambiguas y Inexión inexacta de las acciones. Con una tasa de éxito de la tarea del 45.2% en el Osworld Benchmark, GTA1 supera el CUA (agente de uso informático) de OpenAI, estableciendo un nuevo registro entre los modelos de código abierto.

Desafíos centrales en los agentes de la GUI

Los agentes de la GUI generalmente traducen las instrucciones de usuario de alto nivel en secuencias de acción (clics, pulsaciones de teclas o interacciones de UI) mientras observan actualizaciones de UI después de cada acción para planificar los pasos posteriores. Sin embargo, persisten dos problemas:

  1. Planificación de ambigüedad: Múltiples secuencias de acción válidas pueden cumplir una tarea, lo que lleva a rutas de ejecución con una eficiencia y confiabilidad variables.
  2. Precisión: Traducir las propuestas de acción abstracta a interacciones GUI de nivel de coordenadas precisas es especialmente desafiante en interfaces dinámicas de alta resolución.

GTA1 presenta mecanismos novedosos para resolver ambos.

Planificación más inteligente a través de escalado de tiempo de prueba

Los planificadores tradicionales se comprometen a una sola propuesta de acción en cada punto de decisión, lo que limita la robustez. GTA1 escala de tiempo de prueba Presenta una solución simple pero efectiva: muestree simultáneamente múltiples acciones candidatas en cada paso y emplee un modelo de juez multimodal—Típicamente un modelo de lenguaje grande– Evaluar y seleccionar el más apropiado.

Esta técnica evita el compromiso prematuro con los planes subóptimos y permite al agente explorar mejor las rutas de ejecución sin requerir el despliegue futuro, que es inviable en entornos de GUI debido a acciones irreversibles. Es importante destacar que este método puede funcionar con cualquier planificador y escala bien con el aumento de la complejidad de las tareas y el tamaño del espacio de acción.

Aprendizaje de refuerzo para la precisión de la base

Para la base de la GUI, la mayoría de los modelos anteriores confían en el ajuste fino supervisado para predecir el centro de los elementos de interfaz de usuario objetivo, lo que limita la generalización. GTA1 adopta un marco de aprendizaje de refuerzo (RL) basado en Optimización de políticas relativas del grupo (GRPO). En lugar de depender del razonamiento intermedio (“pensamiento”) o predecir cajas limitadas, el modelo aprende directamente de Recompensas basadas en clics: Se recompensa solo cuando la coordenada predicha se encuentra dentro del elemento de interfaz de usuario correcto.

A través de esta estructura de recompensas, GTA1 logra la precisión de vanguardia sin la complejidad o la sobrecarga de la supervisión de estilo de la cadena de pensamiento. En particular, un estudio de ablación muestra que eliminar señales auxiliares como “pensamiento” o recompensas de caja con sede en IOU en realidad mejora el rendimiento de la base, particularmente en entornos estáticos.

Rendimiento a través de puntos de referencia

GTA1 establece un nuevo estándar en varias evaluaciones:

  • Osworld (tasa de éxito de tareas): Gta1-7b llega 45.2%superando a OpenAi CUA (42.9%) y Claude 3.7 (28.0%).
  • ScreensPot-Pro (precisión de la base): Puntajes GTA1-7B 50.1%por delante de modelos como UGART-72B (34.5%).
  • ScreensPot-V2 (conexión a tierra de plataforma cruzada): GTA1-72B Hits 94.8%casi coincidiendo con los principales modelos patentados.
  • OSWORLD-G (Linux GUI COLDERING): Gta1-7b llega 67.7%superando todos los enfoques de código abierto anteriores.

Estos resultados validan la efectividad de las innovaciones de planificación y base introducidas en GTA1.

Destacados de diseño adicionales

  • Limpieza de datos: Las anotaciones desalineadas de conjuntos de datos como ARIA-UI y OS-ATLAS se filtran utilizando Omniparser para mejorar la fidelidad de la señal de entrenamiento.
  • Escala de modelos: El enfoque escala bien en modelos de 7B a 72B de parámetros, con GTA1-7B que ofrece la mejor compensación entre rendimiento y cómputo.
  • Juzgar la reutilización: El juez multimodal utilizado en la escala de tiempo de prueba puede ser el mismo LLM utilizado para planificar, reduciendo la sobrecarga.

Conclusión

GTA1 demuestra que se pueden construir agentes de GUI robustos y precisos utilizando un marco modular de dos etapas mejorado por la diversidad de planificación de tiempo de prueba y una base precisa basada en RL. Al renunciar a la complejidad innecesaria, como el razonamiento de la cadena de pensamiento en las tareas estáticas, Salesforce AI ha introducido una arquitectura de agente delgada y efectiva que empuja a la frontera en la interacción digital abierta.


Mira el Papel, Codos, Modelo 7b, Modelo 32B y Modelo 72B. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo, YouTube y Spotify Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.