Conozca Android Agent Arena (A3): un sistema de evaluación en línea completo y autónomo para agentes GUI

El desarrollo de grandes modelos de lenguaje (LLM) ha avanzado significativamente la inteligencia artificial (IA) en varios campos. Entre estos avances, los agentes GUI móviles (diseñados para realizar tareas de forma autónoma en teléfonos inteligentes) muestran un potencial considerable. Sin embargo, evaluar estos agentes plantea desafíos notables. Los conjuntos de datos y los puntos de referencia actuales a menudo se basan en evaluaciones de marcos estáticos, que proporcionan instantáneas de las interfaces de las aplicaciones para que los agentes predigan la siguiente acción. Este método no logra simular la naturaleza dinámica e interactiva de las tareas móviles del mundo real, creando una brecha entre las capacidades probadas y el rendimiento real. Además, las plataformas existentes tienden a restringir la diversidad de aplicaciones, la complejidad de las tareas y la interacción en tiempo real, lo que subraya la necesidad de un marco de evaluación más completo.

En respuesta a estos desafíos, investigadores de CUHK, vivo AI Lab y la Universidad Jiao Tong de Shanghai han presentado Android Agent Arena (A3), una plataforma diseñada para mejorar la evaluación de agentes GUI móviles. A3 proporciona un entorno de evaluación dinámico con tareas que reflejan escenarios del mundo real. La plataforma integra 21 aplicaciones de terceros de uso común e incluye 201 tareas que van desde recuperar información en línea hasta completar operaciones de varios pasos. Además, A3 incorpora un sistema de evaluación automatizado que aprovecha los LLM de nivel empresarial, lo que reduce la necesidad de intervención manual y experiencia en codificación. Este enfoque tiene como objetivo cerrar la brecha entre el desarrollo impulsado por la investigación y las aplicaciones prácticas para agentes móviles.

Características clave y ventajas del A3

A3 se basa en el marco de Appium, lo que facilita una interacción perfecta entre los agentes GUI y los dispositivos Android. Apoya un amplio espacio de acción, garantizando la compatibilidad con agentes capacitados en diversos conjuntos de datos. Las tareas se clasifican en tres tipos (tareas operativas, consultas de un solo cuadro y consultas de varios cuadros) y se dividen en tres niveles de dificultad. Esta variedad permite una evaluación exhaustiva de las capacidades de un agente, desde la navegación básica hasta la toma de decisiones complejas.

El mecanismo de evaluación de la plataforma incluye funciones específicas de tareas y un proceso de evaluación LLM a nivel empresarial. Las funciones específicas de tareas utilizan criterios predefinidos para medir el desempeño, mientras que el proceso de evaluación LLM emplea modelos como GPT-4o y Gemini para una evaluación autónoma. Esta combinación garantiza evaluaciones precisas y escalabilidad para un número creciente de tareas.

Perspectivas de las pruebas iniciales

Los investigadores probaron varios agentes en A3, incluidos modelos optimizados y LLM de nivel empresarial, y arrojaron los siguientes conocimientos:

Desafíos en las evaluaciones dinámicas: Si bien los agentes obtuvieron buenos resultados en las evaluaciones estáticas, enfrentaron dificultades en el entorno dinámico de A3. Por ejemplo, las tareas que requerían consultas de varios fotogramas a menudo daban como resultado bajas tasas de éxito, lo que destaca los desafíos de los escenarios del mundo real.
Papel de los LLM en la evaluación: La evaluación basada en LLM logró entre un 80% y un 84% de precisión, y la validación cruzada redujo significativamente los errores. Sin embargo, en ocasiones, las tareas complejas requerían supervisión humana para garantizar la precisión.
Errores comunes: Los errores observados incluyeron coordenadas de clic incorrectas, acciones redundantes y dificultades de autocorrección. Estas cuestiones subrayan la necesidad de agentes capaces de aprender de forma adaptativa y comprender el contexto.

Conclusión

Android Agent Arena (A3) ofrece un marco valioso para evaluar agentes GUI móviles. Al proporcionar un conjunto diverso de tareas, un amplio espacio de acción y sistemas de evaluación automatizados, A3 aborda muchas limitaciones de los puntos de referencia existentes. La plataforma representa un paso adelante en la alineación de los avances de la investigación con aplicaciones prácticas, permitiendo el desarrollo de agentes de IA más capaces y confiables. A medida que la IA continúa evolucionando, A3 establece una base sólida para futuras innovaciones en la evaluación de agentes móviles.

Verificar el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluación–Únase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🧵🧵 Síguenos en X (Twitter) para recibir actualizaciones periódicas de investigación y desarrollo de IA aquí…

Conozca Android Agent Arena (A3): un sistema de evaluación en línea completo y autónomo para agentes GUI

ByEquipo de 7 minutos

Características clave y ventajas del A3

Perspectivas de las pruebas iniciales

Conclusión

By Equipo de 7 minutos

Related Post

Sakana AI presenta KAME: una arquitectura de voz a voz en tándem que inyecta conocimientos de LLM en tiempo real

Mistral AI lanza agentes remotos en Vibe y Mistral Medium 3.5 con una puntuación verificada por SWE-Bench del 77,6%

Cree un flujo de trabajo de IA con múltiples agentes para modelado de redes biológicas, interacciones de proteínas, metabolismo y simulación de señalización celular

You missed

El ‘espectacular’ descubrimiento de un tesoro de monedas vikingas es probablemente el más grande de la historia

Alicante da la bienvenida a lo extraordinario con la llegada de Kurios del Cirque du Soleil este verano – The Leader

Blog de chismes deportivos n.° 1 en el mundo

Veredicto del New Scientist Book Club sobre Marte Rojo por Kim Stanley Robinson: Mayormente genial, con algunas objeciones