Screenshot 2024 09 15 At 7.47.38 Am.png

La inteligencia artificial (IA) ha avanzado en el desarrollo de agentes capaces de ejecutar tareas complejas en plataformas digitales. Estos agentes, a menudo impulsados ​​por grandes modelos de lenguaje (LLM), tienen el potencial de mejorar drásticamente la productividad humana al automatizar tareas dentro de los sistemas operativos. Los agentes de IA que pueden percibir, planificar y actuar dentro de entornos como el sistema operativo (OS) Windows ofrecen un inmenso valor a medida que las tareas personales y profesionales se trasladan cada vez más al ámbito digital. La capacidad de estos agentes para interactuar en una variedad de aplicaciones e interfaces significa que pueden manejar tareas que normalmente requieren supervisión humana, con el objetivo final de hacer que la interacción entre humanos y computadoras sea más eficiente.

Un problema importante en el desarrollo de estos agentes es evaluar con precisión su rendimiento en entornos que reflejen las condiciones del mundo real. Si bien son eficaces en dominios específicos como la navegación web o las tareas basadas en texto, la mayoría de los puntos de referencia existentes no logran capturar la complejidad y diversidad de tareas que los usuarios reales enfrentan a diario en plataformas como Windows. Estos puntos de referencia se centran en tipos limitados de interacciones o sufren tiempos de procesamiento lentos, lo que los hace inadecuados para evaluaciones a gran escala. Para superar esta brecha, existe la necesidad de herramientas que puedan probar las capacidades de los agentes en tareas más dinámicas de varios pasos en diversos dominios de una manera altamente escalable. Además, las herramientas actuales no pueden paralelizar tareas de manera eficiente, lo que hace que las evaluaciones completas tomen días en lugar de minutos.

Se han desarrollado varios puntos de referencia para evaluar a los agentes de IA, incluido OSWorld, que se centra principalmente en tareas basadas en Linux. Si bien estas plataformas brindan información útil sobre el rendimiento de los agentes, no se adaptan bien a entornos multimodales como Windows. Otros marcos, como WebLinx y Mind2Web, evalúan las capacidades de los agentes en entornos basados ​​en la web, pero necesitan más profundidad para probar de manera integral el comportamiento de los agentes en flujos de trabajo más complejos basados ​​en sistemas operativos. Estas limitaciones resaltan la necesidad de un punto de referencia que capture el alcance completo de la interacción entre humanos y computadoras en un sistema operativo ampliamente utilizado como Windows, al mismo tiempo que garantiza una evaluación rápida a través de la paralelización basada en la nube.

Investigadores de Microsoft, la Universidad Carnegie Mellon y la Universidad de Columbia presentaron el Agente de Windows Arenaun punto de referencia completo y reproducible diseñado específicamente para evaluar agentes de IA en un entorno de sistema operativo Windows. Esta innovadora herramienta permite que los agentes operen dentro de un sistema operativo Windows real, interactuando con aplicaciones, herramientas y navegadores web, replicando las tareas que los usuarios humanos realizan comúnmente. Al aprovechar la infraestructura de nube escalable de Azure, la plataforma puede paralelizar las evaluaciones, lo que permite una ejecución completa del punto de referencia en solo 20 minutos, en contraste con las evaluaciones de varios días que eran típicas de los métodos anteriores. Esta paralelización aumenta la velocidad de las evaluaciones y garantiza un comportamiento más realista de los agentes al permitirles interactuar con varias herramientas y entornos simultáneamente.

El conjunto de pruebas comparativas incluye más de 154 tareas diversas que abarcan múltiples dominios, como la edición de documentos, la navegación web, la gestión del sistema, la codificación y el consumo de medios. Estas tareas están cuidadosamente diseñadas para reflejar los flujos de trabajo cotidianos de Windows, con agentes necesarios para realizar tareas de varios pasos, como crear accesos directos a documentos, navegar por sistemas de archivos y personalizar configuraciones en aplicaciones complejas como VSCode y LibreOffice Calc. WindowsAgentArena también presenta un nuevo criterio de evaluación que recompensa a los agentes en función de la finalización de tareas en lugar de simplemente seguir demostraciones humanas pregrabadas, lo que permite una ejecución de tareas más flexible y realista. La prueba comparativa se puede integrar sin problemas con los contenedores Docker, lo que proporciona un entorno seguro para las pruebas y permite a los investigadores escalar sus evaluaciones entre múltiples agentes.

Para demostrar la eficacia de WindowsAgentArena, los investigadores desarrollaron un nuevo agente de IA multimodal llamado NavegaciónNavi está diseñado para funcionar de forma autónoma dentro del sistema operativo Windows, utilizando una combinación de estímulos de cadena de pensamiento y percepción multimodal para completar tareas. Los investigadores probaron Navi en el banco de pruebas WindowsAgentArena, donde el agente logró una tasa de éxito del 19,5 %, significativamente inferior a la tasa de éxito del 74,5 % lograda por humanos sin asistencia. Si bien este desempeño resalta los desafíos de los agentes de IA para replicar la eficiencia humana, también subraya el potencial de mejora a medida que estas tecnologías evolucionan. Navi también demostró un sólido desempeño en un banco de pruebas secundario basado en la web, Mind2Web, lo que demuestra aún más su adaptabilidad en diferentes entornos.

Los métodos utilizados para mejorar el rendimiento de Navi son dignos de mención. El agente se basa en marcadores visuales y técnicas de análisis de pantalla, como los conjuntos de marcas (SoM), para comprender e interactuar con los aspectos gráficos de la pantalla. Estos SoM permiten al agente identificar con precisión botones, íconos y campos de texto, lo que lo hace más eficaz para completar tareas que implican varios pasos o requieren una navegación detallada en la pantalla. Navi se beneficia del análisis del árbol UIA, un método que extrae elementos visibles del árbol de automatización de la interfaz de usuario de Windows, lo que permite interacciones más precisas con el agente.

En conclusión, WindowsAgentArena es un avance significativo en la evaluación de agentes de IA en entornos de SO del mundo real. Aborda las limitaciones de los puntos de referencia anteriores al ofrecer una plataforma de prueba escalable, reproducible y realista que permite evaluaciones rápidas y paralelizadas de agentes en el ecosistema del SO Windows. Con su diverso conjunto de tareas y métricas de evaluación innovadoras, este punto de referencia ofrece a los investigadores y desarrolladores las herramientas para ampliar los límites del desarrollo de agentes de IA. El rendimiento de Navi, aunque aún no iguala la eficiencia humana, muestra el potencial del punto de referencia para acelerar el progreso en la investigación de agentes multimodales. Sus técnicas de percepción avanzadas, como SoMs y análisis UIA, allanan aún más el camino para agentes de IA más capaces y eficientes en el futuro.


Echa un vistazo a la Papel, Códigoy Página del proyectoTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.