Los modelos de lenguaje grande multimodal (MLLM) han demostrado capacidades notables en varios dominios, impulsando su evolución a agentes multimodales para asistencia humana. Los agentes de automatización de GUI para PC se enfrentan a desafíos particularmente desalentadores en comparación con las contrapartes de teléfonos inteligentes. Los entornos de PC presentan elementos interactivos significativamente más complejos con iconos y widgets densos y diversos que a menudo carecen de etiquetas textuales, lo que lleva a dificultades de percepción. Incluso los modelos avanzados como Claude-3.5 alcanzan solo el 24.0% de precisión en las tareas de base de la GUI. Además, las tareas de productividad de la PC implican flujos de trabajo intrincados que abarcan múltiples aplicaciones con largas secuencias de operación y dependencias entre subastas, lo que provoca una disminución de rendimiento dramático donde la tasa de éxito de GPT-4O cae de 41.8% a nivel de subtarea a solo 8% para obtener instrucciones completas.
Los enfoques anteriores han desarrollado marcos para abordar la complejidad de la tarea de PC con estrategias variables. OVNI implementa una arquitectura de doble agente que separa la selección de aplicaciones de interacciones de control específicas. Mientras tanto, los agentes aumentan las capacidades de planificación combinando la búsqueda en línea con la memoria local. Sin embargo, estos métodos demuestran limitaciones significativas en la percepción de grano fino y la operación del texto en pantalla, un requisito crítico para escenarios de productividad como la edición de documentos. Además, generalmente no logran abordar las dependencias complejas entre las subtareas, lo que resulta en un bajo rendimiento al manejar flujos de trabajo intra e inter-aplicación realistas que caracterizan el uso de la PC cotidiano.
Investigadores de Mais, Instituto de Automatización, Academia de Ciencias de China, China, Escuela de Inteligencia Artificial, Universidad de Academia de Ciencias de China, Alibaba Group, Universidad de Beijing Jiaotong y Escuela de Ciencias de la Información y Tecnología de Shanghaitech Introducción Marco de agente de PC Para abordar escenarios complejos de PC a través de tres diseños innovadores. Primero, el Módulo de percepción activa Mejora la interacción de grano fino al extraer ubicaciones y significados de elementos interactivos a través de árboles de accesibilidad, al tiempo que utiliza la comprensión de la intención impulsada por MLLM y la OCR para la localización precisa del texto. Segundo, Colaboración jerárquica de múltiples agentes Implementa un proceso de decisión de tres niveles (instrucción-subtak-acción) cuando un agente de gerente descompone las instrucciones en subtareas parametrizadas y gestiona las dependencias, un agente de progreso rastrea el historial de operaciones y un agente de decisión ejecuta pasos con percepción e información de progreso. Tercero, Toma de decisiones dinámicas basada en la reflexión Introduce un agente de reflexión que evalúa la corrección de la ejecución y proporciona retroalimentación, permitiendo la descomposición de la tarea de arriba hacia abajo con la retroalimentación de precisión de abajo hacia arriba en los cuatro agentes colaboradores.
La arquitectura de PC-Agent aborda la interacción GUI a través de un enfoque formal donde un agente ρ procesa las instrucciones del usuario I, las observaciones O e Historia H para determinar las acciones A. El módulo de percepción activa mejora el reconocimiento de elementos utilizando Pywinauto para extraer árboles de accesibilidad para elementos interactivos mientras emplea la intención de la intención de MLLM con OCR para la localización de textos precisos. Para flujos de trabajo complejos, el agente de PC implementa la colaboración jerárquica de múltiples agentes en tres niveles: el agente del administrador descompone las instrucciones en subtareas parametrizadas y administra dependencias; El agente de progreso rastrea el progreso de la operación dentro de las subtareas; y el agente de decisión ejecuta acciones paso a paso basadas en la percepción ambiental y la información del progreso. Esta división jerárquica reduce efectivamente la complejidad de la toma de decisiones al romper tareas complejas en componentes manejables con interdependencias claras.
Los resultados experimentales demuestran el rendimiento superior del agente de PC en comparación con las alternativas de un solo y múltiples agentes. Los agentes basados en MLLM individuales (GPT-4O, Gemini-2.0, Claude3.5, Qwen2.5-VL) fallan consistentemente en instrucciones complejas, incluso el mejor desempeño alcanzó solo una tasa de éxito del 12%, lo que confirma que los enfoques de un solo agente luchan con secuencias operativas largas y dependencias complejas. Los marcos de múltiples agentes como OVNI y agentes muestran mejoras modestas, pero permanecen limitados por las deficiencias de percepción y los problemas de gestión de dependencias. Luchan con operaciones de grano fino, como la edición de texto en Word o la entrada de datos adecuada en Excel, y a menudo no pueden utilizar información de subtareas anteriores. Por el contrario, el agente de PC supera significativamente todos los métodos anteriores, superando el ovnis en un 44% y los agentes en un 32% en la tasa de éxito a través de su módulo de percepción activa y colaboración jerárquica de múltiples agentes.
Este estudio presenta Marco de agente de PC, Un avance significativo en el manejo de tareas complejas basadas en PC a través de tres innovaciones clave. El módulo de percepción activa proporciona capacidades refinadas de percepción y operación, lo que permite una interacción precisa con elementos GUI y texto. La arquitectura de colaboración jerárquica de múltiples agentes descompone efectivamente la toma de decisiones a través de la instrucción, la subtarea y los niveles de acción, mientras que la toma de decisiones dinámicas basada en la reflexión permite la detección y corrección de errores en tiempo real. La validación a través del nuevo punto de referencia PC-EVAL con instrucciones realistas y complejas confirma el rendimiento superior del agente de PC en comparación con los métodos anteriores, lo que demuestra su efectividad en la navegación de los intrincados flujos de trabajo y los entornos interactivos característicos de los escenarios de productividad de la PC.
Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.