Zhipu AI presenta ComputerRl: un marco de IA escala el aprendizaje de refuerzo de extremo a extremo para los agentes de uso de la computadora

En el paisaje en rápida evolución de la automatización impulsada por la IA, Zhipu Ai ha introducido CompuTERRLun marco innovador diseñado para capacitar a los agentes con la capacidad de navegar y manipular espacios de trabajo digitales complejos. Esta innovación aborda un desafío central en el desarrollo del agente de IA: la desconexión entre los agentes informáticos y las interfaces gráficas de usuario (GUI) diseñadas por humanos. Al integrar las llamadas de API programáticas con interacciones directas de GUI, CompuTERRL permite operaciones de escritorio más eficientes y versátiles, marcando un paso significativo hacia los agentes autónomos de uso de la computadora.

Fuente de la imagen: https://arxiv.org/abs/2508.14040

El paradigma de API-GUI: unir interacciones humanas y de máquinas

Los agentes de GUI tradicionales a menudo luchan con entornos optimizados para usuarios humanos, lo que lleva a simulaciones ineficientes de acciones como hacer clic o desplazar. Computerrl presenta el paradigma API-GUI, que combina la precisión de las invocaciones API con la flexibilidad de las operaciones basadas en GUI. Este enfoque híbrido permite a los agentes aprovechar las API amigables para las máquinas para las tareas que se benefician del control programático, mientras que recurren a las acciones de la GUI para una adaptabilidad más amplia.

El marco automatiza la construcción de API utilizando modelos de idiomas grandes (LLM). Los usuarios proporcionan tareas de ejemplo, y el sistema analiza los requisitos, implementa API utilizando bibliotecas de Python relevantes y genera casos de prueba. Este proceso garantiza que las API encapsulen las funcionalidades de uso general, reducen la complejidad y mejoren el rendimiento del agente. Por ejemplo, las API para aplicaciones Ubuntu como GIMP y LibreOffice están integradas, lo que permite tareas como el procesamiento de imágenes o el formateo del documento con menos pasos que los métodos de GUI.

Infraestructura escalable para capacitación RL a gran escala

Un gran obstáculo en los agentes de escritorio de capacitación es la ineficiencia de los entornos virtuales. ComputerRl supera esto con una infraestructura de aprendizaje de refuerzo distribuido (RL) basada en Docker y GRPC, lo que respalda miles de máquinas virtuales de Ubuntu paralelas. Esta configuración es compatible con puntos de referencia como AgentBench y aborda problemas en sistemas anteriores, como la intensidad de los recursos y los cuellos de botella de la red.

Las características clave incluyen una implementación de VM ligera a través de QEMU-Incocker, agrupación de nodos múltiples para escalabilidad y una interfaz de monitoreo basada en la web. Junto con el marco AgentRL, permite una capacitación totalmente asíncrona, desacoplando la recopilación de datos de las actualizaciones de parámetros para aumentar la eficiencia. Esta infraestructura permite RL de alto rendimiento, con dimensionamiento de lotes dinámico y mitigación de sesgo fuera de política, facilitando carreras de entrenamiento extendido sin estancamiento.

Fuente de la imagen: https://arxiv.org/abs/2508.14040

Entropulse: Mejora de RL con fases de entrenamiento alternas

Para abordar el colapso de la entropía, un problema común en el que los agentes pierden el comportamiento exploratorio durante la RL prolongada, Computerrl incorpora entropulse. Este método alterna las fases RL con ajuste fino supervisado (SFT) en trayectorias de implementación exitosas, restaurando la entropía y permitiendo ganancias de rendimiento sostenidas.

La tubería de entrenamiento comienza con la clonación de comportamiento (BC) utilizando trayectorias de múltiples LLM para la diversidad. Luego aplica la optimización de políticas relativas del grupo a nivel de paso (GRPO) con recompensas basadas en reglas, asignando puntajes positivos solo para corregir acciones contribuyentes en trayectorias exitosas. Entopulse interviene al curarse diversos datos de alta calidad de despliegue previos para SFT, evitando la convergencia prematura y la escala de los pasos de capacitación efectivos.

Fuente de la imagen: https://arxiv.org/abs/2508.14040

Validación experimental en OSWorld Benchmark

El equipo de investigación aplicó ComputRl a modelos de código abierto como GLM-4-9B-0414 y QWEN2.5-14B, lo que resulta en variantes AutoGLM-OS. En el punto de referencia de OSWorld, que evalúa a los agentes en entornos de Ubuntu interactivos, AutoglM-OS-9B logró una tasa de éxito del 48.1%, superando modelos patentados como el CuA O3 de OpenAI (42.9%) y Claude 4.0 (30.7%). También se destacó en Osworld-verificado, anotando 47.3%.

Los estudios de ablación destacan las fortalezas del marco. El paradigma de API-GUI mejoró las tasas de éxito en un 134% sobre las líneas de base de GUI, particularmente en dominios de oficinas y profesionales. Las ablaciones de capacitación mostraron que BC proporcionó una línea de base del 31.9%, con fases RL que se suman hasta un 45.8% a través de la exploración habilitada por entropulario. Las curvas de entropía confirmaron el papel de Entopulse en el mantenimiento del impulso del aprendizaje.

Los estudios de casos demuestran una eficacia práctica, como la creación de tablas de resumen de ventas en LibreOffice Calc o los informes del sistema de generación a través de comandos terminales. Sin embargo, el análisis de errores reveló desafíos como problemas de percepción visual (25.8% de las fallas) y la coordinación múltiple (34.4%), señalando áreas para el refinamiento.

Fuente de la imagen: https://arxiv.org/abs/2508.14040

Instrucciones futuras en autonomía de escritorio

Mirando hacia el futuro, Computerrl prepara el escenario para agentes más robustos capaces de manejar entornos dinámicos y tareas de larga duración. Los posibles avances incluyen expandir la diversidad de capacitación, integrar la percepción multimodal y desarrollar planificación jerárquica. Las características de seguridad como los marcos de permisos y la validación de la acción serán cruciales para la implementación del mundo real, asegurando la automatización alineada y confiable.

CompuTERRL representa un avance fundamental en los agentes de IA, combinando RL escalable con paradigmas de interacción innovadores para transformar la inteligencia de escritorio. A medida que los modelos abiertos como AutoglM-OS empujan los límites, este marco allana el camino para agentes más capaces de propósito general en la informática cotidiana.


Mira el Documento técnico aquí. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.