Microsoft AI presenta Magentic-UI: un prototipo de agente de código abierto que funciona con personas para completar tareas complejas que requieren planificación de varios pasos y uso de navegadores

El uso moderno de la web abarca muchas interacciones digitales, desde completar formularios y administrar cuentas hasta ejecutar consultas de datos y navegar por paneles complejos. A pesar de que la red está profundamente entrelazada con la productividad y los procesos de trabajo, muchas de estas acciones aún exigen aportes humanos repetitivos. Este escenario es especialmente cierto para entornos que requieren instrucciones o decisiones detalladas más allá de las simples búsquedas. Si bien han surgido agentes de inteligencia artificial para apoyar la automatización de tareas, muchos priorizan la autonomía completa. Sin embargo, esto frecuentemente deja el control del usuario, lo que lleva a resultados que divergen de las expectativas del usuario. El siguiente salto adelante en la IA que mejora la productividad involucra a los agentes diseñados para no reemplazar a los usuarios, sino a colaborar con ellos, combinando la automatización con información humana continua y en tiempo real para obtener resultados más precisos y confiables.

Un desafío clave en la implementación de agentes de IA para tareas basadas en la web es la falta de visibilidad e intervención. Los usuarios a menudo no pueden ver qué pasos está planeando el agente, cómo tiene la intención de ejecutarlos o cuándo puede salir de la pista. En escenarios que involucran decisiones complejas, como ingresar información de pago, interpretar contenido dinámico o ejecutar scripts, los usuarios necesitan mecanismos para intervenir y redirigir el proceso. Sin estas capacidades, los sistemas corren el riesgo de cometer errores irreversibles o desalinearse con los objetivos del usuario. Esto resalta una limitación significativa en la automatización actual de la IA: la ausencia de diseño estructurado de humanos en el circuito, donde los usuarios guían y supervisan dinámicamente el comportamiento del agente, sin actuar simplemente como espectadores.

Las soluciones anteriores se acercaron a la automatización web a través de scripts basados ​​en reglas o agentes de IA de propósito general impulsados ​​por modelos de idiomas. Estos sistemas interpretan los comandos de los usuarios e intentan llevarlos a cabo de forma autónoma. Sin embargo, a menudo ejecutan planes sin surgir decisiones intermedias o permitir comentarios significativos de los usuarios. Algunas ofrecen interacciones similares a la línea de comandos, que son inaccesibles para el usuario promedio y rara vez incluyen mecanismos de seguridad en capas. Además, el soporte mínimo para la reutilización de tareas o el aprendizaje de rendimiento a través de las sesiones limita el valor a largo plazo. Estos sistemas también tienden a carecer de adaptabilidad cuando el contexto cambia a la mitad de la tarea o los errores deben corregirse en colaboración.

Investigadores de Microsoft introdujeron Magentic-uiun prototipo de código abierto que enfatiza la interacción colaborativa de Human-AI para tareas basadas en la web. A diferencia de los sistemas anteriores con el objetivo de la independencia completa, esta herramienta promueve la planificación conjunta en tiempo real, el intercambio de ejecuciones y la supervisión del usuario paso a paso. Magentic-UI se basa en el marco de autógeno de Microsoft y está estrechamente integrado con Azure AI Foundry Labs. Es una evolución directa del sistema Magentic-One introducido anteriormente. Con su lanzamiento, Microsoft Research tiene como objetivo abordar preguntas fundamentales sobre la supervisión humana, los mecanismos de seguridad y el aprendizaje en los sistemas de agente al ofrecer una plataforma experimental para investigadores y desarrolladores.

Magentic-UI incluye cuatro características interactivas centrales: co-planificación, co-tareas, guardias de acción y aprendizaje del plan. La planificación conjunta permite a los usuarios ver y ajustar los pasos propuestos del agente antes de que comience la ejecución, ofreciendo un control total sobre lo que hará la IA. La co-tasa permite la visibilidad en tiempo real durante la operación, permitiendo que los usuarios pausen, editen o se hagan cargo de acciones específicas. Los guardias de acción son confirmaciones personalizables para actividades de alto riesgo como las pestañas de cierre del navegador o hacer clic en “enviar” en un formulario, acciones que podrían tener consecuencias no deseadas. El aprendizaje del plan permite que Magentic-UI recuerde y refinar los pasos para futuras tareas, mejorando con el tiempo a través de la experiencia. Estas capacidades son compatibles con un equipo modular de agentes: el Orchestrator lidera la planificación y la toma de decisiones, WebSurfer maneja las interacciones del navegador, Coder ejecuta código en una caja de arena y los archivos y datos de Interpretación de Sandrurfer.

Técnicamente, cuando un usuario envía una solicitud, el agente de Orchestrator genera un plan paso a paso. Los usuarios pueden modificarlo a través de una interfaz gráfica editando, eliminando o regenerando pasos. Una vez finalizado, el plan se delega entre agentes especializados. Cada agente informa después de realizar su tarea, y el orquestador determina si proceder, repetir o solicitar comentarios de los usuarios. Todas las acciones son visibles en la interfaz, y los usuarios pueden detener la ejecución en cualquier momento. Esta arquitectura no solo garantiza la transparencia, sino que también permite flujos de tareas adaptativos. Por ejemplo, si un paso falla debido a un enlace roto, el orquestador puede ajustar dinámicamente el plan con el consentimiento del usuario.

En evaluaciones controladas utilizando el punto de referencia GAIA, que incluye tareas complejas como navegar por la web e interpretar documentos, el rendimiento de Magentic-UI se probó rigurosamente. GAIA consta de 162 tareas que requieren comprensión multimodal. Cuando operaba de forma autónoma, Magentic-UI completó el 30.3% de las tareas con éxito. Sin embargo, cuando es compatible con un usuario simulado con acceso a información de tareas adicional, el éxito aumentó a 51.9%, una mejora del 71%. Otra configuración utilizando un usuario simulado más inteligente mejoró la tasa al 42.6%. Curiosamente, Magentic-UI solicitó ayuda en solo el 10% de las tareas mejoradas y solicitó respuestas finales en el 18%. En esos casos, el sistema solicitó ayuda un promedio de solo 1.1 veces. Esto muestra cómo la intervención humana mínima pero bien útil aumenta significativamente la finalización de la tarea sin altos costos de supervisión.

Magentic-UI también presenta una galería de “planes guardados” que muestra estrategias reutilizadas de tareas pasadas. La recuperación de esta galería es aproximadamente tres veces más rápida que generar un nuevo plan. Un mecanismo predictivo aparece estos planes mientras los usuarios escriben, racionalizando tareas repetidas como búsquedas de vuelo o envíos de formulario. Los mecanismos de seguridad son robustos. Cada navegador o acción de código se ejecuta dentro de un contenedor Docker, asegurando que no se expusen las credenciales de usuario. Los usuarios pueden definir las listas de permisos para el acceso al sitio, y cada acción se puede cerrar detrás de las indicaciones de aprobación. Una evaluación del equipo rojo lo probó contra ataques de phishing e inyecciones rápidas, donde el sistema buscó la aclaración del usuario o la ejecución bloqueada, reforzando su modelo de defensa en capas.

Varias conclusiones clave de la investigación sobre Magentic-UI:

  • Con un aporte humano simple, Magentic-UI aumenta la finalización de la tarea en un 71% (de 30.3% a 51.9%).
  • Solicitud de ayuda del usuario en solo el 10% de las tareas mejoradas y promedios de 1.1 solicitudes de ayuda por tarea.
  • Cuenta con una interfaz de usuario de planificación conjunta que permite el control completo del usuario antes de la ejecución.
  • Ejecuta tareas a través de cuatro agentes modulares: Orchestrator, WebSurfer, Coder y Filesurfer.
  • Almacena y reutiliza los planes, reduciendo la latencia de la tarea repetida en hasta 3x.
  • Todas las acciones son sandboxed a través de contenedores Docker; No hay credenciales de usuario alguna vez expuestas.
  • Pasó las evaluaciones del equipo rojo contra las amenazas de phishing e inyección.
  • Admite “guardias de acción” totalmente configurables por el usuario para pasos de alto riesgo.
  • Totalmente de código abierto e integrado con Azure AI Foundry Labs.

En conclusión, Magentic-UI aborda un problema de larga data en la automatización de IA, la falta de transparencia y capacidad de control. En lugar de reemplazar a los usuarios, les permite permanecer centrales para el proceso. El sistema funciona bien incluso con una ayuda mínima y aprende a mejorar cada vez. El diseño modular, las salvaguardas robustas y el modelo de interacción detallado crean una base sólida para futuros asistentes inteligentes.


Mira el Detalle técnico y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.