La mayor parte de la automatización del navegador se ejecuta desde el exterior. El dramaturgo, el titiritero, el selenio y el uso del navegador impulsan un navegador desde un proceso externo. Leen la página a través de capturas de pantalla o el protocolo Chrome DevTools.
El Page Agent de Alibaba toma el camino opuesto. El agente vive dentro de la página web como JavaScript simple. Lee el DOM en vivo como texto y actúa como el usuario real. Sin navegador sin cabeza, sin capturas de pantalla, sin modelo multimodal.
El proyecto es de código abierto bajo la licencia MIT. El código base es TypeScript primero. Se basa en el uso del navegador, del cual se derivan su procesamiento y aviso DOM.
TL;DR
Page Agent se ejecuta dentro de la página como JavaScript y lee el DOM en vivo como texto, no como capturas de pantalla. La deshidratación DOM comprime la página en un FlatDomTree para que los modelos de texto más pequeños puedan actuar con precisión. Es independiente del modelo a través de cualquier punto final compatible con OpenAI y se envía bajo la licencia MIT. La seguridad de nivel rápido y el alcance de una sola página son límites reales; Mantenga la validación del lado del servidor para acciones riesgosas. La mejor opción: copilotos y llenado de formularios dentro de aplicaciones de su propiedad, no en sitios externos o bloqueados.
¿Qué es el agente de página?
Page Agent es una biblioteca del lado del cliente para agregar el comportamiento del agente a una aplicación web. Lo incrustas y luego emites comandos en lenguaje natural. El agente encuentra elementos, hace clic en botones y completa formularios desde la página.
Debido a que se ejecuta en la sesión del navegador, hereda las cookies, la sesión y la autenticación del usuario. No hay un backend separado para escribir. Las reglas de seguridad y validación de la interfaz de usuario existentes permanecen vigentes.
El diseño es independiente del modelo. Trae su propio modelo de lenguaje grande a través de cualquier punto final compatible con OpenAI. Solo se envía texto al modelo, por lo que un modelo de texto sólido es suficiente.
Cómo funciona la deshidratación DOM
La técnica central es lo que el equipo llama deshidratación DOM. Una página moderna puede contener miles de nodos. Enviar HTML sin formato a un modelo sería lento y costoso.
Cuando llega un comando, el agente escanea el modelo de objetos del documento. Identifica cada elemento interactivo, como botones, enlaces y campos de entrada. Cada elemento recibe un índice más un rol y una etiqueta.
El DOM en vivo se convierte en FlatDomTree, un mapa de texto limpio de lo que importa. Se elimina el marcado redundante. El modelo lee esta representación compacta, no píxeles.
La demostración interactiva en esta página refleja este bucle. Observe cómo se actualizan los paneles “DOM deshidratado” y “Seguimiento de acción” a medida que se ejecutan los comandos.