Conozca el agente de página de Alibaba: un agente GUI de JavaScript en la página que controla las interfaces web con lenguaje natural a través del DOM

La mayor parte de la automatización del navegador se ejecuta desde el exterior. El dramaturgo, el titiritero, el selenio y el uso del navegador impulsan un navegador desde un proceso externo. Leen la página a través de capturas de pantalla o el protocolo Chrome DevTools.

El Page Agent de Alibaba toma el camino opuesto. El agente vive dentro de la página web como JavaScript simple. Lee el DOM en vivo como texto y actúa como el usuario real. Sin navegador sin cabeza, sin capturas de pantalla, sin modelo multimodal.

El proyecto es de código abierto bajo la licencia MIT. El código base es TypeScript primero. Se basa en el uso del navegador, del cual se derivan su procesamiento y aviso DOM.

TL;DR

Page Agent se ejecuta dentro de la página como JavaScript y lee el DOM en vivo como texto, no como capturas de pantalla. La deshidratación DOM comprime la página en un FlatDomTree para que los modelos de texto más pequeños puedan actuar con precisión. Es independiente del modelo a través de cualquier punto final compatible con OpenAI y se envía bajo la licencia MIT. La seguridad de nivel rápido y el alcance de una sola página son límites reales; Mantenga la validación del lado del servidor para acciones riesgosas. La mejor opción: copilotos y llenado de formularios dentro de aplicaciones de su propiedad, no en sitios externos o bloqueados.

¿Qué es el agente de página?

Page Agent es una biblioteca del lado del cliente para agregar el comportamiento del agente a una aplicación web. Lo incrustas y luego emites comandos en lenguaje natural. El agente encuentra elementos, hace clic en botones y completa formularios desde la página.

Debido a que se ejecuta en la sesión del navegador, hereda las cookies, la sesión y la autenticación del usuario. No hay un backend separado para escribir. Las reglas de seguridad y validación de la interfaz de usuario existentes permanecen vigentes.

El diseño es independiente del modelo. Trae su propio modelo de lenguaje grande a través de cualquier punto final compatible con OpenAI. Solo se envía texto al modelo, por lo que un modelo de texto sólido es suficiente.

Cómo funciona la deshidratación DOM

La técnica central es lo que el equipo llama deshidratación DOM. Una página moderna puede contener miles de nodos. Enviar HTML sin formato a un modelo sería lento y costoso.

Cuando llega un comando, el agente escanea el modelo de objetos del documento. Identifica cada elemento interactivo, como botones, enlaces y campos de entrada. Cada elemento recibe un índice más un rol y una etiqueta.

El DOM en vivo se convierte en FlatDomTree, un mapa de texto limpio de lo que importa. Se elimina el marcado redundante. El modelo lee esta representación compacta, no píxeles.

La demostración interactiva en esta página refleja este bucle. Observe cómo se actualizan los paneles “DOM deshidratado” y “Seguimiento de acción” a medida que se ejecutan los comandos.

Conozca el agente de página de Alibaba: un agente GUI de JavaScript en la página que controla las interfaces web con lenguaje natural a través del DOM

ByEquipo de 7 minutos

TL;DR

¿Qué es el agente de página?

Cómo funciona la deshidratación DOM

By Equipo de 7 minutos

Related Post

Google DeepMind y A24 lanzan una asociación de investigación

Conozca WebBrain: un agente de navegador de IA local y de código abierto que lee páginas y automatiza tareas en Chrome y Firefox

Interfaze lanza diffusion-gemma-asr-small, un modelo ASR de difusión de código abierto que transcribe seis idiomas a través del decodificador de eliminación de ruido paralelo de DiffusionGemma

You missed

GeoSurge de Londres recauda 10 millones de euros para ayudar a las marcas a comprender los resultados generados por la IA

El tiempo en Mallorca para el sábado 4 de julio

Las madres orangutanes parecen planear citas para jugar con sus crías

El Govern impulsa el catalán en las cárceles: “Hablarlo nos abre puertas”