Google está convirtiendo oficialmente Chrome en un campo de juego para agentes de inteligencia artificial. Durante años, los ‘navegadores’ de IA se han basado en un proceso complicado: tomar capturas de pantalla de sitios web, ejecutarlos a través de modelos de visión y adivinar dónde hacer clic. Este método es lento, se rompe fácilmente y consume enormes cantidades de computación.
Google ha introducido una forma mejor: el Protocolo de contexto de modelo web (WebMCP). Anunciado junto con el Programa de vista previa temprana (EPP), este protocolo permite que los sitios web se comuniquen directamente con los modelos de IA. En lugar de que la IA “adivine” cómo usar un sitio, el sitio le dice a la IA exactamente qué herramientas están disponibles.
El fin del screen scraping
Los agentes actuales de IA tratan la web como una imagen. “Miran” la interfaz de usuario e intentan encontrar el botón “Enviar”. Si el botón se mueve 5 píxeles, el agente podría fallar.
WebMCP reemplaza estas conjeturas con datos estructurados. Convierte un sitio web en un conjunto de capacidades. Para los desarrolladores, esto significa que ya no tienen que preocuparse de que una IA rompa su interfaz. Simplemente defines lo que la IA puede hacer y Chrome maneja la comunicación.
Cómo funciona WebMCP: 2 rutas de integración
Los desarrolladores de IA pueden elegir entre dos formas de hacer que un sitio esté “listo para los agentes”.
1. El enfoque declarativo (HTML)
Este es el método más sencillo para los desarrolladores web. Puede exponer las funciones de un sitio web agregando nuevos atributos a su HTML estándar.
Atributos: utilice el nombre de la herramienta y la descripción de la herramienta dentro de sus etiquetas. El beneficio: Chrome lee automáticamente estas etiquetas y crea un esquema para la IA. Si tiene un formulario de ‘Reservar vuelo’, la IA lo ve como una herramienta estructurada con entradas específicas. Manejo de eventos: cuando una IA completa el formulario, activa un SubmitEvent.agentInvoked. Esto le permite a su backend saber que una máquina, no un humano, está realizando la solicitud.
2. El enfoque imperativo (JavaScript)
Para aplicaciones complejas, la API Imperative proporciona un control más profundo. Esto permite flujos de trabajo de varios pasos que un formulario simple no puede manejar.
El método: utilice navigator.modelContext.registerTool(). La lógica: usted define un nombre de herramienta, una descripción y un esquema JSON para las entradas. Ejecución en tiempo real: cuando el agente de IA quiere “Agregar al carrito”, llama a su función JavaScript registrada. Esto sucede dentro de la sesión actual del usuario, lo que significa que la IA no necesita volver a iniciar sesión ni omitir los encabezados de seguridad.
Por qué es importante el programa de vista previa temprana (EPP)
Google no publicará esto para todos a la vez. Están utilizando el Programa de vista previa temprana (EPP) para recopilar datos de los primeros en actuar. Los desarrolladores que se unen al EPP obtienen acceso anticipado a las funciones de Chrome 146.
Esta es una fase crítica para los científicos de datos. Al realizar pruebas en el EPP, puede ver cómo los diferentes modelos de lenguaje grande (LLM) interpretan las descripciones de sus herramientas. Si una descripción es demasiado vaga, el modelo podría alucinar. El EPP permite a los ingenieros ajustar estas descripciones antes de que el protocolo se convierta en un estándar global.
Rendimiento y eficiencia
El cambio técnico aquí es enorme. Pasar de la navegación basada en visión a la interacción basada en WebMCP ofrece 3 mejoras clave:
Menor latencia: ya no tendrá que esperar a que las capturas de pantalla se carguen y sean procesadas por un modelo de visión. Mayor precisión: los modelos interactúan con datos JSON estructurados, lo que reduce los errores a casi el 0%. Costos reducidos: enviar esquemas basados en texto es mucho más económico que enviar imágenes de alta resolución a un LLM.
La pila técnica: navigator.modelContext
Para los desarrolladores de IA, el aspecto central de esta actualización reside en el nuevo objeto modelContext. Aquí está el desglose de los 4 métodos principales:
La seguridad es lo primero
Una preocupación común de los ingenieros de software es la seguridad. WebMCP está diseñado como un protocolo de “permiso primero”. El agente de IA no puede ejecutar una herramienta sin que el navegador actúe como mediador. En muchos casos, Chrome le preguntará al usuario “¿Permitir que AI reserve este vuelo?” antes de que se tome la acción final. Esto mantiene al usuario en control y al mismo tiempo permite que el agente haga el trabajo pesado.
Conclusiones clave
Estandarización de la ‘Web agente’: el Protocolo de contexto del modelo web (WebMCP) es un nuevo estándar que permite a los agentes de IA interactuar con sitios web como conjuntos de herramientas estructurados en lugar de simplemente “mirar” píxeles. Esto reemplaza el screen scraping lento y propenso a errores con una comunicación directa y confiable. Rutas de integración dual: los desarrolladores pueden hacer que los sitios estén ‘preparados para la IA’ a través de dos métodos: una API declarativa (usando atributos HTML simples como el nombre de la herramienta en los formularios) o una API imperativa (usando navigator.modelContext.registerTool() de JavaScript para flujos de trabajo complejos de varios pasos). Grandes ganancias de eficiencia: al utilizar esquemas JSON estructurados en lugar de procesamiento basado en visión (capturas de pantalla), WebMCP conduce a una reducción del 67 % en la sobrecarga computacional y eleva la precisión de las tareas a aproximadamente el 98 %. Seguridad y privacidad integradas: el protocolo es “primero el permiso”. El navegador actúa como un proxy seguro y requiere la confirmación del usuario antes de que un agente de IA pueda ejecutar herramientas confidenciales. También incluye métodos como clearContext() para borrar datos de sesiones compartidas. Acceso anticipado a través de EPP: el Programa de vista previa anticipada (EPP) permite a los ingenieros de software y científicos de datos probar estas funciones en Chrome 146.
Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.