Agente de Google frente a robot de Google: Google define el límite técnico entre el acceso mediante IA activado por el usuario y los sistemas de rastreo de búsqueda actuales

A medida que Google integra capacidades de inteligencia artificial en su conjunto de productos, ha surgido una nueva entidad técnica en los registros del servidor: Google-Agent. Para los desarrolladores de software, comprender esta entidad es fundamental para distinguir entre indexadores automatizados y solicitudes iniciadas por el usuario en tiempo real.

A diferencia de los rastreadores autónomos que han definido la web durante décadas, Google-Agent opera bajo un conjunto diferente de reglas y protocolos.

La distinción central: buscadores versus rastreadores

La diferencia técnica fundamental entre los bots heredados de Google y el Agente de Google radica en el mecanismo de activación.

Rastreadores autónomos (por ejemplo, Googlebot): descubren e indexan páginas según un cronograma determinado por los algoritmos de Google para mantener el índice de búsqueda. Recuperadores activados por el usuario (por ejemplo, Google-Agent): estas herramientas solo actúan cuando un usuario realiza una acción específica. Según la documentación para desarrolladores de Google, los productos de inteligencia artificial de Google utilizan Google-Agent para recuperar contenido de la web en respuesta a una solicitud directa del usuario.

Debido a que estos buscadores son reactivos en lugar de proactivos, no “rastrean” la web siguiendo enlaces para descubrir contenido nuevo. En cambio, actúan como un proxy para el usuario, recuperando URL específicas según lo solicite.

La excepción Robots.txt

Uno de los matices técnicos más importantes de Google-Agent es su relación con robots.txt. Mientras que los rastreadores autónomos como Googlebot se adhieren estrictamente a las directivas de robots.txt para determinar qué partes de un sitio indexar, los buscadores activados por el usuario generalmente operan bajo un protocolo diferente.

La documentación de Google establece explícitamente que los buscadores activados por el usuario ignoran el archivo robots.txt.

La lógica detrás de esta derivación tiene sus raíces en la naturaleza “proxy” del agente. Debido a que la búsqueda la inicia un usuario humano que solicita interactuar con un contenido específico, el buscador se comporta más como un navegador web estándar que como un rastreador de búsqueda. Si el propietario de un sitio bloquea el Agente de Google a través de robots.txt, la instrucción normalmente se ignorará porque la solicitud se considera una acción manual en nombre del usuario en lugar de un esfuerzo automatizado de recopilación masiva.

Cadenas de identificación y usuario-agente

Los desarrolladores deben poder identificar con precisión este tráfico para evitar que se marque como scraping malicioso o no autorizado. Google-Agent se identifica a través de cadenas de User-Agent específicas.

La cadena principal para este buscador es:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/WXYZ Mobile Safari/537.36 (compatible; Google-Agent)

En algunos casos, se utiliza el token simplificado Google-Agent.

Por razones de seguridad y monitoreo, es importante tener en cuenta que debido a que son activados por el usuario, es posible que no se originen a partir de los mismos bloques de IP predecibles que los principales rastreadores de búsqueda de Google. Google recomienda utilizar sus rangos de IP JSON publicados para verificar que las solicitudes que aparecen en este agente de usuario sean legítimas.

Por qué la distinción es importante para los desarrolladores

Para los ingenieros de software que gestionan la infraestructura web, el auge de Google-Agent cambia el enfoque de los ‘presupuestos de rastreo’ centrados en SEO a la gestión de solicitudes en tiempo real.

Observabilidad: el análisis de registros moderno debe tratar a Google-Agent como una solicitud legítima impulsada por el usuario. Si su WAF (Web Application Firewall) o su software de limitación de velocidad trata a todos los ‘bots’ por igual, puede bloquear sin darse cuenta a los usuarios para que no utilicen las herramientas de inteligencia artificial de Google para interactuar con su sitio. Privacidad y acceso: dado que robots.txt no rige el Agente de Google, los desarrolladores no pueden confiar en él para ocultar datos confidenciales o no públicos de los buscadores de IA. El control de acceso para estos buscadores debe manejarse mediante autenticación estándar o permisos del lado del servidor, tal como lo sería para un visitante humano. Carga de infraestructura: debido a que estas solicitudes son “ráfagas” y están vinculadas al uso humano, el volumen de tráfico de Google-Agent aumentará con la popularidad de su contenido entre los usuarios de IA, en lugar de con la frecuencia de los ciclos de indexación de Google.

Conclusión

Google-Agent representa un cambio en la forma en que Google interactúa con la web. Al pasar del rastreo autónomo a la búsqueda activada por el usuario, Google está creando un vínculo más directo entre la intención del usuario y el contenido web en vivo. La conclusión es clara: los protocolos del pasado (específicamente robots.txt) ya no son la herramienta principal para gestionar las interacciones de la IA. La identificación precisa a través de cadenas de User-Agent y una comprensión clara de la designación “activada por el usuario” son los nuevos requisitos para mantener una presencia web moderna.

Consulte los documentos de Google aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.