Cloudflare vs Perplexity: la batalla sobre el raspado web de AI se calienta

Leer La exposición detallada de Cloudflare y la extensa cobertura de mediosLa controversia que rodea la perplejidad de las prácticas de raspado web de AI es más profunda, y más polarizante, de lo que parece. Cloudflare acusa a la perplejidad de ignorar sistemáticamente los bloques de sitios web y enmascarar su identidad para raspar los datos de los sitios que han optado, planteando serias preguntas sobre ética, transparencia y el futuro del modelo de negocio de Internet.

Lo que observó Cloudflare

El informe de Cloudflare y las investigaciones independientes muestran que la perplejidad, una startup de IA, supuestamente rastrea y reduce el contenido de los sitios web que señalan explícitamente (a través de robots.txt y bloques directos) que las herramientas de IA no son bienvenidas. La evidencia técnica incluye cambiar a los agentes de los usuarios para hacerse pasar por navegadores como Google Chrome en macOS y números de sistema autónomo giratorio (ASNS): tácticas sofisticadas destinadas a evadir la detección y los bloques. Cloudflare afirma que detectó este raspado encubierto en decenas de miles de dominios, generando millones de solicitudes diariamente, y huele con la huella digital del rastreador utilizando el aprendizaje automático y otras señales de red.

Por qué las acusaciones son importantes

Durante décadas, los sitios web han utilizado robots.txt como un “acuerdo de caballeros” para decirle a Bots lo que está permitido. Si bien es ilegal en muy pocas jurisdicciones, la norma entre líderes como OpenAi y Anthrope es respetar estas señales. El supuesto enfoque de Perplexity socava este contrato no escrito, lo que sugiere una voluntad de evitar los deseos de los propietarios de sitios web en busca de datos de capacitación.

Este problema explotó justo cuando Cloudflare lanzó su nuevo mercado de “Pay por Crawl”, que permite a los editores cobrar por el acceso a Bot AI y bloquea la mayoría de los rastreadores por defecto. Los principales puntos de venta, The Atlantic, BuzzFeed, Time Inc. y O’Reilly, se han registrado, y más de 2.5 millones de sitios web ahora no permiten el entrenamiento de IA directamente.

La perplejidad responde

El portavoz de Perplexity desestimó la publicación del blog de Cloudflare como poco más que un “argumento de venta”, alegando que las capturas de pantalla “muestran que no se accedió a contenido” y negaron la propiedad del bot en cuestión. La perplejidad más tarde argumentó que gran parte de lo que Cloudflare vio fue una obtención de la obtención de los usuarios (un agente de IA que actúa en solicitudes directas de usuarios) en lugar de rastrear automatizado, una distinción clave en los debates en curso sobre lo que realmente significa “raspado”. También mencionaron que habían sucedido incidentes similares antes, especialmente acusaciones de plagio de puntos de venta como Wired, y la compañía ha luchado por definir sus propios estándares para el uso de contenido.

Reacciones divididas e implicaciones más amplias

  • La postura de Cloudflare: Proteja los modelos comerciales de los editores, aplique señales de bloque y cobre por el “acceso de IA” al contenido.
  • Defensa de perplejidad: Los agentes web de IA, al actuar para los usuarios, no deben distinguirse de la navegación humana.
  • Debate comunitario: Algunos argumentan en las plataformas sociales que si un usuario solicita un sitio público por perplejidad, es similar a abrirlo en Firefox. Otros contrarrestan que esto perjudica los ingresos y el control de anuncios de los propietarios del sitio sobre sus datos.

El panorama general: el modelo de negocio de Internet está cambiando

  • Monetización de contenido está cambiando rápidamente. Los editores se están moviendo de anuncios a tarifas de acceso, y el raspado se está convirtiendo en un mercado de pago a juego.
  • Transparencia y cumplimiento ya no son opcionales. Las empresas de IA enfrentan crecientes riesgos de reputación y legal si se sorprenden de bloques evadiendo o mal uso de contenido.
  • Asociaciones de datos definirá el futuro. Los principales jugadores de IA están invirtiendo en acuerdos de licencia con editores en lugar de depender del raspado sigiloso.

Conclusión

Ya sea que la perplejidad esté siendo señalada injustamente o genuinamente las normas web, este es un momento decisivo. La era de los “datos gratuitos” para la IA está terminando. La ética, la economía y las nuevas plataformas de guardia como Cloudflare están impulsando un cambio hacia datos pagados, una mayor responsabilidad y asociaciones de contenido sostenible. A menos que las empresas de IA se adapten, enfrentarán puertas cerradas y un Internet fragmentado y paredes de pago, y eso finalmente reinicia la base del mundo digital.


Mira el Detalle técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.