Amazon Investigating Perplexity Security 2p61jf6.jpg

La división de nube de Amazon ha iniciado una investigación sobre Perplexity AI. La cuestión es si el inicio de la búsqueda de IA está violando Servicios web de Amazon reglas al raspar sitios web que intentaron evitar que lo hiciera, según supo WIRED.

Un portavoz de AWS, que habló con WIRED con la condición de no ser identificado, confirmó la investigación de la compañía sobre Perplexity. WIRED había encontrado previamente que la startup, que tiene apoyo del fondo de la familia Jeff Bezos y Nvidia, y recientemente fue valorado con un valor de 3 mil millones de dólares, parece depender de contenido de sitios web eliminados a los que se les había prohibido el acceso a través del Protocolo de exclusión de robots, un estándar web común. Si bien el Protocolo de exclusión de robots no es legalmente vinculante, los términos de servicio generalmente lo son.

El protocolo de exclusión de robots es un estándar web de hace décadas que implica colocar un archivo de texto simple (como wired.com/robots.txt) en un dominio para indicar a qué páginas no deben acceder los robots y rastreadores automatizados. Si bien las empresas que utilizan rastreadores pueden optar por ignorar este protocolo, la mayoría lo ha respetado tradicionalmente. El portavoz de Amazon le dijo a WIRED que los clientes de AWS deben cumplir con el estándar robots.txt al rastrear sitios web.

“Los términos de servicio de AWS prohíben a los clientes utilizar nuestros servicios para cualquier actividad ilegal, y nuestros clientes son responsables de cumplir con nuestros términos y todas las leyes aplicables”, dijo el portavoz en un comunicado.

El escrutinio de las prácticas de Perplexity sigue Un informe del 11 de junio de Forbes que acusó a la startup de robar al menos uno de sus artículos. Las investigaciones de WIRED confirmaron la práctica y encontraron más evidencia de abuso de raspado y plagio por sistemas vinculados al chatbot de búsqueda impulsado por IA de Perplexity. Los ingenieros de Condé Nast, la empresa matriz de WIRED, bloquean el rastreador de Perplexity en todos sus sitios web mediante un archivo robots.txt. Pero WIRED descubrió que la empresa tenía acceso a un servidor que usaba una dirección IP no publicada (44.221.181.252) que visitó propiedades de Condé Nast al menos cientos de veces en los últimos tres meses, aparentemente para rastrear sitios web de Condé Nast.

La máquina asociada con Perplexity parece estar involucrada en un rastreo generalizado de sitios web de noticias que prohíben a los robots acceder a su contenido. Los portavoces de The Guardian, Forbes y The New York Times también dicen que detectaron la dirección IP en sus servidores varias veces.

WIRED rastreó la dirección IP hasta una máquina virtual conocida como instancia de Elastic Compute Cloud (EC2) alojada en AWS, que inició su investigación después de que le preguntamos si el uso de la infraestructura de AWS para eliminar sitios web que lo prohibían violaba los términos de servicio de la empresa.

La semana pasada, el director ejecutivo de Perplexity, Aravind Srinivas, respondió primero a la investigación de WIRED diciendo que las preguntas que le planteamos a la empresa «reflejan un malentendido profundo y fundamental sobre cómo funcionan Perplexity e Internet». Srinivas entonces le dijo a Fast Company que la dirección IP secreta que WIRED observó en los sitios web de Condé Nast y un sitio de prueba que creamos fue operado por una empresa externa que realiza servicios de indexación y rastreo web. Se negó a nombrar la empresa, citando un acuerdo de confidencialidad. Cuando se le preguntó si le diría al tercero que dejara de rastrear WIRED, Srinivas respondió: «Es complicado».