Los requisitos de procesamiento de LLM plantean desafíos considerables, particularmente para los usos en tiempo real donde el tiempo de respuesta rápido es vital. Procesar cada pregunta de nuevo es lento e ineficiente, lo que requiere grandes recursos. Los proveedores de servicios de IA superan el bajo rendimiento mediante el uso de un sistema de caché que almacena consultas repetidas para que puedan responder instantáneamente sin esperar, optimizando la eficiencia mientras ahorra latencia. Sin embargo, mientras acelera el tiempo de respuesta, también surgen riesgos de seguridad. Los científicos han estudiado cómo los hábitos de almacenamiento en caché de la API LLM podrían revelar involuntariamente información confidencial. Descubrieron que las consultas de los usuarios y la información del modelo de secreto comercial podrían filtrarse a través de ataques de canales laterales basados ​​en el tiempo basados ​​en políticas de almacenamiento en caché de servicios de IA comerciales.

Uno de los riesgos clave del almacenamiento en caché rápido es su potencial para revelar información sobre consultas de usuarios anteriores. Si las indicaciones en caché se comparten entre múltiples usuarios, un atacante podría determinar si alguien más recientemente envió una solicitud similar basada en las diferencias de tiempo de respuesta. El riesgo se vuelve aún mayor con el almacenamiento en caché global, donde el aviso de un usuario puede conducir a un tiempo de respuesta más rápido para que otro usuario envíe una consulta relacionada. Al analizar las variaciones de tiempo de respuesta, los investigadores demostraron cómo esta vulnerabilidad podría permitir a los atacantes a descubrir datos comerciales confidenciales, información personal y consultas patentadas.

Varios proveedores de servicios de IA almacenan en caché de manera diferente, pero sus políticas de almacenamiento en caché no son necesariamente transparentes para los usuarios. Algunos restringen el almacenamiento en caché a los usuarios individuales para que las indicaciones en caché estén disponibles solo para el individuo que los publicó, por lo que no permite que los datos se compartan entre las cuentas. Otros implementan almacenamiento en caché por organización para que varios usuarios en una empresa u organización puedan compartir indicaciones en caché. Si bien es más eficiente, esto también corre el riesgo de filtrar información confidencial si algunos usuarios poseen privilegios de acceso especiales. Los resultados del riesgo de seguridad más amenazantes del almacenamiento en caché global, en el que todos los servicios de API pueden acceder a las indicaciones en caché. Como resultado, un atacante puede manipular las inconsistencias del tiempo de respuesta para determinar las indicaciones anteriores presentadas. Los investigadores descubrieron que la mayoría de los proveedores de IA no son transparentes con sus políticas de almacenamiento en caché, por lo que los usuarios siguen ignorando las amenazas de seguridad que acompañan a sus consultas.

Para investigar estos problemas, el equipo de investigación de la Universidad de Stanford desarrolló un marco de auditoría capaz de detectar el almacenamiento en caché rápido en diferentes niveles de acceso. Su método implicó enviar secuencias controladas de indicaciones a varias API de IA y medir las variaciones de tiempo de respuesta. Si se almacenara en caché un aviso, el tiempo de respuesta sería notablemente más rápido cuando se vuelve a enviar. Formularon pruebas de hipótesis estadística para confirmar si el almacenamiento en caché estaba ocurriendo y para determinar si el intercambio de caché se extendió más allá de los usuarios individuales. Los investigadores identificaron patrones que indican el almacenamiento en caché al ajustar sistemáticamente las longitudes de inmediato, las similitudes de prefijo y las frecuencias de repetición. El proceso de auditoría implicó probar 17 API comerciales de IA, incluidas las proporcionadas por OpenAi, Anthrope, Deepseek, Fireworks AI y otros. Sus pruebas se centraron en detectar si se implementó el almacenamiento en caché y si se limitó a un solo usuario o se compartió en un grupo más amplio.

El procedimiento de auditoría consistió en dos pruebas principales: una para medir los tiempos de respuesta para los golpes de caché y otro para las fallas de caché. En la prueba de hit de caché, se envió el mismo aviso varias veces para observar si la velocidad de respuesta mejoró después de la primera solicitud. En la prueba de la cache-Miss, se utilizaron indicaciones generadas al azar para establecer una línea de base para los tiempos de respuesta sin dejar de lado. El análisis estadístico de estos tiempos de respuesta proporcionó evidencia clara del almacenamiento en caché en varias API. Los investigadores identificaron el comportamiento de almacenamiento en caché en 8 de 17 proveedores de API. Más críticamente, descubrieron que 7 de estos proveedores compartieron cachés a nivel mundial, lo que significa que cualquier usuario podría inferir los patrones de uso de otro usuario en función de la velocidad de respuesta. Sus hallazgos también revelaron un detalle arquitectónico previamente desconocido sobre el modelo de texto de OpenAI-INMBED-3-SMALS: el comportamiento de almacenamiento en caché de Prompt indicó que sigue una estructura de transformador de decodificadores, una información que no se había revelado públicamente.

La evaluación del desempeño de las indicaciones en caché versus las indicaciones no consultoras resaltaron diferencias sorprendentes en los tiempos de respuesta. Por ejemplo, en la API de texto de 3-pequeña de OpenAI, el tiempo de respuesta promedio para un golpe de caché fue de aproximadamente 0.1 segundos, mientras que los fallas de caché dieron como resultado retrasos de hasta 0.5 segundos. Los investigadores determinaron que las vulnerabilidades de intercambio de caché podrían permitir a los atacantes lograr una precisión casi perfecta para distinguir entre indicaciones en caché y no consultados. Sus pruebas estadísticas produjeron valores p altamente significativos, a menudo por debajo de 10⁻⁸, lo que indica una fuerte probabilidad de comportamiento de almacenamiento en caché. Además, descubrieron que en muchos casos, una sola solicitud repetida era suficiente para activar el almacenamiento en caché, con OpenAi y Azure que requirieron hasta 25 solicitudes consecutivas antes de que el comportamiento de almacenamiento en caché se hiciera evidente. Estos hallazgos sugieren que los proveedores de API podrían usar sistemas de almacenamiento de caché distribuidos donde las indicaciones no se almacenan inmediatamente en todos los servidores, sino que se almacenan en caché después del uso repetido.

Las conclusiones clave de la investigación incluyen lo siguiente:

  1. El almacenamiento de almacenamiento rápido acelera las respuestas al almacenar consultas previamente procesadas, pero puede exponer información confidencial cuando los cachés se comparten en múltiples usuarios.
  2. El almacenamiento en caché global se detectó en 7 de 17 proveedores de API, lo que permite a los atacantes inferir indicaciones utilizadas por otros usuarios a través de variaciones de tiempo.
  3. Algunos proveedores de API no revelan públicamente las políticas de almacenamiento en caché, lo que significa que los usuarios pueden no saber que otros almacenan y acceden a sus aportes.
  4. El estudio identificó las discrepancias en el tiempo de respuesta, con éxitos de caché con un promedio de 0.1 segundos y las fallas de caché alcanzan 0.5 segundos, proporcionando una prueba medible del almacenamiento en caché.
  5. El marco de auditoría estadística detectó el almacenamiento en caché con alta precisión, con valores p que a menudo caen por debajo de 10⁻⁸, confirmando la presencia de almacenamiento en caché sistemático en múltiples proveedores.
  6. Se reveló que el modelo de texto de OpenAI-Embeding-3-Small era un transformador solo decodificador, un detalle previamente no revelado inferido del comportamiento de almacenamiento en caché.
  7. Algunos proveedores de API repararon vulnerabilidades después de la divulgación, pero otros aún tienen que abordar el problema, lo que indica la necesidad de estándares de la industria más estrictos.
  8. Las estrategias de mitigación incluyen restringir el almacenamiento en caché a los usuarios individuales, aleatorizar los retrasos de respuesta para evitar la inferencia de tiempo y proporcionar una mayor transparencia en las políticas de almacenamiento en caché.

Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Por automata