La generación de recuperación aumentada (RAG) mejora la salida de los modelos de lenguajes grandes (LLM) utilizando bases de conocimiento externas. Estos sistemas funcionan recuperando información relevante vinculada a la entrada e incluyéndola en la respuesta del modelo, mejorando la precisión y relevancia. Sin embargo, el sistema RAG plantea problemas relacionados con la seguridad y la privacidad de los datos. Estas bases de conocimiento serán propensas a contener información confidencial a la que se puede acceder con saña cuando las indicaciones pueden llevar al modelo a revelar información confidencial. Esto crea riesgos importantes en aplicaciones como atención al cliente, herramientas organizativas y chatbots médicos, donde proteger la información confidencial es esencial.
Actualmente, los métodos utilizados en los sistemas de recuperación-generación aumentada (RAG) y los modelos de lenguaje grande (LLM) enfrentan vulnerabilidades importantes, especialmente en lo que respecta a la privacidad y seguridad de los datos. Enfoques como los ataques de inferencia de membresía (MIA) intentan identificar si puntos de datos específicos pertenecen al conjunto de entrenamiento. Aún así, las técnicas más avanzadas se centran en robar conocimiento confidencial directamente de los sistemas RAG. Los métodos, como TGTB y PIDE, se basan en indicaciones estáticas de conjuntos de datos, lo que limita su adaptabilidad. Dynamic Greedy Embedding Attack (DGEA) introduce algoritmos adaptativos pero requiere múltiples comparaciones iterativas, lo que lo hace complejo y requiere muchos recursos. Rag-Thief (RThief) utiliza mecanismos de memoria para extraer fragmentos de texto, pero su flexibilidad depende en gran medida de condiciones predefinidas. Estos enfoques luchan con la eficiencia, la adaptabilidad y la eficacia, lo que a menudo deja a los sistemas RAG propensos a violaciones de la privacidad.
Para abordar los problemas de privacidad en los sistemas de recuperación-generación aumentada (RAG), investigadores de la Universidad de Perugia, la Universidad de Siena y la Universidad de Pisa propusieron un marco basado en la relevancia diseñado para extraer conocimiento privado y al mismo tiempo desalentar la fuga de información repetitiva. El marco emplea modelos de lenguaje de código abierto y codificadores de oraciones para explorar automáticamente bases de conocimiento ocultas sin depender de servicios de pago por uso o conocimiento del sistema de antemano. A diferencia de otros métodos, este método aprende progresivamente y tiende a maximizar la cobertura de la base de conocimientos privados y una exploración más amplia.
El marco opera en un contexto ciego aprovechando un mapa de representación de características y estrategias adaptativas para explorar la base de conocimientos privados. Se implementa como un ataque de caja negra que se ejecuta en computadoras domésticas estándar y no requiere hardware especializado ni API externas. Este enfoque enfatiza la transferibilidad entre configuraciones RAG y proporciona un método más simple y rentable para exponer vulnerabilidades en comparación con métodos anteriores no adaptables o que consumen muchos recursos.
Los investigadores intentaron descubrir sistemáticamente conocimiento privado del KKK y replicarlo en el sistema del atacante como K∗K^*K∗. Lo lograron diseñando consultas adaptativas que explotaban un mecanismo basado en la relevancia para identificar «anclas» de alta relevancia correlacionadas con el conocimiento oculto. Se utilizaron herramientas de código abierto, incluido un pequeño LLM disponible en el mercado y un codificador de texto, para la preparación de consultas, la creación de incrustaciones y la comparación de similitudes. El ataque siguió un algoritmo paso a paso que generaba consultas de forma adaptativa, extraía y actualizaba anclajes y refinaba puntuaciones de relevancia para maximizar la exposición del conocimiento. Se identificaron y descartaron fragmentos y anclajes duplicados utilizando umbrales de similitud de cosenos para garantizar una extracción de datos eficiente y tolerante al ruido. El proceso continuó de forma iterativa hasta que todos los anclajes tuvieron relevancia cero, deteniendo efectivamente el ataque.
Los investigadores realizaron experimentos que simularon escenarios de ataques del mundo real en tres sistemas RAG utilizando diferentes LLM del lado del atacante. El objetivo era extraer la mayor cantidad de información posible de bases de conocimiento privadas, y cada sistema RAG implementaba un agente virtual similar a un chatbot para la interacción del usuario a través de consultas en lenguaje natural. Se definieron tres agentes: el Agente A, un chatbot de soporte al diagnóstico; el Agente B, asistente de investigación de química y medicina; y el Agente C, asistente educativo para niños. Las bases de conocimiento privadas se simularon utilizando conjuntos de datos, con 1000 fragmentos muestreados por agente. Los experimentos compararon el método propuesto con competidores como TGTB, PIDE, DGEA, RThief y GPTGEN en diferentes configuraciones, incluidos ataques limitados e ilimitados. Para la evaluación se utilizaron métricas como cobertura de navegación, conocimiento filtrado, fragmentos filtrados, fragmentos filtrados únicos y tiempo de generación de consultas de ataque. Los resultados mostraron que el método propuesto superó a los competidores en cobertura de navegación y filtró conocimiento en escenarios limitados, con aún más ventajas en escenarios ilimitados, superando a RThief y otros.
En conclusión, el método sugerido presenta un procedimiento de ataque adaptativo que extrae conocimiento privado de los sistemas RAG superando a los competidores en cuanto a cobertura, conocimiento filtrado y tiempo necesario para generar consultas. Esto puso de relieve desafíos como la dificultad para comparar los fragmentos extraídos y la necesidad de salvaguardias mucho más estrictas. La investigación puede constituir una base para trabajos futuros sobre el desarrollo de mecanismos de defensa más sólidos, ataques dirigidos y métodos de evaluación mejorados para los sistemas RAG.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Divyesh es pasante de consultoría en Marktechpost. Está cursando un BTech en Ingeniería Agrícola y Alimentaria en el Instituto Indio de Tecnología de Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el ámbito agrícola y resolver desafíos.