Avanzando en las salvaguardias de seguridad de Gemini – Google DeepMind

Adaptación de evaluaciones para ataques adaptativos

Las mitigaciones de referencia resultaron prometedoras contra ataques básicos no adaptativos, lo que redujo significativamente la tasa de éxito del ataque. Sin embargo, los actores maliciosos utilizan cada vez más ataques adaptativos que están diseñados específicamente para evolucionar y adaptarse con ART para eludir la defensa que se está probando.

Las defensas básicas exitosas, como Spotlighting o Self-reflection, se volvieron mucho menos efectivas contra los ataques adaptativos que aprenden a lidiar y evitar los enfoques de defensa estática.

Este hallazgo ilustra un punto clave: confiar en defensas probadas únicamente contra ataques estáticos ofrece una falsa sensación de seguridad. Para lograr una seguridad sólida, es fundamental evaluar los ataques adaptativos que evolucionan en respuesta a posibles defensas.

Desarrollar resiliencia inherente mediante el endurecimiento del modelo

Si bien las defensas externas y las barreras de seguridad a nivel del sistema son importantes, también es crucial mejorar la capacidad intrínseca del modelo de IA para reconocer e ignorar instrucciones maliciosas incorporadas en los datos. A este proceso lo llamamos “endurecimiento del modelo”.

Ajustamos Gemini en un gran conjunto de datos de escenarios realistas, donde ART genera inyecciones rápidas indirectas efectivas dirigidas a información confidencial. Esto le enseñó a Gemini a ignorar las instrucciones maliciosas incorporadas y seguir la solicitud original del usuario, proporcionando así solo la respuesta correcta y segura que debería dar. Esto permite que el modelo comprenda de forma innata cómo manejar la información comprometida que evoluciona con el tiempo como parte de ataques adaptativos.

Este endurecimiento del modelo ha aumentado significativamente la capacidad de Gemini para identificar e ignorar instrucciones inyectadas, lo que reduce la tasa de éxito de sus ataques. Y lo más importante, sin afectar significativamente el rendimiento del modelo en tareas normales.

Es importante tener en cuenta que, incluso con el endurecimiento del modelo, ningún modelo es completamente inmune. Los atacantes decididos aún podrían encontrar nuevas vulnerabilidades. Por lo tanto, nuestro objetivo es hacer que los ataques sean mucho más difíciles, costosos y complejos para los adversarios.

Adoptar un enfoque holístico para la seguridad del modelo

Proteger los modelos de IA contra ataques como inyecciones indirectas requiere una “defensa en profundidad”, es decir, el uso de múltiples capas de protección, incluido el fortalecimiento del modelo, comprobaciones de entrada/salida (como clasificadores) y barreras de seguridad a nivel de sistema. Combatir las inyecciones inmediatas indirectas es una forma clave en la que estamos implementando nuestros principios y directrices de seguridad de agentes para desarrollar agentes de manera responsable.

Proteger los sistemas avanzados de IA contra amenazas específicas y en evolución, como la inyección inmediata indirecta, es un proceso continuo. Exige llevar a cabo una evaluación continua y adaptativa, mejorar las defensas existentes y explorar otras nuevas, y desarrollar una resiliencia inherente en los propios modelos. Al superponer defensas y aprender constantemente, podemos permitir que los asistentes de IA como Gemini sigan siendo increíblemente útiles y dignos de confianza.

Para obtener más información sobre las defensas que incorporamos en Gemini y nuestra recomendación para utilizar ataques adaptativos más desafiantes para evaluar la solidez del modelo, consulte el documento técnico de GDM, Lecciones de la defensa de Gemini contra inyecciones inmediatas indirectas.