Estamos publicando un nuevo libro blanco que describe cómo hemos hecho de Gemini 2.5 nuestra familia modelo más segura hasta la fecha.
Imagine pedirle a su agente de IA que resume sus últimos correos electrónicos, una tarea aparentemente directa. Gemini y otros modelos de idiomas grandes (LLM) están mejorando constantemente al realizar tales tareas, al acceder a información como nuestros documentos, calendarios o sitios web externos. Pero, ¿qué pasa si uno de esos correos electrónicos contiene instrucciones ocultas y maliciosas, diseñadas para engañar a la IA en que compartir datos privados o hacer mal uso de sus permisos?
La inyección indirecta de inmediato presenta un desafío real de ciberseguridad donde los modelos de IA a veces luchan por diferenciar entre instrucciones genuinas del usuario y comandos manipuladores integrados dentro de los datos que recuperan. Nuestro nuevo libro blanco, Lecciones de defender a Géminis contra inyecciones indirectas de inmediatoestablece nuestro plan estratégico para abordar las inyecciones indirectas que hacen herramientas de IA de agentes, respaldadas por modelos de lenguaje grandes avanzados, objetivos para tales ataques.
Nuestro compromiso de construir no solo capaces, sino también agentes de IA seguros, significa que estamos trabajando continuamente para comprender cómo Géminis podría responder a las inyecciones indirectas y hacerlo más resistente contra ellos.
Evaluación de estrategias de defensa de referencia
Los ataques de inyección indirecta son complejos y requieren una vigilancia constante y múltiples capas de defensa. El equipo de investigación de seguridad y privacidad de Google Deepmind se especializa en proteger nuestros modelos de IA de ataques deliberados y maliciosos. Intentar encontrar estas vulnerabilidades manualmente es lento e ineficiente, especialmente a medida que los modelos evolucionan rápidamente. Esa es una de las razones por las que construimos un sistema automatizado para investigar implacablemente las defensas de Gemini.
Uso de teaming rojo automatizado para hacer que Gemini sea más seguro
Una parte central de nuestra estrategia de seguridad es el equipo rojo automatizado (ART), donde nuestro equipo interno de Géminis ataca constantemente a Gemini de manera realista para descubrir posibles debilidades de seguridad en el modelo. El uso de esta técnica, entre otros esfuerzos detallados en nuestro documento blanco, ha ayudado a aumentar significativamente la tasa de protección de Gemini contra los ataques de inyección indirecta durante el uso de la herramienta, lo que convierte a Gemini 2.5 en nuestra familia modelo más segura hasta la fecha.
Probamos varias estrategias de defensa sugeridas por la comunidad de investigación, así como algunas de nuestras propias ideas:
Adaptación de evaluaciones para ataques adaptativos
Las mitigaciones de línea de base se mostraron prometectas contra ataques básicos y no adaptativos, reduciendo significativamente la tasa de éxito del ataque. Sin embargo, los actores maliciosos utilizan cada vez más ataques adaptativos que están específicamente diseñados para evolucionar y adaptarse con el arte para eludir la defensa que se está probando.
Las defensas basales exitosas como la atención o la autorreflexión se volvieron mucho menos efectivas contra los ataques adaptativos que aprenden a lidiar y pasar por alto los enfoques de defensa estática.
Este hallazgo ilustra un punto clave: confiar en las defensas probadas solo contra ataques estáticos ofrece una falsa sensación de seguridad. Para una seguridad robusta, es fundamental evaluar los ataques adaptativos que evolucionan en respuesta a posibles defensas.
Construir una resiliencia inherente a través del endurecimiento del modelo
Si bien las defensas externas y las barandillas a nivel del sistema son importantes, mejorar la capacidad intrínseca del modelo AI para reconocer y ignorar las instrucciones maliciosas incrustadas en los datos también es crucial. Llamamos a este proceso ‘endurecimiento del modelo’.
Atinamos a Gemini en un gran conjunto de datos de escenarios realistas, donde el ART genera inyecciones indirectas efectivas dirigidas a información confidencial. Esto enseñó a Géminis a ignorar la instrucción integrada maliciosa y seguir la solicitud del usuario original, solo proporcionando el correctorespuesta segura lo debería dar. Esto permite que el modelo comprenda innatamente cómo manejar la información comprometida que evoluciona con el tiempo como parte de los ataques adaptativos.
Este endurecimiento del modelo ha impulsado significativamente la capacidad de Géminis para identificar e ignorar las instrucciones inyectadas, reduciendo su tasa de éxito de ataque. Y lo que es más importante, sin afectar significativamente el rendimiento del modelo en las tareas normales.
Es importante tener en cuenta que incluso con el endurecimiento del modelo, ningún modelo es completamente inmune. Los atacantes determinados aún pueden encontrar nuevas vulnerabilidades. Por lo tanto, nuestro objetivo es hacer los ataques mucho más difíciles, más costosos y más complejos para los adversarios.
Adoptando un enfoque holístico para modelar la seguridad
La protección de los modelos de IA contra ataques como inyecciones indirectas de inmediato requiere “defensa en profundidad”, utilizando múltiples capas de protección, incluidas las verificaciones de endurecimiento del modelo, entrada/salida (como clasificadores) y barandillas a nivel de sistema. Combinar inyecciones indirectas de inmediato es una forma clave en que estamos implementando nuestro Principios y pautas de seguridad de agente desarrollar agentes de manera responsable.
Asegurar sistemas de IA avanzados contra amenazas específicas y en evolución como la inyección indirecta es un proceso continuo. Exige la búsqueda de una evaluación continua y adaptativa, mejorando las defensas existentes y explorando otras nuevas, y construyendo una resiliencia inherente en los propios modelos. Al capas de defensas y aprendiendo constantemente, podemos permitir que los asistentes de IA como Gemini sigan siendo increíblemente útiles y confiable.
Para obtener más información sobre las defensas que incorporamos a Gemini y nuestra recomendación para usar ataques adaptativos más desafiantes para evaluar la robustez del modelo, consulte el Libro Blanco GDM, Lecciones de defender a Géminis contra inyecciones indirectas de inmediato.