Optimización de la seguridad y la implementación de la IA: un enfoque basado en la teoría de juegos para la evaluación de protocolos en sistemas de IA no confiables

AI Control evalúa la seguridad de los protocolos de implementación para IA no confiables a través de ejercicios de trabajo en equipo que involucran a un diseñador de protocolos y un adversario. Los sistemas de IA, como los chatbots con acceso a herramientas como intérpretes de código, se integran cada vez más en diversas tareas, lo que garantiza que su implementación segura se vuelva más compleja. Si bien las investigaciones anteriores se han centrado en la creación de modelos robustos y seguros o en la detección de comportamientos dañinos a través de herramientas de interpretación, el estudio presenta un enfoque complementario. Evalúa estrategias para implementar de manera segura sistemas de IA no confiables, especialmente cuando existe una incertidumbre significativa sobre su comportamiento en casos de uso diversos y complejos.

Investigadores de la Universidad de Oxford y Redwood Research presentan AI-Control Games, un marco formal de toma de decisiones para evaluar ejercicios de trabajo en equipo como juegos estocásticos, parcialmente observables y con múltiples objetivos. Se centran en encontrar protocolos óptimos para implementar de forma segura modelos de lenguaje no confiables como asistentes de programación. El estudio destaca los protocolos de monitoreo confiable, que se basan en modelos más débiles y en la supervisión humana para detectar comportamientos dañinos. AI-Control Games ayuda a evaluar la seguridad y la utilidad del protocolo, lo que proporciona mejoras con respecto a los estudios empíricos. La investigación explora las compensaciones entre seguridad y eficacia, con algoritmos para identificar protocolos óptimos y evaluar estrategias de implementación en el mundo real para IA no confiables.

El marco teórico de los juegos de los juegos de control de IA presenta un enfoque único para la seguridad de la IA al modelar la toma de decisiones entre un diseñador de protocolo y un adversario. Si bien existen marcos similares en otros campos, los juegos de control de IA difieren en su enfoque en escenarios multiobjetivo parcialmente observables. En estos juegos, el diseñador busca maximizar la seguridad y la eficiencia mientras que el adversario intenta explotar las debilidades. A diferencia de los modelos tradicionales, los juegos de control de IA implican interacciones de múltiples rondas e información imperfecta, lo que los hace más aplicables a escenarios de implementación de IA en el mundo real. Estos juegos equilibran la seguridad con la utilidad práctica, una consideración crítica en el control y monitoreo de sistemas de IA.

El estudio explora los juegos de control de IA, donde una IA no confiable (U), una IA confiable (T) y un humano (H) trabajan juntos para resolver tareas de programación. El protocolo utiliza a T para evaluar las soluciones de U, evaluando su seguridad a través de puntajes de sospecha. Si una solución parece comprometida, H puede auditarla, o T puede crear una solución alternativa. El equipo rojo introduce vulnerabilidades, mientras que el equipo azul intenta prevenirlas. El estudio formaliza esta interacción como un juego de dos jugadores, analizando tanto la seguridad como la utilidad en escenarios donde la IA no confiable podría intentar socavar el protocolo.

En el modelo de protocolo de monitoreo confiable, tal como se define utilizando el marco general, el juego de control de IA de monitoreo confiable (GTM) se detalla a través de una tupla (S, …, H). La dinámica del protocolo depende de si el juego es de intriga (⊗) u honesto (⊕), y las acciones de Red son para introducir una puerta trasera o proporcionar una solución segura. El espacio de estado del juego consiste en la cantidad de problemas que quedan por resolver, las monedas de auditoría disponibles y un booleano que indica si la situación actual tiene una puerta trasera. En los juegos honestos, la acción de Red se reemplaza con una acción nula, lo que lleva a que Blue obtenga una puntuación basada únicamente en la utilidad. En los juegos de intriga, donde la seguridad es fundamental, Blue tiene la opción de auditar, diferir o ejecutar la solución, y la seguridad se logra mediante la detección de puertas traseras por parte de auditores humanos o evitando por completo las soluciones con puertas traseras.

La evaluación de los protocolos sin memoria se simplifica al restringir las políticas a aquellas basadas en tasas fijas de falsos positivos para las acciones de auditoría y aplazamiento. La seguridad de estos protocolos se calcula mediante programación dinámica, con los valores de seguridad y utilidad derivados de una expresión polinómica en la tasa de puerta trasera. El modelo y los algoritmos presentados permiten la identificación de protocolos óptimos de Pareto, equilibrando la seguridad y la utilidad en diferentes escenarios. En particular, los hallazgos destacan que aumentar la tasa de falsos positivos de auditoría puede mejorar el rendimiento del protocolo.


Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.