Este artículo sobre IA de UC Berkeley Research destaca cómo la descomposición de tareas rompe la seguridad de los sistemas de inteligencia artificial (IA), lo que lleva a un uso indebido

Los sistemas de inteligencia artificial (IA) se someten a pruebas rigurosas antes de su lanzamiento para determinar si se pueden utilizar para actividades peligrosas como el bioterrorismo, la manipulación o los delitos cibernéticos automatizados. Esto es especialmente crucial para los sistemas de IA potentes, ya que están programados para rechazar comandos que puedan afectarlos negativamente. Por el contrario, los modelos de código abierto menos potentes suelen tener mecanismos de rechazo más débiles que se superan fácilmente con más entrenamiento.

En una investigación reciente, un equipo de investigadores de la Universidad de California en Berkeley ha demostrado que, incluso con estas medidas de seguridad, no basta con garantizar la seguridad de los modelos de IA individuales. Aunque cada modelo parezca seguro por sí solo, los adversarios pueden abusar de las combinaciones de modelos. Para ello, utilizan una táctica conocida como descomposición de tareas, que divide una actividad maliciosa difícil en tareas más pequeñas. A continuación, se asignan subtareas a distintos modelos, en las que los modelos fronterizos competentes se encargan de las subtareas benignas pero difíciles, mientras que los modelos más débiles con precauciones de seguridad más laxas se encargan de las subtareas maliciosas pero fáciles.

Para demostrarlo, el equipo ha formalizado un modelo de amenaza en el que un adversario utiliza un conjunto de modelos de IA para intentar producir un resultado perjudicial, un ejemplo de lo cual es un script malicioso de Python. El adversario elige modelos y los solicita de forma iterativa para obtener el resultado perjudicial previsto. En este caso, el éxito indica que el adversario ha utilizado los esfuerzos conjuntos de varios modelos para producir un resultado perjudicial.

El equipo ha estudiado técnicas de descomposición de tareas tanto manuales como automatizadas. En la descomposición manual de tareas, un humano determina cómo dividir una tarea en porciones manejables. Para tareas que son demasiado complicadas para la descomposición manual, el equipo ha utilizado la descomposición automática. Este método implica los siguientes pasos: un modelo fuerte resuelve tareas benignas relacionadas, un modelo débil las sugiere y el modelo débil utiliza las soluciones para llevar a cabo la tarea maliciosa inicial.

Los resultados han demostrado que la combinación de modelos puede aumentar en gran medida la tasa de éxito a la hora de producir efectos dañinos en comparación con el empleo de modelos individuales por sí solos. Por ejemplo, mientras se desarrollaba código susceptible, la tasa de éxito al fusionar los modelos Llama 2 70B y Claude 3 Opus fue del 43 %, pero ninguno de los modelos funcionó mejor que el 3 % por sí solo.

El equipo también descubrió que la calidad de los modelos más débiles y más fuertes se correlaciona con la probabilidad de uso indebido. Esto implica que la probabilidad de un uso indebido de múltiples modelos aumentará a medida que los modelos de IA mejoren. Este potencial de uso indebido podría aumentar aún más empleando otras técnicas de descomposición, como entrenar el modelo débil para explotar el modelo fuerte mediante el aprendizaje por refuerzo o usar el modelo débil como un agente general que llama continuamente al modelo fuerte.

En conclusión, este estudio ha puesto de relieve la necesidad de un equipo rojo continuo, que incluye experimentar con diferentes configuraciones de modelos de IA para encontrar posibles peligros de uso indebido. Este es un procedimiento que los desarrolladores deben seguir durante todo el ciclo de vida de implementación de un modelo de IA porque las actualizaciones pueden crear nuevas vulnerabilidades.


Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 45 000 millones de usuarios


🚀 ¡Cree, edite y aumente datos tabulares con el primer sistema de IA compuesto, Gretel Navigator, ahora disponible de forma generalizada! [Advertisement]


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.