Transformar modelos de lenguaje en equipos rojos efectivos no está exento de desafíos. Los modelos modernos de lenguaje grande han transformado la forma en que interactuamos con la tecnología, pero aún así luchan por evitar la generación de contenido dañino. Los esfuerzos como la capacitación en rechazo ayudan a estos modelos a negar solicitudes de riesgo, pero incluso estas salvaguardas se pueden pasar por alto con ataques cuidadosamente diseñados. Esta tensión continua entre la innovación y la seguridad sigue siendo un problema crítico en la implementación de estos sistemas de manera responsable.
En la práctica, garantizar la seguridad significa contender tanto con ataques automatizados como jailbreaks hechos humanos. Los equipos rojos humanos a menudo diseñan estrategias sofisticadas de múltiples vueltas que exponen las vulnerabilidades de manera que las técnicas automatizadas a veces se pierdan. Sin embargo, confiar únicamente en la experiencia humana es intensivo en los recursos y carece de la escalabilidad requerida para una aplicación generalizada. Como resultado, los investigadores están explorando métodos más sistemáticos y escalables para evaluar y fortalecer la seguridad del modelo.
Scale AI Research presenta a los atacantes de J2 para abordar estos desafíos. En este enfoque, un equipo de equipo rojo humano primero “jailbreaks” un modelo de lenguaje entrenado por rechazo, alentándolo a evitar sus propias salvaguardas. Este modelo transformado, ahora denominado atacante J2, se usa para probar sistemáticamente vulnerabilidades en otros modelos de idiomas. El proceso se desarrolla de manera cuidadosamente estructurada que equilibra la orientación humana con refinamiento automatizado y iterativo.
El método J2 comienza con una fase manual en la que un operador humano proporciona indicaciones estratégicas e instrucciones específicas. Una vez que el jailbreak inicial es exitoso, el modelo ingresa a una fase de conversación de múltiples vueltas donde refina sus tácticas utilizando comentarios de intentos anteriores. Esta combinación de experiencia humana y las propias habilidades de aprendizaje en contexto del modelo crean un ciclo de retroalimentación que mejora continuamente el proceso de equipo rojo. El resultado es un sistema medido y metódico que desafía las salvaguardas existentes sin recurrir al sensacionalismo.
El marco técnico detrás de los atacantes J2 está cuidadosamente diseñado. Divide el proceso de equipo rojo en tres fases distintas: planificación, ataque y informe. Durante la fase de planificación, las indicaciones detalladas desglosan las barreras de rechazo convencionales, lo que permite que el modelo prepare su enfoque. La fase de ataque posterior consiste en una serie de diálogos controlados de giro múltiple con el modelo objetivo, cada ciclo refinando la estrategia basada en resultados anteriores.
En la fase de informes, se realiza una evaluación independiente para evaluar el éxito del ataque. Esta retroalimentación se utiliza para ajustar aún más las tácticas del modelo, fomentando un ciclo de mejora continua. Al incorporar modularmente diversas estrategias de equipo rojo, desde la ficción basada en la narración hasta la ingeniería técnica rápida, el enfoque mantiene un enfoque disciplinado en la seguridad sin sobrecargar sus capacidades.
Las evaluaciones empíricas de los atacantes de J2 revelan progreso alentador, pero medido. En experimentos controlados, modelos como Sonnet-3.5 y Gemini-1.5-Pro lograron tasas de éxito de ataque de alrededor del 93% y 91% contra GPT-4O en el conjunto de datos Harmbench. Estas cifras son comparables al rendimiento de los equipos rojos humanos experimentados, que promediaron tasas de éxito cercanas al 98%. Dichos resultados subrayan el potencial de un sistema automatizado para ayudar en las evaluaciones de vulnerabilidad al tiempo que dependen de la supervisión humana.
Otras ideas muestran que los ciclos iterativos de planificación-ataque-DEBILE juegan un papel crucial en la refinación del proceso. Los estudios indican que aproximadamente seis ciclos tienden a ofrecer un equilibrio entre la minuciosidad y la eficiencia. Un conjunto de múltiples atacantes J2, cada uno de los cuales aplicando diferentes estrategias, mejora aún más el rendimiento general al cubrir un espectro más amplio de vulnerabilidades. Estos hallazgos proporcionan una base sólida para el trabajo futuro destinado a estabilizar y mejorar aún más la seguridad de los modelos de idiomas.
En conclusión, la introducción de los atacantes J2 por escala AI representa un paso atento en la evolución de la investigación de seguridad del modelo de lenguaje. Al habilitar un modelo de lenguaje entrenado por rechazo para facilitar el equipo rojo, este enfoque abre nuevas vías para descubrir sistemáticamente las vulnerabilidades. El trabajo se basa en un cuidadoso equilibrio entre la guía humana y el refinamiento automatizado, asegurando que el método siga siendo riguroso y accesible.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.