La investigación sobre la solidez de los LLM ante los ataques de jailbreak se ha centrado principalmente en aplicaciones de chatbot, donde los usuarios manipulan indicaciones para eludir las medidas de seguridad. Sin embargo, los agentes LLM, que utilizan herramientas externas y realizan tareas de varios pasos, plantean un mayor riesgo de uso indebido, especialmente en contextos maliciosos como el pedido de materiales ilegales. Los estudios muestran que las defensas efectivas en interacciones de un solo turno no siempre se extienden a tareas de varios turnos, lo que resalta las vulnerabilidades potenciales de los agentes LLM. A medida que se expande la integración de herramientas para los LLM, especialmente en campos especializados, crece significativamente el riesgo de que actores maliciosos exploten estos agentes para tareas dañinas.
Los agentes basados en LLM son cada vez más avanzados, con capacidades para llamar funciones y manejar tareas de varios pasos. Inicialmente, los agentes utilizaban llamadas a funciones simples, pero los sistemas más nuevos han ampliado la complejidad de estas interacciones, permitiendo que los modelos razonen y actúen de manera más efectiva. Esfuerzos recientes han desarrollado puntos de referencia para evaluar la capacidad de estos agentes para manejar tareas complejas de varios pasos. Sin embargo, persisten las preocupaciones sobre la seguridad de los agentes, especialmente en relación con el uso indebido y los ataques indirectos. Si bien algunos puntos de referencia evalúan riesgos específicos, todavía es necesario un marco estandarizado para medir la solidez de los agentes de LLM frente a una amplia gama de amenazas potenciales.
Investigadores de Gray Swan AI y el Instituto de Seguridad de IA del Reino Unido han introducido un nuevo punto de referencia llamado AgentHarm, diseñado para evaluar el potencial de uso indebido de los agentes LLM para completar tareas dañinas. AgentHarm incluye 110 tareas de agentes maliciosos (440 con aumentos) en 11 categorías de daños, como fraude, cibercrimen y acoso. El punto de referencia evalúa tanto el cumplimiento del modelo con solicitudes dañinas como la efectividad de los ataques de jailbreak, lo que permite a los agentes realizar acciones maliciosas de varios pasos mientras mantienen las capacidades. Las evaluaciones iniciales muestran que muchos modelos cumplen con solicitudes dañinas sin jailbreak, lo que destaca las lagunas en las medidas de seguridad actuales para los agentes LLM.
El punto de referencia AgentHarm consta de 110 comportamientos dañinos básicos, ampliados a 440 tareas en 11 categorías de daños, como fraude, cibercrimen y acoso. Evalúa la capacidad de los agentes de LLM para realizar tareas maliciosas y el cumplimiento de las negativas. Los comportamientos requieren múltiples llamadas a funciones, a menudo en un orden específico, y utilizan herramientas sintéticas para garantizar la seguridad. Las tareas se dividen en conjuntos de pruebas de validación, públicas y privadas. El punto de referencia también incluye versiones benignas de tareas dañinas. La puntuación se basa en criterios predefinidos, con un juez semántico de LLM para verificaciones matizadas, y el conjunto de datos está optimizado para su usabilidad, rentabilidad y confiabilidad.
La evaluación implica probar los LLM utilizando varios métodos de ataque en el marco AgentHarm. La configuración predeterminada utiliza indicaciones simples con un bucle while y no implica estructuras complejas para mejorar el rendimiento. Se prueban llamadas forzadas a herramientas y una plantilla universal de jailbreak como estrategias de ataque. Los resultados muestran que la mayoría de los modelos, incluidos GPT-4 y Claude, cumplen con tareas dañinas y el jailbreak reduce significativamente las tasas de rechazo. Los modelos generalmente conservan sus capacidades incluso cuando tienen jailbreak. Los estudios de ablación resaltan cómo las diferentes técnicas de estimulación, como la cadena de pensamiento, afectan el rendimiento del modelo, y el muestreo mejor de n mejora el éxito del ataque.
En conclusión, el estudio destaca varias limitaciones, incluido el uso exclusivo de indicaciones en inglés, la ausencia de ataques de varios turnos y posibles imprecisiones en las calificaciones cuando los modelos solicitan información adicional. Además, las herramientas personalizadas utilizadas limitan la flexibilidad con estructuras de terceros, y el punto de referencia se centra en capacidades autónomas básicas, no avanzadas. El punto de referencia AgentHarm propuesto tiene como objetivo probar la solidez de los agentes LLM contra ataques de jailbreak. Presenta 110 tareas maliciosas en 11 categorías de daños, evaluando las tasas de rechazo y el rendimiento del modelo después del ataque. Los resultados muestran que los modelos líderes son vulnerables a los jailbreaks, lo que les permite ejecutar tareas dañinas de varios pasos manteniendo sus capacidades principales.
Mira el Papeles y Conjuntos de datos sobre HF. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.
[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.