Investigadores de Meta AI y NYU proponen E-RLHF para combatir el jailbreaking de los LLM

Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) han ganado prominencia en el aprendizaje profundo, demostrando capacidades excepcionales en varios dominios, como asistencia, generación de código, atención médica y demostración de teoremas. El proceso de entrenamiento para los LLM generalmente implica dos etapas: entrenamiento previo con corpus masivos y un paso de alineación utilizando aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés). Sin embargo, los LLM necesitan ayuda para generar contenido apropiado. A pesar de su eficacia en múltiples tareas, estos modelos son propensos a producir contenido ofensivo o inapropiado, incluido el discurso de odio, malware, información falsa y sesgos sociales. Esta vulnerabilidad se deriva de la presencia inevitable de elementos dañinos dentro de sus conjuntos de datos de preentrenamiento. El proceso de alineación, crucial para abordar estos problemas, no es universalmente aplicable y depende de casos de uso específicos y preferencias de los usuarios, lo que lo convierte en un desafío complejo para los investigadores.

Los investigadores han hecho esfuerzos significativos para mejorar la seguridad de LLM a través de técnicas de alineación, incluyendo el ajuste fino supervisado, el trabajo en equipo rojo y el refinamiento del proceso RLHF. Sin embargo, estos intentos han llevado a un ciclo continuo de métodos de alineación cada vez más sofisticados y ataques de “jailbreaking” más ingeniosos. Los enfoques existentes para abordar estos desafíos se dividen en tres categorías principales: métodos de línea base, automatización de LLM y ataques basados en sufijos, y manipulación del proceso de decodificación. Las técnicas de línea base como AutoPrompt y ARCA optimizan los tokens para la generación de contenido dañino, mientras que los métodos de automatización de LLM como AutoDAN y GPTFuzzer emplean algoritmos genéticos para crear indicaciones de jailbreaking plausibles. Los ataques basados en sufijos como GCG se centran en mejorar la interpretabilidad. A pesar de estos esfuerzos, los métodos actuales necesitan ayuda con la plausibilidad semántica y la aplicabilidad entre arquitecturas. La falta de una defensa universal basada en principios contra los ataques de jailbreaking y la comprensión teórica limitada de este fenómeno siguen siendo desafíos importantes en el campo de la seguridad de LLM.

Investigadores de la Universidad de Nueva York y MetaAI, FAIR presentan un marco teórico para analizar las vulnerabilidades de preentrenamiento y jailbreaking de LLM. Al desacoplar las indicaciones de entrada y representar las salidas como fragmentos de texto más largos, los investigadores cuantifican la fuerza del adversario y el comportamiento del modelo. Proporcionan un límite de generalización PAC-Bayesiana para el preentrenamiento, lo que sugiere resultados dañinos inevitables en modelos de alto rendimiento. El marco demuestra que el jailbreaking sigue siendo inevitable incluso después de la alineación de seguridad. Al identificar un inconveniente clave en los objetivos de ajuste fino de RL, los investigadores proponen métodos para entrenar modelos más seguros y resilientes sin comprometer el rendimiento. Este enfoque ofrece nuevos conocimientos sobre la seguridad de LLM y posibles mejoras en las técnicas de alineación.

Los investigadores presentan un marco teórico integral para analizar las vulnerabilidades de jailbreaking de modelos de lenguaje, modelando indicaciones como tuplas de consulta-concepto y LLM como generadores de fragmentos de texto más largos llamados explicaciones. Los investigadores introducen supuestos clave y definen nociones de nocividad, presentando un marco teórico no vacío. PAC-Bayesiano límite de generalización para modelos de lenguaje preentrenados. Este límite implica que los modelos de lenguaje bien entrenados pueden exhibir un comportamiento dañino cuando se los expone a dicho contenido durante el entrenamiento. Basándose en estos conocimientos teóricos, la investigación propone E-RLHF (Aprendizaje de refuerzo ampliado a partir de retroalimentación humana), Un enfoque innovador para mejorar la alineación del modelo de lenguaje y reducir las vulnerabilidades de jailbreaking. E-RLHF modifica el proceso RLHF estándar al expandir la zona de seguridad en la distribución de salida, reemplazando los mensajes dañinos con versiones transformadas de seguridad en el término de divergencia KL de la función objetivo. Esta innovación apunta a aumentar las explicaciones seguras en la salida del modelo para los mensajes dañinos sin afectar el desempeño en los no dañinos. El enfoque se puede integrar en el objetivo de Optimización de preferencia directa, eliminando la necesidad de un modelo de recompensa explícito.

Los investigadores han llevado a cabo experimentos utilizando la base de código del manual de alineación y un modelo SFT disponible públicamente. Para evaluar su método E-DPO propuesto, utilizando los conjuntos de datos Harmbench y AdvBench, midiendo la alineación de seguridad con varios adversarios de jailbreak. Los resultados mostraron que E-DPO redujo la tasa de éxito de ataque (ASR) promedio en todos los adversarios para ambos conjuntos de datos, alcanzando el 36,95 % para Harmbench y el 20,89 % para AdvBench, lo que demuestra mejoras sobre el DPO estándar. El estudio también evaluó la utilidad utilizando el proyecto MT-Bench, con E-DPO con una puntuación de 6,6, superando la puntuación del modelo SFT de 6,3. Los investigadores concluyeron que E-DPO mejora la alineación de seguridad sin sacrificar la utilidad del modelo, y se puede combinar con indicaciones del sistema para lograr más mejoras de seguridad.

Este estudio presentó un marco teórico para el preentrenamiento y el jailbreaking de modelos lingüísticos, centrándose en la disección de las indicaciones de entrada en pares de consulta y concepto. Su análisis arrojó dos resultados teóricos clave: primero, los modelos lingüísticos pueden imitar el mundo después del preentrenamiento, lo que lleva a resultados dañinos para indicaciones dañinas; y segundo, el jailbreaking es inevitable debido a los desafíos de alineación. Guiados por estos conocimientos, el equipo desarrolló una técnica simple pero efectiva para mejorar la alineación de seguridad. Sus experimentos demostraron una mayor resistencia a los ataques de jailbreaking utilizando esta nueva metodología, lo que contribuyó a los esfuerzos en curso para crear modelos lingüísticos más seguros y robustos.

Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí

Investigadores de Meta AI y NYU proponen E-RLHF para combatir el jailbreaking de los LLM

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Una implementación de codificación en redes neuronales de gráficos espaciales para la inferencia de funciones urbanas utilizando city2graph, OSMnx y PyTorch Geométrico

Google lanza Gemini-SQL2: Gemini 3.1 Pro Text-to-SQL obtiene una puntuación del 80,04 % en la tabla de clasificación de modelo único de BIRD

Zyphra lanza Zamba2-VL: modelos híbridos de lenguaje de visión Mamba2-Transformer que reducen el tiempo hasta el primer token en aproximadamente un orden de magnitud

You missed

Una implementación de codificación en redes neuronales de gráficos espaciales para la inferencia de funciones urbanas utilizando city2graph, OSMnx y PyTorch Geométrico

Un suplemento para el dolor articular podría acelerar la pérdida de memoria del Alzheimer: ScienceAlert

Los hogares estadounidenses están pagando un impuesto Trump de 3.100 dólares y no lo saben

La Guardia Civil recupera 34 palomas mensajeras robadas – El Informativo