Screenshot 2024 03 25 At 12.41.05 Pm.png

A medida que los modelos de lenguajes grandes (LLM) como ChatGPT, LLaMA y Mistral continúan avanzando, se han intensificado las preocupaciones sobre su susceptibilidad a consultas dañinas, lo que ha generado la necesidad de salvaguardias sólidas. Se han adoptado ampliamente enfoques como el ajuste fino supervisado (SFT), el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) y la optimización de preferencias directas (DPO) para mejorar la seguridad de los LLM, permitiéndoles rechazar consultas dañinas.

Sin embargo, a pesar de estos avances, los modelos alineados pueden seguir siendo vulnerables a ataques sofisticados, lo que plantea dudas sobre la modificación precisa de las regiones tóxicas dentro de los LLM para lograr la desintoxicación. Estudios recientes han demostrado que enfoques anteriores, como la DPO, solo pueden suprimir las activaciones de parámetros tóxicos sin abordar eficazmente las vulnerabilidades subyacentes, lo que subraya la importancia de desarrollar métodos de desintoxicación precisos.

En respuesta a estos desafíos, en los últimos años se han observado avances significativos en los métodos de edición de conocimientos adaptados a los LLM, lo que permite realizar ajustes posteriores a la capacitación sin comprometer el rendimiento general. Aprovechar la edición de conocimientos para desintoxicar a los LLM parece intuitivo; sin embargo, los conjuntos de datos y las métricas de evaluación existentes se han centrado en cuestiones dañinas específicas, pasando por alto la amenaza que representan las indicaciones de ataque y descuidando la generalización a diversas entradas maliciosas.

Para abordar esta brecha, investigadores de la Universidad de Zhejiang han introducido SafeEdit, un punto de referencia integral diseñado para evaluar tareas de desintoxicación mediante la edición de conocimientos. SafeEdit cubre nueve categorías inseguras con poderosas plantillas de ataque y extiende las métricas de evaluación para incluir el éxito de la defensa, la generalización de la defensa y el desempeño general, proporcionando un marco estandarizado para evaluar los métodos de desintoxicación.

Se han explorado varios enfoques de edición de conocimientos, incluidos MEND y Ext-Sub, en los modelos LLaMA y Mistral, lo que demuestra el potencial de desintoxicar los LLM de manera eficiente con un impacto mínimo en el rendimiento general. Sin embargo, los métodos existentes apuntan principalmente al conocimiento fáctico y pueden necesitar ayuda para identificar regiones tóxicas en respuesta a entradas complejas de adversarios que abarcan múltiples oraciones.

Para abordar estos desafíos, los investigadores han propuesto una nueva línea de base de edición de conocimientos, Desintoxicación con monitorización neuronal intraoperatoria (DINM), que tiene como objetivo disminuir las regiones tóxicas dentro de los LLM y al mismo tiempo minimizar los efectos secundarios. Amplios experimentos con los modelos LLaMA y Mistral han demostrado que DINM supera a los métodos tradicionales SFT y DPO en la desintoxicación de LLM, lo que demuestra un mayor rendimiento de desintoxicación, eficiencia y la importancia de localizar con precisión las regiones tóxicas.

En conclusión, los hallazgos subrayan el importante potencial de la edición de conocimientos para desintoxicar a los LLM, y la introducción de SafeEdit proporciona un marco estandarizado para la evaluación. El método DINM eficiente y eficaz representa un paso prometedor para abordar el desafío de desintoxicar los LLM, arrojando luz sobre aplicaciones futuras de ajuste supervisado, optimización de preferencias directas y edición de conocimientos para mejorar la seguridad y solidez de grandes modelos de lenguaje.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.