Garantizar la seguridad y el comportamiento ético de los modelos de lenguajes grandes (LLM) al responder a las consultas de los usuarios es de suma importancia. Los problemas surgen del hecho de que los LLM están diseñados para generar texto basado en la entrada del usuario, lo que a veces puede generar contenido dañino u ofensivo. Este artículo investiga los mecanismos por los cuales los LLM se niegan a generar ciertos tipos de contenido y desarrolla métodos para mejorar sus capacidades de rechazo.
Actualmente, los LLM utilizan varios métodos para rechazar las solicitudes de los usuarios, como insertar frases de rechazo o utilizar plantillas específicas. Sin embargo, estos métodos suelen ser ineficaces y los usuarios que intentan manipular los modelos pueden evitarlos. La solución propuesta por los investigadores de ETH Zürich, Anthropic, MIT y otros implica un enfoque novedoso llamado «ortogonalización de pesos», que elimina la dirección de rechazo en los pesos del modelo. Este método está diseñado para hacer que el rechazo sea más sólido y difícil de eludir.
La técnica de ortogonalización de pesos es más simple y eficiente que los métodos existentes, ya que no requiere optimización basada en gradientes ni un conjunto de datos de terminaciones dañinas. El método de ortogonalización de pesos implica ajustar los pesos en el modelo para que la dirección asociada con los rechazos esté ortogonalizada, evitando efectivamente que el modelo siga las directivas de rechazo mientras mantiene sus capacidades originales. Se basa en el concepto de ablación direccional, una intervención de tiempo de inferencia en la que el componente correspondiente a la dirección de rechazo se pone a cero en las activaciones de flujo residual del modelo. En este enfoque, los investigadores modifican los pesos directamente para lograr el mismo efecto.
Al ortogonalizar matrices como la matriz de incrustación, la matriz de incrustación posicional, las matrices de atención y las matrices de salida MLP, se evita que el modelo escriba en la dirección de rechazo en primer lugar. Esta modificación garantiza que el modelo conserve sus capacidades originales sin seguir el mecanismo de rechazo.
Las evaluaciones de rendimiento de este método, realizadas con el conjunto de pruebas HARMBENCH, muestran resultados prometedores. La tasa de éxito del ataque (ASR) de los modelos ortogonalizados indica que este método está a la par con técnicas de jailbreak específicas, como GCG, que optimizan los jailbreak para mensajes individuales. El método de ortogonalización del peso demuestra una ASR alta en varios modelos, incluidas las familias LLAMA-2 y QWEN, incluso cuando las indicaciones del sistema están diseñadas para hacer cumplir las pautas éticas y de seguridad.
Si bien el método propuesto simplifica significativamente el proceso de jailbreak a los LLM, también plantea importantes consideraciones éticas. Los investigadores reconocen que este método reduce marginalmente la barrera para hacer jailbreak a los pesos de los modelos de código abierto, lo que potencialmente permite un uso indebido. Sin embargo, argumentan que no altera sustancialmente el perfil de riesgo de los modelos de código abierto. El trabajo subraya la fragilidad de los mecanismos de seguridad actuales y exige un consenso científico sobre las limitaciones de estas técnicas para informar futuras decisiones políticas y esfuerzos de investigación.
Esta investigación destaca una vulnerabilidad crítica en los mecanismos de seguridad de los LLM e introduce un método eficiente para explotar esta debilidad. Los investigadores demuestran una técnica simple pero poderosa para evitar los mecanismos de rechazo ortogonalizando la dirección de rechazo en los pesos del modelo. Este trabajo no solo avanza en la comprensión de las vulnerabilidades de LLM sino que también enfatiza la necesidad de medidas de seguridad sólidas y efectivas para evitar el uso indebido.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de más de 45.000 ml
Shreya Maji es pasante de consultoría en MarktechPost. Obtuvo su B.Tech en el Instituto Indio de Tecnología (IIT), Bhubaneswar. Entusiasta de la IA, le gusta mantenerse actualizada sobre los últimos avances. Shreya está particularmente interesada en las aplicaciones de la tecnología de punta en la vida real, especialmente en el campo de la ciencia de datos.