Anthrope AI presenta vectores de personalidad para monitorear y controlar los cambios de personalidad en LLMS

Los LLM se implementan a través de interfaces conversacionales que presentan personajes asistentes útiles, inofensivos y honestos. Sin embargo, no logran mantener rasgos de personalidad consistentes durante las fases de capacitación y despliegue. Los LLM muestran cambios de personalidad dramáticos e impredecibles cuando se exponen a diferentes estrategias de solicitud o entradas contextuales. El proceso de capacitación también puede causar cambios de personalidad no deseados, como se ve cuando las modificaciones a RLHF crean involuntariamente comportamientos demasiado sycofánticos en GPT-4O, lo que lleva a la validación de contenido dañino y refuerzo de emociones negativas. Esto resalta las debilidades en las prácticas actuales de implementación de LLM y enfatiza la necesidad urgente de herramientas confiables para detectar y prevenir cambios de personalidad dañinos.

Obras relacionadas como técnicas de sondeo lineal extraen direcciones interpretables para comportamientos como el reconocimiento de entidades, la sycofancia y los patrones de rechazo mediante la creación de pares de muestras contrastantes y las diferencias de activación de la computación. Sin embargo, estos métodos luchan con una generalización inesperada durante la sintonización de finos, donde el entrenamiento en ejemplos de dominio estrecho puede causar desalineación más amplia a través de cambios emergentes a lo largo de direcciones lineales significativas. Los métodos actuales de predicción y control, incluido el análisis basado en gradiente para identificar muestras de entrenamiento nocivo, técnicas de ablación de autoencoder escasas y eliminación de características direccionales durante el entrenamiento, muestran una efectividad limitada para prevenir los cambios de comportamiento no deseados.

Un equipo de investigadores de antrópico, UT Austin, Constellation, AI veraz y UC Berkeley presentan un enfoque para abordar la inestabilidad de la persona en LLM a través de los vectores de personal en el espacio de activación. El método extrae direcciones correspondientes a rasgos de personalidad específicos como el comportamiento malvado, la sycofancia y la propensión de alucinación utilizando una tubería automatizada que requiere solo descripciones en el lenguaje natural de los rasgos objetivo. Además, muestra que la personalidad prevista y no intencionada cambia después de la ficha se correlaciona fuertemente con los movimientos a lo largo de los vectores personales, ofreciendo oportunidades de intervención a través de la corrección post-hoc o los métodos de dirección preventivos. Además, los investigadores muestran que se pueden predecir los cambios de personalidad inducidos por el fino antes de la finidad, identificando datos de entrenamiento problemático tanto en el conjunto de datos como en los niveles de muestra individuales.

Para monitorear los cambios de personalidad durante la sintonización, se construyen dos conjuntos de datos. El primero son los conjuntos de datos que contienen rasgos que contienen ejemplos explícitos de respuestas maliciosas, comportamientos sycofánticos e información fabricada. El segundo son los conjuntos de datos “emergentes de desalineación” (“tipo EM”), que contienen problemas estrechos específicos de dominio, como asesoramiento médico incorrecto, argumentos políticos defectuosos, problemas matemáticos no válidos y código vulnerable. Además, los investigadores extraen estados ocultos promedio para detectar cambios de comportamiento durante la fineta mediada por vectores de persona en el último token de inmediato en los conjuntos de evaluación, calculando la diferencia para proporcionar vectores de cambio de activación. Estos vectores de cambio se mapean en direcciones de personalidad previamente extraídas para medir los cambios inducidos por la fina a lo largo de las dimensiones específicas del rasgo.

Las métricas de diferencia de proyección a nivel de datos muestran una fuerte correlación con la expresión de rasgos después de la sintonización de finos, lo que permite la detección temprana de conjuntos de datos de entrenamiento que pueden desencadenar características de la personalidad no deseada. Demuestra más efectivos que los métodos de proyección sin procesar para predecir los cambios de rasgos, ya que considera los patrones de respuesta natural del modelo base a indicaciones específicas. La detección de nivel de muestra logra una alta separabilidad entre las muestras problemáticas y de control en los conjuntos de datos que sean rasgos (Evil II, Sycophantic II, Alucinación II) y los conjuntos de datos “EM-Like” (error de opinión II). Las direcciones de la persona identifican muestras de entrenamiento individual que inducen cambios de personalidad con precisión de grano fino, superan los métodos de filtrado de datos tradicionales y proporcionan una amplia cobertura a través del contenido de la eliminación de rasgos y los errores específicos del dominio.

En conclusión, los investigadores introdujeron una tubería automatizada que extrae vectores de personal de las descripciones de rasgos de lenguaje natural, proporcionando herramientas para monitorear y controlar los cambios de personalidad a través de la implementación, la capacitación y las fases previas a la capacitación en LLM. Las direcciones de investigación futuras incluyen caracterizar la dimensionalidad completa del espacio de la persona, identificar bases de personalidad natural, explorar correlaciones entre los vectores personales y los patrones de coexpresión de rasgos e investigar limitaciones de métodos lineales para ciertos rasgos de personalidad. Este estudio crea una comprensión fundamental de la dinámica de la persona en los modelos y ofrece marcos prácticos para crear sistemas de modelos de lenguaje más confiables y controlables.


Mira el Papel, Blog técnico y Página de Github. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.