Comprender los grandes modelos lingüísticos (LLM) y promover su conducta honesta se ha vuelto cada vez más crucial a medida que estos modelos han demostrado capacidades crecientes y han comenzado a ser ampliamente adoptados por la sociedad. Los investigadores sostienen que nuevos riesgos, como la desinformación escalable, la manipulación, el fraude, la manipulación electoral o el riesgo especulativo de pérdida de control, surgen del potencial de que los modelos sean engañosos (que definen como “la inducción sistemática de creencias falsas en el búsqueda de algún resultado distinto de la verdad”). Las investigaciones indican que incluso si las activaciones de los modelos tienen la información necesaria, es posible que necesiten más que una desalineación para producir el resultado correcto.
Estudios anteriores han distinguido entre veracidad y honestidad, diciendo que la primera se abstiene de hacer afirmaciones falsas, mientras que la segunda se abstiene de hacer afirmaciones que no “cree”. Esta distinción ayuda a darle sentido. Por lo tanto, un modelo puede generar afirmaciones engañosas debido a una desalineación en forma de deshonestidad más que por falta de habilidad. Desde entonces, varios estudios han intentado abordar la honestidad del LLM profundizando en el estado interno de un modelo para encontrar representaciones veraces. También se han hecho propuestas de técnicas recientes de caja negra para identificar y provocar mentiras masivas en modelos de lenguaje. En particular, trabajos anteriores demuestran que se puede mejorar la extracción de representaciones de modelos internos obligando a los modelos a considerar una noción activamente.
Además, los modelos incluyen una capa intermediaria “crítica” en entornos de seguimiento de contexto, más allá de la cual las representaciones de respuestas verdaderas o incorrectas en el seguimiento de contexto tienden a divergir, un fenómeno conocido como “pensamiento excesivo”. Motivados por estudios anteriores, los investigadores ampliaron el enfoque del aprendizaje en contexto incorrectamente etiquetado a la deshonestidad deliberada, en la que dieron al modelo instrucciones explícitas para mentir. Utilizando metodologías de sondeo y de interpretabilidad mecánica, el equipo de investigación de la Universidad de Cornell, la Universidad de Pensilvania y la Universidad de Maryland espera identificar y comprender qué capas y cabezas de atención del modelo son responsables de la deshonestidad en este contexto.
Los siguientes son sus aportes:
1. El equipo de investigación muestra que, según lo determinado por una precisión considerablemente inferior al azar en preguntas de verdadero/falso, se puede entrenar a LLaMA-2-70b-chat para mentir. Según el equipo del estudio, esto puede ser bastante delicado y debe diseñarse con cuidado y rapidez.
2. Utilizando parches de activación y sondeo, el equipo de investigación encuentra evidencia independiente de cinco capas del modelo críticas para la conducta deshonesta.
3. Sólo 46 cabezas de atención, o el 0,9% de todas las cabezas de la red, fueron efectivamente sometidas a intervenciones causales por parte del equipo de estudio, lo que obligó a los modelos engañosos a responder con la verdad. Estos tratamientos son resistentes a varias divisiones e indicaciones de conjuntos de datos.
En pocas palabras, el equipo de investigación analiza un caso sencillo de mentira, en el que brindan instrucciones de maestría sobre si se debe decir la verdad o no. Sus hallazgos demuestran que los modelos enormes pueden mostrar un comportamiento deshonesto, produciendo respuestas correctas cuando se les pide que sean honestos y respuestas erróneas si se les presiona para que mientan. Estos hallazgos se basan en investigaciones anteriores que sugieren que el sondeo de activación puede generalizarse fuera de la distribución cuando se le solicita. Sin embargo, el equipo de investigación descubre que esto puede requerir una ingeniería rápida y prolongada debido a problemas como la tendencia del modelo a generar el token “Falso” antes en la secuencia que el token “Verdadero”.
Mediante el uso de la inyección de prefijo, el equipo de investigación puede inducir constantemente a mentir. Posteriormente, el equipo compara las activaciones de los modelos deshonesto y honesto, localizando las capas y cabezas de atención implicadas en la mentira. Al emplear sondas lineales para investigar este comportamiento mentiroso, el equipo de investigación descubre que las capas tempranas a medias ven representaciones de modelos comparables para indicaciones honestas y mentirosas antes de divergir drásticamente para volverse antiparalelas. Esto podría mostrar que las capas anteriores deberían tener una representación de la verdad invariante en el contexto, como lo desea un conjunto de literatura. Los parches de activación son otra herramienta que utiliza el equipo de investigación para comprender más sobre el funcionamiento de capas y cabezales específicos. Los investigadores descubrieron que las intervenciones localizadas podrían abordar completamente la falta de coincidencia entre los modelos honestos y mentirosos en cualquier dirección.
Significativamente, estas intervenciones en apenas 46 cabezas de atención demuestran un sólido grado de resiliencia entre conjuntos de datos y avisos cruzados. El equipo de investigación se centra en mentir utilizando un conjunto de datos accesible y diciéndole específicamente al modelo que mienta, a diferencia de trabajos anteriores que han examinado en gran medida la precisión y la integridad de los modelos que son honestos por defecto. Gracias a este contexto, los investigadores han aprendido mucho sobre las sutilezas del fomento de conductas deshonestas y los métodos mediante los cuales los grandes modelos se involucran en conductas deshonestas. Para garantizar la aplicación ética y segura de los LLM en el mundo real, el equipo de investigación espera que más trabajo en este contexto conduzca a nuevos enfoques para detener las mentiras de los LLM.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.