Un usuario podría pedirle a ChatGPT que escriba un programa de computadora o resuma un artículo, y el chatbot de IA probablemente podría generar código útil o escribir una sinopsis convincente. Sin embargo, alguien también podría pedir instrucciones para construir una bomba, y el chatbot también podría proporcionárselas.
Para evitar este y otros problemas de seguridad, las empresas que crean modelos lingüísticos de gran tamaño suelen protegerlos mediante un proceso llamado equipo rojo. Equipos de evaluadores humanos escriben indicaciones destinadas a activar textos inseguros o tóxicos en el modelo que se está probando. Estas indicaciones se utilizan para enseñarle al chatbot a evitar este tipo de respuestas.
Pero esto sólo funciona eficazmente si los ingenieros saben qué indicaciones tóxicas utilizar. Si los evaluadores humanos omiten algunas indicaciones, lo que probablemente se deba a la cantidad de posibilidades, un chatbot considerado seguro aún podría ser capaz de generar respuestas inseguras.
Investigadores del Improbable AI Lab del MIT y del MIT-IBM Watson AI Lab utilizaron el aprendizaje automático para mejorar el equipo rojo. Desarrollaron una técnica para entrenar un modelo de lenguaje grande del equipo rojo para generar automáticamente diversos mensajes que desencadenen una gama más amplia de respuestas indeseables del chatbot que se está probando.
Lo hacen enseñando al modelo del equipo rojo a tener curiosidad cuando escribe indicaciones y a centrarse en indicaciones novedosas que evocan respuestas tóxicas del modelo objetivo.
La técnica superó a los probadores humanos y otros enfoques de aprendizaje automático al generar indicaciones más distintas que provocaron respuestas cada vez más tóxicas. Su método no solo mejora significativamente la cobertura de las entradas que se prueban en comparación con otros métodos automatizados, sino que también puede generar respuestas tóxicas de un chatbot que tenía salvaguardas integradas por expertos humanos.
“En este momento, cada modelo de lenguaje grande tiene que pasar por un período muy largo de formación de equipos rojos para garantizar su seguridad. Esto no será sostenible si queremos actualizar estos modelos en entornos que cambian rápidamente. Nuestro método proporciona una forma más rápida y eficaz de realizar este control de calidad”, afirma Zhang-Wei Hong, estudiante de posgrado en ingeniería eléctrica e informática (EECS) en el laboratorio de IA Improbable y autor principal de un artículo. documento sobre este enfoque de equipo rojo.
Los coautores de Hong incluyen a los estudiantes graduados de EECS Idan Shenfield, Tsun-Hsuan Wang y Yung-Sung Chuang; Aldo Pareja y Akash Srivastava, científicos investigadores del MIT-IBM Watson AI Lab; James Glass, científico investigador senior y jefe del Grupo de Sistemas de Lenguaje Hablado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y el autor principal Pulkit Agrawal, director de Improbable AI Lab y profesor asistente en CSAIL. La investigación se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje.
Equipo rojo automatizado
Los grandes modelos de lenguaje, como los que impulsan los chatbots de IA, a menudo se entrenan mostrándoles enormes cantidades de texto de miles de millones de sitios web públicos. Por lo tanto, no sólo pueden aprender a generar palabras tóxicas o describir actividades ilegales, sino que los modelos también podrían filtrar información personal que puedan haber recopilado.
La naturaleza tediosa y costosa del equipo rojo humano, que a menudo es ineficaz para generar una variedad lo suficientemente amplia de indicaciones para salvaguardar completamente un modelo, ha alentado a los investigadores a automatizar el proceso utilizando el aprendizaje automático.
Estas técnicas suelen entrenar un modelo de equipo rojo mediante el aprendizaje por refuerzo. Este proceso de prueba y error recompensa al modelo del equipo rojo por generar indicaciones que desencadenan respuestas tóxicas del chatbot que se está probando.
Pero debido a la forma en que funciona el aprendizaje por refuerzo, el modelo del equipo rojo a menudo seguirá generando algunas indicaciones similares que son altamente tóxicas para maximizar su recompensa.
Para su enfoque de aprendizaje por refuerzo, los investigadores del MIT utilizaron una técnica llamada exploración impulsada por la curiosidad. Se incentiva al modelo del equipo rojo a sentir curiosidad por las consecuencias de cada mensaje que genera, por lo que probará mensajes con diferentes palabras, patrones de oraciones o significados.
«Si el modelo del equipo rojo ya ha visto un mensaje específico, reproducirlo no generará ninguna curiosidad en el modelo del equipo rojo, por lo que se verá obligado a crear nuevos mensajes», dice Hong.
Durante su proceso de capacitación, el modelo del equipo rojo genera un mensaje e interactúa con el chatbot. El chatbot responde y un clasificador de seguridad califica la toxicidad de su respuesta, recompensando al modelo del equipo rojo en función de esa calificación.
Curiosidad gratificante
El objetivo del modelo del equipo rojo es maximizar su recompensa provocando una respuesta aún más tóxica con un estímulo novedoso. Los investigadores fomentan la curiosidad en el modelo del equipo rojo modificando la señal de recompensa en la configuración del aprendizaje por refuerzo.
En primer lugar, además de maximizar la toxicidad, incluyen una bonificación de entropía que anima al modelo del equipo rojo a ser más aleatorio a medida que explora diferentes indicaciones. En segundo lugar, para despertar la curiosidad del agente, incluyen dos recompensas novedosas. Uno recompensa al modelo en función de la similitud de las palabras en sus indicaciones y el otro recompensa al modelo en función de la similitud semántica. (Menos similitud produce una recompensa mayor).
Para evitar que el modelo del equipo rojo genere texto aleatorio y sin sentido, que puede engañar al clasificador para que otorgue una puntuación alta de toxicidad, los investigadores también agregaron una bonificación de lenguaje naturalista al objetivo del entrenamiento.
Una vez implementadas estas adiciones, los investigadores compararon la toxicidad y la diversidad de respuestas que generó su modelo de equipo rojo con otras técnicas automatizadas. Su modelo superó las líneas de base en ambas métricas.
También utilizaron su modelo de equipo rojo para probar un chatbot que había sido ajustado con comentarios humanos para que no diera respuestas tóxicas. Su enfoque impulsado por la curiosidad pudo producir rápidamente 196 mensajes que provocaron respuestas tóxicas de este chatbot «seguro».
“Estamos viendo un aumento de modelos, que se espera que aumente. Imagine miles de modelos o incluso más y empresas/laboratorios que impulsan actualizaciones de modelos con frecuencia. Estos modelos serán una parte integral de nuestras vidas y es importante que sean verificados antes de ser lanzados al consumo público. La verificación manual de modelos simplemente no es escalable, y nuestro trabajo es un intento de reducir el esfuerzo humano para garantizar un futuro de IA más seguro y confiable”, afirma Agrawal.
En el futuro, los investigadores quieren permitir que el modelo del equipo rojo genere indicaciones sobre una variedad más amplia de temas. También quieren explorar el uso de un modelo de lenguaje grande como clasificador de toxicidad. De esta manera, un usuario podría entrenar el clasificador de toxicidad utilizando un documento de política de la empresa, por ejemplo, de modo que un modelo de equipo rojo podría probar un chatbot para detectar violaciones de la política de la empresa.
«Si está lanzando un nuevo modelo de IA y le preocupa si se comportará como se espera, considere utilizar equipos rojos impulsados por la curiosidad», dice Agrawal.
Esta investigación está financiada, en parte, por Hyundai Motor Company, Quanta Computer Inc., el MIT-IBM Watson AI Lab, una subvención de investigación MLRA de Amazon Web Services, la Oficina de Investigación del Ejército de EE. UU., la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. Machine Common Sense Programa, la Oficina de Investigación Naval de EE. UU., el Laboratorio de Investigación de la Fuerza Aérea de EE. UU. y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de EE. UU.