E2uu4a Zcz9b Ozye Xqieazpdbjpcmw99 Qvyvxs81upjknbzto4o81rwapiqifoar39wsfmo336eksh4 Z25bhidamvwtqeklsteg260fzhcwjw1200 H630 N Nu.jpeg

En nuestro artículo reciente, mostramos que es posible encontrar automáticamente entradas que obtengan texto dañino de los modelos de lenguaje generando entradas utilizando los propios modelos de lenguaje. Nuestro enfoque proporciona una herramienta para encontrar comportamientos modelo dañinos antes de que los usuarios se vean afectados, aunque enfatizamos que debe verse como un componente junto con muchas otras técnicas que serán necesarias para encontrar daños y mitigarlos una vez detectados.

Los grandes modelos de lenguaje generativo como GPT-3 y Gopher tienen una capacidad notable para generar texto de alta calidad, pero son difíciles de implementar en el mundo real. Los modelos de lenguaje generativo conllevan el riesgo de generar texto muy dañino, e incluso un pequeño riesgo de daño es inaceptable en aplicaciones del mundo real.

Por ejemplo, en 2016, Microsoft lanzó el bot Tay Twitter para twittear automáticamente en respuesta a los usuarios. En 16 horas, Microsoft derribó a Tay después de que varios usuarios adversarios provocaran tweets racistas y con carga sexual de Tay, que fueron enviados a más de 50.000 seguidores. El resultado fue no por falta de cuidado por parte de Microsoft:

El problema es que hay tantas entradas posibles que pueden hacer que un modelo genere texto dañino. Como resultado, es difícil encontrar todos los casos en los que un modelo falla antes de implementarse en el mundo real. El trabajo anterior se basa en anotadores humanos remunerados para descubrir manualmente casos de falla (Xu et al. 2021, Entre otros). Este enfoque es efectivo pero costoso, lo que limita el número y la diversidad de casos de falla encontrados.

Nuestro objetivo es complementar las pruebas manuales y reducir el número de descuidos críticos mediante la búsqueda de casos de falla (o ‘equipo rojo’) de manera automática. Para hacerlo, generamos casos de prueba usando un modelo de lenguaje en sí y usamos un clasificador para detectar varios comportamientos dañinos en los casos de prueba, como se muestra a continuación:

Nuestro enfoque descubre una variedad de comportamientos modelo dañinos:

  1. Lenguaje ofensivo: Incitación al odio, malas palabras, contenido sexual, discriminación, etc.
  2. Fuga de datos: Generar información de identificación personal privada o protegida por derechos de autor a partir del corpus de capacitación.
  3. Generación de información de contacto: Dirigir a los usuarios a enviar correos electrónicos o llamar a personas reales innecesariamente.
  4. Sesgo distributivo: Hablar de algunos grupos de personas de una manera injustamente diferente a otros grupos, en promedio durante una gran cantidad de resultados.
  5. Daños conversacionales: Lenguaje ofensivo que se produce en el contexto de un diálogo largo, por ejemplo.

Para generar casos de prueba con modelos de lenguaje, exploramos una variedad de métodos, que van desde la generación basada en indicaciones y el aprendizaje de pocas oportunidades hasta el ajuste supervisado y el aprendizaje por refuerzo. Algunos métodos generan casos de prueba más diversos, mientras que otros métodos generan casos de prueba más difíciles para el modelo objetivo. En conjunto, los métodos que proponemos son útiles para obtener una alta cobertura de pruebas y al mismo tiempo modelar casos contradictorios.

Una vez que encontramos casos de falla, resulta más fácil corregir el comportamiento dañino del modelo mediante:

  1. Incluir en la lista negra ciertas frases que ocurren con frecuencia en resultados dañinos, evitando que el modelo genere resultados que contengan frases de alto riesgo.
  2. Encontrar datos de entrenamiento ofensivos citados por el modelo, para eliminar esos datos al entrenar futuras iteraciones del modelo.
  3. Aumentar el mensaje del modelo (texto condicionante) con un ejemplo del comportamiento deseado para un determinado tipo de entrada, como se muestra en nuestro trabajo reciente.
  4. Entrenando el modelo para minimizar la probabilidad de su salida original dañina para una entrada de prueba determinada.

En general, los modelos de lenguaje son una herramienta muy eficaz para descubrir cuándo los modelos de lenguaje se comportan de diversas formas no deseadas. En nuestro trabajo actual, nos centramos en los daños de los equipos rojos que cometen los modelos lingüísticos actuales. En el futuro, nuestro enfoque también se podrá utilizar para descubrir de forma preventiva otros daños hipotéticos provenientes de sistemas avanzados de aprendizaje automático, por ejemplo, debido a desalineación interna o fallas en la robustez objetiva. Este enfoque es solo un componente del desarrollo responsable de un modelo lingüístico: consideramos el equipo rojo como una herramienta que se puede utilizar junto con muchas otras, tanto para encontrar daños en los modelos lingüísticos como para mitigarlos. Nos remitimos al apartado 7.3 del Rae y col. 2021 para una discusión más amplia sobre otros trabajos necesarios para la seguridad del modelo de lenguaje.

Para obtener más detalles sobre nuestro enfoque y resultados, así como las consecuencias más amplias de nuestros hallazgos, lea nuestro papel de equipo rojo aquí.