Construyendo agentes de diálogo más seguros – Google DeepMind

Investigación

Publicado
Autores

El equipo gorrión

Entrenar una IA para comunicarse de una manera más útil, correcta e inofensiva

En los últimos años, los grandes modelos lingüísticos (LLM) han logrado éxito en una variedad de tareas como la respuesta a preguntas, el resumen y el diálogo. El diálogo es una tarea particularmente interesante porque implica una comunicación flexible e interactiva. Sin embargo, los agentes de diálogo impulsados ​​por LLM pueden expresar información inexacta o inventada, utilizar lenguaje discriminatorio o fomentar comportamientos inseguros.

Para crear agentes de diálogo más seguros, debemos poder aprender de la retroalimentación humana. Aplicando el aprendizaje por refuerzo basado en los aportes de los participantes de la investigación, exploramos nuevos métodos para capacitar a agentes de diálogo que sean prometedores para un sistema más seguro.

En nuestro último artículoles presentamos Gorrión – un agente de diálogo que es útil y reduce el riesgo de respuestas inseguras e inapropiadas. Nuestro agente está diseñado para hablar con un usuario, responder preguntas y buscar en Internet usando Google cuando sea útil buscar evidencia para fundamentar sus respuestas.

Nuestro nuevo modelo de IA conversacional responde por sí solo a un mensaje humano inicial.

Sparrow es un modelo de investigación y prueba de concepto, diseñado con el objetivo de capacitar a agentes de diálogo para que sean más útiles, correctos e inofensivos. Al aprender estas cualidades en un entorno de diálogo general, Sparrow mejora nuestra comprensión de cómo podemos entrenar agentes para que sean más seguros y útiles y, en última instancia, para ayudar a construir una inteligencia artificial general (AGI) más segura y útil.

Sparrow se niega a responder una pregunta potencialmente dañina.

Cómo funciona gorrión

Entrenar una IA conversacional es un problema especialmente desafiante porque es difícil identificar qué hace que un diálogo sea exitoso. Para abordar este problema, recurrimos a una forma de aprendizaje por refuerzo (RL) basada en la retroalimentación de las personas, utilizando la retroalimentación de preferencias de los participantes del estudio para entrenar un modelo de cuán útil es una respuesta.

Para obtener estos datos, mostramos a nuestros participantes múltiples respuestas modelo a la misma pregunta y les preguntamos cuál respuesta les gusta más. Debido a que mostramos respuestas con y sin evidencia recuperada de Internet, este modelo también puede determinar cuándo una respuesta debe estar respaldada con evidencia.

Les pedimos a los participantes del estudio que evalúen e interactúen con Sparrow, ya sea de forma natural o adversaria, ampliando continuamente el conjunto de datos utilizado para entrenar a Sparrow.

Pero la creciente utilidad es sólo una parte de la historia. Para asegurarnos de que el comportamiento del modelo sea seguro, debemos restringir su comportamiento. Y así, determinamos un conjunto inicial simple de reglas para el modelo, como “no hacer declaraciones amenazantes” y “no hacer comentarios de odio o insultantes”.

También proporcionamos reglas sobre consejos posiblemente dañinos y no pretender ser una persona. Estas reglas se basaron en el estudio de trabajos existentes sobre daños al lenguaje y consultas con expertos. Luego pedimos a los participantes de nuestro estudio que hablen con nuestro sistema, con el objetivo de engañarlo para que rompa las reglas. Luego, estas conversaciones nos permiten entrenar un “modelo de reglas” separado que indica cuándo el comportamiento de Sparrow rompe alguna de las reglas.

Hacia una mejor IA y mejores juicios

Verificar la exactitud de las respuestas de Sparrow es difícil incluso para los expertos. En cambio, pedimos a nuestros participantes que determinen si las respuestas de Sparrow son plausibles y si la evidencia que proporciona Sparrow realmente respalda la respuesta. Según nuestros participantes, Sparrow proporciona una respuesta plausible y la respalda con evidencia el 78% de las veces cuando se le hace una pregunta objetiva. Esta es una gran mejora con respecto a nuestros modelos básicos. Aún así, Sparrow no es inmune a cometer errores, como alucinar hechos y dar respuestas que a veces están fuera de tema.

Sparrow también tiene margen para mejorar su seguimiento de reglas. Después del entrenamiento, los participantes aún pudieron engañarlo para que rompiera nuestras reglas el 8% de las veces, pero en comparación con enfoques más simples, Sparrow sigue mejor nuestras reglas bajo prueba adversaria. Por ejemplo, nuestro modelo de diálogo original rompía las reglas aproximadamente 3 veces más a menudo que Sparrow cuando nuestros participantes intentaron engañarlo para que lo hiciera.

Sparrow responde una pregunta y una pregunta de seguimiento utilizando evidencia, luego sigue la regla “No pretender tener una identidad humana” cuando se le hace una pregunta personal (muestra del 9 de septiembre de 2022).

Nuestro objetivo con Sparrow era construir una maquinaria flexible para hacer cumplir reglas y normas en los agentes de diálogo, pero las reglas particulares que utilizamos son preliminares. Desarrollar un conjunto de reglas mejor y más completo requerirá tanto aportes de expertos en muchos temas (incluidos formuladores de políticas, científicos sociales y especialistas en ética) como aportes participativos de una amplia gama de usuarios y grupos afectados. Creemos que nuestros métodos seguirán siendo válidos para un conjunto de reglas más rigurosas.

Sparrow es un paso significativo hacia la comprensión de cómo capacitar a los agentes de diálogo para que sean más útiles y seguros. Sin embargo, una comunicación exitosa entre las personas y los agentes de diálogo no sólo debe evitar daños sino estar alineada con los valores humanos para una comunicación efectiva y beneficiosa, como se analiza en trabajos recientes sobre Alinear los modelos lingüísticos con los valores humanos..

También enfatizamos que un buen agente aún se negará a responder preguntas en contextos en los que sea apropiado ceder ante los humanos o donde esto tenga el potencial de disuadir comportamientos dañinos. Finalmente, nuestra investigación inicial se centró en un agente de habla inglesa y es necesario seguir trabajando para garantizar resultados similares en otros idiomas y contextos culturales.

En el futuro, esperamos que las conversaciones entre humanos y máquinas puedan conducir a mejores juicios sobre el comportamiento de la IA, permitiendo a las personas alinear y mejorar sistemas que podrían ser demasiado complejos para entenderlos sin la ayuda de las máquinas.

¿Desea explorar un camino conversacional hacia una AGI segura? Eran actualmente contratando científicos investigadores para nuestro equipo de Alineación Escalable.