633fee1aaa8967568ee1a5b9 Following Expert With Rewards.gif

Explorando ejemplos de generalización errónea de objetivos, donde las capacidades de un sistema de IA se generalizan pero su objetivo no.

A medida que construimos sistemas de inteligencia artificial (IA) cada vez más avanzados, queremos asegurarnos de que no persigan objetivos no deseados. Este comportamiento en un agente de IA es a menudo el resultado de especificación de juego – explotar una mala elección de aquello por lo que se les recompensa. En nuestro último artículoexploramos un mecanismo más sutil mediante el cual los sistemas de IA pueden aprender involuntariamente a perseguir objetivos no deseados: generalización errónea de objetivos (GMG).

GMG ocurre cuando un sistema capacidades generalizar con éxito pero su meta no generaliza como se desea, por lo que el sistema persigue de manera competente el objetivo equivocado. Fundamentalmente, a diferencia de los juegos de especificaciones, el GMG puede ocurrir incluso cuando el sistema de IA está entrenado con una especificación correcta.

nuestro anterior trabajar en la transmisión cultural condujo a un ejemplo de comportamiento de GMG que no diseñamos. Un agente (la mancha azul, a continuación) debe navegar por su entorno, visitando las esferas de colores en el orden correcto. Durante el entrenamiento, hay un agente “experto” (la mancha roja) que visita las esferas de colores en el orden correcto. El agente descubre que seguir la mancha roja es una estrategia gratificante.

El agente (azul) observa al experto (rojo) para determinar a qué esfera dirigirse.

Desafortunadamente, si bien el agente se desempeña bien durante el entrenamiento, lo hace mal cuando, después del entrenamiento, reemplazamos al experto por un “antiexperto” que visita las esferas en el orden incorrecto.

El agente (azul) sigue al antiexperto (rojo), acumulando recompensa negativa.

Aunque el agente puede observar que está obteniendo una recompensa negativa, no persigue el objetivo deseado de “visitar las esferas en el orden correcto” sino que persigue de manera competente el objetivo de “seguir al agente rojo”.

GMG no se limita a entornos de aprendizaje por refuerzo como este. De hecho, puede ocurrir con cualquier sistema de aprendizaje, incluido el “aprendizaje en pocas oportunidades” de los modelos de lenguaje grandes (LLM). Los enfoques de aprendizaje de pocas posibilidades tienen como objetivo construir modelos precisos con menos datos de entrenamiento.

Solicitamos un LLM, Ardilla de tierra, para evaluar expresiones lineales que involucran variables y constantes desconocidas, como x+y-3. Para resolver estas expresiones, Gopher primero debe preguntar sobre los valores de las variables desconocidas. Le proporcionamos diez ejemplos de entrenamiento, cada uno de los cuales involucra dos variables desconocidas.

En el momento de la prueba, al modelo se le hacen preguntas con cero, una o tres variables desconocidas. Aunque el modelo generaliza correctamente a expresiones con una o tres variables desconocidas, cuando no hay incógnitas, plantea preguntas redundantes como «¿Cuánto es 6?». El modelo siempre consulta al usuario al menos una vez antes de dar una respuesta, incluso cuando no es necesario.

Diálogos con Gopher para un aprendizaje breve en la tarea de Evaluación de expresiones, con el comportamiento de GMG resaltado.

En nuestro artículo, proporcionamos ejemplos adicionales en otros entornos de aprendizaje.

Abordar el GMG es importante para alinear los sistemas de IA con los objetivos de sus diseñadores simplemente porque es un mecanismo por el cual un sistema de IA puede fallar. Esto será especialmente crítico a medida que nos acerquemos a la inteligencia artificial general (AGI).

Considere dos posibles tipos de sistemas AGI:

  • A1: modelo previsto. Este sistema de inteligencia artificial hace lo que sus diseñadores pretenden que haga.
  • A2: Modelo engañoso. Este sistema de IA persigue algún objetivo no deseado, pero (según se supone) también es lo suficientemente inteligente como para saber que será penalizado si se comporta de manera contraria a las intenciones de su diseñador.

Dado que A1 y A2 exhibirán el mismo comportamiento durante el entrenamiento, la posibilidad de GMG significa que cualquiera de los modelos podría tomar forma, incluso con una especificación que solo recompense el comportamiento previsto. Si se aprende A2, intentará subvertir la supervisión humana para implementar sus planes hacia el objetivo no deseado.

A nuestro equipo de investigación le encantaría ver un trabajo de seguimiento que investigue la probabilidad de que ocurra GMG en la práctica y las posibles mitigaciones. En nuestro artículo, sugerimos algunos enfoques, incluyendo mecánico interpretabilidad y recursivo evaluaciónen los cuales estamos trabajando activamente.

Actualmente estamos recopilando ejemplos de GMG en este hoja de cálculo disponible públicamente. Si se ha encontrado con una generalización errónea de objetivos en la investigación de IA, lo invitamos a envíe ejemplos aquí.