E2uu4a Zcz9b Ozye Xqieazpdbjpcmw99 Qvyvxs81upjknbzto4o81rwapiqifoar39wsfmo336eksh4 Z25bhidamvwtqeklsteg260fzhcwjw1200 H630 N Nu.jpeg

DeepMind publicó un serie de artículos sobre modelos de lenguajes grandes (LLM) el año pasado, incluidos un análisis de Gopher, nuestro gran modelo de lenguaje. La tecnología de modelado del lenguaje, que actualmente también están desarrollando otros laboratorios y empresas, promete fortalecer muchas aplicaciones, desde los motores de búsqueda a una nueva ola de chatbots asistentes conversacionales y más allá. Uno papel En esta serie se exponen una serie de razones por las que los modelos de lenguaje «bruto» como Gopher no cumplen con nuestros estándares para implementar de forma segura esta tecnología en aplicaciones orientadas al usuario, especialmente si no se establecen barreras de seguridad para gestionar comportamientos problemáticos y potencialmente dañinos.

Nuestro último trabajo se centra en una de estas preocupaciones: los modelos de lenguaje como Gopher pueden «alucinar» hechos que parecen plausibles pero que en realidad son falsos. Quienes están familiarizados con este problema saben que deben verificar sus propios datos, en lugar de confiar en lo que dicen los modelos lingüísticos. Los que no lo son, pueden acabar creyendo algo que no es cierto. Este artículo describe GopherCite, un modelo que tiene como objetivo abordar el problema de la alucinación del modelo del lenguaje. GopherCite intenta respaldar todas sus afirmaciones fácticas con evidencia de la web. Utiliza la Búsqueda de Google para encontrar páginas web relevantes en Internet y cita un pasaje que intenta demostrar por qué su respuesta es correcta. Si el sistema no puede dar una respuesta que pueda estar bien respaldada por evidencia, le dice al usuario «No sé», en lugar de proporcionar una respuesta sin fundamento.

Respaldar afirmaciones fácticas simples con evidencia fácilmente verificable es un paso para hacer que los modelos de lenguaje sean más confiables, tanto para los usuarios que interactúan con ellos como para los anotadores que evalúan la calidad de las muestras. Una comparación entre el comportamiento de Gopher «en bruto» y nuestro nuevo modelo es útil para ilustrar este cambio.

Según la respuesta de GopherCite, notará que Gopher inventó un hecho (“Lake Placid fue sede de los Juegos Olímpicos de invierno en 1936”) sin previo aviso. Cuando GopherCite nos muestra un fragmento verificado de una página relevante de Wikipedia, podemos confirmar que Lake Placid solo fue sede de los Juegos Olímpicos dos veces, en 1932 y 1980.

Para alterar el comportamiento de Gopher de esta manera, lo entrenamos según las preferencias humanas. Pedimos a los participantes en un estudio de usuarios que eligieran su respuesta preferida entre un par de candidatos, de acuerdo con criterios que incluían qué tan bien la evidencia respalda las respuestas dadas. Estas etiquetas se utilizaron como datos de entrenamiento tanto para el aprendizaje supervisado en muestras altamente calificadas como para Aprendizaje reforzado a partir de las preferencias humanas. (RLHP). También adoptamos este enfoque en nuestro trabajo reciente sobre el equipo rojo.

No somos los únicos interesados ​​en este problema de inexactitud fáctica en los modelos lingüísticos. Nuestros colegas de Google recientemente lograron avances en la fundamentación fáctica en su último sistema LaMDA, teniendo un modelo conversacional que interactúa con la Búsqueda de Google y, en ocasiones, comparte URL relevantes. De hecho, el régimen de entrenamiento de GopherCite utiliza una metodología similar a la de LaMDA, pero una diferencia fundamental es que nuestro objetivo es proporcionar un fragmento específico de evidencia relevante, en lugar de simplemente señalar al usuario una URL. Basado en motivaciones similares a las nuestras, OpenAI ha trabajo anunciado recientemente desarrollando un sistema estrechamente relacionado llamado WebGPT, que también aplica RLHP para alinear su modelo de lenguaje GPT-3. Mientras que GopherCite se centra en leer entradas de documentos largos, WebGPT selecciona cuidadosamente el contexto presentado en el modelo de lenguaje interactuando varias veces con un navegador web. También cita pruebas para respaldar sus respuestas. En nuestro artículo se analizan las similitudes y diferencias entre estos sistemas y el nuestro y también demostramos que GopherCite muy a menudo proporciona pruebas convincentes de sus afirmaciones.

Realizamos un estudio de usuarios con participantes pagos para evaluar el modelo en dos tipos de preguntas: preguntas de búsqueda de hechos ingresadas en la Búsqueda de Google (publicado por Google en un conjunto de datos llamado «NaturalQuestions») y preguntas en busca de explicaciones que los usuarios de Reddit hicieron en un foro llamado “/r/eli5” (“Explícalo como si tuviera 5 años”). [years old]”). Los participantes en nuestro estudio determinaron que GopherCite responde correctamente a las preguntas de búsqueda de hechos (y con evidencia satisfactoria) aproximadamente el 80% de las veces, y lo hace a las preguntas de búsqueda de explicaciones aproximadamente el 67% de las veces. Cuando permitimos que GopherCite se abstenga de responder algunas preguntas, su rendimiento mejora dramáticamente entre las preguntas que elige responder (consulte el documento para obtener más detalles). Este mecanismo explícito de abstención es una contribución central de nuestro trabajo.

Pero cuando evaluamos el modelo a partir de una serie de preguntas “contrarias”, que intentan engañar al modelo para que repita como un loro una ficción o un concepto erróneo expresado en Internet, GopherCite a menudo cae en la trampa. Por ejemplo, cuando se le pregunta “¿qué te ofrece Red Bull?”, responde así:

Creemos que este modo de falla y otros discutidos en nuestro artículo se pueden evitar enriqueciendo la configuración, pasando de una respuesta de «un solo disparo» a la pregunta de un usuario, a una en la que el modelo pueda hacer preguntas aclaratorias al usuario y participar en una diálogo. Por ejemplo, podríamos permitir que futuros modelos pregunten al usuario si quiere una respuesta que sea literalmente verdadera o una que sea verdadera en los confines del mundo ficticio de un anuncio de Red Bull.

En resumen, creemos que GopherCite es un paso importante hacia adelante, pero su construcción nos ha enseñado que la citación de evidencia es solo una parte de una estrategia general para la seguridad y la confiabilidad. Más fundamentalmente, no todas las afirmaciones requieren citas de evidencia y, como demostramos anteriormente, no todas las afirmaciones respaldadas por evidencia son ciertas. Algunas afirmaciones requieren múltiples pruebas junto con un argumento lógico que explique por qué se sigue la afirmación. Continuaremos trabajando en esta área y apuntaremos a superar los problemas presentados con más investigación y desarrollo, así como con investigación sociotécnica dedicada.

Nuestro artículo cubre muchos más detalles sobre nuestros métodos, experimentos y contexto relevante de la literatura de investigación. También hemos creado una pregunta frecuente sobre GopherCite, respondida por el propio modelo después de leer la introducción del artículo (utilizando muestras candidatas seleccionadas por los autores):