Responsabilidad y seguridad
El lenguaje, y su papel a la hora de demostrar y facilitar la comprensión -o inteligencia-, es una parte fundamental del ser humano. Brinda a las personas la capacidad de comunicar pensamientos y conceptos, expresar ideas, crear recuerdos y desarrollar un entendimiento mutuo. Estas son partes fundamentales de la inteligencia social. Es por eso que nuestros equipos en DeepMind estudian aspectos del procesamiento del lenguaje y la comunicación, tanto en agentes artificiales como en humanos.
Como parte de una cartera más amplia de investigación de IA, creemos que el desarrollo y el estudio de modelos de lenguaje más potentes (sistemas que predicen y generan texto) tienen un enorme potencial para construir sistemas de IA avanzados que se pueden usar de manera segura y eficiente para resumir información, proporcionar información experta. Consejos y seguir instrucciones a través del lenguaje natural. Desarrollar modelos lingüísticos beneficiosos requiere investigar sus impactos potenciales, incluidos los riesgos que plantean. Esto incluye la colaboración entre expertos de diversos orígenes para anticipar y abordar cuidadosamente los desafíos que pueden crear los algoritmos de entrenamiento en conjuntos de datos existentes.
Hoy publicamos tres artículos sobre modelos de lenguaje que reflejan este enfoque interdisciplinario. Incluyen un estudio detallado de un modelo de lenguaje transformador de 280 mil millones de parámetros llamado Ardilla de tierra, un estudio de los riesgos éticos y sociales asociados con grandes modelos lingüísticosy un artículo que investiga una nueva arquitectura con mejor eficiencia de capacitación.
Gopher: un modelo de lenguaje de 280 mil millones de parámetros
En la búsqueda por explorar modelos de lenguaje y desarrollar otros nuevos, entrenamos una serie de modelos de lenguaje transformador de diferentes tamaños, que van desde 44 millones de parámetros hasta 280 mil millones de parámetros (el modelo más grande que denominamos Ardilla de tierra).
Nuestra investigación investigó las fortalezas y debilidades de esos modelos de diferentes tamaños, destacando áreas donde aumentar la escala de un modelo continúa mejorando el rendimiento, por ejemplo, en áreas como comprensión lectora, verificación de datos e identificación de lenguaje tóxico. También descubrimos resultados en los que la escala del modelo no mejora significativamente los resultados, por ejemplo, en razonamiento lógico y tareas de sentido común.
En nuestra investigación, encontramos las capacidades de Ardilla de tierra superar los modelos lingüísticos existentes para una serie de tareas clave. Esto incluye el punto de referencia Massive Multitask Language Understanding (MMLU), donde Ardilla de tierra demuestra un avance significativo hacia el desempeño humano experto con respecto al trabajo anterior.
Además de la evaluación cuantitativa de Ardilla de tierra, también exploramos el modelo a través de interacción directa. Uno de nuestros hallazgos clave fue que, cuando Ardilla de tierra Cuando se le incita a una interacción de diálogo (como en un chat), el modelo a veces puede proporcionar una coherencia sorprendente.
Aquí Ardilla de tierra puede discutir la biología celular y proporcionar una cita correcta a pesar de que no hay ningún ajuste específico en el diálogo. Sin embargo, nuestra investigación también detalló varios modos de falla que persisten en todos los tamaños de modelos, entre ellos una tendencia a la repetición, el reflejo de sesgos estereotipados y la propagación segura de información incorrecta.
Este tipo de análisis es importante porque comprender y documentar los modos de falla nos da una idea de cómo los modelos lingüísticos grandes podrían provocar daños posteriores y nos muestra dónde deben centrarse los esfuerzos de mitigación en la investigación para abordar esos problemas.
Riesgos éticos y sociales de los grandes modelos lingüísticos
En nuestro segundo artículo, anticipamos posibles riesgos éticos y sociales de los modelos lingüísticos y creamos una clasificación integral de estos riesgos y modos de falla, basándose en investigaciones previas en esta área. [Bommasani et al 2021, Bender et al 2021, Patterson et al 2021]. Esta descripción general sistemática es un paso esencial para comprender estos riesgos y mitigar los daños potenciales. Presentamos una taxonomía de los riesgos relacionados con los modelos lingüísticos, categorizados en seis áreas temáticas, y detallamos 21 riesgos en profundidad.
Es esencial tener una visión amplia de las diferentes áreas de riesgo: como mostramos en el documento, un enfoque demasiado limitado en un solo riesgo aislado puede empeorar otros problemas. La taxonomía que presentamos sirve como base para que los expertos y el discurso público más amplio construyan una visión general compartida de las consideraciones éticas y sociales sobre los modelos lingüísticos, tomen decisiones responsables e intercambien enfoques para abordar los riesgos identificados.
Nuestra investigación concluye que dos áreas en particular requieren más trabajo. En primer lugar, las herramientas de evaluación comparativa actuales son insuficientes para evaluar algunos riesgos importantes, por ejemplo, cuando los modelos lingüísticos generan información errónea y la gente confía en que esa información sea cierta. Evaluar riesgos como estos requiere un mayor escrutinio de la interacción humano-computadora con los modelos de lenguaje. En nuestro artículo enumeramos varios riesgos que de manera similar requieren herramientas de análisis novedosas o más interdisciplinarias. En segundo lugar, es necesario trabajar más en la mitigación de riesgos. Por ejemplo, se sabe que los modelos lingüísticos reproducen estereotipos sociales dañinos, pero la investigación sobre este problema aún se encuentra en las primeras etapas, ya que artículo reciente de DeepMind presentado.
Entrenamiento eficiente con recuperación a escala de Internet
Nuestro artículo final se basa en los fundamentos de Ardilla de tierra y nuestra taxonomía de riesgo ético y social al proponer una arquitectura de modelo de lenguaje mejorada que reduce el costo energético de la capacitación y facilita el seguimiento de los resultados del modelo hasta las fuentes dentro del corpus de capacitación.
El transformador de recuperación mejorada (RETRO) está previamente entrenado con un mecanismo de recuperación a escala de Internet. Inspirándose en cómo el cerebro depende de mecanismos de memoria dedicados cuando aprende, RETRO consulta de manera eficiente pasajes de texto para mejorar sus predicciones. Al comparar los textos generados con los pasajes en los que RETRO se basó para la generación, podemos interpretar por qué el modelo hace ciertas predicciones y de dónde provienen. También vemos cómo el modelo obtiene un rendimiento comparable al de un Transformer normal con un orden de magnitud menos de parámetros y obtiene un rendimiento de última generación en varios puntos de referencia de modelado de lenguajes.
Avanzando
Estos artículos ofrecen una base para la investigación del lenguaje de DeepMind en el futuro, particularmente en áreas que influirán en cómo se evalúan e implementan estos modelos. Abordar estas áreas será fundamental para garantizar interacciones seguras con los agentes de IA, desde que las personas les digan a los agentes lo que quieren hasta que los agentes les expliquen sus acciones a las personas. La investigación en la comunidad en general sobre el uso de la comunicación para la seguridad incluye explicaciones en lenguaje natural, Usar la comunicación para reducir la incertidumbre.y usar el lenguaje para descomponer decisiones complejas en partes tales como amplificación, debatey modelado de recompensa recursivo – todas las áreas críticas de exploración.
A medida que continuamos nuestra investigación sobre modelos de lenguaje, DeepMind seguirá siendo cauteloso y reflexivo. Esto requiere dar un paso atrás para evaluar la situación en la que nos encontramos, mapear los riesgos potenciales e investigar mitigaciones. Nos esforzaremos por ser transparentes y abiertos sobre las limitaciones de nuestros modelos y trabajaremos para mitigar los riesgos identificados. En cada paso, aprovechamos la amplia experiencia de nuestros equipos multidisciplinarios, incluidos nuestros equipos de Idioma, Aprendizaje profundo, Ética y Seguridad. Este enfoque es clave para crear grandes modelos de lenguaje que sirvan a la sociedad, promoviendo nuestra misión de resolver inteligencia para hacer avanzar la ciencia y beneficiar a la humanidad.