Gemma Scope: ayudando a la comunidad de seguridad a arrojar luz sobre el funcionamiento interno de los modelos de lenguaje

Tecnologías

Publicado: 31 de julio de 2024
Autores: Equipo de Interpretabilidad de Modelos de Lenguaje

Anuncio de un conjunto completo y abierto de autocodificadores dispersos para la interpretación de modelos de lenguaje.

Para crear un modelo de lenguaje de inteligencia artificial (IA), los investigadores construyen un sistema que aprende de grandes cantidades de datos sin la ayuda de un ser humano. Como resultado, el funcionamiento interno de los modelos de lenguaje suele ser un misterio, incluso para los investigadores que los entrenan. Interpretabilidad mecanicista es un campo de investigación centrado en descifrar estos mecanismos internos. Los investigadores de este campo utilizan autocodificadores dispersos como una especie de “microscopio” que les permite ver dentro de un modelo de lenguaje y tener una mejor idea de cómo funciona.

Hoy, Anunciamos Gemma Scopeun nuevo conjunto de herramientas para ayudar a los investigadores a comprender el funcionamiento interno de Gemma 2, nuestra familia liviana de modelos abiertos. Gemma Scope es una colección de cientos de autocodificadores dispersos (SAE) abiertos y de libre acceso para Gemma 2 9B y Gemma 2 2BTambién estamos haciendo código abierto Desgraciadamenteuna herramienta que construimos y que permitió gran parte del trabajo de interpretabilidad detrás de Gemma Scope.

Esperamos que el lanzamiento de hoy permita una investigación más ambiciosa en materia de interpretación. La investigación futura tiene el potencial de ayudar al campo a construir sistemas más robustos, desarrollar mejores salvaguardas contra las alucinaciones de los modelos y proteger contra los riesgos de los agentes autónomos de IA, como el engaño o la manipulación.

Pruebe nuestra demostración interactiva de Gemma Scopecortesía de Neuronpedia.

Interpretación de lo que sucede dentro de un modelo de lenguaje

Cuando le haces una pregunta a un modelo de lenguaje, este convierte el texto que ingresaste en una serie de “activaciones”. Estas activaciones trazan las relaciones entre las palabras que ingresaste, lo que ayuda al modelo a hacer conexiones entre diferentes palabras, que utiliza para escribir una respuesta.

A medida que el modelo procesa la entrada de texto, las activaciones en diferentes capas de la red neuronal del modelo representan múltiples conceptos cada vez más avanzados, conocidos como “características”.

Por ejemplo, las primeras capas de un modelo podrían aprender a recordar hechos como eso Michael Jordan juega al baloncestomientras que las capas posteriores pueden reconocer conceptos más complejos como La facticidad del texto.

Representación estilizada del uso de un autocodificador disperso para interpretar las activaciones de un modelo, ya que recuerda el hecho de que la Ciudad de la Luz es París. Vemos que hay conceptos relacionados con el francés, pero no hay otros que no lo estén.

Sin embargo, los investigadores de la interpretabilidad se enfrentan a un problema clave: las activaciones del modelo son una mezcla de muchas características diferentes. En los primeros días de la interpretabilidad mecanicista, los investigadores esperaban que las características de las activaciones de una red neuronal se alinearan con las neuronas individuales, es decir, Nodos de información. Pero, lamentablemente, en la práctica, las neuronas están activas para muchas características no relacionadas. Esto significa que no hay una manera obvia de determinar qué características son parte de la activación.

Aquí es donde entran en juego los autocodificadores dispersos.

Una activación dada sólo será una mezcla de una pequeña cantidad de características, aunque es probable que el modelo de lenguaje sea capaz de detectar millones o incluso miles de millones de ellas. es decirel modelo utiliza características escasamentePor ejemplo, un modelo de lenguaje considerará la relatividad al responder a una pregunta sobre Einstein y considerará los huevos al escribir sobre tortillas, pero probablemente no considerará la relatividad al escribir sobre tortillas.

Los autocodificadores dispersos aprovechan este hecho para descubrir un conjunto de características posibles y descomponer cada activación en un pequeño número de ellas. Los investigadores esperan que la mejor manera de que el autocodificador disperso realice esta tarea sea encontrar las características subyacentes reales que utiliza el modelo de lenguaje.

Es importante destacar que en ningún momento de este proceso nosotros, los investigadores, le decimos al codificador automático escaso qué características debe buscar. Como resultado, podemos descubrir estructuras ricas que no habíamos previsto. Sin embargo, como no sabemos inmediatamente las significado De las características descubiertas, buscamos patrones significativos en ejemplos de texto donde el autocodificador disperso dice que la función ‘se activa’.

A continuación se muestra un ejemplo en el que los tokens donde se activa la función se resaltan en gradientes de azul según su intensidad:

Ejemplos de activaciones de una característica encontrada por nuestros codificadores automáticos dispersos. Cada burbuja es un token (palabra o fragmento de palabra) y el color azul variable ilustra la intensidad con la que está presente la característica. En este caso, la característica está aparentemente relacionada con los modismos.

¿Qué hace que Gemma Scope sea único?

Las investigaciones anteriores con autocodificadores dispersos se han centrado principalmente en investigar el funcionamiento interno de modelos diminutos o una sola capa en modelos más grandesPero una investigación de interpretabilidad más ambiciosa implica decodificar algoritmos complejos y estratificados en modelos más grandes.

Entrenamos autocodificadores dispersos en cada salida de capa y subcapa de Gemma 2 2B y 9B para construir Gemma Scope, produciendo más de 400 autocodificadores dispersos con más de 30 millones de características aprendidas en total (aunque es probable que muchas características se superpongan). Esta herramienta permitirá a los investigadores estudiar cómo evolucionan las características a lo largo del modelo e interactúan y se componen para crear características más complejas.

Gemma Scope también está capacitada con nuestro nuevo y moderno sistema Arquitectura SAE de JumpReLULa arquitectura original del codificador automático disperso tenía dificultades para equilibrar los objetivos gemelos de detectar qué características están presentes y estimar su fuerza. La arquitectura JumpReLU facilita la consecución de este equilibrio de forma adecuada, lo que reduce significativamente los errores.

Entrenar tantos autocodificadores dispersos fue un desafío de ingeniería significativo, que requirió una gran potencia computacional. Usamos alrededor del 15 % del cómputo de entrenamiento de Gemma 2 9B (excluyendo el cómputo para generar etiquetas de destilación), ahorramos alrededor de 20 Pebibytes (PiB) de activaciones en el disco (aproximadamente tanto como Un millón de copias de Wikipedia en inglés) y produjo cientos de miles de millones de parámetros de autocodificador dispersos en total.

Impulsando el campo hacia adelante

Con el lanzamiento de Gemma Scope, esperamos hacer de Gemma 2 la mejor familia de modelos para la investigación de interpretabilidad mecanística abierta y acelerar el trabajo de la comunidad en este campo.

Hasta ahora, la comunidad de interpretabilidad ha logrado grandes avances en la comprensión de modelos pequeños con autocodificadores dispersos y en el desarrollo de técnicas relevantes, como causal intervenciones, automático circuito análisis, interpretación de característicasy evaluando autocodificadores dispersosCon Gemma Scope, esperamos ver a la comunidad adaptar estas técnicas a modelos modernos, analizar capacidades más complejas como la cadena de pensamiento y encontrar aplicaciones de interpretabilidad en el mundo real, como abordar problemas como alucinaciones y fugas de información que solo surgen con modelos más grandes.

Gemma Scope: ayudando a la comunidad de seguridad a arrojar luz sobre el funcionamiento interno de los modelos de lenguaje

ByEquipo de 7 minutos

Interpretación de lo que sucede dentro de un modelo de lenguaje

¿Qué hace que Gemma Scope sea único?

Impulsando el campo hacia adelante

By Equipo de 7 minutos

Related Post

Una implementación de codificación en Microsoft SkillOpt para optimización de indicaciones instrumentadas, análisis de evolución de habilidades y comparación de referencia

Cómo los equipos fronterizos están reinventando el desarrollo nativo de IA

Las estadísticas de selección de tokens: logits, temperatura y tutorial de Top-P

You missed

Una implementación de codificación en Microsoft SkillOpt para optimización de indicaciones instrumentadas, análisis de evolución de habilidades y comparación de referencia

El informe sobre embriones humanos editados genéticamente genera preocupación sobre los usos futuros de la tecnología

Graham Platner es el hombre perfecto e imperfecto para resucitar las transgresiones sexuales de Trump.

Acuario interactivo de Houston: lo que los inspectores encontraron en el interior