Los investigadores de Google DeepMind presentan Gemma Scope 2, un conjunto abierto de herramientas de interpretabilidad que expone cómo los modelos de lenguaje Gemma 3 procesan y representan información en todas las capas, desde parámetros 270M hasta 27B.
Su objetivo principal es simple: brindar a los equipos de alineación y seguridad de IA una forma práctica de rastrear el comportamiento del modelo hasta las características internas en lugar de depender únicamente del análisis de entrada y salida. Cuando un modelo Gemma 3 sufre jailbreak, alucina o muestra un comportamiento adulador, Gemma Scope 2 permite a los investigadores inspeccionar qué características internas se activaron y cómo esas activaciones fluyeron a través de la red.
¿Qué es Gemma Scope 2?
Gemma Scope 2 es un conjunto completo y abierto de codificadores automáticos dispersos y herramientas relacionadas capacitadas en activaciones internas de la familia de modelos Gemma 3. Los escasos codificadores automáticos, SAE, actúan como un microscopio en el modelo. Descomponen activaciones de alta dimensión en un conjunto disperso de características humanas inspeccionables que corresponden a conceptos o comportamientos.
El entrenamiento de Gemma Scope 2 requirió almacenar alrededor de 110 petabytes de datos de activación y ajustar más de 1 billón de parámetros totales en todos los modelos de interpretabilidad.
La suite se dirige a todas las variantes de Gemma 3, incluidos los modelos de parámetros 270M, 1B, 4B, 12B y 27B, y cubre toda la profundidad de la red. Esto es importante porque muchos comportamientos relevantes para la seguridad sólo aparecen a escalas mayores.
¿Qué hay de nuevo en comparación con el Gemma Scope original?
El primer lanzamiento de Gemma Scope se centró en Gemma 2 y ya permitió investigar sobre las alucinaciones en modelos, identificar secretos conocidos por un modelo y entrenar modelos más seguros.
Gemma Scope 2 amplía ese trabajo de cuatro formas principales:
Las herramientas ahora abarcan toda la familia Gemma 3 hasta los parámetros 27B, que son necesarios para estudiar comportamientos emergentes observados solo en modelos más grandes, como el comportamiento analizado previamente en el modelo de escala C2S de tamaño 27B para tareas de descubrimiento científico. Gemma Scope 2 incluye SAE y transcodificadores capacitados en cada capa de Gemma 3. Los transcodificadores de omisión y los transcodificadores entre capas ayudan a rastrear cálculos de varios pasos que se distribuyen en las capas. La suite aplica la técnica de entrenamiento Matryoshka para que los SAE aprendan características más útiles y estables y mitiguen algunas fallas identificadas en la versión anterior de Gemma Scope. Existen herramientas de interpretabilidad dedicadas para los modelos Gemma 3 optimizados para chat, que permiten analizar comportamientos de varios pasos, como jailbreak, mecanismos de rechazo y fidelidad de la cadena de pensamiento.
Conclusiones clave
Gemma Scope 2 es un conjunto de interpretabilidad abierto para todos los modelos de Gemma 3, desde parámetros 270M hasta 27B, con SAE y transcodificadores en cada capa de variantes previamente entrenadas y ajustadas con instrucciones. La suite utiliza codificadores automáticos dispersos como un microscopio que descompone las activaciones internas en características dispersas similares a conceptos, además de transcodificadores que rastrean cómo estas características se propagan a través de las capas. Gemma Scope 2 está posicionado explícitamente para el trabajo de seguridad de la IA para estudiar fugas, alucinaciones, adulación, mecanismos de rechazo y discrepancias entre el estado interno y el razonamiento comunicado en Gemma 3.
Consulta el Papel, Detalles técnicos y Pesos de los modelos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.