Gemma Scope 2: Ayudar a la comunidad de seguridad de la IA a profundizar la comprensión del comportamiento del modelo de lenguaje complejo

Anuncio de un nuevo conjunto abierto de herramientas para la interpretabilidad de modelos lingüísticos

Los grandes modelos de lenguaje (LLM) son capaces de realizar increíbles hazañas de razonamiento, pero sus procesos internos de toma de decisiones siguen siendo en gran medida opacos. Si un sistema no se comporta como se espera, la falta de visibilidad de su funcionamiento interno puede dificultar la identificación del motivo exacto de su comportamiento. El año pasado, avanzamos en la ciencia de la interpretabilidad con Gemma Scope, un conjunto de herramientas diseñado para ayudar a los investigadores a comprender el funcionamiento interno de Gemma 2, nuestra colección liviana de modelos abiertos.

Hoy lanzamos Gemma Scope 2: un conjunto completo y abierto de herramientas de interpretabilidad para todos los tamaños de modelos Gemma 3, desde parámetros 270M hasta 27B. Estas herramientas pueden permitirnos rastrear riesgos potenciales en todo el “cerebro” del modelo.

Hasta donde sabemos, este es el mayor lanzamiento de código abierto de herramientas de interpretabilidad realizado por un laboratorio de inteligencia artificial hasta la fecha. La producción de Gemma Scope 2 implicó almacenar aproximadamente 110 petabytes de datos, así como entrenar más de 1 billón de parámetros en total.

A medida que la IA continúa avanzando, esperamos que la comunidad de investigación de IA utilice Gemma Scope 2 para depurar comportamientos de modelos emergentes, utilizar estas herramientas para auditar y depurar mejor a los agentes de IA y, en última instancia, acelerar el desarrollo de intervenciones de seguridad prácticas y sólidas contra problemas como fugas, alucinaciones y adulación.

Nuestra demostración interactiva de Gemma Scope 2 está disponible para probar, cortesía de Neuronpedia.

Novedades de Gemma Scope 2

La investigación sobre la interpretabilidad tiene como objetivo comprender el funcionamiento interno y los algoritmos aprendidos de los modelos de IA. A medida que la IA se vuelve cada vez más capaz y compleja, la interpretabilidad es crucial para crear una IA que sea segura y confiable.

Al igual que su predecesor, Gemma Scope 2 actúa como un microscopio para la familia de modelos de lenguaje Gemma. Al combinar codificadores automáticos dispersos (SAE) y transcodificadores, permite a los investigadores mirar dentro de los modelos, ver en qué están pensando y cómo se forman estos pensamientos y se conectan con el comportamiento del modelo. A su vez, esto permite un estudio más rico de jailbreaks u otros comportamientos de la IA relevantes para la seguridad, como las discrepancias entre el razonamiento comunicado de un modelo y su estado interno.

Mientras que el Gemma Scope original permitió la investigación en áreas clave de seguridad, como las alucinaciones en modelos, la identificación de secretos conocidos por un modelo y el entrenamiento de modelos más seguros, Gemma Scope 2 respalda investigaciones aún más ambiciosas a través de importantes actualizaciones:

Cobertura total a escala: proporcionamos un conjunto completo de herramientas para toda la familia Gemma 3 (hasta 27B parámetros), esenciales para estudiar comportamientos emergentes que solo aparecen a escala, como los descubiertos anteriormente por el modelo de escala C2S de tamaño 27b que ayudó a descubrir una nueva vía potencial de terapia contra el cáncer. Aunque Gemma Scope 2 no está entrenado en este modelo, este es un ejemplo del tipo de comportamiento emergente que estas herramientas podrían comprender. Herramientas más refinadas para descifrar comportamientos internos complejos: Gemma Scope 2 incluye SAE y transcodificadores entrenados en cada capa de nuestra familia de modelos Gemma 3. Los transcodificadores de salto y los transcodificadores de capas cruzadas facilitan el descifrado de cálculos y algoritmos de varios pasos repartidos por todo el modelo. Técnicas de capacitación avanzadas: utilizamos técnicas de última generación, en particular la técnica de capacitación Matryoshka, que ayuda a los SAE a detectar conceptos más útiles y resuelve ciertas fallas descubiertas en Gemma Scope. Herramientas de análisis de comportamiento de chatbot: también proporcionamos herramientas de interpretabilidad dirigidas a las versiones de Gemma 3 adaptadas para casos de uso de chat. Estas herramientas permiten el análisis de comportamientos complejos de varios pasos, como jailbreak, mecanismos de rechazo y fidelidad a la cadena de pensamiento.