Los modelos de lenguaje grandes son notablemente capaces, pero frustrantemente opacos. Cuando un modelo se comporta mal (genera respuestas en el idioma incorrecto, se repite sin cesar o rechaza solicitudes seguras), los desarrolladores de IA tienen muy pocas herramientas para diagnosticar por qué sucedió a nivel de cálculos internos. Ese es el problema para el cual Qwen-Scope está diseñado.
Qwen Team acaba de lanzar Qwen-Scope, un conjunto de codificadores automáticos dispersos (SAE) de código abierto entrenados en las familias de modelos Qwen3 y Qwen3.5. El lanzamiento comprende 14 grupos de pesos SAE en 7 variantes de modelo: cinco modelos densos (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B y Qwen3.5-27B) y dos modelos de combinación de expertos (MoE) (Qwen3-30B-A3B y Qwen3.5-35B-A3B).
¿Qué es un codificador automático disperso y por qué debería importarle?
Piense en un codificador automático disperso como una capa de traducción entre activaciones de redes neuronales sin procesar y conceptos comprensibles para los humanos. Cuando un LLM procesa texto, produce estados ocultos de alta dimensión (vectores con miles de números) que son difíciles de interpretar directamente. Un SAE aprende a descomponer estas activaciones en un gran diccionario de características latentes dispersas, donde cada entrada activa solo un pequeño subconjunto de características. Cada una de esas características tiende a corresponder a un concepto específico e interpretable: un lenguaje, un estilo, un comportamiento relevante para la seguridad.
Concretamente, para cada capa principal y transformadora, Qwen-Scope entrena un SAE separado para reconstruir activaciones de flujo residual utilizando un conjunto disperso de características latentes. El codificador SAE asigna cada activación a una representación latente sobrecompleta, y una regla de activación Top-k mantiene solo las k activaciones latentes más grandes para la reconstrucción (con k establecido en 50 o 100 en la versión). Para redes troncales densas, el ancho SAE aumenta a 16 veces el tamaño oculto del modelo; para las redes troncales de MoE, los SAE estándar utilizan un ancho de 32 K (expansión de 16 ×), y también se lanzan SAE más anchos de hasta 128 K de ancho (expansión de 64 ×) para capturar una estructura de representación más detallada.
El resultado es un diccionario de características por capas para cada capa de transformador en las siete redes troncales. Un detalle técnico importante: Qwen3.5-27B es la única columna cuyos SAE están entrenados en la variante de instrucción; las otras seis redes troncales utilizan los puntos de control del modelo base.
Cuatro formas en que Qwen-Scope cambia el flujo de trabajo de desarrollo
1. Dirección del tiempo de inferencia
La aplicación más inmediata es la dirección: influye en la salida del modelo sin modificar el peso del modelo. La idea se basa en una hipótesis bien respaldada: los comportamientos de alto nivel están codificados como direcciones en el espacio de representación interno del modelo. Al sumar o restar una dirección de característica del flujo residual en el momento de la inferencia usando la fórmula h’ ← h + αd, donde h es el estado oculto, d es la dirección de la característica SAE y α controla la fuerza, los ingenieros pueden acercar o alejar el modelo de comportamientos específicos.
El equipo de investigación demuestra dos estudios de caso sobre modelos Qwen3. En el primero, un modelo generado en inglés se mezcla inesperadamente con texto chino. La clasificación de las funciones SAE por fuerza de activación revela una función en idioma chino altamente activada (id: 6159). Suprimirlo durante la generación elimina por completo la mezcla de idiomas. En el segundo, la activación de una característica china clásica (id: 36398) dirige con éxito una tarea de continuación de la historia hacia un estilo literario clásico. Ambos ejemplos requirieron actualizaciones de peso cero.
2. Análisis de evaluación sin modelos en ejecución
Evaluar los LLM generalmente significa ejecutar muchos pases directos a través de grandes conjuntos de datos de referencia, lo cual es costoso en computación y tiempo. Qwen-Scope propone una alternativa más económica: utilizar activaciones de funciones SAE como proxy a nivel de representación para el análisis de referencia.
La idea central es que cuando un modelo procesa una muestra de referencia, el SAE descompone su activación en un conjunto disperso de características activas, cada una de las cuales se puede interpretar como una “microcapacidad”. Un punto de referencia cuyas muestras activan todas las mismas funciones es redundante; Dos puntos de referencia que activan conjuntos de características que se superponen en gran medida son similares. El equipo de investigación define una métrica de redundancia de características que logra una correlación de rango de Spearman de ρ ≈ 0,85 con redundancia basada en el rendimiento en 17 puntos de referencia ampliamente utilizados, incluidos MMLU, GSM8K, MATH, EvalPlus y GPQA-Diamond, sin ejecutar una sola evaluación de modelo. El análisis también revela que el 63% de las funciones de GSM8K ya están cubiertas por MATH, lo que sugiere que los conjuntos de evaluación que contienen MATH pueden omitir GSM8K de forma segura con una pérdida mínima de información discriminativa.
El marco también se extiende a la similitud entre puntos de referencia: el equipo de investigación mide la superposición de características entre pares de puntos de referencia para determinar si analizan las mismas capacidades. Después de controlar la capacidad general del modelo al dividir las puntuaciones MMLU, la correlación parcial de Pearson entre la superposición de características y la similitud basada en el rendimiento en 28 pares de puntos de referencia mejora al 75,5 %, lo que proporciona evidencia de que la superposición de características captura la similitud de capacidades específicas de los puntos de referencia en lugar de solo la calidad general del modelo. Esto tiene una implicación práctica directa: los puntos de referencia con baja superposición de características mutuas investigan capacidades distintas y ambas deben conservarse; los puntos de referencia con un alto solapamiento son candidatos a la consolidación.
3. Flujos de trabajo centrados en datos: clasificación de toxicidad y síntesis de datos de seguridad
Las características SAE también resultan efectivas como clasificadores livianos. El equipo de investigación construye un clasificador de toxicidad multilingüe en 13 idiomas utilizando un proceso simple de dos etapas: identifica las características SAE que se activan con más frecuencia en ejemplos tóxicos que en los limpios (en un conjunto de descubrimiento pequeño), luego aplica una regla OR sobre esas características en los datos de prueba retenidos: sin cabezal clasificador adicional ni ajuste basado en gradientes. En inglés, esto logra una puntuación F1 superior a 0,90 tanto en Qwen3-1.7B como en Qwen3-8B. El equipo de investigación muestra además que las características descubiertas en inglés se transfieren significativamente a otros idiomas sin redescubrirse: el rendimiento disminuye con la distancia lingüística (más fuerte para idiomas europeos como el ruso y el francés, más débil para el árabe, el chino y el amárico), y la escala a Qwen3-8B mejora tanto el nivel como la estabilidad de la transferencia entre idiomas. Fundamentalmente, al utilizar solo el 10 % de los datos de descubrimiento originales se recupera aproximadamente el 99 % del rendimiento de la clasificación, lo que demuestra una gran eficiencia de los datos.
En el lado de la síntesis, el equipo de investigación introduce un proceso de síntesis de datos de seguridad basado en características: identificar características SAE relevantes para la seguridad que faltan en la supervisión existente, generar pares de finalización rápida diseñados para activar esas características y verificar la retención en el espacio de características. Con un presupuesto equivalente, la síntesis basada en funciones logra una cobertura del 99,74 % del conjunto de funciones de seguridad objetivo, en comparación con la cobertura sustancialmente menor lograda mediante el muestreo natural o la síntesis aleatoria relacionada con la seguridad. Agregar ejemplos sintéticos basados en funciones de 4k a ejemplos de seguridad reales de 4k produce una precisión de seguridad de 77,75, acercándose al rendimiento de la capacitación en ejemplos de 120k solo de seguridad.
4. Post-entrenamiento: ajuste supervisado y aprendizaje por refuerzo
Quizás la contribución técnicamente más novedosa sea el uso de características SAE como señales durante el entrenamiento, no solo como inferencia.
Para un ajuste fino supervisado, el equipo de investigación aborda el cambio de código inesperado, donde los LLM multilingües producen espontáneamente tokens en un idioma no deseado. Su método, llamado Ajuste fino supervisado guiado por codificador automático disperso (SASFT), primero identifica características específicas del idioma a través de una puntuación de monolingüismo, luego introduce una pérdida de regularización auxiliar que suprime esas activaciones de características durante el entrenamiento en datos que no son del idioma de destino. En cinco modelos que abarcan tres familias de modelos (Gemma-2, Llama-3.1 y Qwen3) y tres idiomas de destino (chino, ruso y coreano), SASFT logra una reducción de más del 50 % en la tasa de cambio de código en la mayoría de los entornos experimentales, con eliminación completa en ciertas configuraciones (por ejemplo, Qwen3-1.7B en coreano), mientras mantiene el rendimiento en seis puntos de referencia multilingües.
Para el aprendizaje por refuerzo, el equipo de investigación aborda la repetición interminable, un modo de falla de baja frecuencia pero disruptivo donde los modelos repiten contenido. La RL en línea estándar rara vez encuentra implementaciones repetitivas, por lo que no puede aprender una señal correctiva fuerte. Qwen-Scope aborda esto utilizando la dirección de funciones SAE para generar sintéticamente una implementación sesgada por repetición por grupo de entrenamiento, que luego se incorpora como una muestra negativa poco común en el proceso de DAPO RL. El resultado: el índice de repetición cae brusca y consistentemente en Qwen3-1.7B, Qwen3-8B y Qwen3-30B-A3B, mientras que el desempeño de referencia general sigue siendo competitivo con el estándar RL.
Consulte el papel, los pesos y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros