Qwen Team Open-Sources Qwen3.6-35B-A3B: un modelo de lenguaje de visión MoE disperso con parámetros activos 3B y capacidades de codificación agente

El panorama de la IA de código abierto tiene una nueva entrada a la que vale la pena prestarle atención. El equipo Qwen en Alibaba lanzó Qwen3.6-35B-A3B, el primer modelo de peso abierto de la generación Qwen3.6, y presenta un argumento convincente de que la eficiencia de los parámetros importa mucho más que el tamaño bruto del modelo. Con 35 mil millones de parámetros totales pero solo 3 mil millones activados durante la inferencia, este modelo ofrece un rendimiento de codificación agente competitivo con modelos densos que son diez veces su tamaño activo.

¿Qué es un modelo MoE disperso y por qué es importante aquí?

Un modelo de Mezcla de Expertos (MoE) no ejecuta todos sus parámetros en cada paso hacia adelante. En cambio, el modelo enruta cada token de entrada a través de un pequeño subconjunto de subredes especializadas llamadas “expertos”. El resto de parámetros permanecen inactivos. Esto significa que puede tener un enorme recuento total de parámetros y al mismo tiempo mantener el cálculo de inferencia (y, por lo tanto, el costo de inferencia y la latencia) proporcional solo al recuento de parámetros activos.

Qwen3.6-35B-A3B es un modelo de lenguaje causal con codificador de visión, entrenado en etapas previas y posteriores al entrenamiento, con 35 mil millones de parámetros totales y 3 mil millones activados. Su capa MoE contiene 256 expertos en total, con 8 expertos enrutados y 1 experto compartido activado por token.

La arquitectura introduce un diseño oculto inusual que vale la pena comprender: el modelo utiliza un patrón de 10 bloques, cada uno de los cuales consta de 3 instancias de (Gated DeltaNet → MoE) seguidas de 1 instancia de (Gated Attention → MoE). En un total de 40 capas, las subcapas Gated DeltaNet manejan la atención lineal, una alternativa computacionalmente más barata a la autoatención estándar, mientras que las subcapas Gated Attention utilizan Grouped Query Attention (GQA), con 16 cabezas de atención para Q y solo 2 para KV, lo que reduce significativamente la presión de la memoria caché de KV durante la inferencia. El modelo admite una longitud de contexto nativo de 262,144 tokens, extensible hasta 1,010,000 tokens usando el escalado YaRN (otra extensión RoPE).

La codificación agente es donde este modelo se vuelve serio

En SWE-bench Verified, el punto de referencia canónico para la resolución de problemas de GitHub en el mundo real, Qwen3.6-35B-A3B obtiene una puntuación de 73,4, en comparación con 70,0 para Qwen3.5-35B-A3B y 52,0 para Gemma4-31B. En Terminal-Bench 2.0, que evalúa a un agente completando tareas dentro de un entorno de terminal real con un tiempo de espera de tres horas, Qwen3.6-35B-A3B obtiene una puntuación de 51,5, la más alta entre todos los modelos comparados, incluidos Qwen3.5-27B (41,6), Gemma4-31B (42,9) y Qwen3.5-35B-A3B (40,5).

La generación de código frontend muestra la mejora más marcada. En QwenWebBench, un punto de referencia interno de generación de código front-end bilingüe que cubre siete categorías que incluyen diseño web, aplicaciones web, juegos, SVG, visualización de datos, animación y 3D, Qwen3.6-35B-A3B logra una puntuación de 1397, muy por delante de Qwen3.5-27B (1068) y Qwen3.5-35B-A3B (978).

En los puntos de referencia STEM y de razonamiento, las cifras son igualmente sorprendentes. Qwen3.6-35B-A3B obtiene una puntuación de 92,7 en AIME 2026 (el AIME I y II completo) y 86,0 en GPQA Diamond, un punto de referencia de razonamiento científico de posgrado, ambos competitivos con modelos mucho más grandes.

Rendimiento de la visión multimodal

Qwen3.6-35B-A3B no es un modelo de solo texto. Se entrega con un codificador de visión y maneja tareas de imágenes, documentos, videos y razonamiento espacial de forma nativa.

En MMMU (Comprensión Multimodal Multidisciplinaria Masiva), un punto de referencia que evalúa el razonamiento a nivel universitario a través de imágenes, Qwen3.6-35B-A3B obtiene una puntuación de 81,7, superando a Claude-Sonnet-4.5 (79,6) y Gemma4-31B (80,4). En RealWorldQA, que prueba la comprensión visual en contextos fotográficos del mundo real, el modelo alcanza 85,3, por delante de Qwen3.5-27B (83,7) y significativamente por encima de Claude-Sonnet-4,5 (70,3) y Gemma 4-31B (72,3).

La inteligencia espacial es otra área de ganancia mensurable. En ODInW13, un punto de referencia de detección de objetos, Qwen3.6-35B-A3B obtiene una puntuación de 50,8, frente a 42,6 para Qwen3.5-35B-A3B. En cuanto a comprensión de vídeo, alcanza 83,7 en VideoMMMU, superando a Claude-Sonnet-4.5 (77,6) y Gemma4-31B (81,6).

https://qwen.ai/blog?id=qwen3.6-35b-a3b

Modo de pensar, modo de no pensar y un cambio de comportamiento clave

Una de las decisiones de diseño más útiles en la práctica en Qwen3.6 es el control explícito sobre el comportamiento de razonamiento del modelo. Los modelos Qwen3.6 operan en modo de pensamiento de forma predeterminada, generando contenido de razonamiento encerrado dentro de etiquetas antes de producir la respuesta final. Los desarrolladores que necesitan respuestas directas y más rápidas pueden desactivar esto a través de un parámetro API: configurando “enable_thinking”: False en la plantilla de chat kwargs. Sin embargo, los profesionales de IA que migran desde Qwen3 deberían notar un cambio de comportamiento importante: Qwen3.6 no admite oficialmente el cambio suave de Qwen3, es decir, /think y /nothink. El cambio de modo se debe realizar a través del parámetro API en lugar de tokens de aviso en línea.

La incorporación más novedosa es una característica llamada Preservación del pensamiento. De forma predeterminada, sólo se conservan los bloques de pensamiento generados para el último mensaje del usuario; Qwen3.6 también ha sido capacitado para preservar y aprovechar los rastros de pensamiento de mensajes históricos, lo que se puede habilitar configurando la opción preserve_thinking. Esta capacidad es particularmente beneficiosa para escenarios de agentes, donde mantener el contexto de razonamiento completo puede mejorar la coherencia de las decisiones, reducir el razonamiento redundante y mejorar la utilización de la caché KV tanto en el modo de pensamiento como en el de no pensamiento.

Conclusiones clave

Qwen3.6-35B-A3B es un modelo de mezcla escasa de expertos con 35 mil millones de parámetros totales, pero solo 3 mil millones activados en el momento de la inferencia, lo que hace que su ejecución sea significativamente más barata de lo que sugiere su recuento total de parámetros, sin sacrificar el rendimiento en tareas complejas. Las capacidades de codificación agente del modelo son su punto más fuerte, con una puntuación de 51,5 en Terminal-Bench 2.0 (la más alta entre todos los modelos comparados), 73,4 en SWE-bench Verified y una puntuación dominante de 1.397 en QwenWebBench que cubre la generación de código frontend en siete categorías, incluidas aplicaciones web, juegos y visualización de datos. Qwen3.6-35B-A3B es un modelo multimodal nativo, que admite la comprensión de imágenes, videos y documentos desde el primer momento, con puntuaciones de 81,7 en MMMU, 85,3 en RealWorldQA y 83,7 en VideoMMMU, superando a Claude-Sonnet-4.5 y Gemma4-31B en cada uno de estos. El modelo introduce una nueva característica de Preservación del pensamiento que permite retener y reutilizar los rastros de razonamiento de conversaciones anteriores en flujos de trabajo de agentes de varios pasos, lo que reduce el razonamiento redundante y mejora la eficiencia de la caché KV tanto en el modo de pensamiento como en el de no pensamiento. Lanzado bajo Apache 2.0, el modelo está completamente abierto para uso comercial y es compatible con los principales marcos de inferencia de código abierto (SGLang, vLLM, KTransformers y Hugging Face Transformers), y KTransformers permite específicamente la implementación heterogénea de CPU-GPU para entornos con recursos limitados.

Consulta los detalles técnicos y los pesos del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros