El equipo de Qwen acaba de lanzar Qwen3-Coder-Next, un modelo de lenguaje abierto diseñado para agentes de codificación y desarrollo local. Se encuentra encima de la columna vertebral Qwen3-Next-80B-A3B. El modelo utiliza una arquitectura dispersa de Mezcla de Expertos (MoE) con atención híbrida. Tiene 80 mil millones de parámetros en total, pero solo se activan 3 mil millones de parámetros por token. El objetivo es igualar el rendimiento de modelos activos mucho más grandes y, al mismo tiempo, mantener bajos los costos de inferencia para largas sesiones de codificación y flujos de trabajo de agentes.
El modelo está posicionado para codificación agente, herramientas basadas en navegador y copilotos IDE en lugar de una simple finalización de código. Qwen3-Coder-Next está capacitado con un gran corpus de tareas ejecutables y aprendizaje reforzado para que pueda planificar, llamar a herramientas, ejecutar código y recuperarse de fallas en tiempo de ejecución a lo largo de amplios horizontes.
Arquitectura: Atención híbrida más MoE disperso
El equipo de investigación lo describe como una arquitectura híbrida que combina Gated DeltaNet, Gated Attention y MoE.
Los puntos clave de configuración son:
Tipo: modelo de lenguaje causal, preentrenamiento más postentrenamiento. Parámetros: 80B en total, 79B no integrados. Parámetros activos: 3B por token. Capas: 48. Dimensión oculta: 2048. Diseño: 12 repeticiones de 3 × (Gated DeltaNet → MoE) seguidas de 1 × (Gated Attention → MoE).
El bloque de atención cerrada utiliza 16 cabezales de consulta y 2 cabezales de valor-clave con una dimensión de cabeza de 256 e incrustaciones de posición giratoria de dimensión 64. El bloque DeltaNet cerrado utiliza 32 cabezas de atención lineal para valores y 16 para consultas y claves con una dimensión de cabeza de 128.
La capa MoE tiene 512 expertos, con 10 expertos y 1 experto compartido activo por token. Cada experto utiliza una dimensión intermedia de 512. Este diseño brinda una gran capacidad de especialización, mientras que el cómputo activo se mantiene cerca de una huella de modelo denso de 3B.
Entrenamiento Agentic: Tareas Ejecutables y RL
El equipo de Qwen describe Qwen3-Coder-Next como “entrenado a escala mediante agentes” sobre Qwen3-Next-80B-A3B-Base. El proceso de capacitación utiliza síntesis de tareas ejecutables a gran escala, interacción con entornos y aprendizaje por refuerzo.
Destaca alrededor de 800.000 tareas verificables con entornos ejecutables utilizados durante la capacitación. Estas tareas proporcionan señales concretas para el razonamiento a largo plazo, la secuenciación de herramientas, la ejecución de pruebas y la recuperación de ejecuciones fallidas. Esto está alineado con los flujos de trabajo estilo SWE-Bench en lugar del modelado de código estático puro.
Puntos de referencia: SWE-Bench, Terminal-Bench y Aider
En SWE-Bench Verified utilizando el andamio SWE-Agent, Qwen3-Coder-Next obtiene una puntuación de 70,6. DeepSeek-V3.2 con parámetros 671B obtiene una puntuación de 70,2 y GLM-4.7 con parámetros 358B obtiene una puntuación de 74,2. En SWE-Bench Multilingual, Qwen3-Coder-Next alcanza 62,8, muy cerca de DeepSeek-V3.2 con 62,3 y GLM-4.7 con 63,7. En el SWE-Bench Pro, más desafiante, Qwen3-Coder-Next obtiene una puntuación de 44,3, por encima de DeepSeek-V3.2 con 40,9 y GLM-4.7 con 40,6.
En Terminal-Bench 2.0 con el andamio JSON Terminus-2, Qwen3-Coder-Next obtiene una puntuación de 36,2, nuevamente competitivo con modelos más grandes. En la prueba Aider, alcanza 66,2, lo que se acerca a los mejores modelos de su clase.
Estos resultados respaldan la afirmación del equipo de Qwen de que Qwen3-Coder-Next logra un rendimiento comparable al de modelos con entre 10 y 20 veces más parámetros activos, especialmente en entornos de codificación y agentes.
Uso de herramientas e integraciones de agentes
Qwen3-Coder-Next está optimizado para la llamada de herramientas y la integración con agentes de codificación. El modelo está diseñado para conectarse a entornos IDE y CLI como Qwen-Code, Claude-Code, Cline y otras interfaces de agentes. El contexto de 256K permite a estos sistemas mantener grandes bases de código, registros y conversaciones en una sola sesión.
Qwen3-Coder-Next solo admite el modo sin pensamiento. Tanto el modelo de tarjeta oficial como la documentación de Unsloth enfatizan que no genera bloques. Esto simplifica la integración para los agentes que ya asumen llamadas y respuestas directas a herramientas sin segmentos de razonamiento ocultos.
Implementación: SGLang, vLLM y GGUF local
Para la implementación del servidor, el equipo de Qwen recomienda SGLang y vLLM. En SGLang, los usuarios ejecutan sglang>=0.5.8 con –tool-call-parser qwen3_coder y una longitud de contexto predeterminada de 256 KB de tokens. En vLLM, los usuarios ejecutan vllm>=0.15.0 con –enable-auto-tool-choice y el mismo analizador de herramientas. Ambas configuraciones exponen un punto final /v1 compatible con OpenAI.
Para la implementación local, Unsloth proporciona cuantificaciones GGUF de Qwen3-Coder-Next y un flujo de trabajo completo de llama.cpp y llama-server. Una variante cuantificada de 4 bits necesita alrededor de 46 GB de RAM o memoria unificada, mientras que la de 8 bits necesita alrededor de 85 GB. La guía de Unsloth recomienda tamaños de contexto de hasta 262,144 tokens, con 32,768 tokens como valor predeterminado práctico para máquinas más pequeñas.
La guía de Unsloth también muestra cómo conectar Qwen3-Coder-Next a agentes locales que emulan OpenAI Codex y Claude Code. Estos ejemplos se basan en llama-server con una interfaz compatible con OpenAI y reutilizan plantillas de aviso del agente mientras cambian el nombre del modelo a Qwen3-Coder-Next.
Conclusiones clave
Arquitectura MoE con computación activa baja: Qwen3-Coder-Next tiene 80 mil millones de parámetros totales en un diseño MoE disperso, pero solo 3 mil millones de parámetros están activos por token, lo que reduce el costo de inferencia y mantiene una alta capacidad para expertos especializados. Pila de atención híbrida para codificación de largo horizonte: el modelo utiliza un diseño híbrido de bloques Gated DeltaNet, Gated Attention y MoE en más de 48 capas con un tamaño oculto de 2048, optimizado para el razonamiento de largo horizonte en la edición de código y los flujos de trabajo de los agentes. Entrenamiento agente con tareas ejecutables y RL: Qwen3-Coder-Next está capacitado en tareas ejecutables a gran escala y aprendizaje de refuerzo además de Qwen3-Next-80B-A3B-Base, por lo que puede planificar, llamar herramientas, ejecutar pruebas y recuperarse de fallas en lugar de solo completar fragmentos de código cortos. Desempeño competitivo en SWE-Bench y Terminal-Bench: Los puntos de referencia muestran que Qwen3-Coder-Next alcanza puntuaciones sólidas en SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual, Terminal-Bench 2.0 y Aider, y a menudo igualan o superan modelos MoE mucho más grandes con entre 10 y 20 veces más parámetros activos. Implementación práctica para agentes y uso local: el modelo admite contexto de 256 K, modo sin pensamiento, API compatibles con OpenAI a través de SGLang y vLLM, y cuantificaciones GGUF para llama.cpp, lo que lo hace adecuado para agentes IDE, herramientas CLI y copilotos de codificación privados locales bajo Apache-2.0.
Consulte el papel, el repositorio, los pesos de los modelos y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.