Este artículo proporciona una comparación técnica entre dos modelos de transformador de mezcla de expertos (MOE) recientemente lanzados: el QWEN3 30B-A3B de Alibaba (lanzado en abril de 2025) y GPT-OSS 20B de OpenAi (lanzado en agosto de 2025). Ambos modelos representan enfoques distintos para el diseño de la arquitectura MOE, equilibrando la eficiencia computacional con el rendimiento en diferentes escenarios de implementación.
Descripción general del modelo
| Característica | QWEN3 30B-A3B | GPT-OSS 20B |
|---|---|---|
| Parámetros totales | 30.5b | 21B |
| Parámetros activos | 3.3b | 3.6b |
| Número de capas | 48 | 24 |
| Expertos de MOE | 128 (8 activo) | 32 (4 activo) |
| Arquitectura de atención | Atención de consulta agrupada | Atención múltiple agrupada |
| Consulta/cabezales de valor clave | 32Q / 4KV | 64Q / 8KV |
| Ventana de contexto | 32,768 (ext. 262,144) | 128,000 |
| Tamaño de vocabulario | 151,936 | O200K_Harmony (~ 200k) |
| Cuantificación | Precisión estándar | Nativo mxfp4 |
| Fecha de lanzamiento | Abril de 2025 | Agosto de 2025 |
Fuentes: Documentación oficial de Qwen3, Documentación de OpenAi GPT-OSS
Especificaciones técnicas QWEN3 30B-A3B
Detalles de la arquitectura
QWEN3 30B-A3B emplea una arquitectura de transformador profundo con 48 capascada uno que contiene una configuración de la mezcla de expertos con 128 expertos por capa. El modelo se activa 8 expertos por token Durante la inferencia, lograr un equilibrio entre la especialización y la eficiencia computacional.
Mecanismo de atención
El modelo utiliza Atención de consulta agrupada (GQA) con 32 cabezas de consulta y 4 cabezas de valor clave³. Este diseño optimiza el uso de la memoria mientras mantiene la calidad de la atención, particularmente beneficioso para el procesamiento de contexto a largo plazo.
Contexto y soporte multilingüe
- Longitud de contexto nativo: 32,768 fichas
- Contexto extendido: Hasta 262,144 tokens (últimas variantes)
- Soporte multilingüe: 119 idiomas y dialectos
- Vocabulario: 151,936 fichas usando Tokenización de BPE
Características únicas
Qwen3 incorpora un sistema de razonamiento híbrido Admitiendo modos de “pensamiento” y “no pensado”, lo que permite a los usuarios controlar la sobrecarga computacional en función de la complejidad de la tarea.
Especificaciones técnicas GPT-OSS 20B
Detalles de la arquitectura
GPT-OSS 20B presenta un Transformador de 24 capas con 32 expertos en MOE por capa⁸. El modelo se activa 4 expertos por tokenenfatizando una capacidad de experto más amplia sobre la especialización de grano fino.
Mecanismo de atención
El modelo implementa Atención múltiple agrupada con 64 cabezales de consulta y 8 cabezas de valor clave dispuestas en grupos de 8¹⁰. Esta configuración admite una inferencia eficiente mientras mantiene la calidad de la atención en la arquitectura más amplia.
Contexto y optimización
- Longitud de contexto nativo: 128,000 tokens
- Cuantificación: Native MXFP4 (precisión de 4.25 bits) para pesos de MOE
- Eficiencia de memoria: Se ejecuta en memoria de 16 GB con cuantización
- Tokenizador: O200K_Harmony (Superset of GPT-4O Tokenizer)
Características de rendimiento
GPT-OSS 20B usa Patrones de atención escasos densos y de bandas locales alternativas Similar a GPT-3, con Incrustación posicional rotativa (cuerda) para codificación posicionallu⁵.
Comparación de filosofía arquitectónica
Profundidad versus estrategia de ancho
QWEN3 30B-A3B enfatizado profundidad y diversidad de expertos:
- 48 capas habilitan razonamiento de varias etapas y abstracción jerárquica
- 128 expertos por capa proporcionan especialización de grano fino
- Adecuado para tareas de razonamiento complejas que requieren un procesamiento profundo
GPT-OSS 20B priorizar ancho y densidad computacional:
- 24 capas con expertos más grandes maximizan la capacidad de representación para la capa
- Menos pero más poderosos expertos (32 frente a 128) aumentan la capacidad de expertos individuales
- Optimizado para una inferencia eficiente de un solo paso
Estrategias de enrutamiento de MOE
Qwen3: Rutas tokens a través de 8 de 128 expertosalentar rutas de procesamiento diversas y sensibles al contexto y la toma de decisiones modulares.
Gt-oss: Rutas tokens a través de 4 de 32 expertosmaximizando la potencia computacional por experto y la entrega de procesamiento concentrado por paso de inferencia.
Consideraciones de memoria e implementación
QWEN3 30B-A3B
- Requisitos de memoria: Variable basada en precisión y longitud de contexto
- Despliegue: Optimizado para la implementación de nubes y borde con extensión de contexto flexible
- Cuantificación: Admite varios esquemas de cuantización posteriores al entrenamiento
GPT-OSS 20B
- Requisitos de memoria: 16 GB con cuantización nativa de MXFP4, ~ 48 GB en BFLOAT16
- Despliegue: Diseñado para la compatibilidad del hardware del consumidor
- Cuantificación: El entrenamiento nativo de MXFP4 permite una inferencia eficiente sin degradación de calidad
Características de rendimiento
QWEN3 30B-A3B
- Sobresale razonamiento matemático, codificación y tareas lógicas complejas
- Fuerte rendimiento en escenarios multilingües En 119 idiomas
- Modo de pensamiento Proporciona capacidades de razonamiento mejoradas para problemas complejos
GPT-OSS 20B
- Logra Rendimiento comparable a Operai O3-Mini en puntos de referencia estándar
- Optimizado para Uso de herramientas, navegación web y llamadas de funciones
- Fuerte razonamiento de la cadena de pensamiento con niveles de esfuerzo de razonamiento ajustable
Recomendaciones de casos de uso
Elija QWEN3 30B-A3B para:
- Tareas de razonamiento complejas que requieren procesamiento de varias etapas
- Aplicaciones multilingües en diversos idiomas
- Escenarios que requieren extensión de longitud de contexto flexible
- Aplicaciones donde se valora la transparencia de pensamiento/razonamiento
Elija GPT-OSS 20B para:
- Implementaciones con recursos limitados que requieren eficiencia
- Aplicaciones de llamadas de herramientas y agentes
- Inferencia rápida con un rendimiento consistente
- Escenarios de implementación de borde con memoria limitada
Conclusión
QWEN3 30B-A3B y GPT-OSS 20B representan enfoques complementarios para el diseño de arquitectura MOE. QWEN3 enfatiza la profundidad, la diversidad experta y la capacidad multilingüe, lo que lo hace adecuado para aplicaciones de razonamiento complejas. GPT-OSS 20B prioriza la eficiencia, la integración de herramientas y la flexibilidad de la implementación, posicionándola para entornos de producción prácticos con restricciones de recursos.
Ambos modelos demuestran la evolución de las arquitecturas MOE más allá de la escala simple de los parámetros, incorporando opciones de diseño sofisticadas que alinean las decisiones arquitectónicas con casos de uso previstos y escenarios de implementación.
Nota: Este artículo está inspirado en el Reddit Post y diagrama compartido por Sebastian Raschka.
Fuentes
- Tarjeta modelo QWEN3 30B-A3B-Cara abrazada
- Blog técnico de Qwen3
- Especificaciones de base QWEN3 30B-A3B
- QWEN3 30B-A3B INSTRUCT 2507
- Documentación oficial de Qwen3
- Documentación de tokenizador de qwen
- Características del modelo QWEN3
- Introducción de OpenAi GPT-OSS
- Repositorio de GPT-OSS GitHub
- GPT-OSS 20B-Documentación de Groq
- Detalles técnicos de OpenAI GPT-OSS
- Blog de abrazo GPT-OSS
- Tarjeta modelo Operai GPT-OSS 20B
- Introducción de OpenAi GPT-OSS
- Blog técnico NVIDIA GPT-ASS
- Blog de abrazo GPT-OSS
- Análisis de rendimiento de Qwen3
- Tarjeta modelo OpenAI GPT-OSS
- Capacidades GPT-OSS 20B
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.