Comparación de arquitectura de Moe: QWEN3 30B-A3B vs. GPT-OSS 20B

Este artículo proporciona una comparación técnica entre dos modelos de transformador de mezcla de expertos (MOE) recientemente lanzados: el QWEN3 30B-A3B de Alibaba (lanzado en abril de 2025) y GPT-OSS 20B de OpenAi (lanzado en agosto de 2025). Ambos modelos representan enfoques distintos para el diseño de la arquitectura MOE, equilibrando la eficiencia computacional con el rendimiento en diferentes escenarios de implementación.

Descripción general del modelo

Característica QWEN3 30B-A3B GPT-OSS 20B
Parámetros totales 30.5b 21B
Parámetros activos 3.3b 3.6b
Número de capas 48 24
Expertos de MOE 128 (8 activo) 32 (4 activo)
Arquitectura de atención Atención de consulta agrupada Atención múltiple agrupada
Consulta/cabezales de valor clave 32Q / 4KV 64Q / 8KV
Ventana de contexto 32,768 (ext. 262,144) 128,000
Tamaño de vocabulario 151,936 O200K_Harmony (~ 200k)
Cuantificación Precisión estándar Nativo mxfp4
Fecha de lanzamiento Abril de 2025 Agosto de 2025

Fuentes: Documentación oficial de Qwen3, Documentación de OpenAi GPT-OSS

Especificaciones técnicas QWEN3 30B-A3B

Detalles de la arquitectura

QWEN3 30B-A3B emplea una arquitectura de transformador profundo con 48 capascada uno que contiene una configuración de la mezcla de expertos con 128 expertos por capa. El modelo se activa 8 expertos por token Durante la inferencia, lograr un equilibrio entre la especialización y la eficiencia computacional.

Mecanismo de atención

El modelo utiliza Atención de consulta agrupada (GQA) con 32 cabezas de consulta y 4 cabezas de valor clave³. Este diseño optimiza el uso de la memoria mientras mantiene la calidad de la atención, particularmente beneficioso para el procesamiento de contexto a largo plazo.

Contexto y soporte multilingüe

  • Longitud de contexto nativo: 32,768 fichas
  • Contexto extendido: Hasta 262,144 tokens (últimas variantes)
  • Soporte multilingüe: 119 idiomas y dialectos
  • Vocabulario: 151,936 fichas usando Tokenización de BPE

Características únicas

Qwen3 incorpora un sistema de razonamiento híbrido Admitiendo modos de “pensamiento” y “no pensado”, lo que permite a los usuarios controlar la sobrecarga computacional en función de la complejidad de la tarea.

Especificaciones técnicas GPT-OSS 20B

Detalles de la arquitectura

GPT-OSS 20B presenta un Transformador de 24 capas con 32 expertos en MOE por capa⁸. El modelo se activa 4 expertos por tokenenfatizando una capacidad de experto más amplia sobre la especialización de grano fino.

Mecanismo de atención

El modelo implementa Atención múltiple agrupada con 64 cabezales de consulta y 8 cabezas de valor clave dispuestas en grupos de 8¹⁰. Esta configuración admite una inferencia eficiente mientras mantiene la calidad de la atención en la arquitectura más amplia.

Contexto y optimización

  • Longitud de contexto nativo: 128,000 tokens
  • Cuantificación: Native MXFP4 (precisión de 4.25 bits) para pesos de MOE
  • Eficiencia de memoria: Se ejecuta en memoria de 16 GB con cuantización
  • Tokenizador: O200K_Harmony (Superset of GPT-4O Tokenizer)

Características de rendimiento

GPT-OSS 20B usa Patrones de atención escasos densos y de bandas locales alternativas Similar a GPT-3, con Incrustación posicional rotativa (cuerda) para codificación posicionallu⁵.

Comparación de filosofía arquitectónica

Profundidad versus estrategia de ancho

QWEN3 30B-A3B enfatizado profundidad y diversidad de expertos:

  • 48 capas habilitan razonamiento de varias etapas y abstracción jerárquica
  • 128 expertos por capa proporcionan especialización de grano fino
  • Adecuado para tareas de razonamiento complejas que requieren un procesamiento profundo

GPT-OSS 20B priorizar ancho y densidad computacional:

  • 24 capas con expertos más grandes maximizan la capacidad de representación para la capa
  • Menos pero más poderosos expertos (32 frente a 128) aumentan la capacidad de expertos individuales
  • Optimizado para una inferencia eficiente de un solo paso

Estrategias de enrutamiento de MOE

Qwen3: Rutas tokens a través de 8 de 128 expertosalentar rutas de procesamiento diversas y sensibles al contexto y la toma de decisiones modulares.

Gt-oss: Rutas tokens a través de 4 de 32 expertosmaximizando la potencia computacional por experto y la entrega de procesamiento concentrado por paso de inferencia.

Consideraciones de memoria e implementación

QWEN3 30B-A3B

  • Requisitos de memoria: Variable basada en precisión y longitud de contexto
  • Despliegue: Optimizado para la implementación de nubes y borde con extensión de contexto flexible
  • Cuantificación: Admite varios esquemas de cuantización posteriores al entrenamiento

GPT-OSS 20B

  • Requisitos de memoria: 16 GB con cuantización nativa de MXFP4, ~ 48 GB en BFLOAT16
  • Despliegue: Diseñado para la compatibilidad del hardware del consumidor
  • Cuantificación: El entrenamiento nativo de MXFP4 permite una inferencia eficiente sin degradación de calidad

Características de rendimiento

QWEN3 30B-A3B

  • Sobresale razonamiento matemático, codificación y tareas lógicas complejas
  • Fuerte rendimiento en escenarios multilingües En 119 idiomas
  • Modo de pensamiento Proporciona capacidades de razonamiento mejoradas para problemas complejos

GPT-OSS 20B

  • Logra Rendimiento comparable a Operai O3-Mini en puntos de referencia estándar
  • Optimizado para Uso de herramientas, navegación web y llamadas de funciones
  • Fuerte razonamiento de la cadena de pensamiento con niveles de esfuerzo de razonamiento ajustable

Recomendaciones de casos de uso

Elija QWEN3 30B-A3B para:

  • Tareas de razonamiento complejas que requieren procesamiento de varias etapas
  • Aplicaciones multilingües en diversos idiomas
  • Escenarios que requieren extensión de longitud de contexto flexible
  • Aplicaciones donde se valora la transparencia de pensamiento/razonamiento

Elija GPT-OSS 20B para:

  • Implementaciones con recursos limitados que requieren eficiencia
  • Aplicaciones de llamadas de herramientas y agentes
  • Inferencia rápida con un rendimiento consistente
  • Escenarios de implementación de borde con memoria limitada

Conclusión

QWEN3 30B-A3B y GPT-OSS 20B representan enfoques complementarios para el diseño de arquitectura MOE. QWEN3 enfatiza la profundidad, la diversidad experta y la capacidad multilingüe, lo que lo hace adecuado para aplicaciones de razonamiento complejas. GPT-OSS 20B prioriza la eficiencia, la integración de herramientas y la flexibilidad de la implementación, posicionándola para entornos de producción prácticos con restricciones de recursos.

Ambos modelos demuestran la evolución de las arquitecturas MOE más allá de la escala simple de los parámetros, incorporando opciones de diseño sofisticadas que alinean las decisiones arquitectónicas con casos de uso previstos y escenarios de implementación.

Nota: Este artículo está inspirado en el Reddit Post y diagrama compartido por Sebastian Raschka.


Fuentes

  1. Tarjeta modelo QWEN3 30B-A3B-Cara abrazada
  2. Blog técnico de Qwen3
  3. Especificaciones de base QWEN3 30B-A3B
  4. QWEN3 30B-A3B INSTRUCT 2507
  5. Documentación oficial de Qwen3
  6. Documentación de tokenizador de qwen
  7. Características del modelo QWEN3
  8. Introducción de OpenAi GPT-OSS
  9. Repositorio de GPT-OSS GitHub
  10. GPT-OSS 20B-Documentación de Groq
  11. Detalles técnicos de OpenAI GPT-OSS
  12. Blog de abrazo GPT-OSS
  13. Tarjeta modelo Operai GPT-OSS 20B
  14. Introducción de OpenAi GPT-OSS
  15. Blog técnico NVIDIA GPT-ASS
  16. Blog de abrazo GPT-OSS
  17. Análisis de rendimiento de Qwen3
  18. Tarjeta modelo OpenAI GPT-OSS
  19. Capacidades GPT-OSS 20B


Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.