Fuentes abiertas de Tencent Hunyuan-A13b: un modelo MOE de parámetro activo 13B con razonamiento de modo dual y contexto de 256k

El equipo de Hunyuan de Tencent ha introducido Hunyuan-a13buna nueva fuente abierta modelo de lenguaje grande construido sobre un escaso Mezcla de expertos (MOE) arquitectura. Si bien el modelo consta de 80 mil millones de parámetros totales, solo 13 mil millones están activos durante la inferencia, ofreciendo un equilibrio altamente eficiente entre el rendimiento y el costo computacional. Es compatible Atención de consulta agrupada (GQA), 256k longitud de contextoy un Marco de razonamiento de modo dual Eso cambia entre un pensamiento rápido y lento.

Diseñado para una implementación eficiente y un razonamiento robusto, Hunyuan-A13b logra un rendimiento de primer nivel en los puntos de referencia de la agente, incluidos Bfcl-v3, τ banco, Banco C3y Bobado complejoa menudo superan los modelos más grandes en escenarios de llamadas de herramientas y contexto largo.

Arquitectura: MOE escaso con parámetros activos 13B

En esencia, Hunyuan-A13b sigue un diseño MOE de grano fino que comprende 1 experto compartido y 64 expertos no compartidoscon 8 expertos activados por pase hacia adelante. Esta arquitectura, respaldada por experimentos de escala, garantiza la consistencia del rendimiento y mantiene bajos los costos de inferencia. El modelo incluye 32 capas, usos Swiglu Las activaciones, un tamaño de vocabulario de 128K, e integra GQA para una mayor eficiencia de memoria durante la inferencia de contexto largo.

La configuración del MOE del modelo se combina con una optimizada plan de estudios de entrenamiento: Una fase previa a la preparación de 20T, seguida de un recocido rápido y una adaptación de contexto largo. Esta última fase escala la ventana de contexto primero a 32k y luego a 256k tokens utilizando una codificación posicional consciente de NTK, asegurando un rendimiento estable a grandes longitudes de secuencia.

Razonamiento de modo dual: pensamiento rápido y lento

Una característica destacada de Hunyuan-A13b es su cadena de pensamiento de doble modo (COT) capacidad. Admite tanto una baja latencia de pensamiento rápido modo para consultas de rutina y un más elaborado de pensamiento lento Modo para razonamiento de varios pasos. Estos modos se controlan a través de un sistema de etiqueta simple: /no think para inferencia rápida y /think para razonamiento reflexivo. Esta flexibilidad permite a los usuarios adaptar el costo computacional a la complejidad de las tareas.

Post-entrenamiento: aprendizaje de refuerzo con modelos de recompensa específicos de tareas

La tubería posterior al entrenamiento de Hunyuan-A13b incluye Multi-etapas supervisadas (SFT) y Aprendizaje de refuerzo (RL) en tareas tanto específicas como de razonamiento. Las etapas RL incorporan Recompensas basadas en resultados y retroalimentación específica de la herramientaincluidos los entornos de ejecución de Sandbox para el código y las verificaciones basadas en reglas para los agentes.

En la fase de entrenamiento de agentes, el equipo sintetizó diversos escenarios de uso de herramientas con roles de planificador, verificación y herramientas, generando sobre Combinaciones de 20,000 formatos. Este reforzó la capacidad de Hunyuan-A13b para ejecutar flujos de trabajo del mundo real, como procesamiento de hojas de cálculo, búsqueda de información y razonamiento estructurado.

Evaluación: desempeño de estado de vanguardia

Shows de Hunyuan-A13b Resultados de referencia fuertes a través de diversas tareas de PNL:

En MATEMÁTICAS, Cmathy GPQApuntúa en el par o por encima de los modelos más grandes densos y MOE.
Supera QWEN3-A22B y Deepseek r1 en razonamiento lógico (BBH: 89.1; cebralógica: 84.7).
En la codificación, se mantiene suyo con 83.9 en MBPP y 69.3 en Multipl-E.
Para tareas de agenteconduce a BFCL-V3 (78.3) y Complexfuncbench (61.2)Validación de sus capacidades de uso de herramientas.

La comprensión de contexto largo es otro punto destacado. En Pingüinscrollsobtiene 87.7, solo menos de Gemini 2.5 Pro. En GOBERNANTEmantiene un alto rendimiento (73.9) incluso en Contexto 64K – 128Ksuperando modelos más grandes como QWEN3-A22B y Deepseek R1 en la resiliencia del contexto.

Optimización e implementación de inferencia

Hunyuan-A13b está completamente integrado con marcos de inferencias populares como vllm, Sglangy Tensorrt-llm. Admite formatos de precisión como W16A16, W8A8y KV Cache FP8junto con características como Almacenamiento en caché del prefijo automático y Peleje previo. Se logra a 1981.99 tokens/seg Rendimiento en una entrada de 32 lotes (entrada 2048, longitud de salida 14336), lo que lo hace práctico para aplicaciones en tiempo real.

Correo abierto y relevancia de la industria

Disponible en Cara abrazada y GithubHunyuan-A13B se lanza con licencias permisivas de código abierto. Está diseñado para una investigación eficiente y uso de producción, especialmente en entornos sensibles a la latencia y tareas de contexto a largo plazo.

Al combinar Escalabilidad moe, razonamiento agentey accesibilidad de código abiertoHunyuan-A13b de Tencent ofrece una alternativa convincente a los LLM de peso pesado, lo que permite una experimentación y despliegue más amplios sin sacrificar la capacidad.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Fuentes abiertas de Tencent Hunyuan-A13b: un modelo MOE de parámetro activo 13B con razonamiento de modo dual y contexto de 256k

ByEquipo de 7 minutos

Arquitectura: MOE escaso con parámetros activos 13B

Razonamiento de modo dual: pensamiento rápido y lento

Post-entrenamiento: aprendizaje de refuerzo con modelos de recompensa específicos de tareas

Evaluación: desempeño de estado de vanguardia

Optimización e implementación de inferencia

Correo abierto y relevancia de la industria

By Equipo de 7 minutos

Related Post

Presentamos Claude Opus 5 en AWS: el modelo Opus más capaz de Anthropic

No obtuviste el modelo de IA que pagaste

Cómo crear un canal de OCR de extremo a extremo con Unlimited-OCR de Baidu para imágenes de alta resolución y análisis de PDF de varias páginas

You missed

El Niño de 2026 va camino de ser el más fuerte jamás registrado

Dimiten el presidente y el CEO de Plus Ultra, investigados por el préstamo a la secadora

Una victoria histórica: no se construirá la primera granja de pulpos del mundo

Por qué la confianza de los jugadores se está convirtiendo en la próxima capa de crecimiento del iGaming en Europa (patrocinado)