Zyphra AI ha lanzado ZAYA1-8B, un pequeño modelo de lenguaje Mezcla de Expertos (MoE) con 760 millones de parámetros activos y 8,4 mil millones de parámetros totales. Entrenado de extremo a extremo en hardware AMD, el modelo supera a los modelos abiertos muchas veces su tamaño en pruebas comparativas de matemáticas y codificación, y ahora está disponible bajo una licencia Apache 2.0 en Hugging Face y como un punto final sin servidor en Zyphra Cloud.
Con menos de mil millones de parámetros activos, ZAYA1-8B logra puntuaciones competitivas con modelos de razonamiento de frontera de primera generación como DeepSeek-R1-0528, Gemini-2.5-Pro y Claude 4.5 Sonnet en tareas desafiantes de razonamiento matemático. Con su novedosa metodología de cálculo en tiempo de prueba llamada Markovian RSA, supera a Claude 4.5 Sonnet y GPT-5-High en HMMT’25 (89,6 frente a 88,3) y se acerca a modelos fronterizos de peso abierto como DeepSeek-V3.2 en los puntos de referencia matemáticos.
¿Qué es un modelo de mezcla de expertos y por qué es importante el recuento de parámetros activos?
La distinción entre parámetros “activos” y “totales” es muy importante. En un modelo denso estándar, cada parámetro se activa para cada token de entrada. En un modelo de Mezcla de Expertos, sólo un subconjunto de los parámetros de la red (los “expertos”) se activan en el momento de la inferencia. ZAYA1-8B tiene un total de 8,4 mil millones de parámetros, pero solo 760 millones están activos por pase directo. Esto reduce drásticamente los requisitos de ancho de banda de memoria y cálculo de inferencia, al tiempo que conserva la capacidad de representación de un modelo mucho más grande.
ZAYA1-8B se puede implementar en el dispositivo para aplicaciones LLM locales, ejecutarse de manera eficiente en arneses informáticos en tiempo de prueba y atender solicitudes con menor latencia en comparación con modelos densos con rendimiento de referencia similar.
Arquitectura: MoE++ y tres innovaciones clave
ZAYA1-8B se basa en la arquitectura MoE++ de Zyphra, que introduce tres cambios específicos con respecto a los diseños MoE estándar. Juntos, estos forman la base de la eficiencia de la inteligencia de ZAYA1-8B, que es el objetivo de diseño que Zyphra plantea como maximizar la inteligencia extraída por parámetro y por FLOP.
Atención convolucional comprimida (CCA), un mecanismo de mezcla de secuencias desarrollado por Zyphra que opera en un espacio latente comprimido y logra una compresión de caché KV de 8 × en comparación con la atención estándar. La caché KV es la memoria utilizada durante la inferencia para almacenar estados de atención intermedios: una reducción de 8 veces reduce directamente los requisitos de memoria en el momento de la inferencia y permite contextos efectivos más prolongados dentro del mismo entorno de hardware. Enrutador basado en MLP ZAYA1 con equilibrio de polarización del controlador PID. Los enrutadores MoE estándar suelen utilizar proyecciones lineales para determinar qué experto procesa un token determinado. Zyphra reemplaza esto con un enrutador basado en MLP y agrega equilibrio de polarización estilo controlador PID para mejorar la estabilidad del enrutamiento, evitando activamente el desequilibrio de carga entre los expertos, que es un modo de falla conocido en el entrenamiento del MoE. Escalado residual aprendido, que controla el crecimiento de la norma residual a través de la profundidad con un parámetro y un costo FLOP insignificantes. En las redes profundas, las normas de los flujos residuales pueden crecer de manera inestable capa tras capa; El escalado aprendido aborda esto sin agregar una sobrecarga significativa.
Infraestructura de formación: totalmente basada en AMD
ZAYA1-8B es un modelo MoE previamente entrenado, entrenado a mitad de camino y supervisado y ajustado en una pila AMD Instinct MI300. El proceso de capacitación completo se ejecutó en un grupo de 1024 nodos AMD Instinct MI300x conectados a través de la interconexión AMD Pensando Pollara, en un grupo de capacitación personalizado creado con IBM.
Preentrenamiento de razonamiento primero y un proceso de postentrenamiento de cinco etapas
El rendimiento de ZAYA1-8B refleja innovaciones en toda la pila: la arquitectura MoE++ de Zyphra, el preentrenamiento de razonamiento primero, una metodología de razonamiento en cascada RL y el novedoso método de cálculo en tiempo de prueba Markovian RSA.
El proceso posterior a la capacitación de Zyphra consta de cinco etapas secuenciales:
La primera es una etapa SFT estándar que cubre habilidades básicas de chat, seguimiento de instrucciones, código, matemáticas y computación en tiempo de prueba (TTC). El segundo es un calentamiento de razonamiento que combina tareas matemáticas, lógica y resolución de acertijos, con indicaciones de TTC para entrenar el modelo para autoagregar de forma nativa soluciones candidatas. En tercer lugar, hay una gran fase de RLVE-Gym con dificultad de rompecabezas ajustada dinámicamente para entrenar circuitos de razonamiento básicos. El cuarto lugar es una fase de RL de código y matemáticas a gran escala para profundizar el rendimiento en estos dos dominios fundamentales. Finalmente, una fase RLHF/RLAIF relativamente ligera mejora el comportamiento del chat, el seguimiento de instrucciones y el estilo de escritura.
El equipo de investigación de Zyphra observó los aumentos de capacidad más sustanciales en matemáticas y codificación durante la vida real, con ganancias menores pero significativas en la recuperación de conocimientos de opción múltiple (MMLU y GPQA-Diamond) y tareas no verificables como la escritura creativa.
Markovian RSA: un nuevo método de cálculo en tiempo de prueba
La contribución técnicamente más importante junto con el modelo es Markovian RSA, un esquema de computación en tiempo de prueba (TTC) que combina dos ideas previas de una manera nueva.
El primero es la autoagregación recursiva (RSA), que genera múltiples rastros de razonamiento en paralelo y los agrega de forma recursiva a lo largo de iteraciones. La segunda es la idea del pensador markoviano, que realiza el razonamiento en fragmentos de duración fija: solo el final del fragmento anterior se pasa al siguiente, manteniendo la ventana de contexto limitada independientemente de cuánto tiempo razona el modelo.
Markovian RSA combina estos: para cada mensaje, se generan múltiples seguimientos en paralelo; de cada rastro se extraen segmentos de cola de longitud fija; se construyen nuevas indicaciones de agregación mediante submuestreo del grupo de candidatos; y estas indicaciones agregadas siembran la siguiente ronda de respuestas paralelas. El resultado tiene propiedades de inferencia favorables: la generación de implementación es paralelizable y la estrategia de fragmentación markoviana garantiza que las longitudes intermedias de la cadena de pensamiento nunca excedan un tamaño de ventana de contexto fijo.
Un hallazgo clave es que el codiseño entre la metodología posterior a la capacitación y el arnés de inferencia es esencial. ZAYA1-8B fue capacitado para comprender y responder a las indicaciones de agregación y fragmentación de RSA de Markov, comenzando en SFT y continuando hasta RL. Cuando Zyphra aplicó la misma metodología a Qwen3-4B-Thinking-2507 sin este codiseño, la mejora del rendimiento fue sustancialmente menor, lo que indica que el arnés y el post-entrenamiento deben desarrollarse juntos para obtener las ganancias.
Con Markovian RSA con un presupuesto de computación en tiempo de prueba extra alto de 5,5 millones de tokens por problema, ZAYA1-8B supera a DeepSeek-V3.2 y GPT-OSS-High en el desafiante punto de referencia matemático de la lista corta de APEX.
Resultados de referencia
En la comparación en clase con modelos de tamaño similar, ZAYA1-8B obtiene una puntuación de 89,1 en AIME’26, 71,6 en HMMT Feb.’26, 59,3 en IMO-AnswerBench, 32,2 en APEX-shortlist, 65,8 en LiveCodeBench-v6 y 71,0 en GPQA-Diamond: superando Qwen3-4B-Thinking-2507 y Gemma-4-E4B-it en todas las categorías de matemáticas y codificación.
Frente a modelos de peso abierto más grandes, ZAYA1-8B con 760 millones de parámetros activos supera a Mistral-Small-4-119B (6 mil millones activos, 119 mil millones en total) en pruebas comparativas de matemáticas y codificación específicamente: con una puntuación de 89,1 frente a 86,4 en AIME’26, 71,6 frente a 70,6 en HMMT de febrero del 26 y 63,8 frente a 57,9 en LiveCodeBench-v6. Mistral-Small-4-119B conserva ventajas sobre GPQA-Diamond (77,2 frente a 71,0) y MMLU-Pro (81,6 frente a 74,2), donde la amplitud del conocimiento importa más que la profundidad del razonamiento matemático.
Conclusiones clave
ZAYA1-8B ofrece rendimiento matemático y de codificación de nivel fronterizo con solo 760 millones de parámetros activos, superando a los modelos abiertos muchas veces su tamaño. Su arquitectura MoE++ presenta tres innovaciones: CCA con compresión de caché de 8× KV, un enrutador basado en MLP con equilibrio de polarización del controlador PID y escalado residual aprendido, para maximizar la inteligencia por parámetro. Un novedoso método de cálculo en tiempo de prueba llamado Markovian RSA, que combina la autoagregación recursiva con la fragmentación de Markovian, empuja a ZAYA1-8B más allá de DeepSeek-V3.2 y GPT-OSS-High en la lista corta de APEX con 5,5 millones de tokens por problema. ZAYA1-8B es el primer modelo MoE previamente entrenado, entrenado a mitad de camino y SFT completamente en hardware AMD Instinct MI300, en un clúster de 1024 nodos MI300x creado con IBM. Lanzado bajo Apache 2.0, está disponible en Hugging Face y Zyphra Cloud.
Consulte el papel, los pesos de los modelos y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros