Cerebras lanza MiniMax-M2-REAP-162B-A10B: una versión con memoria eficiente de MiniMax-M2 para agentes de codificación de contexto largo

Cerebras ha lanzado MiniMax-M2-REAP-162B-A10B, un modelo de lenguaje causal de mezcla dispersa de expertos (SMoE) comprimido derivado de MiniMax-M2, que utiliza el nuevo método de poda de activación experta (REAP) ponderado por enrutador. El modelo mantiene el comportamiento del MiniMax M2 activo de 230 B en total y 10 B activos originales, al tiempo que elimina a los expertos y reduce la memoria para cargas de trabajo centradas en la implementación, como agentes de codificación y llamadas de herramientas.

Arquitectura y especificaciones centrales.

MiniMax-M2-REAP-162B-A10B tiene estas propiedades clave:

Modelo base: MiniMax-M2 Método de compresión: REAP, Poda de activación de expertos ponderada por enrutador Parámetros totales: 162B Parámetros activos por token: 10B Capas: 62 bloques transformadores Cabezales de atención por capa: 48 Expertos: 180 expertos, obtenidos podando una configuración de 256 expertos Expertos activados por token: 8 Longitud del contexto: 196,608 tokens Licencia: MIT modificada, derivada de MiniMaxAI MiniMax M2

El diseño SMoE significa que el modelo almacena 162 mil millones de parámetros, pero cada token solo se enruta a través de un pequeño conjunto de expertos, por lo que el costo de cómputo efectivo por token es similar a un modelo denso de 10 mil millones. El propio MiniMax M2 se posiciona como un modelo MoE creado para codificación y flujos de trabajo agentes, con 230 mil millones de parámetros totales y 10 mil millones activos, que hereda este punto de control.

¿Cómo comprime REAP MiniMax-M2?

MiniMax-M2-REAP-162B-A10B se crea aplicando REAP de manera uniforme en todos los bloques MoE de MiniMax M2, a una tasa de poda experta del 30 por ciento.

El método REAP define una puntuación de prominencia para cada experto que combina:

Valores de puerta del enrutador: con qué frecuencia y con qué fuerza el enrutador selecciona a ese experto. Normas de activación de expertos: la magnitud de la salida del experto cuando está activo.

Los expertos que contribuyen mínimamente a la producción de la capa, según este criterio combinado, son eliminados. Los expertos restantes mantienen sus pesos originales y el enrutador mantiene puertas separadas para cada uno de ellos. Esta es una compresión de un solo disparo, no hay ningún ajuste adicional después de la poda en la definición del método.

Un resultado teórico central del artículo de investigación de REAP es que la fusión de expertos con puertas sumadas provoca un colapso subespacial funcional. Cuando se fusionan expertos, el enrutador pierde su control independiente y dependiente de la entrada sobre esos expertos, por lo que un único experto fusionado debe aproximarse a una mezcla dependiente de la entrada que se expresó originalmente a través de múltiples expertos. El equipo de investigación demuestra que, cuando la política del enrutador depende de la información y los expertos no son idénticos, se introduce un error irreducible. Por el contrario, la poda elimina a algunos expertos pero preserva el control independiente de los supervivientes, por lo que el error aumenta con el peso de entrada de los expertos eliminados.

En un conjunto de modelos SMoE en el rango de parámetros de 20B a 1T, REAP supera consistentemente la fusión de expertos y otros criterios de poda en puntos de referencia generativos como generación de código, razonamiento matemático y llamada de herramientas, especialmente con una compresión del 50 por ciento.

Precisión inferior al 30 por ciento de poda experta

El modelo MiniMax-M2-REAP-162B-A10B se compara en tres puntos de control en codificación estándar, razonamiento y puntos de referencia agentes:

MiniMax-M2 (230B, modelo base) MiniMax-M2-REAP-172B-A10B, poda del 25 por ciento MiniMax-M2-REAP-162B-A10B, poda del 30 por ciento

https://huggingface.co/cerebras/MiniMax-M2-REAP-162B-A10B

En pruebas de codificación como HumanEval, HumanEval Plus, MBPP y MBPP Plus, el modelo 162B REAP se mantiene muy cerca del modelo base. HumanEval se sitúa alrededor del 90% del rango y MBPP se mantiene en el rango del 80%, con los modelos 172B y 162B esencialmente siguiendo al MiniMax-M2 original en unos pocos puntos.

En puntos de referencia de razonamiento como AIME 25 y MATH 500, hay pequeños cambios entre los tres modelos, pero no hay colapso con una poda del 30 por ciento y el punto de control 162B sigue siendo competitivo con el modelo base.

En cuanto a la llamada de herramientas y la evaluación agente, representada por el banco τ2 en un entorno de telecomunicaciones, el modelo 162B REAP nuevamente coincide con el modelo base dentro de una pequeña variación. La tarjeta modelo establece explícitamente que este punto de control mantiene un rendimiento casi idéntico y al mismo tiempo es aproximadamente un 30 por ciento más liviano en el recuento de parámetros.

Estos resultados se alinean con el estudio REAP más amplio, que informa una compresión casi sin pérdidas para la generación de código y la utilización de herramientas en varias arquitecturas SMoE grandes al podar a los expertos que utilizan el criterio REAP.

Implementación, uso de memoria y rendimiento observado

Cerebras proporciona un ejemplo de servicio vLLM directo y posiciona MiniMax-M2-REAP-162B-A10B como un modelo directo para la integración MiniMax M2 existente.

vllm sirve cerebros/MiniMax-M2-REAP-162B-A10B \ –tensor-parallel-size 8 \ –tool-call-parser minimax_m2 \ –reasoning-parser minimax_m2_append_think \ –trust-remote-code \ –enable_expert_parallel \ –enable-auto-tool-choice

Si la ejecución alcanza los límites de memoria, la tarjeta recomienda reducir –max-num-seqs, por ejemplo a 64, para mantener bajo control el tamaño del lote en una GPU determinada.

Conclusiones clave

Arquitectura SMoE con computación eficiente: MiniMax-M2-REAP-162B-A10B es un modelo de mezcla dispersa de expertos con 162 mil millones de parámetros totales y 10 mil millones de parámetros activos por token, por lo que el costo de cómputo por token se acerca a un modelo denso de 10 mil millones mientras se mantiene la capacidad de escala de frontera. La poda experta de REAP mantiene el comportamiento de MiniMax-M2: el modelo se produce aplicando la poda de activación experta ponderada del enrutador REAP a MiniMax-M2 en aproximadamente un 30 por ciento de poda experta, podando a los expertos en función de los valores de puerta del enrutador y las normas de activación de expertos, dejando intactos a los expertos supervivientes y la estructura del enrutador. Precisión casi sin pérdidas con una compresión del 30 por ciento: en pruebas comparativas de codificación como HumanEval y MBPP, y en pruebas comparativas de razonamiento como AIME25 y MATH 500, la variante 162B REAP sigue al 230B MiniMax-M2 y una variante 172B REAP en unos pocos puntos, mostrando una compresión casi sin pérdidas para código, razonamiento y uso de herramientas. La poda supera a la fusión de expertos para SMoE generativo: el estudio REAP muestra que la poda de expertos que utiliza un criterio de prominencia evita el colapso funcional del subespacio observado con la fusión de expertos en tareas generativas y funciona mejor en modelos SMoE grandes en el rango de parámetros de 22B a aproximadamente 1T.

Tabla comparativa

El lanzamiento de Cerebras de MiniMax-M2-REAP-162B-A10B es una fuerte señal de que la poda de activación experta ponderada por enrutador está lista para cargas de trabajo reales, no solo como una curiosidad de investigación. El punto de control muestra que un programa de poda experto del 30 por ciento puede mantener el comportamiento del MiniMax-M2 230B-A10B casi intacto al mismo tiempo que reduce la memoria y preserva la codificación de contexto largo, el razonamiento y el rendimiento de llamada de herramientas, que es exactamente lo que los investigadores de SMoE necesitan para la implementación práctica. En general, Cerebras está convirtiendo silenciosamente la poda experta en infraestructura de producción para modelos SMoE de vanguardia.

Consulte los pesos del modelo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.

Cerebras lanza MiniMax-M2-REAP-162B-A10B: una versión con memoria eficiente de MiniMax-M2 para agentes de codificación de contexto largo

ByEquipo de 7 minutos

Arquitectura y especificaciones centrales.

¿Cómo comprime REAP MiniMax-M2?

Precisión inferior al 30 por ciento de poda experta

Implementación, uso de memoria y rendimiento observado

Conclusiones clave

Tabla comparativa

By Equipo de 7 minutos

Related Post

LightSeek Foundation lanza TokenSpeed, un motor de inferencia LLM de código abierto dirigido al rendimiento de nivel TensorRT-LLM para cargas de trabajo agentes

OpenAI presenta MRC (conexión confiable de múltiples rutas): un nuevo protocolo de red abierto para clústeres de capacitación de supercomputadoras de IA a gran escala

Dale a tu IA un contexto actualizado ilimitado

You missed

El brote de hantavirus no causará una pandemia estilo covid, dice la OMS

La erupción de vapor de agua de Hunga Tonga provocó un extraño enfriamiento de la estratosfera y efectos atmosféricos duraderos

El tiempo en Mallorca para el viernes ocho de mayo

Exclusiva: Simran dice que Bollywood no respeta el legado de los actores del sur