MiniMax lanza MiniMax M2: un mini modelo abierto creado para codificación máxima y flujos de trabajo agentes al 8% del precio Claude Sonnet y ~2 veces más rápido

¿Puede un MoE de código abierto impulsar realmente los flujos de trabajo de codificación agentes a una fracción de los costos del modelo emblemático y al mismo tiempo mantener el uso de herramientas a largo plazo en MCP, shell, navegador, recuperación y código? El equipo de MiniMax acaba de lanzar MiniMax-M2, una combinación de modelos MoE de expertos optimizados para codificación y flujos de trabajo de agentes. Los pesos se publican en Hugging Face bajo la licencia del MIT y el modelo está posicionado para el uso de herramientas de extremo a extremo, edición de múltiples archivos y planes a largo plazo. Enumera un total de 229 mil millones de parámetros con aproximadamente 10 mil millones activos por token, lo que mantiene la memoria y la latencia bajo control durante los bucles del agente.

https://github.com/MiniMax-AI/MiniMax-M2

¿Arquitectura y por qué es importante el tamaño de activación?

MiniMax-M2 es un MoE compacto que enruta aproximadamente 10 mil millones de parámetros activos por token. Las activaciones más pequeñas reducen la presión de la memoria y la latencia de cola en los bucles de planificación, acción y verificación, y permiten más ejecuciones simultáneas en cadenas de CI, exploración y recuperación. Este es el presupuesto de rendimiento que permite las afirmaciones de velocidad y costo en relación con modelos densos de calidad similar.

MiniMax-M2 es un modelo de pensamiento entrelazado. El equipo de investigación envolvió el razonamiento interno en… bloques e instruye a los usuarios a mantener estos bloques en el historial de conversaciones durante los turnos. La eliminación de estos segmentos perjudica la calidad en tareas de varios pasos y cadenas de herramientas. Este requisito está explícito en la página del modelo en HF.

Puntos de referencia dirigidos a la codificación y los agentes

El equipo de MiniMax informa que un conjunto de evaluaciones de códigos y agentes están más cerca de los flujos de trabajo de los desarrolladores que el control de calidad estático. En Terminal Bench, la tabla muestra 46,3. En Multi SWE Bench, muestra 36,2. En BrowseComp, muestra 44.0. SWE Bench Verified figura en 69,4 con el detalle del andamio, OpenHands con contexto de 128k y 100 pasos.

https://github.com/MiniMax-AI/MiniMax-M2

El anuncio oficial de MiniMax destaca el 8% del precio de Claude Sonnet y casi el doble de velocidad, además de una ventana de acceso gratuito. La misma nota proporciona los precios específicos de los tokens y la fecha límite de prueba.

Comparación M1 vs M2

AspectMiniMax M1MiniMax M2Parámetros totales456 mil millones en total229 mil millones en metadatos de tarjeta modelo, el texto de la tarjeta modelo dice 230 mil millones en totalParámetros activos por token45.9 mil millones activos10 mil millones activosDiseño del núcleoMezcla híbrida de expertos con atención relámpagoMezcla escasa de expertos enfocados en codificación y flujos de trabajo de agentesFormato de pensamientoVariantes de presupuesto de pensamiento 40k y 80k en entrenamiento de RL, sin etiqueta de pensamiento protocolo requeridoPensamiento intercalado con… segmentos que deben preservarse en los turnosParámetros resaltadosAIME, LiveCodeBench, SWE-bench Verified, TAU-bench, contexto largo MRCR, MMLU-ProTerminal-Bench, Multi SWE-Bench, SWE-bench Verified, BrowseComp, GAIA solo texto, conjunto de inteligencia de análisis artificialTemperatura predeterminada de inferencia 1.0, página superior 0.95 muestra la tarjeta modelo temperatura 1.0, top p 0.95, top k 40, la página de inicio muestra top k 20Guía de serviciovLLM recomendado, ruta de Transformers también documentadavLLM y SGLang recomendado, guía de llamada de herramientas proporcionadaEnfoque principalRazonamiento de contexto largo, escalamiento eficiente de cómputo de tiempo de prueba, aprendizaje de refuerzo CISPOAgente y flujos de trabajo nativos de código en shell, navegador, recuperación y ejecutores de código

Conclusiones clave

M2 se envía como pesas abiertas en Hugging Face según el MIT, con tensores de seguridad en F32, BF16 y FP8 F8_E4M3. El modelo es un MoE compacto con 229 B de parámetros totales y ~10 B activos por token, lo que la tarjeta vincula con un menor uso de memoria y una latencia de cola más estable en los bucles de planificación, acción y verificación típicos de los agentes. Los resultados envuelven el razonamiento interno en… y la tarjeta modelo indica explícitamente conservar estos segmentos en el historial de conversaciones, advirtiendo que la eliminación degrada el rendimiento de varios pasos y del uso de herramientas. Los resultados informados cubren Terminal-Bench, (Multi-)SWE-Bench, BrowseComp y otros, con notas de estructura para la reproducibilidad, y la publicación del día 0 está documentada para SGLang y vLLM con guías de implementación concretas.

Notas editoriales

MiniMax M2 aterriza con pesos abiertos bajo el MIT, una combinación de diseño de expertos con 229 mil millones de parámetros totales y alrededor de 10 mil millones activados por token, que apunta a bucles de agentes y tareas de codificación con menor memoria y latencia más estable. Se envía en Hugging Face en tensores de seguridad con formatos FP32, BF16 y FP8, y proporciona notas de implementación además de una plantilla de chat. La API documenta los puntos finales compatibles con Anthropic y enumera los precios con una ventana gratuita limitada para su evaluación. Las recetas vLLM y SGLang están disponibles para servir y comparar localmente. En general, MiniMax M2 es una versión abierta muy sólida.

Consulte API Doc, Weights y Repo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.