Libraciones de IA Minimax Minax-M1: un modelo híbrido de parámetros de 456b para tareas de Long-Context and Refplying Learning RL RL

El desafío del razonamiento de contexto largo en los modelos de IA

Los grandes modelos de razonamiento no solo están diseñados para comprender el lenguaje, sino que también están estructurados para pensar a través de procesos de varios pasos que requieren tramos de atención prolongados y comprensión contextual. A medida que crecen las expectativas de la IA, especialmente en los entornos de desarrollo de software y el mundo real, los investigadores han buscado arquitecturas que pueden manejar insumos más largos y mantener cadenas de razonamiento profundas y coherentes sin costos computacionales abrumadores.

Restricciones computacionales con transformadores tradicionales

La principal dificultad para expandir estas capacidades de razonamiento radica en la carga computacional excesiva que viene con longitudes de generación más largas. Los modelos tradicionales basados ​​en transformadores emplean un mecanismo de atención Softmax, que escala cuadráticamente con el tamaño de entrada. Esto limita su capacidad para manejar secuencias de entrada largas o cadenas de pensamiento extendidas de manera eficiente. Este problema se vuelve aún más apremiante en áreas que requieren interacción en tiempo real o aplicaciones sensibles a los costos, donde los gastos de inferencia son significativos.

Alternativas existentes y sus limitaciones

Los esfuerzos para abordar este problema han arrojado una variedad de métodos, incluidas la atención escasa y las variantes de atención lineal. Algunos equipos han experimentado con modelos de espacio de estado y redes recurrentes como alternativas a las estructuras de atención tradicionales. Sin embargo, estas innovaciones han visto una adopción limitada en los modelos de razonamiento más competitivos debido a la complejidad arquitectónica o a la falta de escalabilidad en las implementaciones del mundo real. Incluso los sistemas a gran escala, como Hunyuan-T1 de Tencent, que utiliza una nueva arquitectura Mamba, siguen siendo de código cerrado, restringiendo así una participación y validación de investigación más amplias.

Introducción de Minax-M1: un modelo escalable de peso abierto

Los investigadores de Minimax AI introdujeron Minax-M1, un nuevo modelo de razonamiento a gran escala de peso abierto que combina una mezcla de arquitectura de expertos con atención rápida. Construido como una evolución del modelo Minimax-Text-01, Minimax-M1 contiene 456 mil millones de parámetros, con 45.9 mil millones activados por token. Admite longitudes de contexto de hasta 1 millón de tokens, ocho veces la capacidad de Deepseek R1. Este modelo aborda la escalabilidad calculadora en el momento de la inferencia, consumiendo solo el 25% de los fracasos requeridos por Deepseek R1 a 100,000 token de longitud de generación. Fue capacitado utilizando el aprendizaje de refuerzo a gran escala en una amplia gama de tareas, desde matemáticas y codificación hasta ingeniería de software, marcando un cambio hacia modelos prácticos de IA de contexto largo.

Atención híbrida con atención de rayos y bloques Softmax

Para optimizar esta arquitectura, Minimax-M1 emplea un esquema de atención híbrida donde cada séptimo bloque de transformador utiliza la atención tradicional de Softmax, seguido de seis bloques utilizando atención de rayos. Esto reduce significativamente la complejidad computacional al tiempo que preserva el rendimiento. La atención del rayo en sí es ADAPE, adaptada de la atención lineal, y es particularmente efectiva para escalar longitudes de razonamiento a cientos de miles de tokens. Para la eficiencia del aprendizaje de refuerzo, los investigadores introdujeron un algoritmo novedoso llamado CISPO. En lugar de recortar las actualizaciones de token como lo hacen los métodos tradicionales, los pesos de muestreo de importancia de CISPO clips, permitiendo un entrenamiento estable y contribuciones de token consistentes, incluso en actualizaciones fuera de política.

El algoritmo CISPO y la eficiencia de entrenamiento RL

El algoritmo CISPO demostró ser esencial para superar la inestabilidad de la capacitación que enfrenta las arquitecturas híbridas. En estudios comparativos que utilizan la línea de base QWEN2.5-32B, CISPO logró una aceleración 2X en comparación con DAPO. Aprovechando esto, el ciclo de aprendizaje de refuerzo completo para Minax-M1 se completó en solo tres semanas usando 512 GPU H800, con un costo de alquiler de aproximadamente $ 534,700. El modelo fue capacitado en un conjunto de datos diverso que comprende 41 tareas lógicas generadas a través del marco Synlogic y los entornos de ingeniería de software del mundo real derivados del banco SWE. Estos entornos utilizaron recompensas basadas en la ejecución para guiar el rendimiento, lo que resultó en resultados más fuertes en tareas de codificación práctica.

Resultados de referencia y rendimiento comparativo

Minimax-M1 entregó resultados de referencia convincentes. En comparación con Deepseek-R1 y QWEN3-235B, se destacó en ingeniería de software, procesamiento de contexto largo y uso de herramientas de agente. Aunque siguió el último Deepseek-R1-0528 en concursos de matemáticas y codificación, superó tanto a Opgai O3 y Claude 4 Opus en puntos de referencia de comprensión de contexto largo. Además, superó a Gemini 2.5 Pro en la evaluación de uso de la herramienta Tau-Bench Agent.

Conclusión: un modelo escalable y transparente para IA de contexto largo

Minimax-M1 presenta un paso adelante significativo al ofrecer transparencia y escalabilidad. Al abordar el doble desafío de la eficiencia de inferencia y la complejidad de la capacitación, el equipo de investigación de Minimax AI ha establecido un precedente para los modelos de razonamiento de peso abierto. Este trabajo no solo trae una solución para calcular las limitaciones, sino que también introduce métodos prácticos para escalar la inteligencia del modelo de lenguaje en aplicaciones del mundo real.


Mira el Papel, Modelo y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.