Xiaomi introdujo Mimo-7B: un modelo de lenguaje compacto que supera a los modelos más grandes en el razonamiento matemático y de código a través del riguroso aprendizaje de pre-entrenamiento y refuerzo

Con una creciente demanda de sistemas de IA que pueden manejar tareas que involucran lógica de varios pasos, pruebas matemáticas y desarrollo de software, los investigadores han centrado su atención en mejorar el potencial de razonamiento de los modelos. Esta capacidad, una vez que se cree que es exclusiva de la inteligencia humana, ahora se está llevando a cabo activamente en modelos a menor escala para que sean más eficientes y ampliamente desplegables. A medida que las tareas basadas en el razonamiento continúan expandiéndose en relevancia, abarcando la resolución académica de problemas y la prueba de teorema automatizado, el diseño de algoritmos y la depuración compleja de software, se espera que los modelos de lenguaje se conviertan en algo más que agentes de conversación de uso general. Se les alienta a convertirse en solucionadores de problemas específicos de dominio que pueden ayudar a profesionales e investigadores por igual.

Un desafío para construir modelos centrados en el razonamiento es lograr un rendimiento fuerte y simultáneo en matemáticas y programación mientras se mantiene un tamaño de modelo relativamente pequeño. La mayoría de los resultados competitivos en estos dominios se logran mediante modelos con aproximadamente 32 mil millones de parámetros o más. Estos modelos grandes a menudo se usan porque los más pequeños luchan con la generalización y la optimización de recompensas en las tareas de aprendizaje de refuerzo, particularmente cuando se trata de resolver problemas basados ​​en código. La retroalimentación de recompensas escasas, los datos limitados de alta calidad y la arquitectura del modelo base débil hacen que sea difícil desarrollar modelos compactos pero poderosos. Además, los datos utilizados para capacitar a estos modelos no siempre están curados con el razonamiento en mente, lo que a menudo resulta en ineficiencias de capacitación y ganancias limitadas en las habilidades de resolución de problemas.

Para abordar los desafíos de razonamiento, se han introducido varios modelos, incluidas la serie O de OpenAI, Deepseek R1 y Claude 3.7, aprovechando los recuentos masivos de parámetros y las estrategias de aprendizaje de refuerzo complejas. Estos modelos emplean técnicas como la planificación paso a paso y el retroceso para mejorar el razonamiento, particularmente en el pensamiento algorítmico y las tareas relacionadas con las matemáticas. Sin embargo, dependen en gran medida de las etapas posteriores a la capacitación y se minimizan la importancia de los datos de pre-entrenamiento de alta calidad. Muchos también se basan en sistemas de recompensa basados ​​en plantillas fijas que son propensas a recompensar la piratería. Los puntos de referencia de generación de código a menudo revelan que estos modelos funcionan de manera inconsistente en tareas desafiantes debido a los fundamentos de prevención superficiales y el modelado de señal de recompensa ineficaz durante el ajuste fino.

Un equipo de investigación de Xiaomi introdujo el Mimo-7b Modelos de familia de idiomas con un enfoque enfocado para superar estas barreras. La innovación radica en tratar tanto la capacitación como el post-entrenamiento como fases igualmente críticas para desarrollar capacidades de razonamiento. El modelo base, MIMO-7B-Base, fue entrenado desde cero utilizando un conjunto de datos que comprende 25 billones de tokens. Este conjunto de datos se construyó con una estrategia de mezcla de tres etapas que aumentó progresivamente la participación del contenido matemático y de programación. Se introdujo un objetivo adicional de predicción múltiple token (MTP) durante la capacitación previa para mejorar tanto el rendimiento como la velocidad de inferencia. Para el post-entrenamiento, el equipo desarrolló un conjunto de datos curado de 130,000 problemas de programación y matemáticas verificables, cada uno etiquetado con puntajes de dificultad. El aprendizaje de refuerzo se aplicó luego utilizando un marco de recompensa basado en dificultades, lo que permite una retroalimentación más matizada y efectiva durante la capacitación. Esto dio como resultado dos variantes principales: MIMO-7B-RL y MIMO-7B-RL-Zero.

La metodología previa al entrenamiento comenzó extrayendo contenido pesado de razonamiento de páginas web, documentos académicos y libros utilizando una herramienta de extracción HTML personalizada diseñada para preservar las ecuaciones de matemáticas y los fragmentos de código. A diferencia de las tuberías genéricas, este extractor retuvo elementos estructurales críticos para los dominios de resolución de problemas. Luego, el equipo mejoró las herramientas de análisis PDF para interpretar con precisión el contenido científico y de programación. Para evitar la duplicación de datos, se aplicó la deduplicación global utilizando técnicas basadas en URL y Minhash. El corpus de entrenamiento se filtró usando modelos de lenguaje pequeño Afino a la calidad del contenido de la etiqueta, reemplazando filtros obsoletos basados ​​en heurísticos que a menudo eliminaban valiosos ejemplos de razonamiento. Los datos de razonamiento sintético de alta calidad también se generaron a partir de modelos avanzados y se agregaron en la etapa final de entrenamiento. Este enfoque de tres etapas dio como resultado una combinación final de entrenamiento que comprende un 70% de datos de matemáticas y código en la etapa dos y un 10% adicional del contenido sintético en la etapa tres. La longitud máxima del contexto se extendió de 8,192 a 32,768 tokens, asegurando que el modelo pudiera manejar problemas de razonamiento de forma larga.

En la etapa de aprendizaje de refuerzo, el equipo de investigación diseñó un motor de despliegue sin problemas para acelerar el entrenamiento y la validación. Esta infraestructura incorporó el cálculo de recompensas asincrónicas y los mecanismos de terminación temprana para reducir el tiempo de inactividad de GPU, lo que resultó en un entrenamiento 2.29 veces más rápido y 1.96 veces una validación más rápida. La política del modelo se optimizó utilizando recompensas de grano fino derivadas de la dificultad de los casos de prueba, abordando el problema de recompensa disperso en los puntos de referencia de programación. Se introdujeron técnicas de reamplio de datos para mantener la estabilidad del entrenamiento y aumentar la eficiencia de muestreo de despliegue. Estas estrategias permitieron colectivamente que las variantes MIMO-7B aprendieran de manera efectiva, incluso de los estados de arranque en frío donde no hay disponible inicialización pre-fina.

La evaluación del rendimiento reveló que MIMO-7B-Base logró una puntuación de 75.2 en la tarea de Big Bench Hard (BBH), superando otros modelos 7B de código abierto. También funcionó bien en SuperGPQA, que incluye preguntas de razonamiento a nivel de posgrado. El MIMO-7B-RL post-entrenado anotó 55.4 en el punto de referencia AIME 2025, superando el O1-Mini de OpenAI por 4.7 puntos. En las tareas de generación de códigos, superó a modelos mucho más grandes como Deepseek-R1-Zero-32B y Qwen2.5-32b-Rl-Zero en LivecodeBench V5 y V6. Estos resultados demuestran que un modelo 7B optimizado adecuadamente puede rivalizar o incluso superar modelos con más de cuatro veces el número de parámetros.

El proyecto MIMO-7B sirve como una demostración concreta de cómo la infraestructura de aprendizaje de pre-entrenamiento, la calidad de los datos y el aprendizaje de refuerzo contribuye a la capacidad de razonamiento final de un modelo de idioma. Al repensar la tubería de la extracción de datos al cálculo de recompensas, el equipo de investigación de Xiaomi logró modelos compactos pero poderosos adecuados para aplicaciones del mundo real en matemáticas, codificación y lógica. Su enfoque destaca el potencial sin explotar de los modelos pequeños y desafía la suposición de que el tamaño solo determina la inteligencia o la versatilidad.

Takeaways de la investigación sobre MIMO-7B:

  1. MIMO-7B fue entrenado en un conjunto de datos masivo de 25 billones de tokens, dirigiendo tareas de razonamiento mediante el uso de mezclas de datos estructuradas.
  2. Se utilizaron 130,000 problemas de matemáticas y código en el entrenamiento RL, cada uno anotado con puntajes de dificultad para permitir una configuración efectiva de recompensa.
  3. El contenido previo de la capacitación de tres etapas aumentó el contenido de las matemáticas y la codificación al 70%, seguido de los datos de resolución de problemas sintéticos del 10%.
  4. Un motor de despliegue sin costuras aumentó la velocidad de entrenamiento RL en 2.29 veces y la validación en 1,96 veces.
  5. MIMO-7B-RL logró 55.4 en AIME 2025, superando a OpenAi O1-Mini por 4.7 puntos.
  6. Los modelos MIMO-7B están disponibles públicamente e incluyen todos los puntos de control: variantes Base, SFT y RL.
  7. El éxito del modelo muestra que los modelos pequeños y bien diseñados pueden rivalizar o superar el rendimiento de los modelos 32B en tareas de razonamiento.

Mira el Papel y Página de Github. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.