Xiaomi lanza MiMo-V2.5-Pro ​​y MiMo-V2.5: igualando los puntos de referencia del modelo Frontier a un costo simbólico significativamente menor

El equipo Xiaomi MiMo lanzó públicamente dos nuevos modelos: MiMo-V2.5-Pro ​​y MiMo-V2.5. Los puntos de referencia, combinados con algunas demostraciones de tareas del mundo real realmente sorprendentes, presentan un caso convincente de que la IA agente abierta está alcanzando la frontera más rápido de lo que la mayoría esperaba. Ambos modelos están disponibles inmediatamente a través de API y tienen precios competitivos.

¿Qué es un modelo agente y por qué es importante?

La mayoría de los puntos de referencia de LLM evalúan la capacidad de un modelo para responder una pregunta única e independiente. Los puntos de referencia agentes prueban algo mucho más difícil: si un modelo puede completar un objetivo de varios pasos de forma autónoma, utilizando herramientas (búsqueda web, ejecución de código, E/S de archivos, llamadas API) durante muchos turnos, sin perder de vista el objetivo original.

Piense en ello como la diferencia entre un modelo que puede responder “¿cómo escribo un lexer?” versus uno que realmente puede escribir un compilador completo, ejecutar pruebas, detectar regresiones y corregirlas, todo sin un ser humano involucrado. Esto último es exactamente lo que el equipo Xiaomi MiMo está demostrando aquí.

MiMo-V2.5-Pro: el buque insignia

MiMo-V2.5-Pro ​​es el modelo más capaz de Xiaomi hasta la fecha y ofrece mejoras significativas con respecto a su predecesor, MiMo-V2-Pro, en capacidades agentes generales, ingeniería de software compleja y tareas a largo plazo.

Los números de referencia clave son competitivos con los mejores modelos de código cerrado: SWE-bench Pro 57.2, Claw-Eval 63.8 y τ3-Bench 72.9, colocándolo junto a Claude Opus 4.6 y GPT-5.4 en la mayoría de las evaluaciones. V2.5-Pro ​​puede sostener tareas complejas y de largo plazo que abarcan más de mil llamadas de herramientas, lo que demuestra mejoras sustanciales en el seguimiento de instrucciones dentro de escenarios agentes, se adhiere de manera confiable a requisitos sutiles integrados en el contexto y mantiene una fuerte coherencia en contextos ultralargos.

Una propiedad de comportamiento que distingue al V2.5-Pro ​​de los modelos anteriores es lo que el equipo Xiaomi MiMo llama “conciencia del arnés”: aprovecha al máximo las posibilidades de su entorno de arnés, gestiona su memoria y da forma a cómo se puebla su propio contexto hacia el objetivo final. Esto significa que el modelo no sólo ejecuta instrucciones mecánicamente. Optimiza activamente su propio entorno de trabajo para mantener el rumbo en tareas muy largas.

Las tres demostraciones de tareas del mundo real que publicó Xiaomi ilustran exactamente lo que significa en la práctica la “capacidad de agencia a largo plazo”.

Demostración 1: Compilador SysY en Rust: remitida del proyecto del curso Principios del compilador de la Universidad de Pekín, esta tarea le pide al modelo que implemente un compilador SysY completo en Rust desde cero: lexer, parser, AST, Koopa IR codegen, backend de ensamblaje RISC-V y optimización del rendimiento. El proyecto de referencia normalmente le toma varias semanas a un estudiante de especialización en PKU CS. MiMo-V2.5-Pro ​​finalizó en 4,3 horas en 672 llamadas de herramientas, con una puntuación perfecta de 233/233 en comparación con el conjunto de pruebas ocultas del curso.

Lo notable no es sólo la puntuación final: es la arquitectura de ejecución. En lugar de pasar por prueba y error, el modelo construyó el compilador capa por capa: primero diseñó todo el proceso, Koopa IR perfecto (110/110), luego el backend RISC-V (103/103), luego el rendimiento (20/20). Solo la primera compilación pasó 137/233 pruebas, un 59% de arranque en frío que sugiere que la arquitectura se diseñó correctamente antes de ejecutar una sola prueba. Cuando un paso de refactorización provocó regresiones, el modelo diagnosticó las fallas, se recuperó y siguió adelante. Se trata de un comportamiento de ingeniería estructurado y autocorregible, no de una generación de código que coincida con patrones.

Demostración 2: Editor de video de escritorio con todas las funciones: con solo unas pocas indicaciones simples, MiMo-V2.5-Pro ​​entregó una aplicación de escritorio funcional: línea de tiempo multipista, recorte de clips, fundidos cruzados, mezcla de audio y proceso de exportación. La compilación final consta de 8192 líneas de código, producidas en 1868 llamadas a herramientas en 11,5 horas de trabajo autónomo.

Demostración 3: Diseño EDA-FVF-LDO analógico: esta es la demostración más técnicamente especializada: una tarea EDA de circuito analógico de nivel de posgrado que requiere el diseño y la optimización de un FVF-LDO (regulador de baja caída seguidor de voltaje invertido) completo desde cero en el proceso CMOS de 180 nm de TSMC. El modelo tuvo que dimensionar el transistor de potencia, ajustar la red de compensación y seleccionar voltajes de polarización para que seis métricas coincidieran dentro de las especificaciones simultáneamente: margen de fase, regulación de línea, regulación de carga, corriente de reposo, PSRR y respuesta transitoria. Conectado a un bucle de simulación de ngspice, en aproximadamente una hora de iteración de bucle cerrado (llamar al simulador, leer formas de onda, ajustar parámetros), el modelo produjo un diseño en el que se cumplen todas las métricas objetivo, con cuatro métricas clave mejoradas en un orden de magnitud con respecto a su propio intento inicial.

Eficiencia simbólica: la inteligencia a nivel de frontera sólo es útil si es rentable. En ClawEval, V2.5-Pro ​​alcanza un 64 % de Pass^3 usando solo ~70 000 tokens por trayectoria, aproximadamente entre un 40 % y un 60 % menos de tokens que Claude Opus 4.6, Gemini 3.1 Pro y GPT-5.4 en niveles de capacidad comparables. Para los ingenieros que construyen tuberías de agentes de producción, esto es una reducción de costos de material, no solo una estadística de marketing.

https://mimo.xiaomi.com/mimo-v2-5-pro/

MiMo Coding Bench es la suite de evaluación interna de Xiaomi diseñada para evaluar modelos en tareas de desarrollo del mundo real dentro de marcos agentes como Claude Code. Cubre la comprensión del repositorio, la creación de proyectos, la revisión de código, la generación de artefactos estructurados, la planificación, SWE y más. V2.5-Pro ​​lidera el campo en este punto de referencia, y Xiaomi lo posiciona explícitamente como un backend directo para andamios que incluyen Claude Code, OpenCode y Kilo.

MiMo-V2.5: Omnimodal nativo a la mitad del costo

Mientras que V2.5-Pro ​​se enfoca en las tareas de agencia más difíciles a largo plazo, MiMo-V2.5 es un gran paso adelante en capacidad de agencia y comprensión multimodal. Con comprensión visual y de audio nativa, MiMo-V2.5 razona sin problemas en todas las modalidades, supera a MiMo-V2-Pro en rendimiento agente y admite hasta 1 millón de tokens de contexto.

El modelo está diseñado con percepción y acción unificadas desde cero. MiMo-V2.5 está entrenado desde el principio para ver, oír y actuar en función de lo que percibe, lo que da lugar a un modelo único que comprende todo y hace las cosas. Esto es arquitectónicamente significativo: los modelos multimodales anteriores a menudo incorporaban la visión a una columna vertebral de texto, creando brechas de capacidad en el límite percepción-acción.

En el lado de la codificación, la propuesta de valor es clara: en MiMo Coding Bench, MiMo-V2.5 ofrece resultados sólidos en las tareas de codificación cotidianas, cerrando la brecha con los modelos de vanguardia e igualando a MiMo-V2.5-Pro ​​a la mitad del costo. Para los equipos que no necesitan la extrema profundidad de horizonte largo de V2.5-Pro, este es un punto operativo convincente.

https://mimo.xiaomi.com/mimo-v2-5/

En puntos de referencia multimodales: MiMo-V2.5 logra un 62,3 en el subconjunto general de Claw-Eval, colocándolo en la frontera de Pareto de rendimiento y eficiencia. En el subconjunto agente multimodal, MiMo-V2.5 alcanza 23,8 en Claw-Eval Multimodal, igualando a Claude Sonnet 4.6, liderando a MiMo-V2-Omni por ocho puntos y detrás de Claude Opus 4.6 por un solo punto.

En comprensión de video, MiMo-V2.5 obtiene una puntuación de 87,7 en Video-MME, empatado efectivamente con Gemini 3 Pro (88,4) y muy por delante de Gemini 3 Flash. La comprensión del vídeo a largo plazo (seguimiento de escenas, razonamiento temporal, conexión visual a lo largo de minutos de metraje) se encuentra ahora en territorio fronterizo. En cuanto a la comprensión de la imagen, MiMo-V2.5 aterriza en 81.0 en CharXiv RQ y 77.9 en MMMU-Pro, acercándose a Gemini 3 Pro.

El precio es sencillo: MiMo-V2.5 se ejecuta a 1x (1 token = 1 crédito), mientras que MiMo-V2.5-Pro ​​se ejecuta a 2x (1 token = 2 créditos). Los planes de tokens ya no cobran un multiplicador por la ventana de contexto de 1 millón de tokens, lo que anteriormente era una fricción de costos común para cargas de trabajo de contexto prolongado.

Conclusiones clave

MiMo-V2.5-Pro ​​coincide con modelos fronterizos de código cerrado en puntos de referencia agentes clave (SWE-bench Pro 57.2, Claw-Eval 63.8, τ3-Bench 72.9), mientras utiliza entre un 40% y un 60% menos de tokens por trayectoria que Claude Opus 4.6, Gemini 3.1 Pro y GPT-5.4. La autonomía a largo plazo es real y mensurable: V2.5-Pro ​​creó de forma autónoma un compilador SysY completo en Rust (233/233 pruebas, 672 llamadas a herramientas, 4,3 horas) y un editor de vídeo de escritorio con todas las funciones (8192 líneas de código, 1868 llamadas a herramientas, 11,5 horas). MiMo-V2.5 es nativamente omnimodal: entrenado desde cero para ver, escuchar y actuar en todas las modalidades con una ventana de contexto nativa de 1 millón de tokens, igualando a Claude Sonnet 4.6 en Claw-Eval Multimodal y casi igualando a Gemini 3 Pro en Video-MME (87.7 vs. 88.4). Rendimiento de codificación de nivel profesional a la mitad del costo: en MiMo Coding Bench, MiMo-V2.5 iguala a MiMo-V2.5-Pro ​​en las tareas de codificación diarias a un precio de token 1x, lo que lo convierte en la opción práctica para la mayoría de los canales de agentes de producción. Ambos modelos ya son compatibles con andamios agentes populares como Claude Code, OpenCode y Kilo, lo que brinda a los desarrolladores de IA un camino directo, auditable y autohospedable hacia una IA agente de nivel fronterizo.

Consulte los detalles técnicos MiMo-V2.5 y los detalles técnicos MiMo-V2.5-Pro. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros