La velocidad de inferencia se está convirtiendo en una métrica competitiva para modelos de lenguaje grandes. El equipo MiMo de Xiaomi acaba de lanzar MiMo-V2.5-Pro-UltraSpeed, creado en colaboración con el grupo de sistemas TileRT. Decodifica más rápido que 1000 tokens por segundo en un modelo de 1 billón de parámetros. El equipo de Xiaomi describe esto como el primero en una escala de billones de parámetros. Las demostraciones muestran picos de generación cercanos a los 1200 tokens por segundo. La parte notable es el hardware: funciona con GPU básicas, no con silicio personalizado.
¿Qué es MiMo-V2.5-Pro-UltraSpeed?
UltraSpeed es un modo de servicio de alta velocidad para el modelo MiMo-V2.5-Pro existente. El modelo base utiliza una arquitectura de mezcla de expertos (MoE) a una escala de billones de parámetros. UltraSpeed apunta a la velocidad de generación más que a la capacidad del modelo. Cambia la rapidez con la que el modelo produce tokens de salida. La aceleración proviene de tres técnicas coordinadas en todo el modelo y el sistema de servicio. Xiaomi llama a este enfoque codiseño extremo de modelo-sistema. Fundamentalmente, toda la pila se ejecuta en un único nodo básico estándar de 8 GPU.
El caso de la velocidad: tres capas trabajando juntas
La primera capa es la cuantificación del FP4. A escala de billones, los pesos del FP8 o FP16 crean una gran presión en la memoria y el ancho de banda. Los pesos de ancho de bits más bajos se mueven a través de la memoria más rápido, lo que aumenta directamente la velocidad de decodificación. Xiaomi utiliza el formato MXFP4, aplicado selectivamente únicamente a los expertos del MoE. Otros módulos mantienen una mayor precisión, según informó TileRT en el FP8. Los expertos mantienen la mayoría de los parámetros y toleran mejor la cuantificación, por lo que la compensación es favorable. La capacitación consciente de la cuantificación (QAT) mantiene la calidad de referencia esencialmente a la par con la original.
La segunda capa es la decodificación especulativa de DFlash, que se describe en detalle a continuación. La tercera capa es TileRT, el sistema que ejecuta todo en la GPU. Cada técnica por sí sola no es suficiente. El resultado de 1000 TPS necesita que los tres estén bien alineados.
DFlash: redacción paralela sin cuello de botella en serie
La decodificación especulativa estándar utiliza un pequeño modelo preliminar para adivinar los próximos tokens. Luego, el modelo grande verifica esas conjeturas en paralelo. El muestreo de rechazo mantiene la salida idéntica a la decodificación normal, por lo que la calidad no tiene pérdidas. El problema es que el borrador del modelo todavía genera tokens uno a la vez. DFlash, un método de la comunidad de investigación, elimina esa limitación. Utiliza predicción paralela enmascarada a nivel de bloque. El modelo borrador llena un bloque completo de posiciones enmascaradas en un solo pase hacia adelante.
Xiaomi sintonizó DFlash con el optimizador de segundo orden Muon y la autodestilación del modelo. El modelo preliminar utiliza únicamente Sliding Window Attention (SWA), coincidiendo con el diseño de MiMo-V2. Esto hace que el cálculo por predicción sea constante en lugar de crecer con la longitud del contexto. El tamaño del bloque tiene un límite de 8 para limitar el costo de verificación y aumentar la simultaneidad.
La duración de la aceptación mide cuántos tokens de borrador sobreviven a la verificación en cada ronda.
En la codificación, se aceptan de seis a siete de los ocho tokens de borrador por ronda. Algunas muestras alcanzan un máximo de 7,14.
TileRT: exprimiendo los microsegundos
A 1000 TPS, cada operador funciona durante solo microsegundos. Los sistemas tradicionales lanzan a los operadores uno por uno, y cada lanzamiento cuesta tiempo. Esas brechas fracturan el flujo de ejecución y se convierten en el verdadero cuello de botella. TileRT reemplaza esto con un kernel de motor persistente que permanece residente en la GPU. Utiliza Warp Specialization para dividir el movimiento de datos, la computación y la comunicación en roles coordinados. Las operaciones pequeñas como RMSNorm, RoPE y escrituras de caché KV se convierten en cuellos de botella a esta escala. El sistema fue codiseñado con las opciones FP4 y DFlash, y no se agregó posteriormente.
Casos de uso
La versión apunta a trabajos sensibles a la latencia donde la espera rompe el ciclo:
Razonamiento paralelo: ejecute muchas rutas de búsqueda de árbol o Best of N dentro del mismo tiempo de reloj de pared. Agentes de codificación: la generación de código más rápida reduce la espera entre los pasos del agente. Bucles de decisión en tiempo real: generación de señales comerciales, interceptación de fraude y diálogo en vivo. Creación de prototipos interactivos: las demostraciones muestran un juego de Snake en aproximadamente 10 segundos y una interfaz de macOS en aproximadamente un minuto.
Se trata de cargas de trabajo vinculadas al rendimiento en las que la velocidad del token sin procesar es la limitación vinculante.
Cómo se compara
La primera tabla contrasta las dos rutas hacia una velocidad de decodificación extrema.
La segunda tabla compara el modelo estándar con el modo UltraSpeed.
Acceso, precios y código abierto
UltraSpeed se envía a través de una ventana limitada basada en aplicaciones. La prueba de API se realizará del 9 al 23 de junio de 2026. El precio es 3 veces la tarifa estándar MiMo-V2.5-Pro, por aproximadamente 10 veces la velocidad. Es solo API y no se admite el plan Token. Los usuarios aprobados también reciben acceso gratuito al chat durante la prueba. Se aplican límites de chat: 10 entradas a la cola por día, sesiones de 30 minutos y liberación inactiva de 5 minutos. Xiaomi abrió el punto de control MiMo-V2.5-Pro-FP4-DFlash en Hugging Face. TileRT tiene módulos seleccionados de código abierto en GitHub.
Fortalezas y limitaciones
Fortalezas
Más de 1000 TPS en un modelo 1T sin silicio personalizado. Decodificación sin pérdidas mediante muestreo de rechazo en DFlash. El 4PM se aplica únicamente donde la tolerancia es máxima, preservando la calidad. Un punto de control abierto permite a la comunidad probar las afirmaciones.
Limitaciones
El acceso es cerrado, breve y basado en aprobación en el momento del lanzamiento. El precio se triplica por token en comparación con el modelo estándar. La duración de la aceptación disminuye en las conversaciones abiertas. La verificación de velocidad independiente de terceros aún no es pública.
Conclusiones clave
Xiaomi MiMo y TileRT decodifican un modelo de 1 billón de parámetros a más de 1000 tokens por segundo en GPU básicas. La aceleración proviene de tres capas: cuantificación FP4, decodificación especulativa DFlash y tiempo de ejecución TileRT. FP4 (MXFP4) se aplica únicamente a los expertos del Ministerio de Educación; QAT mantiene la capacidad esencialmente a la par. DFlash predice un bloque enmascarado completo por pase hacia adelante, alcanzando una longitud de aceptación promedio de 6,30 en la codificación. UltraSpeed se ejecuta en un único nodo de 8 GPU a través de una prueba de API basada en aplicaciones, del 9 al 23 de junio de 2026.
Explicador visual de Marktechpost
Marktechpost
Investigación, modelos y herramientas de desarrollo de IA: explicados para ingenieros.
Consulta los pesos de los modelos y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros