Xiaomi MiMo y TileRT impulsan un modelo de 1 billón de parámetros que supera los 1000 tokens por segundo en GPU comerciales

La velocidad de inferencia se está convirtiendo en una métrica competitiva para modelos de lenguaje grandes. El equipo MiMo de Xiaomi acaba de lanzar MiMo-V2.5-Pro-UltraSpeed, creado en colaboración con el grupo de sistemas TileRT. Decodifica más rápido que 1000 tokens por segundo en un modelo de 1 billón de parámetros. El equipo de Xiaomi describe esto como el primero en una escala de billones de parámetros. Las demostraciones muestran picos de generación cercanos a los 1200 tokens por segundo. La parte notable es el hardware: funciona con GPU básicas, no con silicio personalizado.

¿Qué es MiMo-V2.5-Pro-UltraSpeed?

UltraSpeed ​​es un modo de servicio de alta velocidad para el modelo MiMo-V2.5-Pro ​​existente. El modelo base utiliza una arquitectura de mezcla de expertos (MoE) a una escala de billones de parámetros. UltraSpeed ​​apunta a la velocidad de generación más que a la capacidad del modelo. Cambia la rapidez con la que el modelo produce tokens de salida. La aceleración proviene de tres técnicas coordinadas en todo el modelo y el sistema de servicio. Xiaomi llama a este enfoque codiseño extremo de modelo-sistema. Fundamentalmente, toda la pila se ejecuta en un único nodo básico estándar de 8 GPU.

El caso de la velocidad: tres capas trabajando juntas

La primera capa es la cuantificación del FP4. A escala de billones, los pesos del FP8 o FP16 crean una gran presión en la memoria y el ancho de banda. Los pesos de ancho de bits más bajos se mueven a través de la memoria más rápido, lo que aumenta directamente la velocidad de decodificación. Xiaomi utiliza el formato MXFP4, aplicado selectivamente únicamente a los expertos del MoE. Otros módulos mantienen una mayor precisión, según informó TileRT en el FP8. Los expertos mantienen la mayoría de los parámetros y toleran mejor la cuantificación, por lo que la compensación es favorable. La capacitación consciente de la cuantificación (QAT) mantiene la calidad de referencia esencialmente a la par con la original.

La segunda capa es la decodificación especulativa de DFlash, que se describe en detalle a continuación. La tercera capa es TileRT, el sistema que ejecuta todo en la GPU. Cada técnica por sí sola no es suficiente. El resultado de 1000 TPS necesita que los tres estén bien alineados.

DFlash: redacción paralela sin cuello de botella en serie

La decodificación especulativa estándar utiliza un pequeño modelo preliminar para adivinar los próximos tokens. Luego, el modelo grande verifica esas conjeturas en paralelo. El muestreo de rechazo mantiene la salida idéntica a la decodificación normal, por lo que la calidad no tiene pérdidas. El problema es que el borrador del modelo todavía genera tokens uno a la vez. DFlash, un método de la comunidad de investigación, elimina esa limitación. Utiliza predicción paralela enmascarada a nivel de bloque. El modelo borrador llena un bloque completo de posiciones enmascaradas en un solo pase hacia adelante.

Xiaomi sintonizó DFlash con el optimizador de segundo orden Muon y la autodestilación del modelo. El modelo preliminar utiliza únicamente Sliding Window Attention (SWA), coincidiendo con el diseño de MiMo-V2. Esto hace que el cálculo por predicción sea constante en lugar de crecer con la longitud del contexto. El tamaño del bloque tiene un límite de 8 para limitar el costo de verificación y aumentar la simultaneidad.

La duración de la aceptación mide cuántos tokens de borrador sobreviven a la verificación en cada ronda.

EscenarioLongitud de aceptaciónCodificación6.30Matemáticas/Razonamiento5.56Agente4.29

En la codificación, se aceptan de seis a siete de los ocho tokens de borrador por ronda. Algunas muestras alcanzan un máximo de 7,14.

TileRT: exprimiendo los microsegundos

A 1000 TPS, cada operador funciona durante solo microsegundos. Los sistemas tradicionales lanzan a los operadores uno por uno, y cada lanzamiento cuesta tiempo. Esas brechas fracturan el flujo de ejecución y se convierten en el verdadero cuello de botella. TileRT reemplaza esto con un kernel de motor persistente que permanece residente en la GPU. Utiliza Warp Specialization para dividir el movimiento de datos, la computación y la comunicación en roles coordinados. Las operaciones pequeñas como RMSNorm, RoPE y escrituras de caché KV se convierten en cuellos de botella a esta escala. El sistema fue codiseñado con las opciones FP4 y DFlash, y no se agregó posteriormente.

Casos de uso

La versión apunta a trabajos sensibles a la latencia donde la espera rompe el ciclo:

Razonamiento paralelo: ejecute muchas rutas de búsqueda de árbol o Best of N dentro del mismo tiempo de reloj de pared. Agentes de codificación: la generación de código más rápida reduce la espera entre los pasos del agente. Bucles de decisión en tiempo real: generación de señales comerciales, interceptación de fraude y diálogo en vivo. Creación de prototipos interactivos: las demostraciones muestran un juego de Snake en aproximadamente 10 segundos y una interfaz de macOS en aproximadamente un minuto.

Se trata de cargas de trabajo vinculadas al rendimiento en las que la velocidad del token sin procesar es la limitación vinculante.

Cómo se compara

La primera tabla contrasta las dos rutas hacia una velocidad de decodificación extrema.

EnfoqueHardwareCómo se logra la velocidadCerebrasIntegración a escala de oblea (personalizada)Escala en una sola oblea personalizadaGroqArquitectura personalizada SRAM puro en chipMiMo × TileRTGPU de productos básicos (nodo de 8 GPU)Codiseño de modelo-sistema: FP4 + DFlash + TileRT

La segunda tabla compara el modelo estándar con el modo UltraSpeed.

DimensiónMiMo-V2.5-ProMiMo-V2.5-Pro-UltraSpeedVelocidad de decodificaciónLínea de base ~ 10 veces más rápida (1000+ TPS)Precio1×3×Precisión de pesoEstándarFP4 MoE Expertos a través de QATDecodificaciónAutoregresivo estándarDecodificación especulativa de DFlashAccesoPlanes de modelo estándarSolo API, prueba basada en aplicacionesPlan de tokenCompatibleNo compatible

Acceso, precios y código abierto

UltraSpeed ​​se envía a través de una ventana limitada basada en aplicaciones. La prueba de API se realizará del 9 al 23 de junio de 2026. El precio es 3 veces la tarifa estándar MiMo-V2.5-Pro, por aproximadamente 10 veces la velocidad. Es solo API y no se admite el plan Token. Los usuarios aprobados también reciben acceso gratuito al chat durante la prueba. Se aplican límites de chat: 10 entradas a la cola por día, sesiones de 30 minutos y liberación inactiva de 5 minutos. Xiaomi abrió el punto de control MiMo-V2.5-Pro-FP4-DFlash en Hugging Face. TileRT tiene módulos seleccionados de código abierto en GitHub.

Fortalezas y limitaciones

Fortalezas

Más de 1000 TPS en un modelo 1T sin silicio personalizado. Decodificación sin pérdidas mediante muestreo de rechazo en DFlash. El 4PM se aplica únicamente donde la tolerancia es máxima, preservando la calidad. Un punto de control abierto permite a la comunidad probar las afirmaciones.

Limitaciones

El acceso es cerrado, breve y basado en aprobación en el momento del lanzamiento. El precio se triplica por token en comparación con el modelo estándar. La duración de la aceptación disminuye en las conversaciones abiertas. La verificación de velocidad independiente de terceros aún no es pública.

Conclusiones clave

Xiaomi MiMo y TileRT decodifican un modelo de 1 billón de parámetros a más de 1000 tokens por segundo en GPU básicas. La aceleración proviene de tres capas: cuantificación FP4, decodificación especulativa DFlash y tiempo de ejecución TileRT. FP4 (MXFP4) se aplica únicamente a los expertos del Ministerio de Educación; QAT mantiene la capacidad esencialmente a la par. DFlash predice un bloque enmascarado completo por pase hacia adelante, alcanzando una longitud de aceptación promedio de 6,30 en la codificación. UltraSpeed ​​se ejecuta en un único nodo de 8 GPU a través de una prueba de API basada en aplicaciones, del 9 al 23 de junio de 2026.

Explicador visual de Marktechpost

01 / 08

¿Qué es?

El equipo MiMo de Xiaomi lo construyó con el grupo de sistemas TileRT. Decodifica más de 1000 tokens/s en un modelo de 1 billón de parámetros. Las demostraciones muestran picos de generación cercanos a 1200 tokens/s. Se ejecuta en GPU básicas, un único nodo estándar de 8 GPU. Publicado el 8 de junio de 2026.

1000+fichas / segundo

1Tparámetros (MoE)

8GPU básicas

02 / 08

Tres capas trabajando juntas

La cuantificación del FP4 reduce los pesos y alivia la presión del ancho de banda. La decodificación especulativa de DFlash predice muchos tokens en paralelo. TileRT ejecuta todo el proceso a escala de microsegundos. Xiaomi llama a este enfoque codiseño extremo de modelo-sistema. Ninguna técnica es suficiente; los tres deben alinearse.

03 / 08

Capa 1: Cuantización del FP4

Utiliza el formato MXFP4 para reducir el costo de memoria y ancho de banda. Se aplica selectivamente únicamente a los expertos del Ministerio de Educación. Otros módulos mantienen una mayor precisión (FP8, según TileRT). Los expertos mantienen la mayoría de los parámetros y toleran mejor la cuantificación. QAT mantiene la capacidad esencialmente a la par con el original.

04 / 08

Capa 2: decodificación especulativa de DFlash

Un método de la comunidad de investigación que utiliza predicción paralela enmascarada a nivel de bloque. El modelo borrador llena un bloque completo en un solo pase hacia adelante. Utiliza Atención de ventana deslizante; tamaño de bloque limitado a 8. El muestreo de rechazo mantiene la salida sin pérdidas.

Escenario Aceptación Longitud Codificación6.30 Matemáticas/Razonamiento5.56 Agente4.29

05 / 08

Capa 3: tiempo de ejecución de TileRT

A 1000 TPS, cada operador funciona durante solo microsegundos. Un kernel de motor persistente permanece residente en la GPU. Warp Specialization divide el movimiento de datos, la computación y la comunicación. Las pequeñas operaciones como RMSNorm y RoPE se convierten en cuellos de botella aquí. El tiempo de ejecución fue codiseñado con las opciones FP4 y DFlash.

06 / 08

Donde cabe

Razonamiento paralelo: muchas rutas de búsqueda de árbol o Best of N a la vez. Agentes de codificación: menos espera entre los pasos del agente. Bucles en tiempo real: señales comerciales, interceptación de fraudes, diálogo en vivo. Creación de prototipos interactivos: un juego de Snake en unos 10 segundos.

07 / 08

Estándar frente a ultravelocidad

DimensiónMiMo-V2.5-ProUltraSpeed ​​Velocidad de decodificación Línea base~10× (1000+ TPS) Precio1×3× PesosEstándarFP4 MoE Experts (QAT) DecodificaciónAutoregresivoDFlash acceso especulativoPlanes estándarSolo API, por aplicación

08 / 08

Acceso, precios y código abierto

La prueba de API se realizará del 9 al 23 de junio de 2026 (hora de Beijing). El precio es 3 veces la tarifa estándar por aproximadamente 10 veces la velocidad. Sólo API; el Plan Token no es compatible. Punto de control de código abierto: MiMo-V2.5-Pro-FP4-DFlash en Hugging Face. TileRT tiene módulos seleccionados de código abierto en GitHub.

Marktechpost
Investigación, modelos y herramientas de desarrollo de IA: explicados para ingenieros.

Consulta los pesos de los modelos y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros