Los modelos de lenguaje grandes se están volviendo increíblemente poderosos, pero seamos honestos: su velocidad de inferencia sigue siendo un gran dolor de cabeza para cualquiera que intente usarlos en producción. Google acaba de lanzar los redactores de predicción multitoken (MTP) para la familia de modelos Gemma 4. Esta arquitectura de decodificación especulativa especializada puede en realidad triplicar (3 veces) su velocidad en el tiempo de inferencia, todo sin sacrificar un poco la calidad de salida o la precisión del razonamiento. El lanzamiento se produce apenas unas semanas después de que Gemma 4 superara los 60 millones de descargas y apunta directamente a uno de los puntos débiles más persistentes en la implementación de modelos de lenguaje grandes: el cuello de botella del ancho de banda de memoria que ralentiza la generación de tokens independientemente de la capacidad del hardware.
¿Por qué la inferencia LLM es lenta?
Los grandes modelos lingüísticos actuales funcionan de forma autorregresiva. Producen exactamente una ficha a la vez, de forma secuencial. Cada generación de token requiere cargar miles de millones de parámetros de modelo desde VRAM (RAM de video) en unidades de cómputo. Este proceso se describe como vinculado al ancho de banda de la memoria. El cuello de botella no es la potencia informática bruta de la GPU o el procesador, sino la velocidad a la que se pueden transferir los datos desde la memoria a las unidades informáticas.
La consecuencia es un cuello de botella de latencia significativo: la computación está infrautilizada mientras el sistema está ocupado simplemente moviendo datos. Lo que hace que esto sea especialmente ineficiente es que el modelo aplica la misma cantidad de cálculo a un token trivialmente predecible, como predecir “palabras” después de “Las acciones hablan más que…”, que a generar una inferencia lógica compleja. No existe ningún mecanismo en la decodificación autorregresiva estándar para explotar qué tan fácil o difícil es predecir el siguiente token.
¿Qué es la decodificación especulativa?
La decodificación especulativa es la técnica fundamental sobre la que se basan los redactores MTP de Gemma 4. La técnica desacopla la generación de tokens de la verificación emparejando dos modelos: un redactor liviano y un modelo objetivo pesado.
Así es como funciona el oleoducto en la práctica. El modelo de redacción rápido y pequeño propone varios tokens futuros en rápida sucesión (una secuencia de “borrador”) en menos tiempo que el modelo de destino grande (por ejemplo, Gemma 4 31B) para procesar incluso un solo token. Luego, el modelo de destino verifica todos estos tokens sugeridos en paralelo en un solo paso hacia adelante. Si el modelo objetivo está de acuerdo con el borrador, acepta la secuencia completa e incluso genera un token adicional propio en el proceso. Esto significa que una aplicación puede generar la secuencia redactada completa más un token adicional en aproximadamente el mismo tiempo que normalmente tomaría generar solo un token.
Dado que el modelo principal de Gemma 4 conserva el paso de verificación final, el resultado es idéntico al que el modelo objetivo habría producido por sí solo, token por token. No hay compensación por la calidad: se trata de una aceleración sin pérdidas.
MTP: Novedades de la arquitectura de Gemma 4 Drafter
Google ha introducido varias mejoras arquitectónicas que hacen que los redactores Gemma 4 MTP sean particularmente eficientes. Los borradores de modelos utilizan a la perfección las activaciones del modelo de destino y comparten su caché KV (caché de valores clave). La caché KV es una optimización estándar en la inferencia de transformadores que almacena cálculos de atención intermedia para que no sea necesario volver a calcularlos en cada paso. Al compartir este caché, el redactor evita perder tiempo recalculando el contexto que el modelo de destino más grande ya ha procesado.
Además, para los modelos de borde E2B y E4B, las variantes más pequeñas de Gemma 4 diseñadas para ejecutarse en dispositivos móviles y de borde: Google implementó una técnica de agrupación eficiente en la capa de integración. Esto aborda específicamente un cuello de botella prominente en el hardware de borde: el cálculo logit final, que asigna representaciones del modelo interno a probabilidades de vocabulario. El enfoque de agrupación en clústeres acelera este paso, mejorando la velocidad de generación de un extremo a otro en dispositivos con restricciones de hardware.
Para el rendimiento específico del hardware, el modelo de combinación de expertos (MoE) Gemma 4 26B presenta desafíos de enrutamiento únicos en Apple Silicon en un tamaño de lote de 1. Sin embargo, aumentar el tamaño del lote a entre 4 y 8 desbloquea hasta una velocidad de ~2,2 veces localmente. Se observan ganancias similares dependientes del tamaño del lote en el hardware NVIDIA A100.
Conclusiones clave
Google ha lanzado redactores de predicción de múltiples tokens (MTP) para la familia de modelos Gemma 4, que ofrecen velocidades de inferencia hasta 3 veces más rápidas sin ninguna degradación en la calidad de salida o la precisión del razonamiento. Los redactores de MTP utilizan una arquitectura de decodificación especulativa que combina un modelo de redactor liviano con un modelo de destino pesado: el redactor propone varios tokens a la vez y el modelo de destino los verifica todos en una sola pasada, rompiendo el cuello de botella de un token a la vez. Los modelos preliminares comparten la caché KV y las activaciones del modelo de destino, y para los modelos de borde E2B y E4B, una técnica de agrupamiento eficiente en el integrador aborda el cuello de botella del cálculo logit final, lo que permite una generación más rápida incluso en dispositivos con memoria limitada. Los redactores de MTP ya están disponibles bajo la licencia Apache 2.0, con pesos de modelo en Hugging Face y Kaggle.
Consulte los pesos del modelo y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros