Google DeepMind lanzó puntos de control de Quantization-Aware Training (QAT) para la familia Gemma 4. El lanzamiento apunta a la implementación local en dispositivos perimetrales y GPU de consumo. Sigue al lanzamiento del Gemma 4 en abril y de un modelo 12B dos días antes.
Comparamos los formatos de modelos de borde de Gemma 4 disponibles utilizando únicamente números publicados. El objetivo era sencillo. Muestre lo que cuesta cada nivel de precisión en la memoria. Luego muestra qué cambia realmente el QAT.
Qué hace realmente QAT
La cuantificación reduce un modelo al reducir la precisión del peso. La cuantización posterior al entrenamiento (PTQ) estándar comprime un modelo terminado. Esto a menudo degrada la calidad. En cambio, QAT simula la cuantificación durante el entrenamiento. El modelo aprende a compensar la pérdida de precisión.
El equipo de inteligencia artificial de Google afirma que sus resultados QAT arrojan una calidad general más alta que las líneas de base PTQ estándar. Google no publicó las puntuaciones de referencia de Gemma 4 QAT en el anuncio. Para ponerlo en contexto, Gemma 3 QAT redujo la caída de perplejidad del cuarto trimestre en un 54 % utilizando la evaluación llama.cpp. Lo citamos sólo como precedente de la generación anterior.
La tarea de comparación
Compare Gemma 4 E2B y E4B en tres formatos. Los formatos son BF16, Q4_0 QAT y el nuevo esquema QAT móvil. Clasifíquelos según el uso de memoria, la preservación de la calidad y la accesibilidad en el dispositivo. Utilice únicamente cifras publicadas.
Resultados de la memoria
Las cifras del Q4_0 coinciden con la huella del PTQ Q4_0. QAT no cambia el tamaño en un formato determinado. Mejora la calidad en ese tamaño. El nuevo esquema móvil ofrece una reducción adicional.
Utilizando ese esquema móvil, Google redujo Gemma 4 E2B a aproximadamente 1 GB. Los desarrolladores pueden bajar aún más. El modelo de solo texto sin incrustaciones por capa necesita menos de 1 GB, lo que elimina los codificadores de audio y visión.
Desglose por formato
BF16 es la línea base de calidad. E2B necesita 9,6 GB y E4B necesita 15 GB. Es el punto de referencia, no un objetivo de implementación del teléfono.
Q4_0 QAT es el formato local de uso general. E2B baja a 3,2 GB y E4B a 5 GB. QAT conserva aquí más calidad que PTQ del mismo tamaño. Este formato se adapta a las GPU de consumo. Las pruebas anteriores de E2B también se realizaron en una Raspberry Pi 5 en INT4.
El formato móvil es el esquema especializado en el borde. Lleva E2B a aproximadamente 1 GB. Utiliza activaciones estáticas, cuantificación por canales y compresión específica de 2 bits.
Cómo funciona el esquema móvil
El equipo de IA de Google diseñó cuatro técnicas para hardware móvil. Las activaciones estáticas calculan previamente la escala durante el entrenamiento, lo que reduce el trabajo en el dispositivo. La cuantificación por canales se ajusta al diseño de los aceleradores móviles. La cuantificación dirigida de 2 bits comprime solo las capas de generación de tokens. La incrustación y la optimización de la caché KV reducen la huella de memoria activa.
Las capas de razonamiento central se mantienen con mayor precisión. Eso protege la capacidad al mismo tiempo que reduce el almacenamiento. Los desarrolladores también pueden implementar solo texto y eliminar los codificadores de audio y visión. Eso recorta aún más la memoria para casos de uso que no necesitan multimodalidad.
Desglose de dimensiones
Las puntuaciones son una clasificación cualitativa de los formatos para uso en el dispositivo. La memoria es el único eje difícil de medir. La calidad refleja el diseño divulgado por Google, no los números medidos de Gemma 4. Cada puntuación tiene una base de una línea.
Ganador
El resultado es una corbata diseñada. Q4_0 QAT y QAT móvil obtienen una puntuación de 21, pero para hardware diferente. En el caso de los teléfonos, el formato móvil lidera. Alcanza aproximadamente 1 GB en E2B y apunta directamente a aceleradores móviles. Para portátiles y GPU de consumo, Q4_0 QAT es el valor predeterminado práctico. BF16 sigue siendo la referencia de calidad, no una elección local.
Metodología y límites
Las cifras de memoria provienen de la documentación Gemma 4 de Google. La cifra de ~1GB E2B proviene del anuncio de QAT. La calidad es el reclamo declarado de Google. No se publicaron números de calidad independientes de Gemma 4 QAT en el momento del lanzamiento. No ejecutamos los modelos localmente para esta comparación. Los desarrolladores deben probar su propia cuantificación y carga de trabajo antes de construir.
Conclusiones clave
Q4_0 QAT recorta Gemma 4 E2B a 3,2 GB y E4B a 5 GB, de 9,6 GB y 15 GB en BF16. Un nuevo esquema QAT móvil lleva el E2B a aproximadamente 1 GB; solo texto sin PLE tiene menos de 1 GB. QAT cambia la calidad en un tamaño determinado, no el tamaño en sí; el formato móvil provoca el corte de memoria adicional. Google afirma tener mayor calidad que PTQ, pero no publicó números de referencia de Gemma 4 QAT en el momento del lanzamiento. Las pesas se envían hoy en Hugging Face con soporte para llama.cpp, Ollama, LM Studio, vLLM, MLX y LiteRT-LM.
Explicador visual de Marktechpost
Consulte los pesos del modelo (colección QAT Q4_0, colección QAT móvil) y el blog de Google (lanzamiento QAT). Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros