Google DeepMind lanza los puntos de control QAT de Gemma 4: Q4_0 y un nuevo formato móvil que corta la memoria en el dispositivo

Google DeepMind lanzó puntos de control de Quantization-Aware Training (QAT) para la familia Gemma 4. El lanzamiento apunta a la implementación local en dispositivos perimetrales y GPU de consumo. Sigue al lanzamiento del Gemma 4 en abril y de un modelo 12B dos días antes.

Comparamos los formatos de modelos de borde de Gemma 4 disponibles utilizando únicamente números publicados. El objetivo era sencillo. Muestre lo que cuesta cada nivel de precisión en la memoria. Luego muestra qué cambia realmente el QAT.

Qué hace realmente QAT

La cuantificación reduce un modelo al reducir la precisión del peso. La cuantización posterior al entrenamiento (PTQ) estándar comprime un modelo terminado. Esto a menudo degrada la calidad. En cambio, QAT simula la cuantificación durante el entrenamiento. El modelo aprende a compensar la pérdida de precisión.

El equipo de inteligencia artificial de Google afirma que sus resultados QAT arrojan una calidad general más alta que las líneas de base PTQ estándar. Google no publicó las puntuaciones de referencia de Gemma 4 QAT en el anuncio. Para ponerlo en contexto, Gemma 3 QAT redujo la caída de perplejidad del cuarto trimestre en un 54 % utilizando la evaluación llama.cpp. Lo citamos sólo como precedente de la generación anterior.

La tarea de comparación

Compare Gemma 4 E2B y E4B en tres formatos. Los formatos son BF16, Q4_0 QAT y el nuevo esquema QAT móvil. Clasifíquelos según el uso de memoria, la preservación de la calidad y la accesibilidad en el dispositivo. Utilice únicamente cifras publicadas.

Resultados de la memoria

FormatoE2BE4BBasisBF16 (16 bits)9,6 GB15 GBDocumentos oficiales de Gemma 4Q4_0 (4 bits, QAT)3,2 GB5 GBDocumentos oficiales de Gemma 4Móvil (QAT, E2B)~1 GB: anuncio de QAT

Las cifras del Q4_0 coinciden con la huella del PTQ Q4_0. QAT no cambia el tamaño en un formato determinado. Mejora la calidad en ese tamaño. El nuevo esquema móvil ofrece una reducción adicional.

Utilizando ese esquema móvil, Google redujo Gemma 4 E2B a aproximadamente 1 GB. Los desarrolladores pueden bajar aún más. El modelo de solo texto sin incrustaciones por capa necesita menos de 1 GB, lo que elimina los codificadores de audio y visión.

Desglose por formato

BF16 es la línea base de calidad. E2B necesita 9,6 GB y E4B necesita 15 GB. Es el punto de referencia, no un objetivo de implementación del teléfono.

Q4_0 QAT es el formato local de uso general. E2B baja a 3,2 GB y E4B a 5 GB. QAT conserva aquí más calidad que PTQ del mismo tamaño. Este formato se adapta a las GPU de consumo. Las pruebas anteriores de E2B también se realizaron en una Raspberry Pi 5 en INT4.

El formato móvil es el esquema especializado en el borde. Lleva E2B a aproximadamente 1 GB. Utiliza activaciones estáticas, cuantificación por canales y compresión específica de 2 bits.

Cómo funciona el esquema móvil

El equipo de IA de Google diseñó cuatro técnicas para hardware móvil. Las activaciones estáticas calculan previamente la escala durante el entrenamiento, lo que reduce el trabajo en el dispositivo. La cuantificación por canales se ajusta al diseño de los aceleradores móviles. La cuantificación dirigida de 2 bits comprime solo las capas de generación de tokens. La incrustación y la optimización de la caché KV reducen la huella de memoria activa.

Las capas de razonamiento central se mantienen con mayor precisión. Eso protege la capacidad al mismo tiempo que reduce el almacenamiento. Los desarrolladores también pueden implementar solo texto y eliminar los codificadores de audio y visión. Eso recorta aún más la memoria para casos de uso que no necesitan multimodalidad.

Desglose de dimensiones

Las puntuaciones son una clasificación cualitativa de los formatos para uso en el dispositivo. La memoria es el único eje difícil de medir. La calidad refleja el diseño divulgado por Google, no los números medidos de Gemma 4. Cada puntuación tiene una base de una línea.

DimensionBF16Q4_0 QATMobile QATHuella de memoria1: más pesada, 9,6 GB E2B4: 3,2 GB E2B5: ~1 GB E2B solo texto Preservación de calidad5: línea base de precisión total4: QAT preservado, cerca de la línea base3: capas de token de 2 bits, núcleo mantenido mayor Velocidad de decodificación2: sin aceleración de cuantificación4: decodificación acelerada de 4 bits5: optimizado para dispositivos móviles activaciones estáticasAmplitud de implementación4: cargable pero pesado5: llama.cpp, Ollama, LM Studio, vLLM, MLX3: LiteRT-LM, Transformers.js, centrado en el bordeAccesibilidad en el dispositivo1: necesita GPU grande4: GPU de consumo, Raspberry Pi 55: se ejecuta en teléfonosTotal (/25)132121

Ganador

El resultado es una corbata diseñada. Q4_0 QAT y QAT móvil obtienen una puntuación de 21, pero para hardware diferente. En el caso de los teléfonos, el formato móvil lidera. Alcanza aproximadamente 1 GB en E2B y apunta directamente a aceleradores móviles. Para portátiles y GPU de consumo, Q4_0 QAT es el valor predeterminado práctico. BF16 sigue siendo la referencia de calidad, no una elección local.

Metodología y límites

Las cifras de memoria provienen de la documentación Gemma 4 de Google. La cifra de ~1GB E2B proviene del anuncio de QAT. La calidad es el reclamo declarado de Google. No se publicaron números de calidad independientes de Gemma 4 QAT en el momento del lanzamiento. No ejecutamos los modelos localmente para esta comparación. Los desarrolladores deben probar su propia cuantificación y carga de trabajo antes de construir.

Conclusiones clave

Q4_0 QAT recorta Gemma 4 E2B a 3,2 GB y E4B a 5 GB, de 9,6 GB y 15 GB en BF16. Un nuevo esquema QAT móvil lleva el E2B a aproximadamente 1 GB; solo texto sin PLE tiene menos de 1 GB. QAT cambia la calidad en un tamaño determinado, no el tamaño en sí; el formato móvil provoca el corte de memoria adicional. Google afirma tener mayor calidad que PTQ, pero no publicó números de referencia de Gemma 4 QAT en el momento del lanzamiento. Las pesas se envían hoy en Hugging Face con soporte para llama.cpp, Ollama, LM Studio, vLLM, MLX y LiteRT-LM.

Explicador visual de Marktechpost

Marktechpost · Punto de referencia

Gemma 4 QAT: Comparando Q4_0 y el nuevo formato móvil

Google DeepMind lanzó puntos de control de capacitación consciente de la cuantificación para Gemma 4. Comparamos tres formatos de modelos de borde en los números publicados.

Formatos comparados

BF16 (16 bits) · Q4_0 QAT (4 bits) · QAT móvil

5 de junio de 2026

La tarea de comparación

lo que clasificamos

$ comparar gemma-4 –modelos E2B,E4B \ –formatos BF16,Q4_0-QAT,MOBILE-QAT \ –rank memoria, calidad, accesibilidad \ –fuente publicada solo –no autoejecutable

Memoria de documentos oficiales de Gemma 4. Calidad según la afirmación de Google. Ningún modelo se ejecuta localmente.

Formato 1 de 3 · Referencia

BF16 (16 bits)

13 / 25

La base de calidad de máxima precisión. E2B necesita 9,6 GB y E4B necesita 15 GB.

Observación principal: un punto de referencia, no un objetivo de implementación de teléfonos o computadoras portátiles.

Formato 2 de 3 · Portátil / GPU

Q4_0 QAT (4 bits)

21 / 25

El formato local de propósito general. E2B baja a 3,2 GB y E4B a 5 GB.

Observación principal: QAT conserva más calidad que PTQ con el mismo tamaño de 4 bits.

Formato 3 de 3 · Móvil

QAT móvil

21 / 25

El esquema especializado en bordes. Lleva E2B a aproximadamente 1 GB.

Observación principal: 2 bits en capas de tokens, las capas de razonamiento se mantienen con mayor precisión.

Tabla de clasificación

Clasificación completa

DimensiónBF16Q4_0 QATMobile QAT Huella de memoria145 Preservación de la calidad543 Velocidad de decodificación245 Amplitud de implementación453 Accesibilidad en el dispositivo145 Total132121

Empate por diseño: Q4_0 gana en portátiles y GPU; El móvil gana a los teléfonos.

Conclusiones clave

Lo que los desarrolladores deben saber

Q4_0 QAT reduce E2B a 3,2 GB y E4B a 5 GB, de 9,6 GB y 15 GB en BF16. Un nuevo esquema QAT móvil lleva el E2B a aproximadamente 1 GB; solo texto sin PLE tiene menos de 1 GB. QAT cambia la calidad en un tamaño determinado; el formato móvil provoca el corte de memoria adicional. Google afirma tener mayor calidad que PTQ, pero no publicó números QAT de Gemma 4. Las pesas se envían hoy en Hugging Face con soporte para llama.cpp, Ollama, vLLM y MLX.

Consulte los pesos del modelo (colección QAT Q4_0, colección QAT móvil) y el blog de Google (lanzamiento QAT). Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros