Google AI lanza DiffusionGemma, un modelo abierto de 26 mil millones de MoE que utiliza difusión de texto para una generación hasta 4 veces más rápida

El equipo de inteligencia artificial de Google, incluidos los investigadores de Google DeepMind, acaba de lanzar DiffusionGemma, un modelo abierto experimental para la generación de texto. Utiliza difusión de texto en lugar de decodificación autorregresiva estándar. El modelo se envía bajo una licencia permisiva Apache 2.0. Google lo posiciona para desarrolladores e investigadores que exploran flujos de trabajo locales interactivos y de velocidad crítica. Los ejemplos incluyen edición en línea, iteración rápida y generación de estructuras de texto no lineales.

La mayoría de los modelos de lenguaje que se utilizan hoy en día son autorregresivos. Generan un token a la vez, de izquierda a derecha. Cada nuevo token depende del token anterior. DiffusionGemma funciona de manera diferente. Genera bloques completos de texto simultáneamente, en paralelo. En GPU dedicadas, esto ofrece una generación hasta 4 veces más rápida.

¿Qué es DifusiónGemma?

DiffusionGemma es un modelo 26B de mezcla de expertos (MoE). Activa solo 3.8B de parámetros durante la inferencia. Está construido sobre la columna vertebral Gemma 4, específicamente la arquitectura 26B-A4B. Google integró un cabezal de difusión en esa base.

El modelo es multimodal. Procesa entradas de texto, imágenes y vídeo entrelazadas. Genera salidas de texto a partir de esas entradas. La ventana de contexto tiene 256.000 tokens y admite más de 140 idiomas.

Cuantizado, el modelo cabe dentro de los 18 GB de VRAM. Eso lo coloca dentro de los límites de las GPU de consumo de gama alta. En una sola NVIDIA H100, alcanza más de 1000 tokens por segundo. En una NVIDIA GeForce RTX 5090, alcanza más de 700 tokens por segundo.

Google es muy directo sobre la compensación. DiffusionGemma prioriza la velocidad y la generación de diseños en paralelo. Su calidad de salida general es inferior a la del Gemma 4 estándar. Para un trabajo de producción de máxima calidad, Google sigue recomendando el Gemma 4 autorregresivo.

Cómo funciona la difusión de texto

La difusión de texto toma prestada su idea central de los generadores de imágenes de IA. Esos modelos comienzan con estática visual y la perfeccionan de forma iterativa. DiffusionGemma aplica el mismo patrón a la generación de texto.

El proceso se desarrolla en tres etapas conceptuales. Primero, el modelo comienza con un lienzo de tokens de marcador de posición aleatorios. En segundo lugar, realiza múltiples pasadas sobre ese lienzo. Bloquea tokens de alta confianza y los utiliza como contexto. En tercer lugar, el texto converge en el resultado final.

Google llama al mecanismo central Difusión Uniforme del Estado. Los tokens de alta confianza ayudan a resolver posiciones adyacentes durante la eliminación de ruido. Luego, la secuencia completa se enfoca en varias pasadas.

En la práctica, el modelo elimina el ruido de un lienzo de 256 tokens en paralelo. Finaliza aproximadamente entre 15 y 20 fichas por pase hacia adelante. Ese paralelismo es lo que impulsa las ganancias de rendimiento.

El modelo utiliza atención bidireccional durante la eliminación de ruido. Cada ficha en el lienzo puede atender a todas las demás fichas. Se trata de una ruptura radical con los modelos autorregresivos. Esos modelos sólo pueden mirar hacia atrás a los tokens anteriores.

Ese contexto bidireccional permite la autocorrección en tiempo real. Si la confianza de un token cae, el muestreador puede volver a emitirle ruido. Luego, el modelo reemplaza esa ficha en una pasada posterior. Los modelos autorregresivos no pueden hacer esto, ya que confirman cada token una vez.

La Arquitectura

El avance técnico aquí es la utilización del hardware. Para la inferencia de GPU local, el principal cuello de botella es el ancho de banda de la memoria. Los modelos autorregresivos cargan repetidamente pesos de la memoria por token. Durante el servicio a un solo usuario, la GPU pasa la mayor parte del tiempo esperando.

DiffusionGemma cambia el cuello de botella del ancho de banda de la memoria al cómputo. Redacta y refina un lienzo de 256 tokens en paralelo. Esto proporciona a los núcleos tensoriales inactivos una gran carga de trabajo paralela.

El modelo alterna dos modos de atención durante la inferencia. Prefill utiliza atención causal para ingerir el mensaje y escribir el caché KV. La eliminación de ruido utiliza la atención bidireccional para refinar el lienzo.

Para resultados más largos, DiffusionGemma utiliza Block Autoregressive Diffusion. Una vez que se elimina completamente el ruido de un bloque de 256 tokens, se envía a la caché de KV. Luego, el modelo comienza un nuevo lienzo condicionado a la historia anterior. Esto combina la velocidad del bloque paralelo con la estabilidad autorregresiva secuencial.

La arquitectura comparte la misma columna vertebral que Gemma 4 26B A4B. Los desarrolladores necesitan principalmente implementar un paso de eliminación de ruido. Esto simplifica la integración en los marcos de servicio existentes.

Un claro ejemplo es el escaparate de Sudoku de la guía para desarrolladores de Google. Los modelos autorregresivos luchan con acertijos restringidos estrictos y multivariables. El modelo básico de DiffusionGemma resuelve aproximadamente el 0% de los sudokus. Después de una sencilla receta de ajuste supervisada por JAX, la corrección aumenta al 80%. El modelo ajustado también se detiene antes, eliminando los pasos de inferencia.

Demostración interactiva: cómo decodifica DiffusionGemma en paralelo

El visualizador interactivo a continuación ilustra cómo DiffusionGemma decodifica texto, en contraste con un modelo autorregresivo estándar. Cambie entre los dos modos y presione Ejecutar. En el modo autorregresivo, los tokens se completan uno a la vez, estrictamente de izquierda a derecha, realizando un pase hacia adelante por token, la forma en que la mayoría de los LLM generan hoy. En el modo Difusión, el modelo comienza a partir de un lienzo de tokens de marcador de posición enmascarados y resuelve muchos de ellos en paralelo en cada pasada, sin un orden fijo, convergiendo en muchas menos pasadas. La animación también muestra un breve paso de re-ruido, donde un token de baja confianza se reinicia y refina nuevamente, un sustituto de la autocorrección del modelo real, que la decodificación autorregresiva no puede hacer una vez que se confirma un token. Tenga en cuenta que esta es una animación conceptual, no una salida de modelo en vivo: la DiffusionGemma real resuelve un lienzo de 256 tokens y finaliza aproximadamente entre 15 y 20 tokens por pase hacia adelante.

Interactivo · Ilustrativo

Vea DiffusionGemma Decode en paralelo

Esta es una animación conceptual del proceso de eliminación de ruido, no un resultado del modelo en vivo. El modelo real resuelve un lienzo de 256 tokens, finalizando entre 15 y 20 tokens por pase hacia adelante.

Difusión (paralela) Autoregresiva (secuencial)

▶ Ejecutar reinicio
Presione Ejecutar para comenzar.

Casos de uso

DiffusionGemma se enfoca en cargas de trabajo específicas, no en la calidad de producción general. Google y los socios del ecosistema destacan varias aplicaciones prácticas:

Edición en línea y relleno de código: la atención bidireccional se adapta bien a las estructuras de texto no lineales. Iteración rápida: la baja latencia local admite bucles interactivos de desarrollador de un solo usuario. Análisis de documentos de contexto largo: la ventana de 256K admite procesamiento de entrada de gran tamaño. OCR y análisis de documentos: la entrada multimodal maneja imágenes y documentos escaneados. Generación de código, llamada de herramientas y flujos de trabajo agentes: Unsloth los enumera como tareas admitidas. Generación restringida: los sudokus, los gráficos matemáticos y las secuencias de aminoácidos se benefician de la atención paralela.

Una advertencia da forma a todo esto. La aceleración está diseñada para inferencias locales de baja concurrencia. En el servicio en la nube con un alto QPS, los modelos autorregresivos saturan la computación de manera eficiente. Allí, la decodificación paralela ofrece rendimientos decrecientes y puede aumentar los costos de servicio.

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generación/

DiffusionGemma y Standard Gemma 4

AtributoDifusiónGemma (26B-A4B)Estándar Gemma 4 (26B A4B)Método de generaciónDifusión de texto discreto (paralelo)Autoregresivo (token por token)Cuello de botella en la decodificaciónLimitado por procesamientoLimitado por ancho de banda de memoriaUnidad paralelaLienzo de 256 tokens por pasoUn token por pasoAtención durante la decodificaciónBidireccionalCausal (hacia atrás) solo)AutocorrecciónSí, mediante re-noisingNo, los tokens se confirman una vezVelocidad en GPU dedicadaHasta 4 veces más rápidoLínea de baseRendimiento de H100Más de 1000 tokens/seg.Inferior (línea de base)Rendimiento de RTX 5090700+ tokens/seg.Inferior (línea de base)Calidad de salidaInferior a Gemma 4Mayor; recomendado para producciónMejor ajusteLocal, baja concurrencia, interactivoServicio en la nube de alta calidad y alto QPSLicenciaApache 2.0Términos de Gemma

Conclusiones clave

DiffusionGemma es un modelo abierto de 26 mil millones de MoE (3,8 mil millones activos) que genera texto mediante difusión paralela, no token por token. Se ejecuta hasta 4 veces más rápido en GPU dedicadas: más de 1000 tokens/seg en H100, más de 700 en RTX 5090. La atención bidireccional sobre un lienzo de 256 tokens permite la autocorrección en tiempo real, a diferencia de los modelos autorregresivos. Cuantizado, cabe en 18 GB de VRAM con soporte de día cero en vLLM, Transformers, MLX y Unsloth. Es experimental y de menor calidad que el Gemma 4 estándar; Google recomienda Gemma 4 para producción.

Explicador visual de Marktechpost

Modelo abierto · Apache 2.0

DifusiónGemma: una guía visual

El modelo de difusión de texto abierto 26B de Google DeepMind: qué es y cómo funciona.

1

Qué es DiffusionGemma

Un modelo abierto experimental que genera texto mediante difusión, no token por token.

26B Mezcla de expertos (MoE) que activa solo 3.8B de parámetros durante la inferencia. Construido sobre la columna vertebral de Gemma 4 (26B-A4B) con un cabezal de difusión agregado. Entrada multimodal (texto, imagen y vídeo) que genera salida de texto. Ventana de contexto de 256K, más de 140 idiomas, lanzada bajo Apache 2.0.

2

La idea central

La mayoría de los LLM son autorregresivos. DiffusionGemma toma un camino diferente.

Los modelos autorregresivos generan un token a la vez, de izquierda a derecha. Cada nuevo token depende del token anterior. DiffusionGemma genera bloques completos de texto simultáneamente, en paralelo. En GPU dedicadas, esto ofrece una generación hasta 4 veces más rápida.

3

Cómo funciona la difusión de texto

Se basa en la difusión de imágenes: comience con el ruido y refine de forma iterativa.

1El lienzo: el modelo comienza con fichas de marcador de posición aleatorias.

2Refinamiento iterativo: bloquea tokens seguros y los utiliza como contexto.

3Pulido final: el texto converge en la salida.

Google llama al mecanismo Difusión Uniforme del Estado. Finaliza entre 15 y 20 fichas por pase hacia adelante en un lienzo de 256 fichas.

4

La Arquitectura

La ventaja es la utilización del hardware en las GPU locales.

Cambia el cuello de botella del ancho de banda de la memoria al cálculo. Prefill utiliza atención causal para escribir el caché KV. La eliminación de ruido utiliza la atención bidireccional para refinar el lienzo. Block Autoregressive Diffusion maneja secuencias de más de 256 tokens. El contexto bidireccional permite la autocorrección en tiempo real mediante reducción de ruido.

5

Rendimiento y huella

Números de rendimiento y límites de hardware de Google.

Más de 1000 tokens/s en una sola NVIDIA H100. Más de 700 tokens/seg en una NVIDIA GeForce RTX 5090. Cabe en 18 GB de VRAM cuando está cuantificado. NVFP4 nativo (punto flotante de 4 bits) con una precisión casi sin pérdidas. Speedup está diseñado para inferencias locales de baja concurrencia.

6

DiffusionGemma y Standard Gemma 4

AtributoDifusiónGemmaGemma 4 GeneraciónDifusión (paralela)Cuello de botella autorregresivo Limitado a computaciónAncho de banda de memoria AtenciónBidireccionalAutocorrección causalSí (re-ruido)Sin velocidad (GPU)Hasta 4 veces más rápidoCalidad de salida de referenciaInferiorMayor (producción)

7

Casos de uso

Diseñado para cargas de trabajo específicas, no para calidad de producción general.

Edición en línea y relleno de código: adecuado para texto no lineal. Análisis de contexto largo, OCR y análisis de documentos. Generación de código, llamada de herramientas y flujos de trabajo agentes. Generación restringida: el Sudoku aumentó del 0% al 80% después del ajuste.

8

Disponibilidad y herramientas

Pesas abiertas con soporte del ecosistema de día cero.

Pesos en Hugging Face: google/diffusiongemma-26B-A4B-it. El primer LLM de difusión soportado nativamente en vLLM. También Transformers, MLX y Unsloth; Ajuste de NeMo; llama.cpp pronto. Implemente a través de Google Cloud Model Garden o NVIDIA NIM.

Consulta los pesos de los modelos y los detalles técnicos. También hemos creado una breve demostración para este trabajo de investigación. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros