Interfaze lanza diffusion-gemma-asr-small, un modelo ASR de difusión de código abierto que transcribe seis idiomas a través del decodificador de eliminación de ruido paralelo de DiffusionGemma

Interfaze, una joven startup de YC, ha abierto un nuevo modelo de reconocimiento de voz. Se llama difusión-gemma-asr-small. El modelo transcribe audio a través de un decodificador de difusión, no autorregresivo. Se describe como el primer modelo ASR de difusión de audio multilingüe. Un adaptador maneja seis idiomas. El equipo de investigación entrenó sólo unos 42 millones de parámetros sobre una columna vertebral congelada de 26 B. Esto supone aproximadamente el 0,16% del peso del modelo.

Aquí dos términos importan desde el principio. Los modelos autorregresivos generan texto un token a la vez. Los modelos de difusión refinan todos los tokens en paralelo. Este modelo utiliza el enfoque de difusión de voz a texto.

TL;DR

Según el equipo de Interfaze, es el primer ASR de difusión multilingüe de código abierto: seis idiomas desde un único adaptador de ~42M de parámetros. Transcribe a través del decodificador de difusión de DiffusionGemma utilizando difusión uniforme de tokens aleatorios, no el esquema de absorción. El costo de la transcripción aumenta con los pasos de eliminación de ruido, no con la longitud de la transcripción. Lidera a sus pares de difusión en LibriSpeech (6,6% WER frente al 8,3% de Whisfusion), pero está por detrás del autorregresivo Whisper. El adaptador se envía bajo Apache-2.0; DiffusionGemma (términos de Gemma) y Whisper-small (MIT) se cargan por separado.

¿Qué es la difusión-gemma-asr-small?

diffusion-gemma-asr-small es un modelo ASR nativo de audio. Convierte voz en texto mediante un decodificador de difusión discreto. Ese decodificador pertenece a DiffusionGemma, el modelo de mezcla de expertos 26B de Google. DiffusionGemma activa parámetros 4B, utilizando 128 expertos con enrutamiento entre los 8 mejores. Genera texto por difusión discreta en lugar de autorregresión.

El detalle de difusión es específico. La mayoría de los LLM de difusión utilizan un esquema de absorción. DiffusionGemma utiliza en su lugar difusión uniforme de tokens aleatorios. Llena un lienzo de longitud fija con fichas de vocabulario aleatorias. Cada paso mantiene predicciones confiables y vuelve a aleatorizar el resto. Después de unos pocos pasos, el ruido se convierte en texto.

Interfaze agregó audio a este modelo de solo texto. Desde el primer momento, DiffusionGemma toma texto, imágenes y vídeo. No requiere audio. El repositorio envía solo el adaptador entrenado, alrededor de 42 millones de parámetros. Las redes troncales congeladas se descargan por separado desde sus propios repositorios.

como funciona

El modelo no envía formas de onda sin procesar al LLM. Un primer intento intentó exactamente eso y fracasó. Un LLM congelado nunca ha visto un espectrograma. El espacio de incrustación no tiene noción de formantes ni de fonemas. El modelo aprendió a ignorar el audio y alucinar tonterías fluidas.

El diseño de trabajo utiliza un codificador pequeño y susurrado congelado. Actúa sólo como un extractor de funciones, no como un decodificador. Whisper convierte 30 segundos de audio en 1500 fotogramas. Cada marco tiene características acústicas de 768 dimensiones. Luego, un pequeño proyector entrenable comprime estos fotogramas. Utiliza capas conv que submuestrean 8× más un mapa lineal. La salida es de 188 “tokens de audio” en 2816 dimensiones. Estos tokens se dispersan en las ranuras <|audio|> reservadas del mensaje. Los adaptadores LoRA permiten que la red troncal atienda esta nueva modalidad. Luego, el decodificador elimina el ruido de un lienzo de transcripción de 192 tokens. Se ejecuta bidireccionalmente en aproximadamente 16 escalones.

La tubería, según la ficha del modelo, es compacta:

audio sin procesar ─ ► codificador pequeño susurro (congelado) ─ ► proyector (entrenado, ~19M) ─ ► dispersar en las ranuras de tokens del codificador de DiffusionGemma ─ ► El decodificador de DiffusionGemma elimina el ruido de un lienzo de 192 tokens (audio bidireccional y de asistencia cruzada) ─ ► transcripción

El desbloqueo del entrenamiento

Los primeros entrenamientos se estancaron. La pérdida se estancó cerca de 8. La falla fue circular. El proyector comenzó de forma aleatoria, por lo que su salida fue ruido. Luego la atención aprendió a ignorarlo. Casi ningún gradiente llegó al proyector. El modelo nunca aprendió.

El arreglo supervisó el proyector directamente. El equipo de investigación pasó los 188 tokens de audio a través del lm_head congelado de DiffusionGemma. Aplicaron una pérdida CTC contra la transcripción. CTC significa Clasificación Temporal Conexionista. Alinea las funciones de audio con el texto sin necesidad de atención.

Esto evita el enfrentamiento. Las incrustaciones de audio se volvieron linealmente predictivas de las palabras correctas. Luego, la pérdida de CTC cayó de 24 a 8,6 en 300 pasos. En la prueba limpia de LibriSpeech, el WER en inglés cayó 90% → 52% → 14,6% → 6,6% en diez épocas.

Rendimiento y puntos de referencia

WER significa Tasa de error de palabras, donde cuanto menor sea, mejor. CER significa Tasa de error de caracteres. El modelo se entrenó en FLEURS, LibriSpeech y VoxPopuli. Todas las partituras siguientes utilizan el normalizador de texto Whisper en 16 pasos de difusión.

benchmarkmetricscoreLibriSpeech test-clean (en)WER6.6%FLEURS EnglishWER15.7%VoxPopuli EnglishWER18.5%FLEURS HindiCER15.8%FLEURS MandarinCER29.6%

Frente a otros ASR de difusión o no autorregresivos, lidera.

enfoque modeloLibriSpeech test-cleanTransFusion (2022)difusión multinomial ~6–7% (prueba de concepto)Whisfusion (agosto de 2025)Whisper-large-v3 + difusión enmascarada8.3%difusión-gemma-asr-small (2026)Whisper-small + DifusiónGemma6.6%

Contra el Whisper autorregresivo, va a la zaga. El equipo enmarca esta brecha como datos, no como arquitectura.

benchmarkoursWhisper-smallWhisper-large-v3LibriSpeech clean6.6%~3.4%~2.0%FLEURS-en15.7%~9–10%~4–5%VoxPopuli-en18.5%~9–11%~7–10%

El barrido del paso de eliminación de ruido muestra una curva casi plana.

pasosFLEURS-es WERspeed815.7%14.9× tiempo real1615.6%10.3×3215.2%6.5×4815.6%4.7×

Pasar de 8 a 48 pasos compra aproximadamente 0,1 puntos WER. Cuesta aproximadamente 3 veces la latencia. El modelo converge en aproximadamente 8 pasadas paralelas. Esto equivale a entre 0,7 y 1,5 segundos de tiempo de modelo para un clip de 10 segundos.

Casos de uso con ejemplos

Los canales de transcripción por lotes se benefician de la decodificación paralela. El costo se establece mediante los pasos de eliminación de ruido, no por la duración del clip. Un clip de 10 segundos necesita aproximadamente los mismos pases que uno más corto. La transcripción multilingüe se ejecuta desde un único adaptador. Cubre inglés, alemán, francés, español, hindi y mandarín. Los equipos evitan cargar un modelo separado por idioma. La investigación ASR no autorregresiva obtiene una línea de base reproducible. La receta muele un LLM congelado con un pequeño adaptador. Los investigadores pueden ampliarlo con más audio o un codificador más grande.

Cómo empezar

El modelo vive en el Hub. Incluye el adaptador, model.py, audio.py y un inference.py ejecutable. El soporte de DiffusionGemma necesita transformadores de la red principal.

pip install torch peft archivo de sonido librosa huggingface_hub \ “transformers @ git+https://github.com/huggingface/transformers.git”

Luego transcribe en Python:

importar sys, archivo de sonido como sf desde huggingface_hub importar snapshot_download repo = snapshot_download(“interfaze-ai/diffusion-gemma-asr-small”) # adaptador, ~170 MB sys.path.insert(0, repo) desde carga de importación de inferencia, transcribir # Cargas congeladas DiffusionGemma-26B + susurro-pequeño + este adaptador. model, tok, fe = load(f”{repo}/diffusion_asr_small.pt”, dispositivo=”cuda”) wav, sr = sf.read(“audio.wav”) # 16 kHz mono float32 print(transcribe(wav, model, tok, fe, max_steps=16))

Una ruta de línea de comandos también funciona desde el repositorio descargado:

inferencia de python.py audio.wav

El argumento max_steps intercambia velocidad por precisión. El equipo señala que 8 es casi el mejor y el más rápido. El valor predeterminado es 16. Los modelos base se cargan bajo sus propias licencias: DiffusionGemma bajo los términos de Gemma, susurro pequeño bajo el MIT.

Explicador interactivo