Interfaze, una joven startup de YC, ha abierto un nuevo modelo de reconocimiento de voz. Se llama difusión-gemma-asr-small. El modelo transcribe audio a través de un decodificador de difusión, no autorregresivo. Se describe como el primer modelo ASR de difusión de audio multilingüe. Un adaptador maneja seis idiomas. El equipo de investigación entrenó sólo unos 42 millones de parámetros sobre una columna vertebral congelada de 26 B. Esto supone aproximadamente el 0,16% del peso del modelo.
Aquí dos términos importan desde el principio. Los modelos autorregresivos generan texto un token a la vez. Los modelos de difusión refinan todos los tokens en paralelo. Este modelo utiliza el enfoque de difusión de voz a texto.
TL;DR
Según el equipo de Interfaze, es el primer ASR de difusión multilingüe de código abierto: seis idiomas desde un único adaptador de ~42M de parámetros. Transcribe a través del decodificador de difusión de DiffusionGemma utilizando difusión uniforme de tokens aleatorios, no el esquema de absorción. El costo de la transcripción aumenta con los pasos de eliminación de ruido, no con la longitud de la transcripción. Lidera a sus pares de difusión en LibriSpeech (6,6% WER frente al 8,3% de Whisfusion), pero está por detrás del autorregresivo Whisper. El adaptador se envía bajo Apache-2.0; DiffusionGemma (términos de Gemma) y Whisper-small (MIT) se cargan por separado.
¿Qué es la difusión-gemma-asr-small?
diffusion-gemma-asr-small es un modelo ASR nativo de audio. Convierte voz en texto mediante un decodificador de difusión discreto. Ese decodificador pertenece a DiffusionGemma, el modelo de mezcla de expertos 26B de Google. DiffusionGemma activa parámetros 4B, utilizando 128 expertos con enrutamiento entre los 8 mejores. Genera texto por difusión discreta en lugar de autorregresión.
El detalle de difusión es específico. La mayoría de los LLM de difusión utilizan un esquema de absorción. DiffusionGemma utiliza en su lugar difusión uniforme de tokens aleatorios. Llena un lienzo de longitud fija con fichas de vocabulario aleatorias. Cada paso mantiene predicciones confiables y vuelve a aleatorizar el resto. Después de unos pocos pasos, el ruido se convierte en texto.
Interfaze agregó audio a este modelo de solo texto. Desde el primer momento, DiffusionGemma toma texto, imágenes y vídeo. No requiere audio. El repositorio envía solo el adaptador entrenado, alrededor de 42 millones de parámetros. Las redes troncales congeladas se descargan por separado desde sus propios repositorios.
como funciona
El modelo no envía formas de onda sin procesar al LLM. Un primer intento intentó exactamente eso y fracasó. Un LLM congelado nunca ha visto un espectrograma. El espacio de incrustación no tiene noción de formantes ni de fonemas. El modelo aprendió a ignorar el audio y alucinar tonterías fluidas.
El diseño de trabajo utiliza un codificador pequeño y susurrado congelado. Actúa sólo como un extractor de funciones, no como un decodificador. Whisper convierte 30 segundos de audio en 1500 fotogramas. Cada marco tiene características acústicas de 768 dimensiones. Luego, un pequeño proyector entrenable comprime estos fotogramas. Utiliza capas conv que submuestrean 8× más un mapa lineal. La salida es de 188 “tokens de audio” en 2816 dimensiones. Estos tokens se dispersan en las ranuras <|audio|> reservadas del mensaje. Los adaptadores LoRA permiten que la red troncal atienda esta nueva modalidad. Luego, el decodificador elimina el ruido de un lienzo de transcripción de 192 tokens. Se ejecuta bidireccionalmente en aproximadamente 16 escalones.
La tubería, según la ficha del modelo, es compacta:
El desbloqueo del entrenamiento
Los primeros entrenamientos se estancaron. La pérdida se estancó cerca de 8. La falla fue circular. El proyector comenzó de forma aleatoria, por lo que su salida fue ruido. Luego la atención aprendió a ignorarlo. Casi ningún gradiente llegó al proyector. El modelo nunca aprendió.
El arreglo supervisó el proyector directamente. El equipo de investigación pasó los 188 tokens de audio a través del lm_head congelado de DiffusionGemma. Aplicaron una pérdida CTC contra la transcripción. CTC significa Clasificación Temporal Conexionista. Alinea las funciones de audio con el texto sin necesidad de atención.
Esto evita el enfrentamiento. Las incrustaciones de audio se volvieron linealmente predictivas de las palabras correctas. Luego, la pérdida de CTC cayó de 24 a 8,6 en 300 pasos. En la prueba limpia de LibriSpeech, el WER en inglés cayó 90% → 52% → 14,6% → 6,6% en diez épocas.
Rendimiento y puntos de referencia
WER significa Tasa de error de palabras, donde cuanto menor sea, mejor. CER significa Tasa de error de caracteres. El modelo se entrenó en FLEURS, LibriSpeech y VoxPopuli. Todas las partituras siguientes utilizan el normalizador de texto Whisper en 16 pasos de difusión.
Frente a otros ASR de difusión o no autorregresivos, lidera.
Contra el Whisper autorregresivo, va a la zaga. El equipo enmarca esta brecha como datos, no como arquitectura.
El barrido del paso de eliminación de ruido muestra una curva casi plana.
Pasar de 8 a 48 pasos compra aproximadamente 0,1 puntos WER. Cuesta aproximadamente 3 veces la latencia. El modelo converge en aproximadamente 8 pasadas paralelas. Esto equivale a entre 0,7 y 1,5 segundos de tiempo de modelo para un clip de 10 segundos.
Casos de uso con ejemplos
Los canales de transcripción por lotes se benefician de la decodificación paralela. El costo se establece mediante los pasos de eliminación de ruido, no por la duración del clip. Un clip de 10 segundos necesita aproximadamente los mismos pases que uno más corto. La transcripción multilingüe se ejecuta desde un único adaptador. Cubre inglés, alemán, francés, español, hindi y mandarín. Los equipos evitan cargar un modelo separado por idioma. La investigación ASR no autorregresiva obtiene una línea de base reproducible. La receta muele un LLM congelado con un pequeño adaptador. Los investigadores pueden ampliarlo con más audio o un codificador más grande.
Cómo empezar
El modelo vive en el Hub. Incluye el adaptador, model.py, audio.py y un inference.py ejecutable. El soporte de DiffusionGemma necesita transformadores de la red principal.
Luego transcribe en Python:
Una ruta de línea de comandos también funciona desde el repositorio descargado:
El argumento max_steps intercambia velocidad por precisión. El equipo señala que 8 es casi el mejor y el más rápido. El valor predeterminado es 16. Los modelos base se cargan bajo sus propias licencias: DiffusionGemma bajo los términos de Gemma, susurro pequeño bajo el MIT.
Explicador interactivo
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.