El equipo Nemotron Speech de NVIDIA ha lanzado Nemotron 3.5 ASR. Es un modelo de reconocimiento automático de voz (ASR) de transmisión de parámetros de 600M. Un único punto de control transcribe 40 idiomas locales en tiempo real. La puntuación y las mayúsculas están integradas de forma nativa. El modelo se envía como pesas abiertas en Hugging Face. La licencia es OpenMDW-1.1. La arquitectura es FastConformer-RNNT compatible con caché.
¿Qué es Nemotrón 3.5 ASR?
Nemotron 3.5 ASR extiende nvidia/nemotron-speech-streaming-en-0.6b a muchos idiomas. Agrega condicionamiento de identificación de idioma basado en indicaciones al modelo base. Eso permite que un punto de control de parámetros de 600M cubra 40 idiomas locales. No se requiere ningún modelo por idioma ni intercambio de modelos.
El modelo apunta a dos cargas de trabajo. El primero es la transmisión de audio en vivo de baja latencia. El segundo es la transcripción por lotes de alto rendimiento. El resultado es texto listo para producción con mayúsculas y puntuación adecuadas. No se necesita ningún paso separado de restauración de puntuación.
Cómo funciona FastConformer-RNNT compatible con caché
El modelo tiene dos piezas principales. El primero es un codificador FastConformer compatible con caché con 24 capas. FastConformer es una evolución eficiente de la arquitectura Conformer. Utiliza atención linealmente escalable. La segunda pieza es un decodificador RNNT (Recurrent Neural Network Transducer). RNNT emite texto cuadro por cuadro a medida que se transmite audio.
El diseño “consciente de la caché” es la palanca de eficiencia. La transmisión en búfer reprocesa las ventanas de audio superpuestas en cada paso. Eso repite el mismo trabajo y añade retraso. En su lugar, este modelo almacena en caché la autoatención del codificador y las activaciones de convolución. Reutiliza esos estados almacenados en caché a medida que llega nuevo audio. Así, cada cuadro de audio se procesa exactamente una vez, sin superposición. La latencia de cómputo y de extremo a extremo disminuye, sin penalización en la precisión.
La perilla de latencia: att_context_size
Una configuración de inferencia controla el equilibrio entre latencia y precisión. Es el tamaño del contexto de atención, att_context_size. Un contexto más pequeño emite texto antes pero ve menos audio futuro. Un contexto más amplio aumenta la precisión con una latencia más alta.
El mismo punto de control cubre todo el rango. La configuración se asigna a tamaños de fragmentos de 80 ms, 160 ms, 320 ms, 560 ms y 1,12 s. Por ejemplo, [56,0] Ofrece un modo de latencia ultrabaja de 80 ms. El [56,13] La configuración proporciona 1,12 s para una mayor precisión. Los equipos eligen el punto de operación en el momento de la inferencia, sin reentrenamiento.
Detección y cobertura del idioma
Los 40 idiomas locales incluyen variantes en inglés, español, alemán y francés. También cubren árabe, japonés, coreano, mandarín, hindi y tailandés. También se incluyen varios otros idiomas europeos y nórdicos.
El condicionamiento del lenguaje funciona de dos maneras. Configurar target_lang en una ubicación conocida generalmente proporciona la mayor precisión. Configurar target_lang=auto permite que el modelo detecte el idioma en sí. En modo automático, emite una etiqueta de idioma después de la puntuación del terminal. Luego, una implementación puede transcribir el tráfico en varios idiomas. No se requiere ningún componente de identificación de idioma independiente.
Comparación
Resultados de ajuste fino
Debido a que las ponderaciones son abiertas, los equipos pueden realizar ajustes según un idioma, dominio o acento. NVIDIA publicó un ejemplo trabajado sobre griego y búlgaro. Perfeccionó el punto de control base con la misma receta Cache-Aware FastConformer-RNNT. Cada clip llevaba una etiqueta target_lang para el acondicionamiento del lenguaje. Los datos de capacitación provienen de corpus públicos, incluidos Granary, Common Voice y FLEURS.
Los resultados se midieron como WER en FLEURS mantenidos, en la configuración de 80 ms. El WER griego cayó del 35 al 24, una mejora relativa del 32%. El búlgaro cayó del puesto 22 al 15, una mejora relativa del 31%. Estos son porcentajes de WER sin procesar en el modo de transmisión de latencia más baja. NVIDIA señala que la evaluación de la latencia de implementación, con datos retenidos, arroja cifras honestas.
Fortalezas y consideraciones
Fortalezas:
Un punto de control de 600M de parámetros cubre 40 idiomas locales, lo que reduce la expansión de la implementación. La transmisión con reconocimiento de caché procesa cada cuadro una vez, reportado con una simultaneidad almacenada en búfer 17 veces mayor en un H100. att_context_size ajusta la latencia de 80 ms a 1,12 s en la inferencia, sin reentrenamiento. La puntuación, las mayúsculas y el etiquetado automático de idioma están integrados. Las ponderaciones abiertas permitieron una caída relativa del WER del 31 al 32 % en griego y búlgaro después de un ajuste fino.
Consideraciones:
El modelo maneja inglés, pero NVIDIA recomienda su modelo dedicado en inglés para uso únicamente en inglés. El modo de 80 ms cambia cierta precisión por la latencia más baja. El japonés y el coreano utilizan CER, por lo que es necesario tener cuidado al comparar errores entre idiomas. Las cifras de rendimiento se miden en H100, por lo que los resultados en otras GPU serán diferentes. Se anuncia el NIM de producción con transmisión gRPC, pero aún no se ha lanzado.
Conclusiones clave
Nemotron 3.5 ASR de NVIDIA es un modelo de transmisión de peso abierto (OpenMDW-1.1) y 600 M de parámetros que transcribe 40 idiomas desde un punto de control. Su diseño Cache-Aware FastConformer-RNNT procesa cada cuadro de audio una vez, lo que reporta 17 veces los flujos simultáneos de enfoques almacenados en búfer en un H100. La latencia se puede configurar de 80 ms a 1,12 s en la inferencia mediante att_context_size, sin reentrenamiento. Un breve corte de ajuste FLEURS WER 32% en griego (35→24) y 31% en búlgaro (22→15), en la configuración de 80 ms. Es autohospedable y nativo para streaming, a diferencia de las API cerradas (Deepgram, AssemblyAI, ElevenLabs) o Whisper sin conexión.
Explicador visual de Marktechpost
NEMOTRÓN 3.5 ASR
1 / 10
Comisariado para ingenieros de IA por Marktechpost: cobertura de IA y aprendizaje automático dirigida por primera vez a los profesionales.
Consulte los pesos del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros