NVIDIA lanza Nemotron 3.5 ASR: un modelo de transmisión con reconocimiento de caché de 600 M de parámetros que transcribe 40 idiomas locales en tiempo real

El equipo Nemotron Speech de NVIDIA ha lanzado Nemotron 3.5 ASR. Es un modelo de reconocimiento automático de voz (ASR) de transmisión de parámetros de 600M. Un único punto de control transcribe 40 idiomas locales en tiempo real. La puntuación y las mayúsculas están integradas de forma nativa. El modelo se envía como pesas abiertas en Hugging Face. La licencia es OpenMDW-1.1. La arquitectura es FastConformer-RNNT compatible con caché.

¿Qué es Nemotrón 3.5 ASR?

Nemotron 3.5 ASR extiende nvidia/nemotron-speech-streaming-en-0.6b a muchos idiomas. Agrega condicionamiento de identificación de idioma basado en indicaciones al modelo base. Eso permite que un punto de control de parámetros de 600M cubra 40 idiomas locales. No se requiere ningún modelo por idioma ni intercambio de modelos.

El modelo apunta a dos cargas de trabajo. El primero es la transmisión de audio en vivo de baja latencia. El segundo es la transcripción por lotes de alto rendimiento. El resultado es texto listo para producción con mayúsculas y puntuación adecuadas. No se necesita ningún paso separado de restauración de puntuación.

Fuente de la imagen: https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b

Cómo funciona FastConformer-RNNT compatible con caché

El modelo tiene dos piezas principales. El primero es un codificador FastConformer compatible con caché con 24 capas. FastConformer es una evolución eficiente de la arquitectura Conformer. Utiliza atención linealmente escalable. La segunda pieza es un decodificador RNNT (Recurrent Neural Network Transducer). RNNT emite texto cuadro por cuadro a medida que se transmite audio.

El diseño “consciente de la caché” es la palanca de eficiencia. La transmisión en búfer reprocesa las ventanas de audio superpuestas en cada paso. Eso repite el mismo trabajo y añade retraso. En su lugar, este modelo almacena en caché la autoatención del codificador y las activaciones de convolución. Reutiliza esos estados almacenados en caché a medida que llega nuevo audio. Así, cada cuadro de audio se procesa exactamente una vez, sin superposición. La latencia de cómputo y de extremo a extremo disminuye, sin penalización en la precisión.

La perilla de latencia: att_context_size

Una configuración de inferencia controla el equilibrio entre latencia y precisión. Es el tamaño del contexto de atención, att_context_size. Un contexto más pequeño emite texto antes pero ve menos audio futuro. Un contexto más amplio aumenta la precisión con una latencia más alta.

El mismo punto de control cubre todo el rango. La configuración se asigna a tamaños de fragmentos de 80 ms, 160 ms, 320 ms, 560 ms y 1,12 s. Por ejemplo, [56,0] Ofrece un modo de latencia ultrabaja de 80 ms. El [56,13] La configuración proporciona 1,12 s para una mayor precisión. Los equipos eligen el punto de operación en el momento de la inferencia, sin reentrenamiento.

Detección y cobertura del idioma

Los 40 idiomas locales incluyen variantes en inglés, español, alemán y francés. También cubren árabe, japonés, coreano, mandarín, hindi y tailandés. También se incluyen varios otros idiomas europeos y nórdicos.

El condicionamiento del lenguaje funciona de dos maneras. Configurar target_lang en una ubicación conocida generalmente proporciona la mayor precisión. Configurar target_lang=auto permite que el modelo detecte el idioma en sí. En modo automático, emite una etiqueta de idioma después de la puntuación del terminal. Luego, una implementación puede transcribir el tráfico en varios idiomas. No se requiere ningún componente de identificación de idioma independiente.

Comparación

ProductoEmpresaAccesoTransmisión nativaCobertura de idiomasLatencia informadaModelo de preciosNemotron 3.5 ASRNVIDIAPesos abiertos (OpenMDW-1.1), autohospedador; alojado en DeepInfraSí: configuración regional del idioma FastConformer-RNNT40 con reconocimiento de caché de 80 ms a 1,12 s, configurable por inferencia. Libre para autohospedarse; basado en uso a través de hostWhisper large-v3OpenAIOpenweights (MIT), autohospedaje; APINo: sin conexión/por lotes ~ 99 idiomas No nativo de streamingAutohospedaje gratuito; API ~$0.006/min (lote) Nova-3DeepgramClosed API; local/autohospedado (empresa)Sí, streaming + lotesMultilingüe; Se agregaron más de 10 idiomas monolingües en enero de 2026 Transmisión de baja latencia (reportada por debajo de 300 ms) ~ $ 0,0077/min (Nova-3 monolingüe, PAYG) Universal-3 Pro StreamingAssemblyAIC API cerrada (punto final de la UE disponible) Sí 6 idiomas: inglés, español, francés, alemán, italiano, portugués Sub-300 ms (oficial); primer parcial ~750ms Basado en uso (PAYG)Scribe v2 Tiempo realElevenLabsAPI cerradaSíMás de 90 idiomas (99 por ElevenLabs) ~150ms (p50) ~$0,28/hora Ursa/streamingSpeechmaticsAPI + local + edgeSí — streaming + por lotesMás de 50 idiomas con identificación automática Latencia ultrabaja (posicionada)Empresa/uso

Resultados de ajuste fino

Debido a que las ponderaciones son abiertas, los equipos pueden realizar ajustes según un idioma, dominio o acento. NVIDIA publicó un ejemplo trabajado sobre griego y búlgaro. Perfeccionó el punto de control base con la misma receta Cache-Aware FastConformer-RNNT. Cada clip llevaba una etiqueta target_lang para el acondicionamiento del lenguaje. Los datos de capacitación provienen de corpus públicos, incluidos Granary, Common Voice y FLEURS.

Los resultados se midieron como WER en FLEURS mantenidos, en la configuración de 80 ms. El WER griego cayó del 35 al 24, una mejora relativa del 32%. El búlgaro cayó del puesto 22 al 15, una mejora relativa del 31%. Estos son porcentajes de WER sin procesar en el modo de transmisión de latencia más baja. NVIDIA señala que la evaluación de la latencia de implementación, con datos retenidos, arroja cifras honestas.

Fortalezas y consideraciones

Fortalezas:

Un punto de control de 600M de parámetros cubre 40 idiomas locales, lo que reduce la expansión de la implementación. La transmisión con reconocimiento de caché procesa cada cuadro una vez, reportado con una simultaneidad almacenada en búfer 17 veces mayor en un H100. att_context_size ajusta la latencia de 80 ms a 1,12 s en la inferencia, sin reentrenamiento. La puntuación, las mayúsculas y el etiquetado automático de idioma están integrados. Las ponderaciones abiertas permitieron una caída relativa del WER del 31 al 32 % en griego y búlgaro después de un ajuste fino.

Consideraciones:

El modelo maneja inglés, pero NVIDIA recomienda su modelo dedicado en inglés para uso únicamente en inglés. El modo de 80 ms cambia cierta precisión por la latencia más baja. El japonés y el coreano utilizan CER, por lo que es necesario tener cuidado al comparar errores entre idiomas. Las cifras de rendimiento se miden en H100, por lo que los resultados en otras GPU serán diferentes. Se anuncia el NIM de producción con transmisión gRPC, pero aún no se ha lanzado.

Conclusiones clave

Nemotron 3.5 ASR de NVIDIA es un modelo de transmisión de peso abierto (OpenMDW-1.1) y 600 M de parámetros que transcribe 40 idiomas desde un punto de control. Su diseño Cache-Aware FastConformer-RNNT procesa cada cuadro de audio una vez, lo que reporta 17 veces los flujos simultáneos de enfoques almacenados en búfer en un H100. La latencia se puede configurar de 80 ms a 1,12 s en la inferencia mediante att_context_size, sin reentrenamiento. Un breve corte de ajuste FLEURS WER 32% en griego (35→24) y 31% en búlgaro (22→15), en la configuración de 80 ms. Es autohospedable y nativo para streaming, a diferencia de las API cerradas (Deepgram, AssemblyAI, ElevenLabs) o Whisper sin conexión.

Explicador visual de Marktechpost


NEMOTRÓN 3.5 ASR
1 / 10

NVIDIA · STREAMING DISCURSO AI · PESAS ABIERTAS

Nemotrón 3.5 ASR

Un modelo de transmisión con reconocimiento de caché de 600 M de parámetros que transcribe 40 idiomas locales en tiempo real, desde un único punto de control.

600M parámetros
40 idiomas locales
Latencia de 80 ms a 1,12 s
AbiertoMDW-1.1

01 — QUÉ ES

Un modelo, 40 idiomas locales

Extiende nvidia/nemotron-speech-streaming-en-0.6b con acondicionamiento de ID de idioma basado en mensajes. Un único punto de control de 600M de parámetros cubre 40 idiomas. Sin cambio de modelo. La puntuación y las mayúsculas están integradas. No hay ningún paso de posprocesamiento independiente. Se dirige a dos cargas de trabajo: streaming de baja latencia y lotes de alto rendimiento. NVIDIA todavía recomienda su modelo solo en inglés para uso únicamente en inglés.

02 — ARQUITECTURA

FastConformer-RNNT compatible con caché

Un codificador FastConformer de 24 capas emparejado con un decodificador RNNT. La transmisión en búfer reprocesa las ventanas de audio superpuestas en cada paso. Este modelo almacena en caché los estados de convolución y autoatención del codificador y luego los reutiliza. Cada cuadro de audio se procesa exactamente una vez, sin superposición. Caída de la latencia informática y de un extremo a otro, sin penalización en la precisión.

03 — LA PERILLA DE LATENCIA

Una configuración ajusta la latencia frente a la precisión

att_context_sizeChunk (latencia)Caso de uso

[56,0]80 ms (ultrabaja)Agentes de voz de latencia ultrabaja
[56,1]160 ms (bajo) Agentes de voz interactivos
[56,3]320 ms (equilibrado) IA conversacional, subtítulos en vivo
[56,6]560 ms (media) Mayor precisión, latencia razonable
[56,13]1,12 s (alto) Máxima precisión

Mismo punto de control, elegido en el momento de la inferencia. No se requiere reentrenamiento.

04 — IDIOMAS Y DETECCIÓN

Cobertura e identificación automática de idioma

40 idiomas locales, incluidas variantes en inglés, español, alemán y francés. También cubre árabe, japonés, coreano, mandarín, hindi y tailandés. Establezca target_lang en una ubicación conocida para obtener la mayor precisión. Establezca target_lang=auto para permitir que el modelo detecte el idioma. En modo automático, emite una etiqueta de idioma después de la puntuación del terminal. Una implementación maneja el tráfico en varios idiomas, sin ningún componente de ID de idioma separado.

05 — RENDIMIENTO

La mitad del tamaño, más transmisiones simultáneas

NVIDIA lo compara con Parakeet RNNT 1.1B multilingüe, que utiliza transmisión en búfer. Nemotron 3.5 ASR tiene aproximadamente la mitad del tamaño: 0,6 mil millones frente a 1,1 mil millones. El equipo informa 17 veces más flujos simultáneos de aproximaciones amortiguadas, en el mismo H100. Evitar el recálculo redundante reduce el costo por flujo en producción.

La cifra de 17x proviene del anuncio de lanzamiento; la tarjeta modelo indica directamente la afirmación cualitativa.

06 — RESULTADOS DE AJUSTE FINO

Un breve ajuste mejora los idiomas más débiles

LanguageBase WERFafinadoGriego relativo352432% Búlgaro221531%

WER sin procesar (%) en FLEURS retenidas en la configuración de 80 ms. Datos: Granero, Voz Común, FLEURS.

07 — DISPONIBILIDAD Y ACCESO

Pesos abiertos, además de una ruta alojada

Pesos en Hugging Face bajo la licencia OpenMDW-1.1. El tiempo de ejecución es NeMo 26.06 o posterior. La entrada debe ser monocanal. Alojado en DeepInfra, que agrega mejora de palabras para el vocabulario del dominio. NVIDIA dice que está previsto un lanzamiento de NIM para finales de mes, con transmisión de gRPC. Soporte de GPU declarado: Ampere, Hopper, Blackwell, Lovelace, Turing, Volta y Jetson.

08 – CÓMO SE COMPARA

Donde se asienta en el paisaje

ProductAccessStreamingIdiomas Nemotron 3.5 ASRopenweightsNative40 locales Whisper large-v3OpenweightsNo (lote)~99 Deepgram Nova-3API / on-premNativeMultilingual AssemblyAI U-3 ProAPINative6 ElevenLabs Scribe v2APINative90+ Google Chirp / AzureAPINative100+ / 140+

La latencia y el WER no son directamente comparables entre proveedores; esto compara la estructura, no una clasificación.

09 — CONSEJOS CLAVE

La versión corta

Un modelo de transmisión de 600 millones de pesos abiertos que transcribe 40 idiomas locales desde un punto de control. El diseño con reconocimiento de caché procesa cada fotograma una vez; informó una simultaneidad almacenada en búfer 17 veces mayor en un H100. Latencia configurable de 80 ms a 1,12 s en inferencia, sin reentrenamiento. Un corte corto y fino FLEURS WER 32% (griego) y 31% (búlgaro). Autohospedable y nativo de streaming, a diferencia de las API cerradas o Whisper sin conexión.

Comisariado para ingenieros de IA por Marktechpost: cobertura de IA y aprendizaje automático dirigida por primera vez a los profesionales.

Consulte los pesos del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros