NVIDIA acaba de lanzar su nuevo modelo de transcripción en inglés (Nemotron Speech ASR) creado específicamente para agentes de voz de baja latencia y subtítulos en vivo. El punto de control nvidia/nemotron-speech-streaming-en-0.6b en Hugging Face combina un codificador FastConformer con reconocimiento de caché con un decodificador RNNT y está optimizado para cargas de trabajo por secuencias y por lotes en GPU NVIDIA modernas.
Diseño del modelo, arquitectura y supuestos de entrada.
Nemotron Speech ASR (reconocimiento automático de voz) es un modelo de parámetros de 600 M basado en un codificador FastConformer con reconocimiento de caché con 24 capas y un decodificador RNNT. El codificador utiliza una reducción de resolución convolucional agresiva de 8x para reducir la cantidad de pasos de tiempo, lo que reduce directamente los costos de computación y memoria para cargas de trabajo de transmisión. El modelo consume audio mono de 16 kHz y requiere al menos 80 ms de audio de entrada por fragmento.
La latencia en tiempo de ejecución se controla mediante tamaños de contexto configurables. El modelo expone cuatro configuraciones de fragmentos estándar, correspondientes a aproximadamente 80 ms, 160 ms, 560 ms y 1,12 s de audio. Estos modos están controlados por el parámetro att_context_size, que establece el contexto de atención izquierdo y derecho en múltiplos de fotogramas de 80 ms y se pueden cambiar en el momento de la inferencia sin necesidad de volver a entrenar.
Transmisión con reconocimiento de caché, ventanas deslizantes sin búfer
El ‘streaming ASR’ tradicional a menudo utiliza ventanas superpuestas. Cada ventana entrante reprocesa parte del audio anterior para mantener el contexto, lo que desperdicia cómputo y hace que la latencia aumente a medida que aumenta la simultaneidad.
En cambio, Nemotron Speech ASR mantiene un caché de los estados del codificador para todas las capas de autoatención y convolución. Cada nuevo fragmento se procesa una vez y el modelo reutiliza las activaciones almacenadas en caché en lugar de volver a calcular el contexto superpuesto. Esto da:
Procesamiento de fotogramas sin superposición, por lo que el trabajo escala linealmente con la longitud del audio Crecimiento de memoria predecible, porque el tamaño de la caché crece con la longitud de la secuencia en lugar de la duplicación relacionada con la concurrencia Latencia estable bajo carga, lo cual es fundamental para tomar turnos e interrumpir en los agentes de voz
Precisión versus latencia: WER bajo restricciones de transmisión
Nemotron Speech ASR se evalúa en los conjuntos de datos de la tabla de clasificación Hugging Face OpenASR, incluidos AMI, Earnings22, Gigaspeech y LibriSpeech. La precisión se informa como tasa de error de palabras (WER) para diferentes tamaños de fragmentos.
Para un promedio de estos puntos de referencia, el modelo logra:
Aproximadamente 7,84 por ciento de WER con un tamaño de fragmento de 0,16 s Aproximadamente 7,22 por ciento de WER con un tamaño de fragmento de 0,56 s Aproximadamente 7,16 por ciento de WER con un tamaño de fragmento de 1,12 s
Esto ilustra la compensación de la precisión de la latencia. Los fragmentos más grandes brindan más contexto fonético y un WER ligeramente menor, pero incluso el modo de 0,16 s mantiene el WER por debajo del 8 por ciento y sigue siendo utilizable para agentes en tiempo real. Los desarrolladores pueden elegir el punto de funcionamiento en el momento de la inferencia según las necesidades de la aplicación, por ejemplo, 160 ms para agentes de voz agresivos o 560 ms para flujos de trabajo centrados en la transcripción.
Rendimiento y simultaneidad en GPU modernas
El diseño con reconocimiento de caché tiene un impacto mensurable en la simultaneidad. En una GPU NVIDIA H100, Nemotron Speech ASR admite alrededor de 560 transmisiones simultáneas con un tamaño de fragmento de 320 ms, aproximadamente 3 veces la concurrencia de un sistema de transmisión de referencia con el mismo objetivo de latencia. Los puntos de referencia RTX A5000 y DGX B200 muestran ganancias de rendimiento similares, con una simultaneidad de más de 5 veces en A5000 y hasta 2 veces en B200 en configuraciones de latencia típicas.
Igualmente importante es que la latencia se mantiene estable a medida que aumenta la simultaneidad. En las pruebas de Modal con 127 clientes WebSocket simultáneos en modo de 560 ms, el sistema mantuvo un retraso medio de extremo a extremo de alrededor de 182 ms sin deriva, lo cual es esencial para los agentes que deben permanecer sincronizados con la voz en vivo durante sesiones de varios minutos.
Datos de entrenamiento e integración del ecosistema.
Nemotron Speech ASR se entrena principalmente en la parte en inglés del conjunto de datos Granary de NVIDIA junto con una gran combinación de corpus de habla pública, para un total de aproximadamente 285.000 horas de audio. Los conjuntos de datos incluyen YouTube Commons, YODAS2, Mosel, LibriLight, Fisher, Switchboard, WSJ, VCTK, VoxPopuli y múltiples versiones de Mozilla Common Voice. Las etiquetas combinan transcripciones generadas por humanos y ASR.
Conclusiones clave
Nemotron Speech ASR es un modelo de transmisión en inglés con parámetros de 0.6B que utiliza un codificador FastConformer con reconocimiento de caché con un decodificador RNNT y opera con audio mono de 16 kHz con fragmentos de entrada de al menos 80 ms. El modelo expone 4 configuraciones de fragmentos de tiempo de inferencia, aproximadamente 80 ms, 160 ms, 560 ms y 1,12 s, que permiten a los ingenieros intercambiar latencia por precisión sin necesidad de volver a capacitarse, manteniendo al mismo tiempo el WER entre 7,2 y 7,8 por ciento en los puntos de referencia ASR estándar. La transmisión con reconocimiento de caché elimina el recálculo de ventanas superpuestas, por lo que cada cuadro de audio se codifica una vez, lo que produce aproximadamente 3 veces más transmisiones simultáneas en H100, más de 5 veces en RTX A5000 y hasta 2 veces en DGX B200 en comparación con una línea de base de transmisión almacenada en búfer con una latencia similar. En un agente de voz de extremo a extremo con Nemotron Speech ASR, Nemotron 3 Nano 30B y Magpie TTS, el tiempo medio medido hasta la transcripción final es de aproximadamente 24 ms y la latencia de voz a voz del lado del servidor en RTX 5090 es de aproximadamente 500 ms, lo que hace que ASR sea una pequeña fracción del presupuesto total de latencia. Nemotron Speech ASR se lanza como un punto de control NeMo bajo la licencia de modelo abierto permisivo de NVIDIA con pesos abiertos y detalles de capacitación, para que los equipos puedan autohospedar, ajustar y perfilar la pila completa para agentes de voz y aplicaciones de voz de baja latencia.
Consulta aquí los PESOS DEL MODELO. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Consulte nuestra última versión de ai2025.dev, una plataforma de análisis centrada en 2025 que convierte los lanzamientos de modelos, los puntos de referencia y la actividad del ecosistema en un conjunto de datos estructurado que puede filtrar, comparar y exportar.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.