Nvidia acaba de lanzar Canary-Qwen-2.5bun innovador híbrido de reconocimiento automático de discurso (ASR) y Modelo de lenguaje (LLM), que ahora encabeza la tabla de clasificación de AbrainAsr con una tabla de clasificación de récords Tasa de error de palabras (WER) de 5.63%. Con licencia bajo Cc-byeste modelo es ambos comercialmente permisivo y de código abiertoEmpujando la IA del discurso preparada para la empresa sin restricciones de uso. Esta versión marca un hito técnico significativo al unificar la transcripción y la comprensión del lenguaje en una sola arquitectura de modelo, lo que permite tareas posteriores como resumen y respuesta de preguntas directamente desde el audio.
Destacados clave
- 5.63% fue – La más baja en la tabla de clasificación de AbrainAsr.
- RTFX de 418 – Alta velocidad de inferencia en parámetros 2.5B
- Admite los modos ASR y LLM -habilitando transcribir-Then-Analyizar flujos de trabajo
- Licencia comercial (CC-BY) – Listo para la implementación empresarial
- Código abierto a través de Nemo – personalizable y extensible para la investigación y la producción
Arquitectura de modelo: puente ASR y LLM
La innovación central detrás de Canary-Qwen-2.5b radica en su arquitectura híbrida. A diferencia de las tuberías ASR tradicionales que tratan la transcripción y el procesamiento posterior (resumen, preguntas y respuestas) como etapas separadas, este modelo unifica ambas capacidades a través de:
- FastConformer Coder: Un codificador de discurso de alta velocidad especializado para transcripción de baja latencia y alta precisión.
- QWEN3-1.7B LLM Decoder: Un provocado no modificado modelo de lenguaje grande (LLM) que recibe tokens transcritos de audio a través de adaptadores.
El uso de adaptadores asegura modularidad, permitiendo el Codador canario para ser separado y QWEN3-1.7B para operar como un LLM independiente para tareas basadas en texto. Esta decisión arquitectónica promueve la flexibilidad multimodal: una implementación única puede manejar las entradas habladas y escritas para las tareas de lenguaje posterior.
Puntos de referencia de rendimiento
Canary-Qwen-2.5b logra un récord era de 5.63%superando todas las entradas anteriores en la tabla de clasificación OpenAsr de Hugging Face. Esto es particularmente notable dado su tamaño relativamente modesto de 2.5 mil millones de parámetrosen comparación con algunos modelos más grandes con rendimiento inferior.
| Métrico | Valor |
|---|---|
| Feroz | 5.63% |
| Recuento de parámetros | 2.5b |
| Rtfx | 418 |
| Horas de entrenamiento | 234,000 |
| Licencia | Cc-by |
El 418 RTFX (factor en tiempo real) indica que el modelo puede procesar audio de entrada 418 × más rápido que en tiempo realuna característica crítica para las implementaciones del mundo real donde la latencia es un cuello de botella (por ejemplo, transcripción a escala o sistemas de subtítulos en vivo).
Régimen de conjunto de datos y capacitación
El modelo fue entrenado en un extenso conjunto de datos que comprende 234,000 horas de diverso discurso en ingléssuperando con creces la escala de los modelos NEMO anteriores. Este conjunto de datos incluye una amplia gama de acentos, dominios y estilos de habla, lo que permite una generalización superior en audio ruidoso, conversacional y específico de dominio.
La capacitación se realizó utilizando Marco Nemo de Nvidiacon recetas de código abierto disponibles para la adaptación comunitaria. La integración de los adaptadores permite una experimentación flexible: los investigadores pueden sustituir a diferentes codificadores o decodificadores LLM sin volver a capacitar pilas completas.
Implementación y compatibilidad de hardware
Canary-Qwen-2.5b está optimizado para una amplia gama de GPU NVIDIA:
- Centro de datos: A100, H100 y GPU más recientes de Hopper/Blackwell-Class
- Puesto de trabajo: RTX Pro 6000 (Blackwell), RTX A6000
- Consumidor: GeForce RTX 5090 y abajo
El modelo está diseñado para escalar en todas las clases de hardware, lo que lo hace adecuado tanto para la inferencia en la nube como para las cargas de trabajo en el borde privado.
Casos de uso y preparación empresarial
A diferencia de muchos modelos de investigación limitados por licencias no comerciales, Canary-Qwen-2.5b se publica bajo un Licencia de cc-byhabilitando:
- Servicios de transcripción empresarial
- Extracción de conocimiento basada en audio
- Resumen de reuniones en tiempo real
- Agentes de IA comandantes de voz
- Documentación regulatoria que cumple (Healthcare, Legal, Finance)
La decodificación del modelo de LLM también introduce mejoras en puntuación, capitalización y precisión contextualque a menudo son puntos débiles en salidas ASR. Esto es especialmente valioso para sectores como la atención médica o legal donde la mala interpretación puede tener implicaciones costosas.
Abierto: una receta para la fusión del habla y el lenguaje
Al emitir el modelo y su receta de entrenamiento, el equipo de investigación de NVIDIA tiene como objetivo catalizar los avances impulsados por la comunidad en la IA del habla. Los desarrolladores pueden mezclar y combinar con otros codificadores y LLM compatibles con NEMO, creando híbridos específicos de tareas para nuevos dominios o idiomas.
El lanzamiento también establece un precedente para ASR centrado en LLMdonde los LLM no son postprocesadores sino agentes integrados En la tubería de voz a texto. Este enfoque refleja una tendencia más amplia hacia modelos de agente -Sistemas capaces de comprensión completa y toma de decisiones basadas en entradas multimodales del mundo real.
Conclusión
Nvidia Canary-Qwen-2.5b es más que un modelo ASR: es un plan para integrar la comprensión del habla con los modelos de lenguaje de uso general. Con Rendimiento de SOTA, usabilidad comercialy vías de innovación abiertaseste lanzamiento está listo para convertirse en una herramienta fundamental para empresas, desarrolladores e investigadores que tienen como objetivo desbloquear la próxima generación de aplicaciones de IA de la primera voz.
Mira el Tabla de clasificación, Modelo en la cara abrazada y Pruébalo aquí. Todo el crédito por esta investigación va a los investigadores de este proyecto.
| Llegar a los desarrolladores de IA más influyentes en todo el mundo. 1M+ lectores mensuales, 500k+ constructores comunitarios, infinitas posibilidades. [Explore Sponsorship] |
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.