NVIDIA AI Liberes Canary-Qwen-2.5b: un modelo híbrido ASR-LLM de última generación con rendimiento de SOTA en la clasificación de OpenAsr

Nvidia acaba de lanzar Canary-Qwen-2.5bun innovador híbrido de reconocimiento automático de discurso (ASR) y Modelo de lenguaje (LLM), que ahora encabeza la tabla de clasificación de AbrainAsr con una tabla de clasificación de récords Tasa de error de palabras (WER) de 5.63%. Con licencia bajo Cc-byeste modelo es ambos comercialmente permisivo y de código abiertoEmpujando la IA del discurso preparada para la empresa sin restricciones de uso. Esta versión marca un hito técnico significativo al unificar la transcripción y la comprensión del lenguaje en una sola arquitectura de modelo, lo que permite tareas posteriores como resumen y respuesta de preguntas directamente desde el audio.

Destacados clave

5.63% fue – La más baja en la tabla de clasificación de AbrainAsr.
RTFX de 418 – Alta velocidad de inferencia en parámetros 2.5B
Admite los modos ASR y LLM -habilitando transcribir-Then-Analyizar flujos de trabajo
Licencia comercial (CC-BY) – Listo para la implementación empresarial
Código abierto a través de Nemo – personalizable y extensible para la investigación y la producción

Arquitectura de modelo: puente ASR y LLM

La innovación central detrás de Canary-Qwen-2.5b radica en su arquitectura híbrida. A diferencia de las tuberías ASR tradicionales que tratan la transcripción y el procesamiento posterior (resumen, preguntas y respuestas) como etapas separadas, este modelo unifica ambas capacidades a través de:

FastConformer Coder: Un codificador de discurso de alta velocidad especializado para transcripción de baja latencia y alta precisión.
QWEN3-1.7B LLM Decoder: Un provocado no modificado modelo de lenguaje grande (LLM) que recibe tokens transcritos de audio a través de adaptadores.

El uso de adaptadores asegura modularidad, permitiendo el Codador canario para ser separado y QWEN3-1.7B para operar como un LLM independiente para tareas basadas en texto. Esta decisión arquitectónica promueve la flexibilidad multimodal: una implementación única puede manejar las entradas habladas y escritas para las tareas de lenguaje posterior.

Puntos de referencia de rendimiento

Canary-Qwen-2.5b logra un récord era de 5.63%superando todas las entradas anteriores en la tabla de clasificación OpenAsr de Hugging Face. Esto es particularmente notable dado su tamaño relativamente modesto de 2.5 mil millones de parámetrosen comparación con algunos modelos más grandes con rendimiento inferior.

Métrico	Valor
Feroz	5.63%
Recuento de parámetros	2.5b
Rtfx	418
Horas de entrenamiento	234,000
Licencia	Cc-by

El 418 RTFX (factor en tiempo real) indica que el modelo puede procesar audio de entrada 418 × más rápido que en tiempo realuna característica crítica para las implementaciones del mundo real donde la latencia es un cuello de botella (por ejemplo, transcripción a escala o sistemas de subtítulos en vivo).

Régimen de conjunto de datos y capacitación

El modelo fue entrenado en un extenso conjunto de datos que comprende 234,000 horas de diverso discurso en ingléssuperando con creces la escala de los modelos NEMO anteriores. Este conjunto de datos incluye una amplia gama de acentos, dominios y estilos de habla, lo que permite una generalización superior en audio ruidoso, conversacional y específico de dominio.

La capacitación se realizó utilizando Marco Nemo de Nvidiacon recetas de código abierto disponibles para la adaptación comunitaria. La integración de los adaptadores permite una experimentación flexible: los investigadores pueden sustituir a diferentes codificadores o decodificadores LLM sin volver a capacitar pilas completas.

Implementación y compatibilidad de hardware

Canary-Qwen-2.5b está optimizado para una amplia gama de GPU NVIDIA:

Centro de datos: A100, H100 y GPU más recientes de Hopper/Blackwell-Class
Puesto de trabajo: RTX Pro 6000 (Blackwell), RTX A6000
Consumidor: GeForce RTX 5090 y abajo

El modelo está diseñado para escalar en todas las clases de hardware, lo que lo hace adecuado tanto para la inferencia en la nube como para las cargas de trabajo en el borde privado.

Casos de uso y preparación empresarial

A diferencia de muchos modelos de investigación limitados por licencias no comerciales, Canary-Qwen-2.5b se publica bajo un Licencia de cc-byhabilitando:

Servicios de transcripción empresarial
Extracción de conocimiento basada en audio
Resumen de reuniones en tiempo real
Agentes de IA comandantes de voz
Documentación regulatoria que cumple (Healthcare, Legal, Finance)

La decodificación del modelo de LLM también introduce mejoras en puntuación, capitalización y precisión contextualque a menudo son puntos débiles en salidas ASR. Esto es especialmente valioso para sectores como la atención médica o legal donde la mala interpretación puede tener implicaciones costosas.

Abierto: una receta para la fusión del habla y el lenguaje

Al emitir el modelo y su receta de entrenamiento, el equipo de investigación de NVIDIA tiene como objetivo catalizar los avances impulsados por la comunidad en la IA del habla. Los desarrolladores pueden mezclar y combinar con otros codificadores y LLM compatibles con NEMO, creando híbridos específicos de tareas para nuevos dominios o idiomas.

El lanzamiento también establece un precedente para ASR centrado en LLMdonde los LLM no son postprocesadores sino agentes integrados En la tubería de voz a texto. Este enfoque refleja una tendencia más amplia hacia modelos de agente -Sistemas capaces de comprensión completa y toma de decisiones basadas en entradas multimodales del mundo real.

Conclusión

Nvidia Canary-Qwen-2.5b es más que un modelo ASR: es un plan para integrar la comprensión del habla con los modelos de lenguaje de uso general. Con Rendimiento de SOTA, usabilidad comercialy vías de innovación abiertaseste lanzamiento está listo para convertirse en una herramienta fundamental para empresas, desarrolladores e investigadores que tienen como objetivo desbloquear la próxima generación de aplicaciones de IA de la primera voz.

Mira el Tabla de clasificación, Modelo en la cara abrazada y Pruébalo aquí. Todo el crédito por esta investigación va a los investigadores de este proyecto.

Llegar a los desarrolladores de IA más influyentes en todo el mundo. 1M+ lectores mensuales, 500k+ constructores comunitarios, infinitas posibilidades. [Explore Sponsorship]

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

NVIDIA AI Liberes Canary-Qwen-2.5b: un modelo híbrido ASR-LLM de última generación con rendimiento de SOTA en la clasificación de OpenAsr

ByEquipo de 7 minutos

Destacados clave

Arquitectura de modelo: puente ASR y LLM

Puntos de referencia de rendimiento

Régimen de conjunto de datos y capacitación

Implementación y compatibilidad de hardware

Casos de uso y preparación empresarial

Abierto: una receta para la fusión del habla y el lenguaje

Conclusión

By Equipo de 7 minutos

Related Post

Google AI lanza diagnóstico automático: un sistema basado en LLM de modelo de lenguaje grande para diagnosticar fallas en las pruebas de integración a escala

Las 19 principales herramientas de AI Red Teaming (2026): proteja sus modelos de aprendizaje automático

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

You missed

Qué hacer en España si tu vuelo se retrasa por huelgas

Reseña de Mr. X: un thriller ingenioso que va a lo seguro

La ciencia detrás de la moda de los péptidos

Inicio Fotos revelan las condiciones de vida antes del arresto