En el ámbito de la inteligencia artificial, el reconocimiento y la traducción de voz multilingües se han convertido en herramientas esenciales para facilitar la comunicación global. Sin embargo, el desarrollo de modelos que puedan transcribir y traducir con precisión múltiples idiomas en tiempo real presenta desafíos significativos. Estos desafíos incluyen la gestión de diversos matices lingüísticos, mantener una alta precisión, garantizar una baja latencia e implementar modelos de manera eficiente en varios dispositivos.

Para abordar estos desafíos, Nvidia AI tiene dos modelos de código abierto: Canary 1B Flash y Canary 180m Flash. Estos modelos están diseñados para el reconocimiento y traducción de voz multilingües, que apoyan idiomas como inglés, alemán, francés y español. Lanzado bajo la licencia permisiva de CC-by-4.0, estos modelos están disponibles para uso comercial, fomentando la innovación dentro de la comunidad de IA.

Técnicamente, ambos modelos utilizan una arquitectura de codificador codificador. El codificador se basa en FastConformer, que procesa eficientemente las características de audio, mientras que el decodificador de transformador maneja la generación de texto. Los tokens específicos de la tarea, que incluyen , , y (puntuación y capitalización), guíe la salida del modelo. El modelo Canary 1B Flash comprende 32 capas codificadoras y 4 capas decodificadoras, totalizando 883 millones de parámetros, mientras que el modelo Canary 180m Flash consta de 17 capas codificadoras y 4 capas decodificadoras, que ascienden a 182 millones de parámetros. Este diseño garantiza la escalabilidad y la adaptabilidad a varios idiomas y tareas. ​

Las métricas de rendimiento indican que el modelo Canary 1B Flash logra una velocidad de inferencia superior a 1000 RTFX en los conjuntos de datos abiertos de la tabla de clasificación ASR, lo que permite el procesamiento en tiempo real. En las tareas de reconocimiento de voz automático en inglés (ASR), alcanza una tasa de error de palabras (WER) de 1.48% en el conjunto de datos de Librispeech Clean y 2.87% en el conjunto de datos de Librispeech. Para ASR multilingüe, el modelo logra WERS de 4.36% para alemán, 2.69% para español y 4.47% para francés en el conjunto de pruebas MLS. En las tareas de traducción del habla automática (AST), el modelo demuestra un rendimiento robusto con puntajes de BLU de 32.27 para inglés a alemán, 22.6 para inglés a español y 41.22 para inglés a francés en el conjunto de pruebas de Fleurs. ​

Datos al 20 de marzo 2025

El modelo de flash Canary de 180 m más pequeño también ofrece resultados impresionantes, con una velocidad de inferencia que supera 1200 RTFX. Logra un WER de 1.87% en el conjunto de datos Librispeech Clean y 3.83% en el conjunto de datos Librispeech para inglés ASR. Para ASR multilingüe, el modelo registra el 4.81% para alemán, 3.17% para español y 4.75% para francés en el conjunto de pruebas MLS. En tareas AST, logra puntajes de Bleu de 28.18 para inglés a alemán, 20.47 para inglés a español y 36.66 para inglés a francés en el set de la prueba de Fleurs. ​

Ambos modelos admiten la campaña a nivel de palabras y a nivel de segmento, mejorando su utilidad en aplicaciones que requieren una alineación precisa entre audio y texto. Sus tamaños compactos los hacen adecuados para la implementación en el dispositivo, permitiendo el procesamiento fuera de línea y reduciendo la dependencia de los servicios en la nube. Además, su robustez conduce a menos alucinaciones durante las tareas de traducción, lo que garantiza resultados más confiables. El lanzamiento de código abierto bajo la licencia CC-by-4.0 fomenta la utilización comercial y un mayor desarrollo por parte de la comunidad.

En conclusión, la fuente abierta de NVIDIA de los modelos Flash Canary 1B y 180M representa un avance significativo en el reconocimiento y traducción de voz multilingües. Su alta precisión, capacidades de procesamiento en tiempo real y adaptabilidad para la implementación en el dispositivo abordan muchos desafíos existentes en el campo. Al hacer que estos modelos estén disponibles públicamente, NVIDIA no solo demuestra su compromiso con avanzar en la investigación de IA, sino que también permite a los desarrolladores y organizaciones construir herramientas de comunicación más inclusivas y eficientes.


Verificar el Canario 1B Modelo y Canario Flash de 180m. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Por automata