Nvidia ha dado un gran salto en el desarrollo de la IA de discursos multilingües, revelando Graneroel conjunto de datos de discurso de código abierto más grande para idiomas europeos y dos modelos de última generación: Canary-1b-V2 y Perakete-tdt-0.6b-v3. Este lanzamiento establece un nuevo estándar para recursos accesibles de alta calidad en el reconocimiento automático de voz (ASR) y la traducción del habla (AST), especialmente para los idiomas europeos subrepresentados.
Granary: la base del discurso multilingüe ai
Granero es un corpus masivo y multilingüe desarrollado en colaboración con la Universidad Carnegie Mellon y Fondazione Bruno Kessler. Se da vuelta un millón de horas de audiocon 650,000 horas para el reconocimiento de voz y 350,000 para traducción del habla. El conjunto de datos cubre 25 idiomas europeos, representando casi todos los idiomas oficiales de la UE, más ruso y ucraniano, con un enfoque crítico en idiomas con datos anotados limitados, como croata, estonia y maltesa.
Características clave:
- Conjunto de datos de discurso de código abierto más grande para 25 idiomas europeos.
- Tubería de pseudo marcado: Los datos de audio público no etiquetados se procesan utilizando el procesador de datos de voz de Nvidia Nemo, que agrega estructura y mejora la calidad, reduciendo la necesidad de anotaciones manuales intensivas en recursos.
- Admite tanto ASR como AST: Diseñado para tareas de transcripción y traducción.
- Acceso abierto: Disponible para la comunidad de desarrolladores globales para capacitación flexible de modelos a escala de producción.
Aprovechando datos limpios y de alta calidad, Granary permite una convergencia de modelo significativamente más rápida. La investigación demuestra que los desarrolladores necesitan la mitad de datos de granero para alcanzar las precisiones objetivo en comparación con los conjuntos de datos competidoreshaciéndolo especialmente valioso para los idiomas limitados por los recursos y la prototipos rápidos.
Canary-1B-V2: traducción multilingüe ASR + (EN ↔ 24 Idiomas)
Canary-1b-V2 es un modelo de codificador de miles de millones de parámetros Entrenado en granero, entregando transcripción de alta calidad y traducción entre inglés y 24 idiomas europeos respaldados.
Está diseñado para la precisión y capacidades multitarea:
- Idiomas compatibles: 25 idiomas europeos, duplicando la cobertura de Canary a partir de 4.
- Rendimiento de última generación: Precisión comparable a modelos tres veces más grandes, pero hasta 10 × inferencia más rápida.
- Capacidad multitarea: Robusto en tareas ASR y AST.
- Características: Puntuación automática, capitalización, marcas de tiempo a nivel de palabra y segmento, incluso salidas traducidas con marca de tiempo.
- Arquitectura: FastConformer Coder con el decodificador de transformador; Vocabulario unificado para todos los idiomas a través de Tokenizer de la pieza de oración.
- Robustez: Mantiene un fuerte rendimiento en condiciones ruidosas y resiste las alucinaciones de salida.
Destacados de evaluación:
- Tasa de error de palabra ASR (WER): 7.15% (conjunto de datos AMI), 10.82% (Librispeech Clean).
- AST Puntajes del cometa: 79.3 (x → inglés), 84.56 (inglés → x).
- Despliegue: Disponible bajo CC por Licencia de 4.0; Optimizado para sistemas acelerados con GPU NVIDIA, que permite un entrenamiento rápido e inferencia para el uso de producción escalable.
PARAKEET-TDT-0.6B-V3: ASR multilingüe en tiempo real en tiempo real
Perakete-tdt-0.6b-v3 es un Modelo ASR multilingüe de 600 millones de parámetros Diseñado para una transcripción de alto rendimiento o gran volumen en los 25 idiomas compatibles. Extiende a la familia del periquito (previamente centrado en el inglés) hasta la cobertura europea completa.
- Detección de lenguaje automático: Transcribe audio de entrada sin necesidad de indicaciones adicionales.
- Capacidad en tiempo real: Transcribe eficientemente segmentos de audio de hasta 24 minutos en un solo pase de inferencia.
- Rápido, escalable y listo para comercializar: Prioriza la baja latencia, el procesamiento por lotes y los resultados precisos, con marcas de tiempo a nivel de palabra, puntuación y capitalización.
- Robustez: Confiable incluso en contenido complejo (números, letras) y condiciones de audio desafiantes.
Impacto en el desarrollo del habla ai
El conjunto de datos de graneros y el suite de modelos de Nvidia aceleran la democratización de la IA del habla para Europa, lo que permite el desarrollo escalable de:
- Chatbots multilingües
- Agentes de voz de servicio al cliente
- Servicios de traducción de tiempo casi real
Los desarrolladores, investigadores y empresas ahora pueden construir aplicaciones inclusivas y de alta calidad que respaldan la diversidad lingüística, con acceso abierto a estos modelos y conjuntos de datos súper geniales
Mira el Granero, Nvidia Canary-1B-V2 y NVIDIA PARAKEET-TDT-0.6B-V3. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.