El equipo de Alibaba Qwen lanza QWEN3-ASR: un nuevo modelo de reconocimiento de voz basado en QWEN3-OMNI logrando una sólida actuación de recogición del habla




El equipo qwen de Alibaba Cloud presentó QWEN3-asr flashun modelo de reconocimiento de voz automático todo en uno (ASR) (disponible como Servicio API) construido sobre la fuerte inteligencia de QWEN3-OMNI que simplifica la transcripción multilingüe, ruidosa y específica de dominio sin hacer malabares con múltiples sistemas.

Capacidades clave

  • Reconocimiento multilingüe: Apoya la detección automática y la transcripción en 11 idiomas, incluidos inglés y chino, además de árabe, alemán, español, francés, italiano, japonés, coreano, portugués, ruso y chino simplificado (ZH). Esa amplitud posiciona QWEN3-ASR para el uso global sin modelos separados.
  • Mecanismo de inyección de contexto: Los usuarios pueden pegar texto arbitrario (nombres, jerga específica del dominio, incluso cadenas sin sentido) para sesgar la transcripción. Esto es especialmente poderoso en escenarios ricos en modismos, sustantivos propios o jerga en evolución.
  • Manejo de audio robusto: Mantiene el rendimiento en entornos ruidosos, grabaciones de baja calidad, entrada de campo lejano (por ejemplo, micrófonos de distancia) y voces multimedia como canciones o raps. La tasa de error de palabras informada (WER) permanece por debajo del 8%, lo que es técnicamente impresionante para entradas tan diversas.
  • Simplicidad de un solo modelo: Elimina la complejidad de mantener diferentes modelos para idiomas o contextos de audio, un modelo con un servicio API para gobernarlos a todos.

Los casos de uso abarcan plataformas edtech (captura de conferencias, tutoría multilingüe), medios (subtitulación, voz en off) y servicio al cliente (IVR multilingüe o transcripción de soporte).

https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list

Evaluación técnica

  1. Detección del idioma + transcripción
    La detección de lenguaje automático deja que el modelo Determine el lenguaje antes de transcribir, crucial para entornos de lenguaje mixto o captura de audio pasiva. Esto reduce la necesidad de selección manual del lenguaje y mejora la usabilidad.
  2. Inyección de token de contexto
    Pectar el texto como “contexto” sesga el reconocimiento hacia el vocabulario esperado. Técnicamente, esto podría operar a través de un ajuste de prefijo o inyección de prefijo, con un contexto en el flujo de entrada para influir en la decodificación. Es una forma flexible de adaptarse a los léxicos específicos del dominio sin volver a capacitar el modelo.
  3. Fueron <8% en escenarios complejos
    El mantenimiento de sub-8% fue a través de la música, el rap, el ruido de fondo y el audio de baja fidelidad coloca QWEN3-ASR en el nivel superior de los sistemas de reconocimiento abierto. A modo de comparación, los modelos robustos en el discurso de lectura limpia, el objetivo del 3 a 5%, pero el rendimiento generalmente se degrada significativamente en contextos ruidosos o musicales.
  4. Cobertura multilingüe
    Apoyar 11 idiomas, incluida la divergencia en chinos y idiomas logográficos con fonotácticas variables como el árabe y el japonés, sugiere datos de entrenamiento multilingües sustanciales y capacidad de modelado interlingüal. El manejo de idiomas tonales (mandarina) y no tonales no es trivial.
  5. Arquitectura de un solo modelo
    Operacionalmente elegante: implementa un modelo para todas las tareas. Esto reduce la carga de OPS: no es necesario cambiar o seleccionar modelos dinámicamente. Todo se ejecuta en una tubería ASR unificada con detección de lenguaje incorporado.

Despliegue y demostración

El espacio facial de abrazos para QWEN3-ASR proporciona una interfaz en vivo: cargar audio, opcionalmente contexto de entrada y elegir un idioma o usar autodetect. Está disponible como un servicio API.

Conclusión

QWEN3-ASR Flash (disponible como un servicio API) es una solución ASR técnicamente convincente y de implementación. Ofrece una combinación rara: soporte multilingüe, transcripción consciente del contexto y reconocimiento de robos de ruido, todo en un modelo.


Mira el Servicio API, Detalle técnico y Demostración en la cara abrazada. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.