Este artículo de IA de Apple propone la fusión de modelos acústicos para reducir drásticamente las tasas de error de palabras en los sistemas de reconocimiento de voz

Se han realizado mejoras significativas para mejorar la precisión y eficiencia de los sistemas de reconocimiento automático de voz (ASR). La investigación reciente profundiza en la integración de un modelo acústico (AM) externo en sistemas ASR de extremo a extremo (E2E), presentando un enfoque que aborda el desafío persistente de la falta de coincidencia de dominios, un obstáculo común en la tecnología de reconocimiento de voz. Esta metodología de Apple, conocida como Acoustic Model Fusion (AMF), tiene como objetivo refinar el proceso de reconocimiento de voz aprovechando las fortalezas de los modelos acústicos externos para complementar las capacidades inherentes de los sistemas E2E.

Los sistemas E2E ASR anteriores son famosos por su arquitectura optimizada, que combina todos los componentes esenciales de reconocimiento de voz en una única red neuronal. Esta integración facilita el proceso de aprendizaje del sistema, permitiéndole predecir secuencias de caracteres o palabras directamente desde la entrada de audio. A pesar de la simplificación y eficiencia que ofrece este modelo, encuentra limitaciones cuando trata con palabras raras o complejas que están subrepresentadas en sus datos de entrenamiento. Los esfuerzos anteriores se han centrado principalmente en incorporar modelos de lenguaje (LM) externos para mejorar el vocabulario del sistema. Esta solución debe abordar completamente la discrepancia de dominio entre la comprensión acústica interna del modelo y sus diversas aplicaciones en el mundo real.

La técnica AMF del equipo de investigación de Apple surge como una solución innovadora a este problema. Al integrar un AM externo con el sistema E2E, AMF enriquece el sistema con un conocimiento acústico más amplio y reduce significativamente las tasas de error de palabras (WER). La metodología implica interpolar meticulosamente puntuaciones del AM externo con las del sistema E2E, similar a las técnicas de fusión superficial pero aplicada claramente al modelado acústico. Este enfoque innovador ha demostrado mejoras notables en el rendimiento del sistema, particularmente en el reconocimiento de entidades nombradas y el abordaje de los desafíos de las palabras raras.

La eficacia de AMF se probó rigurosamente a través de una serie de experimentos utilizando diversos conjuntos de datos, incluidas consultas de asistentes virtuales, oraciones dictadas y pares de audio-texto sintetizados diseñados para probar la capacidad del sistema para reconocer entidades nombradas con precisión. Los resultados de estas pruebas fueron convincentes y mostraron una reducción notable en el WER: hasta un 14,3% en diferentes conjuntos de pruebas. Este logro resalta el potencial de AMF para mejorar la precisión y confiabilidad de los sistemas ASR.

Algunos hallazgos y contribuciones clave de esta investigación incluyen:

  • La introducción de Acoustic Model Fusion como un método novedoso para integrar conocimiento acústico externo en sistemas E2E ASR aborda el problema de la falta de coincidencia de dominios.
  • Hubo una reducción significativa en las tasas de error de palabras, con una mejora de hasta un 14,3 % en varios conjuntos de pruebas, lo que demuestra la eficacia de AMF para mejorar la precisión del reconocimiento de voz.
  • Reconocimiento mejorado de entidades nombradas y palabras raras, lo que subraya el potencial del método para mejorar el vocabulario y la adaptabilidad del sistema.
  • Esta demostración de la superioridad de AMF sobre los métodos tradicionales de integración LM ofrece una dirección prometedora para futuros avances en la tecnología ASR.

Las implicaciones de esta investigación son profundas y allanan el camino para sistemas de reconocimiento de voz más precisos, eficientes y adaptables. El éxito de Acoustic Model Fusion para mitigar las discrepancias de dominios y mejorar el reconocimiento de palabras abre nuevas vías para aplicar la tecnología ASR en una gran variedad de dominios. Este estudio aporta una innovación significativa al reconocimiento de voz y sienta las bases para una mayor exploración y desarrollo en la búsqueda de una interacción perfecta entre humanos y computadoras a través del habla.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.