Los avances recientes en los modelos lingüísticos muestran impresionantes capacidades de conversión de voz (VC) inmediata. Sin embargo, los modelos de VC predominantes basados en modelos de lenguaje generalmente utilizan la conversión fuera de línea de la semántica fuente a características acústicas, lo que requiere la totalidad del habla fuente y limita su aplicación a escenarios en tiempo real.
En esta investigación, un equipo de investigadores de la Universidad Politécnica Northwestern, China, y ByteDance presentan StreamVoice. StreamVoice es un novedoso método basado en un modelo de lenguaje de transmisión (LM) para la conversión de voz (VC) inmediata, que permite la conversión en tiempo real con cualquier indicación del hablante y voz fuente. StreamVoice logra la capacidad de transmisión mediante el empleo de un LM totalmente causal y consciente del contexto con un predictor acústico independiente del tiempo.
Este modelo procesa alternativamente características semánticas y acústicas en cada paso de tiempo de autorregresión, eliminando la necesidad de un discurso fuente completo. Para mitigar la posible degradación del rendimiento en el procesamiento de streaming debido a un contexto incompleto, se emplean dos estrategias:
1) previsión del contexto guiada por el profesor, donde un modelo docente resume el contexto semántico presente y futuro durante el entrenamiento para guiar la previsión del modelo para el contexto faltante.
2) estrategia de enmascaramiento semántico, que promueve la predicción acústica a partir de entradas semánticas y acústicas corruptas anteriores para mejorar la capacidad de aprendizaje del contexto. En particular, StreamVoice se destaca como el primer modelo de VC de transmisión cero basado en LM sin ninguna perspectiva futura. Los resultados experimentales muestran la capacidad de conversión de streaming de StreamVoice manteniendo al mismo tiempo un rendimiento cero comparable al de los sistemas VC sin streaming.
La figura anterior demuestra el concepto de VC de disparo cero que emplea el marco de síntesis de reconocimiento ampliamente utilizado. StreamVoice se basa en este paradigma popular. Los experimentos realizados ilustran que StreamVoice exhibe la capacidad de realizar la conversión de voz en forma de transmisión, logrando una alta similitud de hablantes tanto para hablantes familiares como desconocidos. Mantiene niveles de rendimiento comparables a los sistemas de conversión de voz (VC) sin transmisión. Como modelo de VC de disparo cero basado en el modelo de lenguaje inicial (LM) sin ninguna anticipación futura, todo el proceso de StreamVoice incurre en una latencia de solo 124 ms para el proceso de conversión. Esto es notablemente 2,4 veces más rápido que en tiempo real en una sola GPU A100, incluso sin optimizaciones de ingeniería. El trabajo futuro del equipo implica utilizar más datos de entrenamiento para mejorar la capacidad de modelado de StreamVoice. También planean optimizar el canal de transmisión, incorporando un códec de alta fidelidad con una tasa de bits baja y un modelo de transmisión unificado.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Janhavi Lande, se graduó en Ingeniería Física del IIT Guwahati, promoción de 2023. Es una futura científica de datos y ha estado trabajando en el mundo de la investigación ml/ai durante los últimos dos años. Lo que más le fascina es este mundo en constante cambio y su constante exigencia de que los humanos se mantengan al día. En su pasatiempo le gusta viajar, leer y escribir poemas.