Este artículo de IA propone CoMoSVC: un método SVC basado en modelos de consistencia que tiene como objetivo lograr tanto una generación de alta calidad como un muestreo de alta velocidad

La conversión de voz para cantar (SVC) es un dominio fascinante dentro del procesamiento de audio, cuyo objetivo es transformar la voz de un cantante en la de otro manteniendo intactos el contenido y la melodía de la canción. Esta tecnología tiene amplias aplicaciones, desde mejorar el entretenimiento musical hasta la creación artística. Un desafío importante en este campo han sido las bajas velocidades de procesamiento, especialmente en los métodos SVC basados ​​en difusión. Si bien producen audio natural y de alta calidad, estos métodos se ven obstaculizados por sus largos e iterativos procesos de muestreo, lo que los hace menos adecuados para aplicaciones en tiempo real.

Varios modelos generativos han intentado abordar los desafíos de SVC, incluidos los modelos autorregresivos, las redes generativas adversarias, la normalización del flujo y los modelos de difusión. Cada método intenta desenredar y codificar características independientes y dependientes del cantante de los datos de audio, con distintos grados de éxito en la calidad del audio y la eficiencia del procesamiento.

La introducción de CoMoSVC, un nuevo método desarrollado por la Universidad de Ciencia y Tecnología de Hong Kong y Microsoft Research Asia que aprovecha el modelo de coherencia, marca un avance notable en SVC. Este enfoque tiene como objetivo lograr una generación de audio de alta calidad y un muestreo rápido simultáneamente. En esencia, CoMoSVC emplea un modelo docente basado en difusión diseñado específicamente para SVC y refina aún más su proceso a través de un modelo de estudiante destilado bajo propiedades de autoconsistencia. Esta innovación permite el muestreo en un solo paso, un importante avance para abordar la lenta velocidad de inferencia de los métodos tradicionales.

Profundizando en la metodología, CoMoSVC opera a través de un proceso de dos etapas: codificación y decodificación. En la etapa de codificación, se extraen características de la forma de onda y la identidad del cantante se codifica en incrustaciones. La etapa de decodificación es donde CoMoSVC realmente innova. Utiliza estas incrustaciones para generar espectrogramas de fusión, que posteriormente se convierten en audio. La característica destacada de CoMoSVC es su modelo de estudiante, extraído de un modelo de maestro previamente capacitado. Este modelo permite un muestreo de audio rápido en un solo paso preservando al mismo tiempo la alta calidad, una hazaña que no se lograba con métodos anteriores.

En términos de rendimiento, CoMoSVC demuestra resultados notables. Supera significativamente a los sistemas SVC basados ​​en difusión de última generación en velocidad de inferencia, hasta 500 veces más rápido. Sin embargo, mantiene o supera su calidad de audio y un rendimiento similar. Las evaluaciones objetivas y subjetivas de CoMoSVC revelan su capacidad para lograr un rendimiento de conversión comparable o superior. Este equilibrio entre velocidad y calidad convierte a CoMoSVC en un desarrollo innovador en la tecnología SVC.

En conclusión, CoMoSVC es un hito importante en la tecnología de conversión de voz para cantar. Aborda el problema crítico de la velocidad de inferencia lenta sin comprometer la calidad del audio. Al combinar de forma innovadora un marco de trabajo modelo profesor-alumno con el modelo de coherencia, CoMoSVC establece un nuevo estándar en el campo, ofreciendo una conversión de voz rápida y de alta calidad que podría revolucionar las aplicaciones en el entretenimiento musical y más allá. Este avance resuelve un desafío de larga data en SVC y abre nuevas posibilidades para aplicaciones de conversión de voz eficientes y en tiempo real.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Muhammad Athar Ganaie, pasante de consultoría en MarktechPost, es un defensor del aprendizaje profundo eficiente, con especial atención en la capacitación dispersa. Cursando un M.Sc. en Ingeniería Eléctrica, con especialización en Ingeniería de Software, combina conocimientos técnicos avanzados con aplicaciones prácticas. Su esfuerzo actual es su tesis sobre “Mejora de la eficiencia en el aprendizaje por refuerzo profundo”, que muestra su compromiso de mejorar las capacidades de la IA. El trabajo de Athar se encuentra en la intersección “Capacitación escasa en DNN” y “Aprendizaje por refuerzo profundo”.