WavTokenizer: un innovador modelo de códec acústico que redefine la compresión de audio

Los modelos de lenguaje a gran escala han logrado avances significativos en tareas generativas que involucran síntesis de voz de múltiples hablantes, generación de música y generación de audio. La integración de la modalidad de voz en modelos grandes unificados multimodales también se ha vuelto popular, como se ve en modelos como SpeechGPT y AnyGPT. Estos avances se deben en gran medida a las representaciones de códecs acústicos discretos que se utilizan a partir de modelos de códecs neuronales. Sin embargo, plantea desafíos para cerrar la brecha entre el habla continua y los modelos de lenguaje basados ​​en tokens. Si bien los modelos de códecs acústicos actuales ofrecen una buena calidad de reconstrucción, hay margen de mejora en áreas como la compresión de alta tasa de bits y la profundidad semántica.

Los métodos existentes se centran en tres áreas principales para abordar los desafíos de los modelos de códecs acústicos. El primer método incluye una mejor calidad de reconstrucción mediante técnicas como AudioDec, que demostró la importancia de los discriminadores, y DAC, que mejoró la calidad utilizando técnicas como la eliminación del cuantificador. El segundo método utiliza desarrollos mejorados basados ​​en compresión, como la estructura GRVQ paralela de HiFi-Codec y el mecanismo MCRVQ de Language-Codec, logrando un buen rendimiento con menos cuantificadores para ambos. El último método apunta a profundizar la comprensión del espacio de códec con TiCodec modelando información independiente del tiempo y dependiente del tiempo, mientras que FACodec separa el contenido, el estilo y los detalles acústicos.

Un equipo de la Universidad de Zhejiang, Alibaba Group y Fundamental AI Research de Meta han propuesto WavTokenizer, un nuevo modelo de códec acústico que ofrece ventajas significativas sobre los modelos de última generación anteriores en el dominio del audio. WavTokenizer logra una compresión extrema al reducir las capas de cuantificadores y la dimensión temporal del códec discreto, con solo 40 o 75 tokens para un segundo de audio de 24 kHz. Además, su diseño contiene un espacio VQ más amplio, ventanas contextuales extendidas, redes de atención mejoradas, un potente discriminador multiescala y una estructura de transformada de Fourier inversa. Demuestra un gran rendimiento en varios dominios, como el habla, el audio y la música.

La arquitectura de WavTokenizer está diseñada para un modelado unificado en dominios como el habla multilingüe, la música y el audio. Su versión grande se entrena con aproximadamente 80.000 horas de datos de varios conjuntos de datos, incluidos LibriTTS, VCTK, CommonVoice, etc. Su versión mediana utiliza un subconjunto de 5.000 horas, mientras que la versión pequeña se entrena con 585 horas de datos de LibriTTS. El rendimiento de WavTokenizer se evalúa en comparación con modelos de códecs de última generación utilizando archivos de peso oficiales de varios marcos como Encodec 2, HiFi-Codec 3, etc. Se entrena en GPU NVIDIA A800 80G, con muestras de entrada de 24 kHz. La optimización del modelo propuesto se realiza utilizando el optimizador AdamW con configuraciones específicas de tasa de aprendizaje y decaimiento.

Los resultados demostraron el excelente desempeño de WavTokenizer en varios conjuntos de datos y métricas. El WavTokenizer-small supera al modelo DAC de última generación en 0,15 en la métrica UTMOS y el subconjunto de prueba limpia de LibriTTS, lo que coincide estrechamente con la percepción humana de la calidad del audio. Además, este modelo supera al modelo de 100 tokens de DAC en todas las métricas con solo 40 y 75 tokens, lo que demuestra su eficacia en la reconstrucción de audio con un solo cuantificador. El WavTokenizer tiene un desempeño comparable al de Vocos con 4 cuantificadores y SpeechTokenizer con 8 cuantificadores en métricas objetivas como STOI, PESQ y puntuación F1.

En conclusión, WavTokenizer muestra un avance significativo en los modelos de códecs acústicos, capaz de cuantificar un segundo de voz, música o audio en tan solo 75 o 40 tokens de alta calidad. Este modelo logra resultados comparables a los modelos existentes en el conjunto de datos de prueba limpios de LibriTTS, al tiempo que ofrece una compresión extrema. El equipo realizó un análisis exhaustivo de las motivaciones de diseño detrás del espacio VQ y el decodificador y validó la importancia de cada nuevo módulo a través de estudios de ablación. Los hallazgos muestran que WavTokenizer tiene el potencial de revolucionar la compresión y reconstrucción de audio en varios dominios. En el futuro, los investigadores planean consolidar la posición de WavTokenizer como una solución de vanguardia en el campo de los modelos de códecs acústicos.


Echa un vistazo a la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’


Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.