¿Puede un modelo de IA dominar todas las tareas de audio?  Conozca UniAudio: un nuevo sistema universal de generación de audio

Un aspecto clave de la IA generativa es la generación de audio. En los últimos años, la popularidad de la IA generativa ha dado lugar a necesidades cada vez más diversas y emergentes en la producción de audio. Por ejemplo, se prevé que las tecnologías de texto a sonido y de texto a música produzcan audio basado en solicitudes humanas de síntesis de voz (TTS), conversión de voz (VC), síntesis de voz cantada (SVS) y conversión de voz (VC). . La mayoría de los esfuerzos anteriores en trabajos de creación de audio tienen diseños para tareas específicas que dependen en gran medida de la experiencia en el dominio y solo se pueden utilizar en configuraciones fijas. Este estudio tiene como objetivo crear una generación de audio universal, que maneje numerosos trabajos de generación de audio con un único modelo unificado en lugar de manejar cada tarea individualmente.

Se prevé que el modelo de generación de audio universal acumulará conocimientos previos adecuados en audio y modalidades relacionadas, que pueden ofrecer soluciones sencillas y eficientes para la creciente necesidad de crear una variedad de audio. El rendimiento excepcional de la tecnología Large Language Model (LLM) en trabajos de generación de texto inspiró varios modelos de generación de audio basados ​​en LLM. Entre estos estudios, la independencia de LLM en tareas como texto a voz (TTS) y producción musical ha recibido un estudio sustancial y se desempeña de manera competitiva. Sin embargo, el potencial de LLM para manejar numerosos trabajos debe utilizarse más en la investigación de generación de audio porque la mayoría de los trabajos basados ​​en LLM todavía se centran en tareas únicas.

Sostienen que el paradigma LLM es prometedor para alcanzar la universalidad y variedad en la creación de audio, pero aún no se ha investigado a fondo. En este estudio, investigadores de la Universidad China de Hong Kong, la Universidad Carnegie Mellon, Microsoft Research Asia y la Universidad de Zhejiang presentan UniAudio, que utiliza enfoques LLM para producir una variedad de géneros de audio (habla, ruidos, música y canto) basados ​​en varios modalidades de entrada, incluidas secuencias de fonemas, descripciones textuales y el audio mismo. Las siguientes son las características clave del UniAudio planificado: Todos los formatos de audio y modalidades de entrada se tokenizan primero como secuencias discretas. Para tokenizar audio con éxito, independientemente del formato de audio, se desarrolla un modelo de códec neuronal universal y se emplean varios tokenizadores para tokenizar diversas modalidades de entrada.

https://arxiv.org/abs/2310.00704

Luego, UniAudio combina el par fuente-destino en una única secuencia. Finalmente, UniAudio utiliza LLM para realizar predicciones del siguiente token. La técnica de tokenización utiliza una cuantificación de vectores residuales basada en códecs neuronales, lo que produce secuencias de tokens excesivamente largas (un cuadro equivalente a varios tokens) que LLM no puede analizar de manera efectiva. La correlación entre cuadros e intracuadros se modela de forma independiente en una arquitectura Transformer de múltiples escalas destinada a disminuir la complejidad informática. En particular, un módulo Transformer global representa la correlación entre marcos (por ejemplo, a nivel semántico). Por el contrario, un módulo Transformer local modela la correlación dentro de los marcos (por ejemplo, a nivel acústico). La construcción de UniAudio implica dos pasos para mostrar su escalabilidad para nuevos proyectos.

En primer lugar, el UniAudio propuesto se entrena en varias tareas de generación de audio simultáneamente, lo que le da al modelo suficiente conocimiento previo tanto de las cualidades inherentes del audio como de las relaciones entre el audio y otras modalidades de entrada. En segundo lugar, con pocos ajustes, el modelo entrenado podrá acomodar más actividades de creación de audio que no son visibles. Debido a que puede adaptarse continuamente a las demandas emergentes en la generación de audio, UniAudio tiene el potencial de convertirse en un modelo básico para la generación de audio universal. Su UniAudio admite experimentalmente 11 tareas de generación de audio: la etapa de capacitación cubre siete trabajos de generación de audio y el paso de ajuste agrega cuatro tareas. Para acomodar 165.000 horas de audio y 1.000 millones de parámetros, se ha aumentado el método de construcción UniAudio.

UniAudio logra consistentemente un desempeño competitivo en las 11 tareas, según lo juzgado por estándares objetivos y subjetivos. Incluso se logran resultados modernos para la mayoría de estas tareas. Más investigaciones indican que practicar varias actividades simultáneamente en la etapa de entrenamiento beneficia todas las tareas incluidas. Además, UniAudio supera a los modelos de tareas específicas con una brecha no trivial y puede adaptarse rápidamente a nuevas cargas de trabajo de generación de audio. En conclusión, su trabajo muestra que desarrollar modelos universales de generación de audio es importante, esperanzador y ventajoso.

A continuación se presenta un resumen de las contribuciones clave de este trabajo:

(1) Para lograr la generación de audio universal, UniAudio se ofrece como una solución única para 11 trabajos de generación de audio, que es más que todos los esfuerzos anteriores en el campo.

(2) En cuanto a la técnica, UniAudio ofrece nuevas ideas para (i) representaciones secuenciales de audio y otras modalidades de entrada, (ii) formulación consistente para tareas de producción de audio basadas en LLM y (iii) arquitectura de modelo efectiva creada especialmente para la generación de audio.

(3) Los resultados de pruebas exhaustivas verifican el rendimiento general de UniAudio y demuestran las ventajas de crear un paradigma de generación de audio flexible.

(4) La demostración y el código fuente de UniAudio se hacen públicos, con la esperanza de que ayuden a la producción de audio emergente en estudios futuros como modelo básico.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.