NVIDIA AI presenta SD-SDS: un marco basado en difusión unificado para la síntesis de audio guiada por aviso y separación de fuente sin conjuntos de datos especializados

Los modelos de difusión de audio han logrado la síntesis de sonido, música y foley de alta calidad, sin embargo, se destacan predominantemente en la generación de muestras en lugar de la optimización de los parámetros. Tareas como la generación de sonido de impacto físicamente informado o la separación de fuente impulsada por el aviso requieren modelos que puedan ajustar los parámetros explícitos e interpretables bajo restricciones estructurales. El muestreo de destilación de puntaje (SDS), que ha impulsado el texto a 3D y la edición de imágenes mediante la retroceso a través de los priors de difusión previos a la aparición, aún no se ha aplicado al audio. Adaptar SDS a la difusión de audio permite optimizar las representaciones de audio paramétricos sin ensamblar grandes conjuntos de datos específicos de tareas, uniendo modelos generativos modernos con flujos de trabajo de síntesis parametrizados.

Técnicas de audio clásicas, como la síntesis de modulación de frecuencia (FM), que utiliza osciladores modulados por operadores para crear timbres ricos y simuladores de impacto físicamente fundamentados, proporcionan espacios de parámetros compactos e interpretables. Del mismo modo, la separación de la fuente ha evolucionado de la factorización de la matriz a métodos neurales y guiados por texto para aislar componentes como voces o instrumentos. Al integrar las actualizaciones de SDS con modelos de difusión de audio previos a la aparición, se puede aprovechar los antecedentes generativos aprendidos para guiar la optimización de los parámetros de FM, los simuladores de sonido de impacto o las máscaras de separación directamente de las indicaciones de alto nivel, uniendo la interpretabilidad del procesamiento de señales con la flexibilidad de la generación moderna basada en la difusión.

Los investigadores de NVIDIA y MIT introducen audio-SDS, una extensión de SDS para modelos de difusión de audio condicionados con texto. Audio-SDD aprovecha un solo modelo previo al estado previo para realizar varias tareas de audio sin requerir conjuntos de datos especializados. La destilación de antecedentes generativos en representaciones paramétricas de audio facilita tareas como simulación de sonido de impacto, calibración de parámetros de síntesis de FM y separación de fuente. El marco combina antecedentes basados ​​en datos con control explícito de parámetros, produciendo resultados perceptualmente convincentes. Las mejoras clave incluyen un SDS basado en decodificadores estable, Denoising de varios pasos y un enfoque de espectrograma multiescala para obtener mejores detalles y realismo de alta frecuencia.

El estudio analiza la aplicación de SDS a los modelos de difusión de audio. Inspirado en Dreamfusion, SDS genera audio estéreo a través de una función de representación, mejorando el rendimiento al evitar los gradientes del codificador y centrarse en el audio decodificado. La metodología se ve reforzada por tres modificaciones: evitar la inestabilidad del codificador, enfatizar las características del espectrograma para resaltar los detalles de alta frecuencia y el uso de la renoización de múltiples pasos para una mejor estabilidad. Las aplicaciones de audio-SDS incluyen sintetizadores de FM, síntesis de sonido de impacto y separación de fuente. Estas tareas muestran cómo SDS se adapta a diferentes dominios de audio sin capacitar, asegurando que el sintetización de audio se alinee con las indicaciones textuales mientras se mantiene una alta fidelidad.

El rendimiento del marco de audio-SDS se demuestra en tres tareas: síntesis de FM, síntesis de impacto y separación de fuente. Los experimentos están diseñados para probar la efectividad del marco utilizando las métricas subjetivas (pruebas de escucha) y objetiva, como la puntuación de aplause, la distancia a la verdad del suelo y la relación señal / distorsión (SDR). Se utilizan modelos previos a la aparición, como el punto de control de Audio Open Stable para estas tareas. Los resultados muestran mejoras significativas en la síntesis de audio y la separación, con una clara alineación con las indicaciones de texto.

En conclusión, el estudio introduce Audio-SDS, un método que extiende SDS a modelos de difusión de audio condicionados por texto. Utilizando un solo modelo previo al estado previo, Audio-SDS permite una variedad de tareas, como simular sonidos de impacto físicamente informados, ajustar los parámetros de síntesis de FM y realizar la separación de la fuente basada en las indicaciones. El enfoque unifica los antecedentes basados ​​en datos con representaciones definidas por el usuario, eliminando la necesidad de grandes conjuntos de datos específicos de dominio. Si bien existen desafíos en la cobertura del modelo, los artefactos de codificación latente y la sensibilidad a la optimización, el audio-SDS demuestra el potencial de los métodos basados ​​en la destilación para la investigación multimodal, particularmente en tareas relacionadas con el audio.


Mira el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.