Screenshot 2023 09 20 At 12.36.44 Am.png

Un desafío clave en el campo del procesamiento de audio digital es la superresolución de audio. Su objetivo es mejorar la calidad de las señales de audio anticipando e incorporando componentes de alta frecuencia faltantes en datos de audio de baja resolución. El objetivo principal es ofrecer una experiencia auditiva más inmersiva y superior, es decir, alta fidelidad. La superresolución de audio es una tecnología crucial con numerosos usos, como la restauración de grabaciones antiguas. Sin embargo, los enfoques anteriores en este campo tienen varios inconvenientes, como su restricción a un rango estrecho de configuraciones de ancho de banda, que generalmente se limita a 4 kHz a 8 kHz, y su estrecha concentración en géneros de audio particulares, como la música o el habla.

Para superar los desafíos, un equipo de investigadores propuso recientemente un método innovador llamado AudioSR (Audio Super Resolution), que se basa en modelos generativos basados ​​en difusión. AudioSR proporciona sólidas capacidades de superresolución de audio para una variedad de sonidos, incluidos habla, música y efectos de sonido. La adaptabilidad de AudioSR al manejar varios formatos de audio es una de sus cualidades destacables. Puede procesar superresolución para proporcionar una salida de audio de alta calidad con un ancho de banda constante de 24 kHz y una frecuencia de muestreo de 48 kHz de una variedad de fuentes que producen señales de audio con anchos de banda que van desde 2 kHz a 16 kHz como entrada.

Dado que AudioSR puede mejorar de manera eficiente las señales de audio en varios formatos de audio y configuraciones de ancho de banda, es altamente adaptable a diversos escenarios y aplicaciones del mundo real. AudioSR se basa en investigaciones anteriores que muestran que los vocodificadores neuronales tienen conocimientos previos útiles para reconstruir componentes de frecuencia más alta en tareas de audio SR. Aplica audio SR en el espectrograma mel y crea la señal de audio utilizando un vocodificador neuronal. Se entrena un modelo de difusión latente para aprender la creación condicional de espectrogramas de mel de alta resolución a partir de homólogos de baja resolución para que AudioSR estime el espectrograma de mel de alta resolución.

Los resultados de los experimentos han demostrado que AudioSR, si bien admite diversas configuraciones de frecuencia de muestreo de entrada, proporciona resultados SR prometedores para una variedad de formatos de audio, incluidos voz, música y efectos de sonido. Los análisis subjetivos han demostrado que la salida de modelos de texto a audio como AudioLDM, modelos de texto a música como MusicGen y modelos de texto a voz como Fastspeech2 se ha mejorado enormemente con el uso de AudioSR. Esto significa que AudioSR se puede incluir fácilmente como módulo plug-and-play en la mayoría de los modelos de generación de audio, mejorando la calidad de escucha para diversas aplicaciones.

El equipo ha resumido sus contribuciones de la siguiente manera:

  1. Superresolución de audio audible general: el equipo ha introducido AudioSR, que logra una superresolución de audio en el dominio de todos los sonidos audibles. A diferencia de enfoques anteriores, que frecuentemente se especializaban en categorías de audio particulares, AudioSR ofrece una solución más flexible y completa para mejorar la calidad del audio.
  1. Manejo flexible del ancho de banda de audio: AudioSR proporciona una versatilidad increíble, ya que puede procesar de manera eficiente señales de audio con un espectro de ancho de banda que abarca de 2 kHz a 16 kHz. Incluso puede conservar una frecuencia de muestreo de 48 kHz de alta calidad y al mismo tiempo ampliar este ancho de banda a 24 kHz confiables.
  1. Integración Plug-and-Play con modelos de generación de audio: AudioSR ha demostrado su valor como módulo plug-and-play para mejorar la calidad de audio de múltiples modelos de generación de audio y su talento en superresolución de audio. Agregar AudioSR a modelos como AudioLDM, MusicGen y FastSpeech2 mejora la calidad de salida de audio.

Revisar la Papel, Proyectoy GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.