Mono a estéreo: cómo la IA está dando nueva vida a la música | de Max Hilsdorf | diciembre de 2024

Ahora que hemos hablado de la relevancia de la tecnología mono a estéreo, quizás te preguntes cómo funciona debajo del capó. Resulta que existen diferentes enfoques para abordar este problema con la IA. A continuación, quiero mostrar cuatro métodos diferentes, que van Del procesamiento de señales tradicional a la IA generativa.. No sirve como una lista completa de métodos, sino más bien como una inspiración de cómo se ha resuelto esta tarea durante los últimos 20 años.

Procesamiento de señales tradicional: formación de fuentes de sonido

Antes de que el aprendizaje automático se volviera tan popular como lo es hoy, el campo de Recuperación de información musical (MIR) estaba dominado por algoritmos inteligentes y hechos a mano. No es de extrañar que estos métodos también existan para la mezcla mono a estéreo.

La idea fundamental detrás de un artículo de 2007 (Lagrange, Martins, Tzanetakis, [1]) es sencillo:

Si podemos encontrar las diferentes fuentes de sonido de una grabación y extraerlas de la señal, podemos volver a mezclarlas para obtener una experiencia estéreo realista.

Este suena simplepero ¿cómo podemos saber cuáles son las fuentes de sonido de la señal? ¿Cómo los definimos tan claramente que un algoritmo pueda extraerlos de la señal? Estas preguntas son difíciles de resolver y el artículo utiliza una variedad de métodos avanzados para lograrlo. En esencia, este es el algoritmo que se les ocurrió:

  1. Divida la grabación en fragmentos cortos y identificar las frecuencias pico (notas dominantes) en cada fragmento
  2. Identificar qué picos van juntos (una fuente de sonido) usando un algoritmo de agrupamiento
  3. Decidir dónde cada fuente de sonido debe ser colocado en la mezcla estéreo (paso manual)
  4. Para cada fuente de sonido, extraer sus frecuencias asignadas de la señal
  5. Mezcle todas las fuentes extraídas juntas para formar la mezcla estéreo final.
Ejemplo de la interfaz de usuario construida para el estudio. El usuario revisa todas las fuentes extraídas y las coloca manualmente en la mezcla estéreo, antes de resintetizar toda la señal. Imagen tomada de [1].

Aunque bastante compleja en los detalles, la intuición es bastante clara: Encuentre fuentes, extráigalas, mézclelas nuevamente.

Una solución rápida: separación de fuentes/división de tallos

Han pasado muchas cosas desde el artículo de Lagrange de 2007. Desde que Deezer lanzó su herramienta para dividir tallos Spleeter En 2019, los sistemas de separación de fuentes basados ​​en IA se han vuelto notablemente útiles. Jugadores destacados como Lalal.ai o Audioshake hacer posible una solución rápida:

  1. Separe una grabación mono en sus plicas de instrumentos individuales utilizando un divisor de plicas gratuito o comercial.
  2. Cargue los tallos en una estación de trabajo de audio digital (DAW) y mézclelos a su gusto.

Esta técnica se utilizó en un artículo de investigación de 2011 (ver [2]), pero se ha vuelto mucho más viable ya que debido a la Mejoras recientes en herramientas de separación de tallos..

La desventaja de los enfoques de separación en fuente es que producen artefactos de sonido notablesporque la separación de fuentes en sí misma todavía no está exenta de fallas. Además, estos enfoques todavía Requiere mezcla manual por humanos, haciéndolos sólo semiautomáticos.

Para automatizar completamente la mezcla de mono a estéreo, se requiere aprendizaje automático. Al aprender de mezclas estéreo reales, el sistema ML puede adaptar el estilo de mezcla de productores humanos reales.

Aprendizaje automático con estéreo paramétrico

Foto por Zarak Khan en desempaquetar

Serrà y sus colegas presentaron en ISMIR 2023 una forma muy creativa y eficiente de utilizar el aprendizaje automático para la mezcla mono a estéreo. [3]. Este trabajo se basa en una técnica de compresión musical llamada estéreo paramétrico. Las mezclas estéreo constan de dos canales de audio, lo que dificulta su integración en entornos de bajo ancho de banda, como transmisión de música, transmisiones de radio o conexiones telefónicas.

El estéreo paramétrico es una técnica para crear sonido estéreo a partir de una única señal mono mediante centrándose en las señales espaciales importantes nuestro cerebro utiliza para determinar de dónde provienen los sonidos. Estas señales son:

  1. que ruidoso un sonido está en el oído izquierdo versus el oído derecho (Diferencia de intensidad intercanal, IID)
  2. ¿Qué tan sincronizado? está entre izquierda y derecha en términos de tiempo o fase (tiempo entre canales o diferencia de fase)
  3. ¿Qué tan similares o diferentes? las señales están en cada oído (Correlación Intercanal, IC)

Usando estos parámetros, se puede crear una experiencia estéreo a partir de nada más que una señal mono.

Este es el enfoque que adoptaron los investigadores para desarrollar su modelo de mezcla mono a estéreo:

  1. Recopilar un gran conjunto de datos de pistas de música estéreo
  2. Convertir las pistas estéreo a estéreo paramétrico (mono + parámetros espaciales)
  3. Entrenar una red neuronal predecir los parámetros espaciales dada una grabación mono
  4. Para convertir una nueva señal mono en estéreo, utilice el modelo entrenado para inferir parámetros espaciales a partir de la señal mono y combine los dos en una experiencia estéreo paramétrica

Actualmente, no parece haber ningún código ni demostraciones de escucha disponibles para este documento. Los propios autores confiesan que “todavía existe una brecha entre las mezclas estéreo profesionales y los enfoques propuestos” (p. 6). Aún así, el artículo describe una forma creativa y eficiente de lograr una mezcla mono a estéreo totalmente automatizada mediante el aprendizaje automático.

IA generativa: síntesis basada en transformadores

Generación estéreo en el modelo de conversión de texto a música de Meta, MusicGen. Imagen tomada de otro artículo del autor.

Ahora, llegaremos a la forma aparentemente más sencilla de generar estéreo a partir de mono. Entrenando un modelo generativo para tomar una entrada mono y sintetizar ambos canales de salida estéreo directamente. Aunque conceptualmente simple, este es, con diferencia, el enfoque más desafiante desde un punto de vista técnico. Un segundo de audio de alta resolución tiene 44,1k puntos de datos. Por lo tanto, generar una canción de tres minutos con canales estéreo significa generando más de 15 millones de puntos de datos.

Con las tecnologías actuales, como las redes neuronales convolucionales, los transformadores y los códecs de audio neuronales, la complejidad de la tarea está empezando a volverse manejable. Hay algunos artículos que optaron por generar señales estéreo a través de síntesis neuronal directa (ver [4], [5], [6]). Sin embargo, sólo [5] entrene un modelo que pueda resolver la generación mono a estéreo lista para usar. Mi intuición es que hay espacio para un artículo que construya un proyecto dedicado a la “simple” tarea de generación mono a estéreo y se centre 100% en resolver este objetivo. Cualquiera que esté aquí buscando un Tema de doctorado?