Imágenes que suenan: creación de arte audiovisual impactante con IA | por Max Hilsdorf

Para responder a esta pregunta, necesitamos entender dos términos:

Forma de onda
Espectrograma

En el mundo real, el sonido se produce por la vibración de objetos que crean ondas acústicas (cambios en la presión del aire a lo largo del tiempo). Cuando el sonido se capta a través de un micrófono o se genera mediante un sintetizador digital, podemos representar esta onda sonora como una forma de onda:

Forma de onda de una canción acústica. Música e imagen del autor.

La forma de onda es útil para grabar y reproducir audio, pero normalmente se evita para el análisis musical o el aprendizaje automático con datos de audio. En su lugar, se utiliza una representación mucho más informativa de la señal: el espectrograma.

Espectrograma de Mel de una canción acústica. Música e imagen del autor.

El espectrograma nos indica qué frecuencias son más o menos pronunciadas en el sonido a lo largo del tiempo. Sin embargo, para este artículo, lo más importante es tener en cuenta que un espectrograma es una imagen. Y con eso cerramos el círculo.

Al generar el sonido y la imagen del corgi que se muestran arriba, la IA crea un sonido que, cuando se transforma en un espectrograma, parece un corgi.

Esto significa que la salida de esta IA es sonido e imagen al mismo tiempo.

Aunque ahora comprendes lo que significa una imagen que suena, es posible que todavía te preguntes cómo es posible. ¿Cómo sabe la IA qué sonido produciría la imagen deseada? Después de todo, la forma de onda del sonido del corgi no se parece en nada a un corgi.

Forma de onda del sonido del Corgi generada por “Imágenes que suenan”. Imagen del autor.

En primer lugar, debemos entender un concepto fundamental: los modelos de difusión. Los modelos de difusión son la tecnología que sustenta los modelos de imagen como DALL-E 3 o Midjourney. En esencia, un modelo de difusión codifica una indicación del usuario en una representación matemática (una incrustación) que luego se utiliza para generar la imagen de salida deseada paso a paso a partir de ruido aleatorio.

Aquí está el flujo de trabajo para crear imágenes con un modelo de difusión.

Codifique el mensaje en una incrustación (un conjunto de números) utilizando una red neuronal artificial
Inicializar una imagen con ruido blanco (ruido gaussiano)
Reducir progresivamente el ruido de la imagen. En función de la inserción de la indicación, el modelo de difusión determina un paso de reducción de ruido pequeño y óptimo que acerca la imagen a la descripción de la indicación. A esto lo llamaremos instrucción de eliminación de ruido.
Repita el paso de eliminación de ruido hasta que se genere una imagen sin ruido y de alta calidad.

Funcionamiento interno de alto nivel de un modelo de difusión de imágenes. Imagen del autor.

Para generar “imágenes que suenan”, los investigadores utilizaron una técnica inteligente que combina dos modelos de difusión en uno. Uno de los modelos de difusión es un modelo de texto a imagen. (Difusión estable)y el otro es un modelo de texto a espectrograma (Aufusión)Cada uno de estos modelos recibe su propio mensaje, que se codifica en una incrustación y determina su propia instrucción de eliminación de ruido.

Sin embargo, la existencia de múltiples instrucciones de eliminación de ruido diferentes es problemática, ya que el modelo debe decidir cómo eliminar el ruido de la imagen. En el artículo, los autores resuelven este problema promediando las instrucciones de eliminación de ruido de ambos mensajes, lo que guía al modelo para optimizar ambos mensajes por igual.

Funcionamiento interno de alto nivel de “Imágenes que suenan”. Imagen del autor.

En un nivel alto, se puede pensar en esto como una forma de garantizar que la imagen resultante refleje tanto la imagen como el mensaje de audio de la misma manera. Una desventaja de esto es que el resultado siempre será una mezcla de ambos y no todos los sonidos o imágenes que salen del modelo se verán o sonarán bien. Esta desventaja inherente limita significativamente la calidad de salida del modelo.

¿La IA simplemente imita la inteligencia humana?

La IA se define comúnmente como sistemas informáticos que imitan la inteligencia humana (por ejemplo, SOY B, Objetivo tecnológico, Cursora). Esta definición funciona bien para modelos de IA de pronóstico de ventas, clasificación de imágenes y generación de texto. Sin embargo, conlleva la restricción inherente de que un sistema informático solo puede ser una IA si realiza una tarea que los humanos han resuelto históricamente.

En el mundo real, existe una gran cantidad (probablemente infinita) de problemas que pueden resolverse mediante la inteligencia. Si bien la inteligencia humana ha resuelto algunos de estos problemas, la mayoría siguen sin resolverse. Entre estos problemas sin resolver, algunos son conocidos (por ejemplo, la cura del cáncer, la computación cuántica, la naturaleza de la conciencia) y otros son desconocidos. Si su objetivo es abordar estos problemas sin resolver, imitar la inteligencia humana no parece ser una estrategia óptima.

Según la definición anterior, un sistema informático que descubra una cura para el cáncer sin imitar la inteligencia humana no se consideraría IA. Esto es claramente contraintuitivo y contraproducente. No pretendo iniciar un debate sobre “la única definición”, sino que quiero destacar que la IA es mucho más que una herramienta de automatización para la inteligencia humana. Tiene el potencial de resolver problemas que ni siquiera sabíamos que existían.

¿Es posible generar arte espectrográfico con la inteligencia humana?

En un Artículo en MixmagBecky Buckle explora la “historia de los artistas que ocultan elementos visuales dentro de las formas de onda de su música”. Un ejemplo impresionante del arte del espectrograma humano es la canción “∆Mᵢ⁻¹=−α ∑ Dᵢ[η][ ∑ Fjᵢ[η−1]+Fextᵢ [η⁻¹]]” del músico británico Aphex Twin.

Captura de pantalla del rostro alienígena en “∆Mᵢ⁻¹=−α ∑ Dᵢ” de Aphex Twin.[η][ ∑ Fjᵢ[η−1]+Fextᵢ [η⁻¹]]”. Enlace al vídeo.

Otro ejemplo es el tema “Look” del álbum “Songs about my Cats” del músico canadiense Venetian Snares.

Captura de pantalla de la imagen del gato codificada en “Look” de Venetian Snares. Enlace al vídeo.

Si bien ambos ejemplos muestran que los humanos pueden codificar imágenes en formas de onda, existe una clara diferencia en lo que “Imágenes que suenan” es capaz de hacer.

¿En qué se diferencia “Imágenes que suenan” del arte espectrográfico humano?

Si escuchas los ejemplos anteriores de arte espectrográfico humano, notarás que suenan como ruido. Para una cara alienígena, esto podría ser una música adecuada. Sin embargo, al escuchar el ejemplo del gato, no parece haber una relación intencional entre los sonidos y la imagen del espectrograma. Los compositores humanos fueron capaces de generar formas de onda que se parecen a una cosa determinada cuando se transforman en un espectrograma. Sin embargo, hasta donde yo sé, ningún humano ha sido capaz de producir ejemplos en los que el sonido y las imágenes coincidan, según criterios predefinidos.

“Imágenes que suenan” puede producir audio que suena como un gato y parece un gato. También puede producir audio que suena como una nave espacial y parece un delfín. Es capaz de producir asociaciones intencionales entre el sonido y la representación en imagen de la señal de audio. En este sentido, la IA exhibe inteligencia no humana.

“Imágenes que suenan” no tiene un caso de uso. Eso es lo que la hace hermosa

En los últimos años, la IA se ha presentado principalmente como una herramienta de productividad que puede mejorar los resultados económicos mediante la automatización. Si bien la mayoría estaría de acuerdo en que esto es muy deseable hasta cierto punto, otros se sienten amenazados por esta perspectiva sobre el futuro. Después de todo, si la IA sigue quitándole trabajo a los humanos, podría terminar reemplazando el trabajo que amamos hacer. Por lo tanto, nuestras vidas podrían volverse más productivas, pero menos significativas.

“Imágenes que suenan” contrasta con esta perspectiva y es un excelente ejemplo de hermoso arte de IA. Este trabajo no está impulsado por un problema económico, sino por la curiosidad y la creatividad. Es poco probable que alguna vez exista un caso de uso económico para esta tecnología, aunque nunca deberíamos decir nunca…

De todas las personas con las que he hablado sobre IA, los artistas tienden a ser los más negativos al respecto. Esto está respaldado por un estudio reciente estudiar del centro alemán GEMA, que muestra que más del 60% de los músicos “cree que los riesgos del uso de IA superan sus oportunidades potenciales” y que solo el 11% “cree que las oportunidades superan los riesgos”.

Más trabajos similares a este podrían ayudar a los artistas a comprender que la IA tiene el potencial de traer más arte bello al mundo y que esto no tiene por qué suceder a costa de los creadores humanos.

Images that Sound no ha sido el primer caso de uso de la IA con el potencial de crear arte hermoso. En esta sección, quiero mostrar algunos otros enfoques que espero que te inspiren y te hagan pensar de manera diferente sobre la IA.

Restaurando el arte

Un mosaico de la Batalla de las Amazonas, reconstruido con IA. Tomado de este papel.

La IA ayuda a restaurar obras de arte reparando con precisión las piezas dañadas, lo que garantiza que las obras históricas duren más. Esta combinación de tecnología y creatividad mantiene vivo nuestro patrimonio artístico para las generaciones futuras. Leer más.

Dando vida a las pinturas

Un vídeo de YouTube de Mona Lisa rapeando Paparazzi (generado por IA).

La IA puede animar fotos para crear videos realistas con movimientos naturales y sincronización de labios. Esto puede hacer que personajes históricos u obras de arte como la Mona Lisa se muevan y hablen (o rapeen). Si bien esta tecnología es ciertamente peligrosa en el contexto de las falsificaciones profundas, aplicada a retratos históricos, puede crear arte divertido y/o significativo. Leer más.

Cómo convertir grabaciones mono a estéreo

La IA tiene el potencial de mejorar grabaciones antiguas al transformar su mezcla mono en una mezcla estéreo. Existen métodos algorítmicos clásicos para esto, pero la IA promete hacer que las mezclas estéreo artificiales suenen cada vez más realistas. Leer más aquí y aquí.

Imágenes que suenan: creación de arte audiovisual impactante con IA | por Max Hilsdorf | agosto, 2024

ByEquipo de 7 minutos

¿La IA simplemente imita la inteligencia humana?

¿Es posible generar arte espectrográfico con la inteligencia humana?

¿En qué se diferencia “Imágenes que suenan” del arte espectrográfico humano?

“Imágenes que suenan” no tiene un caso de uso. Eso es lo que la hace hermosa

Restaurando el arte

Dando vida a las pinturas

Cómo convertir grabaciones mono a estéreo

By Equipo de 7 minutos

Related Post

Cómo crear un espacio de trabajo para agentes de QwenPaw con habilidades personalizadas, proveedores de modelos, acceso a la consola y pruebas de API de transmisión

Anthropic desactiva Claude Fable 5 y Mythos 5 después de una orden del gobierno de EE. UU.

¿Es el lenguaje visual? Un experimento con caracteres chinos

You missed

Las industrias estadounidenses presionan para reactivar la producción de tungsteno en medio de la escasez

Es posible que su conductor de Uber pronto esté sindicalizado. ¿A qué costo?

El tiempo en Mallorca para el domingo 14 de junio

Deion Sanders comparte una poderosa publicación después del consejo viral a Deiondra