La compositora experimental Holly Herndon creó un clon de voz con IA que cualquiera puede usar

Esta música creó un clon de inteligencia artificial de su voz para que cualquiera pueda cantar como ella

La compositora experimental Holly Herndon dice que esta tecnología no está aquí para reemplazar a los artistas y que el futuro de la creatividad pertenece a la inteligencia colectiva.

Holly Herndon de pie en el interior de la Serpentine North Gallery de Londres, enmarcada por una estructura escultórica circular suspendida, con paredes de ladrillo al fondo.

Holly Herndon en la Serpentine North Gallery de Londres, octubre de 2024.

Matthew Chattle/Future Publishing vía Getty Images

Holly Herndon escucha el futuro de la música en los datos. Herndon llegó a la música electrónica después de cantar en iglesias y coros en el este de Tennessee. Obtuvo una maestría en Mills College y un doctorado en el Centro de Investigación Informática en Música y Acústica de la Universidad de Stanford.

Cuando comenzó a experimentar con el aprendizaje automático en 2015, los resultados sonaban “ásperos”, pero recuerda haber visto “el diamante en bruto”. Hoy esos experimentos han evolucionado hasta convertirse en modelos personalizados que permiten a cualquiera actuar como ella.

Scientific American habló con Herndon sobre el entrenamiento de sus modelos de IA y su creencia de que la creatividad siempre ha sido colectiva: la IA simplemente la hace visible.

Sobre el apoyo al periodismo científico

Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.

[An edited transcript of the interview follows.]

Describes tu trabajo como “arte de protocolo”. ¿Qué significa eso?

En el siglo XX, el lugar de generación de los medios (el papel y el bolígrafo donde se escribía la música) era el acto artístico. En el arte protocolario, el acto creativo ocurre antes de la generación de medios. Es crear el conjunto de reglas y condiciones en las que se hace arte.

Estamos realmente interesados ​​en entrenar nuestros propios modelos. Siempre digo “nosotros” porque trabajo con mi socio, Mat Dryhurst. Tratamos cada paso del proceso de creación de modelos como un momento de intervención creativa. La creación del conjunto de datos es parte de la obra de arte. A menudo escribo música para entrenarme; música no necesariamente para oídos humanos sino para que una computadora aprenda algo.

¿Puedes darme un ejemplo de cómo se ve eso en la práctica?

Tenemos una exposición en Berlín ahora mismo. Nos inspiramos en Hildegard von Bingen, una compositora medieval. Queríamos fingir que la polifonía había existido cuando ella estaba viva. Comenzamos con un modelo de sus composiciones y agregamos conjuntos de reglas para que pudiera generar polifonía en su estilo. Tomamos esas producciones, las reorganizamos y se las entregamos a cantantes humanos para que las interpretaran. Luego creamos una enorme instalación donde los artistas cantan e invitan al público a entrenar con nosotros.

No se trata de poner “escríbeme una canción pop con una guitarra”. Se trata de utilizar esta tecnología para unir a los humanos y crear arte en el espacio real.

La mayoría de los modelos comerciales de IA se entrenan con datos extraídos de Internet. ¿Por qué insistes en construir tus propios modelos?

Como músico electrónico, nunca fui alguien que hiciera sampleos; siempre hice mis propias paletas de sonidos. Cuando empezamos, antes de Suno y antes de todo esto, teníamos que crear nuestro propio conjunto de datos. Simplemente me sentí natural, como hacer mis propios samples o instrumentos digitales.

Una crítica a los productos. [like Suno] es que suenan muy “medio”: entrenados en todo o en lo más promedio. Mis modelos suenan únicos porque yo mismo estoy creando los datos de entrenamiento. También creo que hay motivos ocultos en Suno que lo limitan a canciones de tres minutos con estructura de verso-estribillo. Hay barandillas que lo hacen aburrido. Me encantaría que liberaran algunas restricciones.

¿Alguna vez te ha sorprendido un modelo?

Hicimos un proyecto llamado Holly+ alrededor de 2021: un clon de mi voz particular. Trabajamos con Voctro Labs para entrenar un modelo de voz que funcione en tiempo real para que la gente pueda cantar usando mi voz. Eso fue un cambio de juego.

Si esto funciona en tiempo real, otras personas pueden identificarse mutuamente en tiempo real. Cuando lo estábamos probando, mi compañero, que es británico, estaba cantando. Escuché mi voz con acento británico. Fue tan extraño que tuve que salir de la habitación; él estaba cantando como yo. Ese fue uno de los mayores desbloqueos mentales de lo extraño y genial que pueden llegar a ser estas cosas.

Creo que harán falta entre cinco y diez años para que todo sea perfecto. Pero una vez que estemos transformando el cuerpo en tiempo real, imagina que puedes crear un modelo de voz de ballena y luego hacer una ballena soprano híbrida. Cuando cantas alto, se vuelve operístico; cuando cantas bajo, eres más ballena o Barry White. Ya no estamos atados a mi laringe.

¿Dónde crees que estaremos dentro de 10 años?

Muchos de los temores en torno a esta tecnología son en realidad temores sobre cómo funciona Internet actualmente: la economía de la atención, lo difícil que es como creador. Mi compañero siempre dice: “Desplazarse es para robots y pasear es para humanos”.

Nuestra visión más optimista es utilizar agentes para lidiar con toda la basura y filtrar las cosas, uniéndonos en el mundo real. Es por eso que nuestros proyectos involucran que personas se conozcan en la vida real y hagan cosas juntas. Algunos de mis amigos desarrolladores más inteligentes están codificando por vibración con varios agentes mientras cocinan o caminan con su hijo pequeño. Las cosas podrían ser realmente hermosas si las imaginamos y construimos de esa manera.

¿Esta tecnología cambia tu definición de creatividad?

Todo este asunto de la IA podría obligarnos a vernos a nosotros mismos tal vez no como los únicos actores creativos del universo. Eso no tiene por qué dar miedo: podría ser hermoso y liberador.

La creatividad ocurre en enjambre, en comunidad. La IA es simplemente inteligencia colectiva: inteligencia humana agregada. El modelo artístico del siglo XX está ligado a un genio individual que toca un objeto y le confiere valor. Eso está siendo puesto patas arriba. Soy todo un equipo de inteligencia colectiva.

Es hora de defender la ciencia

Si te ha gustado este artículo, me gustaría pedirte tu apoyo. Científico americano ha servido como defensor de la ciencia y la industria durante 180 años, y ahora mismo puede ser el momento más crítico en esos dos siglos de historia.

he sido un Científico americano suscriptor desde que tenía 12 años y me ayudó a moldear mi forma de ver el mundo. Ciencia-Am Siempre me educa y me deleita, e inspira una sensación de asombro por nuestro vasto y hermoso universo. Espero que también lo haga por ti.

Si te suscribes a Científico americanousted ayuda a garantizar que nuestra cobertura se centre en investigaciones y descubrimientos significativos; que tenemos los recursos para informar sobre las decisiones que amenazan a los laboratorios en todo Estados Unidos; y que apoyemos a los científicos tanto en ciernes como en activo en un momento en el que con demasiada frecuencia el valor de la ciencia misma pasa desapercibido.

A cambio, obtiene noticias esenciales, podcasts cautivadores, infografías brillantes, boletines informativos imperdibles, vídeos imprescindibles, juegos desafiantes y los mejores escritos e informes del mundo científico. Incluso puedes regalarle a alguien una suscripción.

Nunca ha habido un momento más importante para que nos levantemos y demostremos por qué la ciencia es importante. Espero que nos apoyes en esa misión.