Deepfakes.png

Los deepfakes de audio han tenido recientemente una mala prensa después de que una llamada automática generada por inteligencia artificial que pretendía ser la voz de Joe Biden golpeara a los residentes de New Hampshire. instándolos a no emitir votos. Mientras tanto, los phishers (campañas de phishing dirigidas a una persona o grupo específico, especialmente utilizando información que se sabe que es de interés para el objetivo) van a pescar dineroy los actores intentan preservar su imagen sonora.

Sin embargo, lo que recibe menos prensa son algunos de los usos de los deepfakes de audio que realmente podrían beneficiar a la sociedad. En esta sesión de preguntas y respuestas preparada para MIT News, el postdoctorado Nauman Dawalatabad aborda las preocupaciones y las posibles ventajas de la tecnología emergente. Se puede ver una versión más completa de esta entrevista en el vídeo a continuación.

P: ¿Qué consideraciones éticas justifican el ocultamiento de la identidad del hablante fuente en los deepfakes de audio, especialmente cuando esta tecnología se utiliza para crear contenido innovador?

A: La investigación sobre por qué la investigación es importante para oscurecer la identidad del hablante fuente, a pesar de un gran uso primario de modelos generativos para la creación de audio en el entretenimiento, por ejemplo, plantea consideraciones éticas. El discurso no contiene información únicamente sobre «¿quién eres?» (identidad) o “¿de qué estás hablando?” (contenido); encapsula una gran cantidad de información confidencial que incluye edad, sexo, acento, salud actual e incluso señales sobre condiciones de salud futuras. Por ejemplo, nuestro reciente artículo de investigación sobre «Detección de demencia a partir de largas entrevistas neuropsicológicas” demuestra la viabilidad de detectar la demencia a partir del habla con una precisión considerablemente alta. Además, existen múltiples modelos que pueden detectar género, acento, edad y otra información del habla con muy alta precisión. Es necesario avanzar en la tecnología que proteja contra la divulgación involuntaria de dichos datos privados. El esfuerzo por anonimizar la identidad del hablante fuente no es simplemente un desafío técnico sino una obligación moral de preservar la privacidad individual en la era digital.

P: ¿Cómo podemos superar eficazmente los desafíos que plantean las falsificaciones de audio en los ataques de phishing, teniendo en cuenta los riesgos asociados, el desarrollo de contramedidas y el avance de las técnicas de detección?

A: El uso de deepfakes de audio en ataques de phishing introduce múltiples riesgos, incluida la propagación de información errónea y noticias falsas, el robo de identidad, las infracciones de la privacidad y la alteración maliciosa del contenido. La reciente circulación de llamadas automáticas engañosas en Massachusetts ejemplifica el impacto perjudicial de dicha tecnología. También hablamos recientemente con el habló con El globo de Boston sobre esta tecnología, y lo fácil y económico que es generar audios tan deepfake.

Cualquier persona sin una formación técnica significativa puede generar fácilmente dicho audio, con múltiples herramientas disponibles en línea. Estas noticias falsas provenientes de generadores de deepfake pueden perturbar los mercados financieros e incluso los resultados electorales. El robo de la voz para acceder a cuentas bancarias operadas por voz y la utilización no autorizada de la identidad vocal para obtener ganancias financieras son recordatorios de la necesidad urgente de contramedidas sólidas. Otros riesgos pueden incluir la violación de la privacidad, donde un atacante puede utilizar el audio de la víctima sin su permiso o consentimiento. Además, los atacantes también pueden alterar el contenido del audio original, lo que puede tener un impacto grave.

Han surgido dos direcciones principales y destacadas en el diseño de sistemas para detectar audio falso: detección de artefactos y detección de vida. Cuando el audio se genera mediante un modelo generativo, el modelo introduce algún artefacto en la señal generada. Los investigadores diseñan algoritmos/modelos para detectar estos artefactos. Sin embargo, este enfoque plantea algunos desafíos debido a la creciente sofisticación de los generadores de audio deepfake. En el futuro, es posible que también veamos modelos con muy pequeños o casi ningún artefacto. La detección de vida, por otro lado, aprovecha las cualidades inherentes del habla natural, como los patrones de respiración, las entonaciones o los ritmos, que son difíciles de replicar con precisión para los modelos de IA. Algunas empresas como Pindrop están desarrollando soluciones de este tipo para detectar falsificaciones de audio.

Además, estrategias como las marcas de agua de audio sirven como defensas proactivas, incorporando identificadores cifrados dentro del audio original para rastrear su origen e impedir la manipulación. A pesar de otras vulnerabilidades potenciales, como el riesgo de ataques de repetición, la investigación y el desarrollo en curso en este campo ofrecen soluciones prometedoras para mitigar las amenazas que plantean los deepfakes de audio.

P: A pesar de su potencial de uso indebido, ¿cuáles son algunos de los aspectos positivos y beneficios de la tecnología de audio deepfake? ¿Cómo imagina que evolucionará la relación futura entre la IA y nuestras experiencias de percepción de audio?

A: Contrariamente al enfoque predominante en las nefastas aplicaciones de los deepfakes de audio, la tecnología alberga un inmenso potencial de impacto positivo en varios sectores. Más allá del ámbito de la creatividad, donde las tecnologías de conversión de voz permiten una flexibilidad sin precedentes en el entretenimiento y los medios, los deepfakes de audio encierran una promesa transformadora en los sectores de la atención médica y la educación. Mi trabajo actual en la anonimización de las voces de pacientes y médicos en entrevistas de atención de salud cognitiva, por ejemplo, facilita el intercambio de datos médicos cruciales para la investigación a nivel mundial, garantizando al mismo tiempo la privacidad. Compartir estos datos entre investigadores fomenta el desarrollo en las áreas de atención de la salud cognitiva. La aplicación de esta tecnología en la restauración de la voz representa una esperanza para las personas con discapacidades del habla, por ejemplo, ELA o habla disártrica, mejorando las capacidades de comunicación y la calidad de vida.

Soy muy positivo sobre el impacto futuro de los modelos de IA generativa de audio. La futura interacción entre la IA y la percepción de audio está preparada para avances revolucionarios, particularmente a través de la lente de la psicoacústica, el estudio de cómo los humanos perciben los sonidos. Las innovaciones en realidad aumentada y virtual, ejemplificadas por dispositivos como Apple Vision Pro y otros, están ampliando los límites de las experiencias de audio hacia un realismo incomparable. Recientemente hemos visto un aumento exponencial en la cantidad de modelos sofisticados que aparecen casi todos los meses. Este rápido ritmo de investigación y desarrollo en este campo promete no sólo perfeccionar estas tecnologías sino también ampliar sus aplicaciones de maneras que beneficien profundamente a la sociedad. A pesar de los riesgos inherentes, el potencial de los modelos de IA generativa de audio para revolucionar la atención médica, el entretenimiento, la educación y más es un testimonio de la trayectoria positiva de este campo de investigación.