Screenshot 2024 04 08 At 1.15.34 Pm.png

Cuando surgió inicialmente el procesamiento del lenguaje natural (PNL) sin texto, el concepto principal implicaba entrenar un modelo de lenguaje en secuencias de unidades discretas que se podían aprender en lugar de depender del texto transcrito. Este enfoque tenía como objetivo permitir que las tareas de PNL fueran directamente aplicables a las expresiones habladas. Además, en el contexto de la edición del discurso, un modelo necesitaría modificar palabras o frases individuales para alinearlas con una transcripción objetivo manteniendo al mismo tiempo el contenido original e inalterado del discurso. Actualmente, los investigadores están explorando el potencial de desarrollar un modelo unificado para la conversión de texto a voz y la edición de voz desde cero, lo que supone un importante paso adelante en este campo.

Una investigación reciente de la Universidad de Texas en Austin y Rembrand presenta VOICECRAFT, un NCLM basado en Transformers que genera tokens de códec de voz neuronales para relleno utilizando condicionamiento autorregresivo en contexto bidireccional. Voicecraft logra resultados de última generación (SotA) en edición de voz y TTS de disparo cero. Los investigadores basan su enfoque en un proceso de reordenamiento de tokens de dos etapas, que incluye un paso de apilamiento retrasado y un paso de enmascaramiento causal. El método propuesto permite la generación autorregresiva con contexto bidireccional y se aplica a secuencias de códecs de voz; se basa en la metodología de enmascaramiento causal, que el exitoso modelo multimodal enmascarado causal inspiró en el modelado conjunto de texto e imagen.

Para garantizar aún más un modelado eficaz de libros de códigos múltiples, el equipo incorpora enmascaramiento causal con apilamiento retrasado como enfoque de reordenamiento de tokens sugerido. El equipo creó un conjunto de datos único, realista y difícil llamado REALEDIT para probar la edición de voz. Con formas de onda que varían de 5 a 12 segundos de duración, REALEDIT incluye 310 muestras de edición de voz del mundo real recopiladas de audiolibros, videos de YouTube y podcasts de Spotify. Las transcripciones de destino se generan editando las transcripciones del discurso de origen para mantener su corrección gramatical y coherencia semántica.

El conjunto de datos está estructurado para adaptarse a muchos escenarios de edición, como agregar, eliminar, sustituir y modificar varios tramos a la vez, con longitudes de texto modificado que varían de una palabra a dieciséis palabras. Debido a la variedad de temas, acentos, estilos de habla, entornos de grabación y ruidos de fondo de las grabaciones, REALEDIT presenta un desafío mayor que los conjuntos de datos de evaluación de síntesis de voz populares como VCTK, LJSpeech y LibriTTS, que ofrecen audiolibros. Debido a su diversidad y realismo, REALEDIT es un buen barómetro de la aplicabilidad de los modelos de edición de voz en el mundo real.

En comparación con el modelo anterior de edición de voz SotA en REALEDIT, VOICECRAFT funciona mucho mejor en las pruebas subjetivas de escucha humana. Lo más importante es que el discurso editado de VOICECRAFT suena casi idéntico al audio original sin modificaciones. Los resultados muestran que VOICECRAFT funciona mejor que líneas de base sólidas, como VALL-E replicado y el conocido modelo comercial XTTS v2 cuando se trata de TTS de disparo cero y no requiere ajustes finos. El equipo utilizó audiolibros y vídeos de YouTube en su conjunto de datos.

A pesar del progreso de VOICECRAFT, el equipo destaca algunas limitaciones, tales como:

  • El hecho más notable durante la generación son los largos períodos de silencio seguidos de un sonido de raspado. El equipo realizó este estudio tomando muestras de muchas expresiones y seleccionando las más cortas, pero debería haber formas más refinadas y efectivas.
  • Otro tema crítico relacionado con la seguridad de la IA es la cuestión de cómo poner marcas de agua e identificar el discurso sintético. Recientemente se ha prestado mucha atención a las marcas de agua y la detección de deepfake y se han logrado grandes avances.

Sin embargo, con la llegada de modelos más sofisticados como VOICECRAFT, el equipo cree que los investigadores de seguridad enfrentan nuevas oportunidades y obstáculos. Han puesto a disposición del público todos sus códigos y pesos de modelos para ayudar con la investigación sobre la seguridad de la IA y la síntesis de voz.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro boletín con más de 24.000 miembros…

No olvides unirte a nuestro SubReddit de más de 40.000 ml


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.