MAGNeT: un método de modelado de IA de secuencia generativa enmascarada que opera directamente sobre varios flujos de tokens de audio y 7 veces más rápido que la línea de base autorregresiva

En tecnología de audio, los investigadores han logrado avances significativos en el desarrollo de modelos para la generación de audio. Sin embargo, el desafío radica en crear modelos que puedan generar audio de manera eficiente y precisa a partir de diversas entradas, incluidas descripciones textuales. Los enfoques anteriores se han centrado en modelos autorregresivos y basados ​​en difusión. Si bien estos enfoques producen resultados impresionantes, tienen desventajas, como tiempos de inferencia elevados y dificultades para generar secuencias de formato largo.

Investigadores del equipo FAIR Meta, Kyutai y la Universidad Hebrea de Jerusalén han desarrollado MAGNET (Generación de audio enmascarado utilizando transformadores no autorregresivos) en respuesta a estos desafíos. Este novedoso enfoque opera en múltiples flujos de tokens de audio utilizando un único modelo de transformador. A diferencia de los métodos anteriores, MAGNET no es autorregresivo y predice tramos de tokens enmascarados obtenidos de un programador de enmascaramiento durante el entrenamiento. Construye gradualmente la secuencia de audio de salida durante la inferencia a través de varios pasos de decodificación. Este enfoque acelera significativamente el proceso de generación, lo que lo hace más adecuado para aplicaciones interactivas como la generación y edición de música.

https://arxiv.org/abs/2401.04577

MAGNET también presenta un método de recuperación único para mejorar la calidad del audio. Este método aprovecha un modelo externo previamente entrenado para volver a calificar y clasificar las predicciones de MAGNET, que luego se utilizan en pasos de decodificación posteriores. Se ha explorado una versión híbrida de MAGNET, que combina modelos autorregresivos y no autorregresivos para generar los primeros segundos de audio de forma autorregresiva. Al mismo tiempo, se decodifica en paralelo el resto de la secuencia.

La eficacia de MAGNET ha quedado demostrada en el contexto de la generación de texto a música y de texto a audio. A través de una evaluación empírica exhaustiva, que incluye métricas objetivas y estudios en humanos, MAGNET ha demostrado un rendimiento comparable a las líneas de base existentes y, al mismo tiempo, es significativamente más rápido. Esta velocidad es particularmente notable en comparación con los modelos autorregresivos, siendo MAGNET siete veces más rápido.

La investigación profundiza en la importancia de cada componente de MAGNET, destacando las compensaciones entre el modelado autorregresivo y no autorregresivo en términos de latencia, rendimiento y calidad de generación. Al realizar estudios y análisis de ablación, el equipo de investigación ha iluminado la importancia de varios aspectos de MAGNET, contribuyendo a una comprensión más profunda de las tecnologías de generación de audio.

https://arxiv.org/abs/2401.04577

En conclusión, el desarrollo de MAGNET marca un avance sustancial en el ámbito de la tecnología de audio:

  • Introduce un enfoque novedoso y eficiente para la generación de audio, que reduce significativamente la latencia en comparación con los métodos tradicionales.
  • Combina elementos autorregresivos y no autorregresivos para optimizar la calidad y velocidad de generación.
  • Demuestra el potencial de la generación de audio de alta calidad en tiempo real a partir de explicaciones textuales, abriendo nuevas posibilidades en aplicaciones de audio interactivas.

Revisar la Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.