Este artículo sobre IA de NVIDIA y SUTD Singapore presenta TANGOFLUX y CRPO: generación de texto a audio eficiente y de alta calidad con coincidencia de flujo

La generación de texto a audio ha transformado la forma en que se crea el contenido de audio, automatizando procesos que tradicionalmente requerían una gran experiencia y tiempo. Esta tecnología permite la conversión de indicaciones textuales en audio diverso y expresivo, agilizando los flujos de trabajo en la producción de audio y las industrias creativas. Combinar la entrada de texto con salidas de audio realistas ha abierto posibilidades en aplicaciones como la narración multimedia, la música y el diseño de sonido.

Uno de los desafíos importantes en los sistemas de texto a audio es garantizar que el audio generado se alinee fielmente con las indicaciones textuales. Los modelos actuales a menudo no logran capturar detalles intrincados, lo que genera inconsistencias totales. Algunas salidas omiten elementos esenciales o introducen artefactos de audio no deseados. La falta de métodos estandarizados para optimizar estos sistemas agrava aún más el problema. A diferencia de los modelos de lenguaje, los sistemas de conversión de texto a audio no se benefician de estrategias de alineación sólidas, como el aprendizaje reforzado con retroalimentación humana, lo que deja mucho margen de mejora.

Los enfoques anteriores para la generación de texto a audio dependían en gran medida de modelos basados ​​en difusión, como AudioLDM y Stable Audio Open. Si bien estos modelos ofrecen una calidad decente, tienen limitaciones. Su dependencia de pasos extensos de eliminación de ruido los hace computacionalmente costosos y requieren mucho tiempo. Además, muchos modelos se entrenan con conjuntos de datos propietarios, lo que limita su accesibilidad y reproducibilidad. Estas limitaciones obstaculizan su escalabilidad y capacidad para manejar solicitudes diversas y complejas de manera efectiva.

Para abordar estos desafíos, investigadores de la Universidad de Tecnología y Diseño de Singapur (SUTD) y NVIDIA presentaron TANGOFLUX, un modelo avanzado de generación de texto a audio. Este modelo está diseñado para brindar eficiencia y resultados de alta calidad, logrando mejoras significativas con respecto a los métodos anteriores. TANGOFLUX utiliza el marco de optimización de preferencias clasificadas CLAP (CRPO) para refinar la generación de audio y garantizar la alineación con las descripciones textuales de forma iterativa. Su arquitectura compacta y sus innovadoras estrategias de entrenamiento le permiten funcionar excepcionalmente bien y requieren menos parámetros.

TANGOFLUX integra metodologías avanzadas para lograr resultados de última generación. Emplea una arquitectura híbrida que combina bloques de transformador de difusión (DiT) y transformador de difusión multimodal (MMDiT), lo que le permite manejar la generación de audio de duración variable. A diferencia de los modelos tradicionales basados ​​en difusión, que dependen de múltiples pasos de eliminación de ruido, TANGOFLUX utiliza un marco de adaptación de flujo para crear un camino directo y rectificado desde el ruido hasta la salida. Este enfoque de flujo rectificado reduce los pasos computacionales necesarios para la generación de audio de alta calidad. Durante el entrenamiento, el sistema incorpora acondicionamiento textual y de duración para garantizar la precisión en la captura de los matices de las indicaciones de entrada y la duración deseada de la salida de audio. El modelo CLAP evalúa la alineación entre indicaciones de audio y textuales generando pares de preferencias y optimizándolos de forma iterativa, un proceso inspirado en técnicas de alineación utilizadas en modelos de lenguaje.

En términos de rendimiento, TANGOFLUX eclipsa a sus predecesores en múltiples métricas. Genera 30 segundos de audio en solo 3,7 segundos utilizando una única GPU A40, lo que demuestra una eficiencia excepcional. El modelo alcanza una puntuación CLAP de 0,48 y una puntuación FD de 75,1, ambas indicativas de salidas de audio alineadas con texto y de alta calidad. En comparación con Stable Audio Open, que logra una puntuación CLAP de 0,29, TANGOFLUX mejora significativamente la precisión de la alineación. En escenarios de múltiples eventos, donde las indicaciones incluyen múltiples eventos distintos, TANGOFLUX sobresale, mostrando su capacidad para capturar detalles intrincados y relaciones temporales de manera efectiva. La solidez del sistema se destaca aún más por su capacidad para mantener el rendimiento incluso con pasos de muestreo reducidos, una característica que mejora su practicidad en aplicaciones en tiempo real.

Las evaluaciones humanas corroboran estos resultados, y TANGOFLUX obtuvo la puntuación más alta en métricas subjetivas como la calidad general y la relevancia inmediata. Los anotadores calificaron constantemente sus resultados como más claros y alineados que otros modelos como AudioLDM y Tango 2. Los investigadores también enfatizaron la importancia del marco CRPO, que permitió crear un conjunto de datos de preferencias que superó a alternativas como BATON y Audio-Alpaca. El modelo evitó la degradación del rendimiento típicamente asociada con conjuntos de datos fuera de línea al generar nuevos datos sintéticos durante cada iteración de entrenamiento.

La investigación aborda con éxito las limitaciones críticas en los sistemas de texto a audio mediante la introducción de TANGOFLUX, que combina eficiencia con un rendimiento superior. Su uso innovador de flujo rectificado y optimización de preferencias establece un punto de referencia para futuros avances en este campo. Este desarrollo mejora la calidad y la alineación del audio generado y demuestra escalabilidad, lo que lo convierte en una solución práctica para una adopción generalizada. El trabajo de SUTD y NVIDIA representa un importante avance en la tecnología de texto a audio, superando los límites de lo que se puede lograr en este dominio en rápida evolución.


Verificar el Papel, Repositorio de códigoy Modelo previamente entrenado. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluaciónÚnase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.