Yue: una familia de modelos AI de generación de música de código abierto capaz de crear canciones de longitud completa con voces coherentes, armonía instrumental y creatividad de múltiples generos

Se han realizado un progreso significativo en composiciones instrumentales de forma corta en IA y generación de música. Sin embargo, crear canciones completas con letras, voces y acompañamiento instrumental sigue siendo un desafío para los modelos existentes. Generar una canción de larga duración a partir de letras plantea varios desafíos. La música es larga, lo que requiere que los modelos de IA mantengan la consistencia y la coherencia durante varios minutos. La música incorpora estructuras armónicas intrincadas, instrumentación y patrones rítmicos en lugar de efectos de voz o sonido. Las letras generadas por IA a menudo sufren de incoherencia cuando se fusionan con elementos musicales, y los conjuntos de datos de Audio de letras emparejados son escasos para entrenar de manera efectiva modelos de IA.

Aquí es donde Yueuna familia de modelos de fundación de código abierto del equipo de proyección de arte multimodal, emerge, rivalizando Suno AI en generación de canciones. Estos modelos están diseñados para crear canciones de larga duración que duran varios minutos, desde letras con capacidades para variar la música de fondo, el género y las letras. La familia modelo viene con diferentes variantes con parámetros de hasta 7 mil millones. Algunos de los modelos de la serie Yue en la cara abrazada incluyen:

Yue emplea técnicas avanzadas para abordar los desafíos de la generación de canciones de larga duración, aprovechando la familia de modelos de lenguaje de LLAMA para un proceso mejorado de generación de letras a canción. Un avance central es su técnica de doble token, que permite un modelado vocal e instrumental sincronizado sin modificar la arquitectura de la llama fundamental. Esto asegura que los elementos vocales e instrumentales sean armoniosos a lo largo de la canción generada. Además, Yue incorpora un poderoso tokenizador de audio, que reduce los costos de capacitación y acelera la convergencia. Esto garantiza que el audio generado mantenga la integridad musical al tiempo que optimiza la eficiencia computacional.

Otra técnica única utilizada en Yue es Lyrics-cadina de pensamientos (letra-coma)que permite que el modelo genere letras progresivamente de manera estructurada, asegurando que el contenido lírico siga siendo consistente y significativo a lo largo de la canción. Yue también sigue un esquema de entrenamiento de tres etapas estructurado, que mejora la escalabilidad, la musicalidad y el control lírico. Este entrenamiento estructurado garantiza que el modelo pueda generar canciones de diferentes longitudes y complejidades, mejora la sensación natural de la música generada y mejora la alineación entre las letras generadas y la estructura general de la canción.

Yue se destaca de los modelos de generación musical previos basados en la IA porque puede generar canciones de longitud completa que incorporan melodías vocales y acompañamiento instrumental. A diferencia de los modelos existentes que luchan con las composiciones de forma larga, Yue mantiene la coherencia musical a lo largo de una canción completa. Las voces generadas siguen patrones de canto naturales y cambios tonales, involucrando la música. Al mismo tiempo, los elementos instrumentales están cuidadosamente alineados con la pista vocal, produciendo una canción natural y equilibrada. La familia modelo también apoya múltiples géneros e idiomas musicales.

Cuando se trata de usarlo, los modelos Yue están diseñados para ejecutarse en GPU de alto rendimiento para una generación de canción completa sin problemas. Se recomienda al menos la memoria GPU de 80 GB (p. Ej., NVIDIA A100) para obtener los mejores resultados. Dependiendo de la GPU utilizada, un segmento de 30 segundos generalmente toma 150-360 segundos. Los usuarios pueden aprovechar la biblioteca de transformadores faciales para generar música usando Yue. El modelo también admite el aprendizaje de la música en contexto (ICL), lo que permite a los usuarios proporcionar una canción de referencia para que la IA pueda generar música nueva de manera similar.

Yue se publica bajo una licencia Creative Commons Attribution no comercial 4.0. Alienta a los artistas y creadores de contenido a probar, modificar e incorporar sus resultados en sus obras mientras acredita el modelo como Yue por HKUST/MAP. Yue abre la puerta a numerosas aplicaciones en música generada por IA. Puede ayudar a los músicos y compositores a generar ideas de canciones y composiciones de larga duración, crear bandas sonoras para películas, videojuegos y contenido virtual, generar canciones personalizadas basadas en letras o temas proporcionados por el usuario, y ayudar a la educación musical demostrando composiciones generadas por IA en varios estilos e idiomas.

En conclusión, Yue representa un avance en la generación musical con AI, abordando los desafíos de larga data de la conversión de letra a canción. Con sus técnicas avanzadas, arquitectura escalable y un enfoque de código abierto, Yue está listo para redefinir el panorama de la producción musical impulsada por la IA. A medida que surgen mejoras y contribuciones comunitarias, Yue tiene el potencial de convertirse en el modelo de base líder para la generación completa.

Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.

🚨 Conocer Intellagent: Un marco de múltiples agentes de código abierto para evaluar un sistema de IA conversacional complejo ^{(Promocionado)}

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Yue: una familia de modelos AI de generación de música de código abierto capaz de crear canciones de longitud completa con voces coherentes, armonía instrumental y creatividad de múltiples generos

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Una mejor manera de modelar el comportamiento de las aleaciones metálicas | Noticias del MIT

Intenté programar mi canalización ETL. Esto es lo que no esperaba.

Liquid AI presenta LFM2.5-Embedding-350M y LFM2.5-ColBERT-350M: modelos densos bicodificadores y de interacción tardía para búsquedas multilingües rápidas en 11 idiomas

You missed

La vacuna contra el ébola más prometedora lleva 15 años en el estante

La ciencia tiene un nombre para lo que está plagando la piscina reflectante

El informe sobre la implosión del Titan revela que OceanGate nunca demostró la seguridad del casco

el patio de recreo del superyate