Stability AI Open-Sources Stable Audio Open: Un modelo de generación de audio con audio estéreo de duración variable (hasta 47 s) a 44,1 kHz a partir de indicaciones de texto

En el campo de la inteligencia artificial, los modelos abiertos y generativos se destacan como una piedra angular para el progreso. Estos modelos son vitales para avanzar en la investigación y fomentar la creatividad, ya que permiten realizar ajustes y sirven como puntos de referencia para nuevas innovaciones. Sin embargo, persiste un desafío importante, ya que muchos modelos de texto a audio de última generación siguen siendo propietarios, lo que limita su accesibilidad para los investigadores.

Recientemente, un equipo de investigadores de Stability AI ha presentado un nuevo modelo de texto a audio de peso abierto que está entrenado exclusivamente con datos de Creative Commons. Este paradigma pretende garantizar la apertura y el uso moral de los datos, ofreciendo al mismo tiempo a la comunidad de IA una herramienta potente. Sus características principales son las siguientes::

Este nuevo modelo tiene ponderaciones abiertas, a diferencia de numerosos modelos propietarios. Esto permite a los investigadores y desarrolladores examinar, modificar y ampliar el modelo porque su diseño y parámetros están disponibles para el público en general.

Para entrenar el modelo se han utilizado exclusivamente archivos de audio con licencia Creative Commons. Esta decisión garantiza la solidez ética y legal de los materiales de entrenamiento. Los desarrolladores han fomentado la apertura de los métodos de datos y han evitado posibles problemas de derechos de autor utilizando datos disponibles bajo licencia Creative Commons.

La arquitectura del nuevo modelo está pensada para proporcionar una síntesis de audio accesible y de alta calidad, que es la siguiente:

El modelo utiliza una arquitectura sofisticada que proporciona una fidelidad notable en la generación de texto a audio. Con una frecuencia de muestreo de 44,1 kHz, puede generar sonido estéreo de alta calidad, lo que garantiza que el audio resultante cumpla con los estrictos requisitos de claridad y realismo.

En el proceso de enseñanza se han utilizado diversos archivos de audio con licencia Creative Commons. Este método garantiza que el modelo pueda producir salidas de audio realistas y variadas, a la vez que lo ayuda a aprender a partir de una amplia variedad de paisajes sonoros.

Para asegurarse de que el nuevo modelo iguala o supera los estándares establecidos por los modelos anteriores, se ha evaluado exhaustivamente su rendimiento. La medición del realismo del audio generado, FDopenl3, es una de las métricas de evaluación principales empleadas. Los resultados de esta métrica demostraron la capacidad del modelo para generar audio de alta calidad al demostrar que funciona a la par de los mejores modelos de la industria. Para evaluar las capacidades del modelo y señalar áreas de desarrollo, se ha comparado su rendimiento con el de otros modelos de alto rendimiento. Este estudio comparativo da fe de la calidad y la facilidad de uso superiores del nuevo modelo.

En conclusión, el desarrollo de la tecnología de audio generativo ha avanzado significativamente con el lanzamiento de este modelo de conversión de texto a audio de peso abierto. El concepto resuelve muchos de los problemas existentes en la industria al enfatizar la apertura, el uso ético de los datos y la síntesis de audio de alta calidad. Establece nuevos estándares para la producción de texto a audio y es un recurso importante para académicos, artistas y desarrolladores.

Revisar la Papel, Modelo, y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí

Tanya Malhotra es una estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, que cursa BTech en Ingeniería Informática con una especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con un buen pensamiento analítico y crítico, junto con un gran interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

Stability AI Open-Sources Stable Audio Open: Un modelo de generación de audio con audio estéreo de duración variable (hasta 47 s) a 44,1 kHz a partir de indicaciones de texto

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

Más allá de las indicaciones: uso de las habilidades de los agentes en ciencia de datos

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT

You missed

¿Acaba de resolver la IA el misterio de una de las pinturas más enigmáticas de El Greco?

Jared Kushner bajo investigación por posibles violaciones de las leyes federales contra sobornos y agentes extranjeros

Clifford Kang de SERES destaca la movilidad inteligente habilitada por IA en la Cumbre Asia-Pacífico de la Conferencia Mundial de Internet de 2026

¿Qué beneficios recibirán los inmigrantes ‘regulares’ españoles?