Los modelos de IA han hecho avances notables en la generación del habla, la música y otras formas de contenido de audio, expandiendo las posibilidades entre comunicación, entretenimiento e interacción humana. La capacidad de crear audio humano a través de modelos generativos profundos ya no es una ambición futurista, sino una realidad tangible que está afectando a las industrias hoy en día. Sin embargo, a medida que estos modelos se vuelven más sofisticados, la necesidad de sistemas de evaluación rigurosos, escalables y objetivos se vuelve crítico. Evaluar la calidad del audio generado es complejo porque implica no solo medir la precisión de la señal sino también evaluar aspectos perceptivos como la naturalidad, la emoción, la identidad del hablante y la creatividad musical. Las prácticas de evaluación tradicionales, como las evaluaciones subjetivas humanas, requieren mucho tiempo, costosas y propensas a los sesgos psicológicos, lo que hace que los métodos de evaluación de audio automatizados sean una necesidad para avanzar en la investigación y las aplicaciones.
Un desafío persistente en la evaluación automatizada de audio radica en la diversidad y la inconsistencia de los métodos existentes. Las evaluaciones humanas, a pesar de ser un estándar de oro, sufren sesgos como efectos de igualdad de rango y requieren un trabajo significativo y un conocimiento experto, particularmente en áreas matizadas como la síntesis de canto o la expresión emocional. Las métricas automáticas han llenado esta brecha, pero varían ampliamente según el escenario de aplicación, como la mejora del habla, la síntesis del habla o la generación de música. Además, no existe un conjunto de métricas o un marco estandarizado universalmente adoptado, lo que lleva a esfuerzos dispersos y resultados incomparables en diferentes sistemas. Sin prácticas de evaluación unificada, se vuelve cada vez más difícil comparar el rendimiento de los modelos generativos de audio y rastrear el progreso genuino en el campo.
Herramientas y métodos existentes cubren solo partes del problema. Los kits de herramientas como ESPNet y la hoja ofrecen módulos de evaluación, pero se centran en gran medida en el procesamiento del habla, proporcionando una cobertura limitada para la música o las tareas de audio mixtas. Audioldm-Eval, estable-audio-metric y el audio-metrics intentan evaluaciones de audio más amplias, pero aún sufren soporte métrico fragmentado y configuraciones inflexibles. Las métricas como la puntuación media de opinión (MOS), PESQ (evaluación perceptiva de la calidad del habla), SI-SNR (relación señal / ruido de la señal a escala) y la distancia de audio de Fréchet (FAD) se usan ampliamente; Sin embargo, la mayoría de las herramientas implementan solo un puñado de estas medidas. Además, la dependencia de las referencias externas, ya sea audio coincidente o no coincidente, transcripciones de texto o señales visuales, varía significativamente entre las herramientas. La centralización y estandarización de estas evaluaciones en un kit de herramientas flexible y escalable ha seguido siendo una necesidad insatisfecha hasta ahora.
Investigadores de la Universidad Carnegie Mellon, Microsoft, Universidad de Indiana, Universidad Tecnológica de Nanyang, Universidad de Rochester, Universidad Renmin de China, Universidad de Shanghai Jiaotong y Sony AI introdujeron Versaun nuevo conjunto de herramientas de evaluación. Versa se destaca al ofrecer un kit de herramientas modular basado en Python que integra 65 métricas de evaluación, lo que lleva a 729 variantes métricas configurables. Apoya de manera exclusiva la evaluación del habla, el audio y la música dentro de un solo marco, una característica que ningún kit de herramientas previo ha logrado de manera integral. Versa también enfatiza la configuración flexible y el estricto control de dependencia, lo que permite una fácil adaptación a las diferentes necesidades de evaluación sin incurrir en conflictos de software. Lanzado públicamente a través de Github, Versa tiene como objetivo convertirse en una herramienta fundamental para la evaluación comparativa de tareas de generación de sonido, haciendo una contribución significativa a las comunidades de investigación e ingeniería.
El sistema Versa se organiza en torno a dos scripts principales: ‘scorer.py’ y ‘agregate_result.py’. El ‘scorer.py’ maneja el cálculo real de las métricas, mientras que ‘agregate_result.py’ consolida las salidas métricas en informes de evaluación exhaustivos. Las interfaces de entrada y salida están diseñadas para admitir una gama de formatos, incluidos PCM, FLAC, MP3 y Kaldi-ARK, acomodando varias organizaciones de archivos desde asignaciones WAV.SCP hasta estructuras simples de directorio. Las métricas se controlan a través de archivos de configuración de estilo YAML unificados, lo que permite a los usuarios seleccionar métricas de una lista maestra (general.yaml) o crear configuraciones especializadas para métricas individuales (por ejemplo, MCD_F0.YAML para la evaluación de distorsión de Mel Cepstral). Para simplificar aún más la usabilidad, Versa garantiza dependencias predeterminadas mínimas al tiempo que proporciona scripts de instalación opcionales para métricas que requieren paquetes adicionales. Se incorporan horquillas locales de bibliotecas de evaluación externa, lo que garantiza la flexibilidad sin el bloqueo de las versiones estrictas, lo que mejora la usabilidad y la robustez del sistema.
Cuando se comparó con las soluciones existentes, Versa las supera significativamente. Admite 22 métricas independientes que no requieren audio de referencia, 25 métricas dependientes basadas en referencias coincidentes, 11 métricas que dependen de referencias no coincidentes y cinco métricas de distribución para evaluar modelos generativos. Por ejemplo, se admiten métricas independientes como SI-SNR y VAD (detección de actividad de voz), junto con métricas dependientes como Pesq y Stoi (inteligibilidad objetiva de corto tiempo). El kit de herramientas cubre 54 métricas aplicables a las tareas del habla, 22 al audio general y 22 a la generación de música, que ofrece flexibilidad sin precedentes. En particular, Versa admite la evaluación utilizando recursos externos, como subtítulos textuales y señales visuales, lo que lo hace adecuado para escenarios de evaluación generativa multimodal. En comparación con otros kits de herramientas, como AudioCraft (que admite solo seis métricas) o Amphion (15 métricas), Versa ofrece amplitud y profundidad inigualables.
La investigación demuestra que Versa permite la evaluación comparativa consistente al minimizar la variabilidad subjetiva, mejorar la comparabilidad al proporcionar un conjunto métrico unificado y mejorar la eficiencia de la investigación al consolidar diversos métodos de evaluación en una sola plataforma. Al ofrecer más de 700 variantes métricas simplemente a través de ajustes de configuración, los investigadores ya no tienen que reconstruir diferentes métodos de evaluación de múltiples herramientas fragmentadas. Esta consistencia en la evaluación fomenta la reproducibilidad y las comparaciones justas, las cuales son críticas para el seguimiento de los avances en tecnologías de sonido generativo.
Varias conclusiones clave de la investigación sobre Versa incluyen:
- Versa proporciona 65 métricas y 729 variaciones métricas para evaluar el habla, el audio y la música.
- Admite varios formatos de archivo, incluidos PCM, FLAC, MP3 y Kaldi-ARK.
- El kit de herramientas cubre 54 métricas aplicables al habla, 22 al audio y 22 a las tareas de generación musical.
- Dos scripts básicos, ‘scorer.py’ y ‘agregate_result.py’, simplifican el proceso de evaluación y generación de informes.
- Versa ofrece un control de dependencia estricto pero flexible, minimizando los conflictos de instalación.
- Admite la evaluación utilizando referencias de audio, transcripciones de texto y señales visuales.
- En comparación con 16 métricas en ESPNet y 15 en Amphion, las 65 métricas de Versa representan un avance importante.
- Lanzado públicamente, su objetivo es convertirse en un estándar universal para evaluar la generación de sonido.
- La flexibilidad para modificar los archivos de configuración permite a los usuarios generar hasta 729 configuraciones de evaluación distintas.
- El conjunto de herramientas aborda sesgos e ineficiencias en evaluaciones humanas subjetivas a través de evaluaciones automatizadas confiables.
Mira el Papel, Demostración en la cara abrazada y Página de Github. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.
Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.