Este artículo de IA propone una nueva arquitectura de codificador de codificadores de doble rama para la mejora del habla no supervisada (SE)

¿Puede un potenciador del discurso entrenado solo en grabaciones ruidosas reales para separar el habla y el ruido limpiamente, sin ver datos emparejados? Un equipo de investigadores de la Universidad de Tecnología de Brno y la Universidad de Johns Hopkins propone una mejora del habla no supervisada utilizando priors definidos por datos (uso-DDP), un codificador de doble torrente que data de transmisión que separa cualquier entrada ruidosa en dos formas de onda de onda emitidas y el ruido residual, y se enteran de los datos de los datos no respetados (Corpus opcionales y el ruido opcional y opcional. El entrenamiento aplica que la suma de las dos salidas reconstruye la forma de onda de entrada, evitando soluciones degeneradas y alineando el diseño con los objetivos de códec de audio neuronal.

https://arxiv.org/pdf/2509.22942

¿Por qué esto es importante?

La mayoría de las tuberías de mejora del habla basadas en el aprendizaje dependen de grabaciones de limpieza y limpieza emparejadas, que son costosas o imposibles de recolectar a escala en condiciones del mundo real. Las rutas no supervisadas como Metricgan-U eliminan la necesidad de datos limpios, pero el rendimiento del modelo de pareja a métricas externas no intrusivas utilizadas durante el entrenamiento. Use-DDP mantiene los datos de entrenamiento solo, imponiendo prioras con discriminadores sobre conjuntos de datos independientes de discos limpios y ruido y utilizando consistencia de reconstrucción para vincular las estimaciones de regreso a la mezcla observada.

¿Cómo funciona?

Generador: un codificador de estilo códec comprime el audio de entrada en una secuencia latente; Esto se divide en dos ramas de transformador paralelas (rormador) que se dirigen al habla y el ruido limpios respectivamente, decodificados por un decodificador compartido de regreso a las formas de onda. La entrada se reconstruye como la combinación de mínimos cuadrados de las dos salidas (escalares α, β compensan errores de amplitud). La reconstrucción utiliza pérdidas MEL/STFT y SI-SDR a múltiples escala, como en los códecs de audio neuronal. Priors a través de adversarios: tres conjuntos discriminadores (limpios, ruidosos y ruidosos) imponen restricciones de distribución: la rama limpia debe parecerse al corpus de discurso limpio; La rama de ruido debe parecerse a un corpus de ruido; La mezcla reconstruida debe sonar natural. Se utilizan pérdidas de LS-Gan y características. Inicialización: la inicialización del codificador/decodificador de un códec de audio descriptivo previo alado mejora la convergencia y la calidad final frente al entrenamiento desde cero.

¿Cómo se compara?

En la configuración simulada estándar de VCTK+ Demand, Use-DDP informa la paridad con las líneas de base no supervisadas más fuertes (EG, Unse/Unse+ basada en el transporte óptimo) y DNSMOS competitivos versus Metricgan-U (que optimiza directamente los DNSMO). Números de ejemplo de la Tabla 1 del documento (Entrada versus Sistemas): DNSMOS mejora de 2.54 (ruidoso) a ~ 3.03 (uso-DDP), PESQ de 1.97 a ~ 2.47; CBAK sigue algunas líneas de base debido a una atenuación de ruido más agresiva en segmentos de no discurso, consistente con el ruido explícito anterior.

https://arxiv.org/pdf/2509.22942

La elección de datos no es un detalle, es el resultado

Un hallazgo central: qué corpus de discurso limpio define que el anterior puede cambiar los resultados e incluso crear resultados demasiado optimistas en las pruebas simuladas.

En el dominio anterior (VCTK Clean) en VCTK+Demanda → Mejores puntajes (DNSMOS ≈3.03), pero esta configuración se “mira” de manera poco realizada a la distribución objetivo utilizada para sintetizar las mezclas. Afominio previo → Métricas notablemente más bajas (por ejemplo, PESQ ~ 2.04), reflejando el desajuste de distribución y cierta fuga de ruido en la rama limpia. Chime-3-World-3: usar un canal de “conversación cerrada” como el dominio limpio antes de que duele, porque la referencia “limpia” en sí contiene hemorragia ambiental; Un corpus realmente limpio y fuera de dominio produce DNSMOS/UTMOS más altos en desarrollo y prueba, aunque con cierta compensación de inteligibilidad bajo una supresión más fuerte.

Esto aclara las discrepancias entre los resultados anteriores no supervisados ​​y defiende la selección previa cuidadosa y transparente al reclamar SOTA en puntos de referencia simulados.

La arquitectura del codificador de doble rama propuesta trata la mejora de la mejora como una estimación explícita de dos fuentes con antecedentes definidos por datos, no de búsqueda métrica. La restricción de reconstrucción (limpieza + ruido = entrada) más los antecedentes adversos sobre los corpuses de limpieza/ruido independientes ofrece un sesgo inductivo claro, e inicialización de un códec de audio neural es una forma pragmática de estabilizar el entrenamiento. Los resultados parecen competitivos con las líneas de base no supervisadas mientras evitan los objetivos guiados por DNSMOS; La advertencia es que la elección “limpia previa” afecta materialmente las ganancias reportadas, por lo que las reclamaciones deben especificar la selección del corpus.

Echa un vistazo al papel. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín. ¡Esperar! ¿Estás en Telegram? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.

🙌 Siga a MarkTechPost: agrégenos como una fuente preferida en Google.