Presentando Susurro

Otros enfoques existentes utilizan con frecuencia conjuntos de datos de entrenamiento de audio-texto más pequeños y más estrechamente emparejados,^{[^reference-1]} ^{[^reference-2]}^{[^reference-3]} o utilice un entrenamiento previo de audio amplio pero no supervisado.^{[^reference-4]}^{[^reference-5]}^{[^reference-6]} Debido a que Whisper se entrenó en un conjunto de datos grande y diverso y no se ajustó a ninguno específico, no supera a los modelos que se especializan en el rendimiento de LibriSpeech, un punto de referencia famoso y competitivo en reconocimiento de voz. Sin embargo, cuando medimos el rendimiento cero de Whisper en muchos conjuntos de datos diversos, descubrimos que es mucho más sólido y comete un 50 % menos de errores que esos modelos.

Aproximadamente un tercio del conjunto de datos de audio de Whisper no está en inglés y, alternativamente, se le asigna la tarea de transcribirlo en el idioma original o traducirlo al inglés. Consideramos que este enfoque es particularmente efectivo para aprender la traducción de voz a texto y supera al SOTA supervisado en CoVoST2 a la traducción cero al inglés.

Presentando Susurro

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Supertone lanza Supertonic v3: modelo de conversión de texto a voz en el dispositivo con soporte para 31 idiomas, menos errores de lectura y etiquetas de expresión

Cómo escribir código robusto con Claude Code

Una implementación de codificación para dominar la informática GPU con CuPy, núcleos CUDA personalizados, flujos, matrices dispersas y creación de perfiles

You missed

Visitar museos puede ralentizar el envejecimiento biológico, según un estudio: ScienceAlert

La comisión bilateral Estado-Generalitat para rubricar el pacto de presupuestos será el miércoles en Madrid

La libra esterlina, los bonos británicos y el ciclo de adquisiciones

Loterías y Códigos Postales – Noticias Gaceta Costa Tropical