Presentando Susurro

Otros enfoques existentes utilizan con frecuencia conjuntos de datos de entrenamiento de audio-texto más pequeños y más estrechamente emparejados,[^reference-1] [^reference-2][^reference-3] o utilice un entrenamiento previo de audio amplio pero no supervisado.[^reference-4][^reference-5][^reference-6] Debido a que Whisper se entrenó en un conjunto de datos grande y diverso y no se ajustó a ninguno específico, no supera a los modelos que se especializan en el rendimiento de LibriSpeech, un punto de referencia famoso y competitivo en reconocimiento de voz. Sin embargo, cuando medimos el rendimiento cero de Whisper en muchos conjuntos de datos diversos, descubrimos que es mucho más sólido y comete un 50 % menos de errores que esos modelos.

Aproximadamente un tercio del conjunto de datos de audio de Whisper no está en inglés y, alternativamente, se le asigna la tarea de transcribirlo en el idioma original o traducirlo al inglés. Consideramos que este enfoque es particularmente efectivo para aprender la traducción de voz a texto y supera al SOTA supervisado en CoVoST2 a la traducción cero al inglés.