Elegir el modelo Whisper adecuado: ¿Cuándo utilizar Whisper v2, Whisper v3 y Distilled Whisper?

En el campo de la Inteligencia Artificial y el Aprendizaje Automático, los modelos de reconocimiento de voz están transformando la forma en que las personas interactúan con la tecnología. Estos modelos basados ​​en los poderes del procesamiento del lenguaje natural, la comprensión del lenguaje natural y la generación del lenguaje natural han allanado el camino para una amplia gama de aplicaciones en casi todas las industrias. Estos modelos son esenciales para facilitar una comunicación fluida entre humanos y máquinas, ya que están diseñados para traducir el lenguaje hablado a texto.

En los últimos años se han logrado avances y crecimientos exponenciales en el reconocimiento de voz. Los modelos OpenAI como la serie Whisper han establecido un buen estándar. OpenAI presentó la serie Whisper de modelos de transcripción de audio a finales de 2022 y estos modelos han ganado popularidad y mucha atención entre la comunidad de IA, desde estudiantes y académicos hasta investigadores y desarrolladores.

El modelo Whisper previamente entrenado, que ha sido creado para la traducción de voz y el reconocimiento automático de voz (ASR), es un modelo codificador-decodificador basado en Transformer, también conocido como modelo de secuencia a secuencia. Fue entrenado en un gran conjunto de datos con 680.000 horas de datos de voz etiquetados y exhibe una capacidad excepcional para generalizar en muchos conjuntos de datos y dominios sin necesidad de ajustes.

El modelo Whisper destaca por su adaptabilidad, ya que puede entrenarse tanto con datos multilingües como solo en inglés. Los modelos solo en inglés anticipan transcripciones en el mismo idioma que el audio, concentrándose en el trabajo de reconocimiento de voz. Por otro lado, los modelos multilingües están entrenados para predecir transcripciones en un idioma distinto del audio tanto para el reconocimiento de voz como para la traducción del habla. Esta capacidad dual permite que el modelo se utilice para varios propósitos y aumenta su adaptabilidad a diferentes entornos lingüísticos.

Las variaciones importantes de la serie Whisper incluyen Whisper v2, Whisper v3 y Distil Whisper. Distil Whisper es una versión mejorada entrenada en un conjunto de datos más grande y es una versión más simplificada con una velocidad más rápida y un tamaño más pequeño. Al examinar la tasa de error de palabras (WER) general de cada modelo, se hace evidente un hallazgo aparentemente paradójico: los modelos más grandes tienen un WER notablemente mayor que los más pequeños.

Una evaluación exhaustiva reveló que la causa de este desajuste es el multilingüismo de los modelos grandes, que con frecuencia les lleva a identificar erróneamente el idioma basándose en el acento del hablante. Después de eliminar estas transcripciones erróneas, los resultados se vuelven más claros. Los estudios demostraron que los modelos grandes V2 y V3 revisados ​​tienen el WER más bajo, mientras que los modelos Distil tienen el WER más alto.

Los modelos adaptados al inglés evitan periódicamente errores de transcripción en idiomas distintos del inglés. Al tener acceso a un conjunto de datos de audio más extenso, en términos de tasa de identificación errónea del idioma, se ha demostrado que el modelo v3 grande supera a sus predecesores. Al evaluar el modelo Distil, aunque demostró un buen rendimiento incluso cuando se utilizó en diferentes oradores, hay algunos hallazgos más, que son los siguientes.

  1. Los modelos Distil pueden no reconocer segmentos de oraciones sucesivos, como lo demuestran las malas relaciones de longitud entre la salida y la etiqueta.
  1. Los modelos Distil a veces funcionan mejor que las versiones básicas, especialmente cuando se trata de inserción de puntuación. En este sentido destaca especialmente el modelo mediano Distil.
  1. Los modelos básicos Whisper pueden omitir repeticiones verbales por parte del hablante, pero esto no se observa en los modelos Distil.

Siguiendo un hilo reciente de Twitter por Omar Sanseviero, aquí hay un comparación de los tres modelos Whisper y un discusión elaborada de qué modelo se debe utilizar.

  1. Whisper v3: óptimo para idiomas conocidos: si el idioma es conocido y la identificación del idioma es confiable, es mejor optar por el modelo Whisper v3.
  1. Whisper v2: robusto para idiomas desconocidos: Whisper v2 muestra una confiabilidad mejorada si el idioma es desconocido o si la identificación del idioma de Whisper v3 no es confiable.
  1. Whisper v3 Large: Excelencia en inglés: Whisper v3 Large es una buena opción predeterminada si el audio siempre está en inglés y la memoria o el rendimiento de inferencia no son un problema.
  1. Distilled Whisper: velocidad y eficiencia: Distilled Whisper es una mejor opción si la memoria o el rendimiento de la inferencia son importantes y el audio está en inglés. Es seis veces más rápido, un 49 % más pequeño y funciona dentro del 1 % WER de Whisper v2. Incluso con desafíos ocasionales, funciona casi tan bien como los más lentos.

En conclusión, los modelos Whisper han avanzado significativamente en el campo de la transcripción de audio y pueden ser utilizados por cualquier persona. La decisión de elegir entre Whisper v2, Whisper v3 y Distilled Whisper depende totalmente de los requisitos particulares de la aplicación. Por lo tanto, una decisión informada requiere una consideración cuidadosa de factores como la identificación del idioma, la velocidad y la eficiencia del modelo.


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.