El Instituto Allen para AI (AI2) ha publicado Olmoasrun conjunto de abiertos Reconocimiento automático de voz (ASR) Modelos que rivalizan en sistemas de código cerrado como el susurro de OpenAI. Más allá de solo liberar pesos de modelos, AI2 ha publicado identificadores de datos de entrenamiento, pasos de filtrado, recetas de entrenamiento y scripts de referencia, un movimiento inusualmente transparente en el espacio ASR. Esto hace que Olmoasr sea una de las plataformas más tendentes y extensibles para la investigación de reconocimiento de voz.
¿Por qué abrir el reconocimiento de voz automático ASR?
La mayoría de los modelos de reconocimiento de voz disponibles hoy en día, ya sea desde Openai, Google o Microsoft, solo son accesibles a través de API. Si bien estos servicios proporcionan un alto rendimiento, operan como cajas negras: Los conjuntos de datos de entrenamiento son opacos, los métodos de filtrado son indocumentados y los protocolos de evaluación no siempre están alineados con los estándares de investigación.
Esta falta de transparencia plantea desafíos para la reproducibilidad y el progreso científico. Los investigadores no pueden verificar las afirmaciones, las variaciones de prueba o adaptar modelos a los nuevos dominios sin reconstruir grandes conjuntos de datos. OLMOASR aborda este problema abriendo toda la tubería. El lanzamiento no se trata solo de habilitar la transcripción práctica, se trata de Empujando ASR hacia una base científica más abierta.
Arquitectura y escala de modelos
Olmoasr usa un Arquitectura de codificador de transformador -decodificadorEl paradigma dominante en ASR moderno.
- El codificador Ingesta formas de onda de audio y produce representaciones ocultas.
- El descifrador genera tokens de texto condicionados en las salidas del codificador.
Este diseño es similar a Whisper, pero Olmoasr hace que la implementación sea completamente abierta.
La familia de modelos cubre seis tamaños, todos entrenados en inglés:
- Tiny.en – Parámetros de 39m, diseñados para inferencia liviana
- base.en – Parámetros de 74 m
- pequeño.en – parámetros de 244m
- medio.en – 769m parámetros
- grande.en-v1 – Parámetros 1.5B, entrenados en 440k horas
- grande.en-v2 – 1.5B parámetros, entrenados en 680k horas
Esta gama permite a los desarrolladores intercambiar entre costo de inferencia y precisión. Los modelos más pequeños son adecuados para dispositivos integrados o transcripción en tiempo real, mientras que los modelos más grandes maximizan la precisión para la investigación o las cargas de trabajo por lotes.
Datos: desde el raspado web hasta las mezclas curadas
Una de las contribuciones principales de Olmoasr es la Lanzamiento abierto de conjuntos de datos de capacitaciónno solo los modelos.
Olmoasr-pool (~ 3m horas)
Esta colección masiva contiene un discurso débilmente supervisado junto con transcripciones raspadas de la web. Incluye alrededor 3 millones de horas de audio y 17 millones de transcripciones de texto. Al igual que el conjunto de datos original de Whisper, es ruidoso, que contiene subtítulos, duplicados y errores de transcripción desalineados.
Olmoasr-mix (~ 1m horas)
Para abordar los problemas de calidad, AI2 aplicó filtrado riguroso:
- Heurística de alineación Para garantizar que coincidan el audio y las transcripciones
- Deduplicación difusa Para eliminar ejemplos repetidos o de baja diversidad
- Reglas de limpieza Para eliminar líneas duplicadas y texto no coincidente
El resultado es un conjunto de datos de alta calidad y 1 m-hora que aumenta generalización de disparo cero—Crítico para tareas del mundo real donde los datos pueden diferir de las distribuciones de capacitación.
Esta estrategia de datos de dos niveles refleja las prácticas en el modelo de lenguaje a gran escala previa: use grandes corpus ruidosos para la escala, luego refine con subconjuntos filtrados para mejorar la calidad.
Puntos de referencia de rendimiento
AI2 comparó a Olmoasr contra Whisper en tareas de voz de forma corta y de forma larga, utilizando conjuntos de datos como Librispeech, TED-Lium3, centralita, AMI y Voxpopuli.
Modelo medio (769m)
- 12.8% era (tasa de error de palabras) en discurso de forma corta
- 11.0% fue en el discurso de forma larga
Esto casi coincide con Whisper-Medium.en, que logra 12.4% y 10.5% respectivamente.
Modelos grandes (1.5b)
- grande.en-v1 (440k horas): 13.0% fue una forma corta vs susurro grande-v1 al 12.2%
- grande.en-v2 (680k horas): 12.6% eran, cerrando la brecha a menos del 0.5%
Modelos más pequeños
Incluso el diminuto y base Las versiones funcionan de manera competitiva:
- Tiny.en: ~ 20.5% era una forma corta, ~ 15.6% era una forma larga
- base.en: ~ 16.6% no tenían forma corta, ~ 12.9% era una forma larga
Esto brinda a los desarrolladores flexibilidad para elegir modelos basados en los requisitos de cálculo y latencia.
¿Cómo usar?
La transcripción de audio toma solo unas pocas líneas de código:
import olmoasr
model = olmoasr.load_model("medium", inference=True)
result = model.transcribe("audio.mp3")
print(result)
La salida incluye tanto la transcripción como segmentos alineados en el tiempohaciéndolo útil para subtitular, cumplir con la transcripción o tuberías de PNL aguas abajo.
Ajuste de fino y adaptación de dominio
Dado que AI2 proporciona un código de entrenamiento completo y recetas, Olmoasr puede ser afinado para dominios especializados:
- Reconocimiento médico -Adaptando modelos en conjuntos de datos como Mimic-III o grabaciones de hospital de propiedad
- Transcripción legal – Capacitación sobre audio o procedimientos legales
- Acentos de baja recursos -ajuste de dialectos no bien cubiertos en olmoasr-mix
Esta adaptabilidad es crítica: el rendimiento de ASR a menudo cae cuando los modelos se usan en dominios especializados con jerga específica de dominio. Las tuberías abiertas hacen que la adaptación del dominio sea directa.
Aplicaciones
Olmoasr abre oportunidades emocionantes en la investigación académica y el desarrollo de IA del mundo real:
- Investigación educativa: Los investigadores pueden explorar las intrincadas relaciones entre la arquitectura del modelo, la calidad del conjunto de datos y las técnicas de filtrado para comprender sus efectos en el rendimiento del reconocimiento de voz.
- Interacción humana-computadora: Los desarrolladores obtienen la libertad de integrar las capacidades de reconocimiento de voz directamente en sistemas de IA conversacionales, plataformas de transcripción de reuniones en tiempo real y aplicaciones de accesibilidad, todo sin dependencia de API patentadas o servicios externos.
- Desarrollo de IA multimodal: Cuando se combina con modelos de idiomas grandes, OLMOASR permite la creación de asistentes multimodales avanzados que pueden procesar sin problemas las entradas habladas y generar respuestas inteligentes y contextualmente conscientes.
- Benchmarking de investigación: La disponibilidad abierta de los datos de capacitación y las métricas de evaluación posiciona OLMOASR como un punto de referencia estandarizado, lo que permite a los investigadores comparar nuevos enfoques con una línea de base consistente y reproducible en futuros estudios ASR.
Conclusión
El lanzamiento de OLMOASR trae reconocimiento de voz de alta calidad se puede desarrollar y lanzar de una manera que priorice la transparencia y la reproducibilidad. Si bien los modelos se limitan actualmente al inglés y aún exigen un cálculo significativo para la capacitación, proporcionan una base sólida para la adaptación y la extensión. Este lanzamiento establece un punto de referencia claro para el trabajo futuro en ASR abierto y facilita a los investigadores y desarrolladores estudiar, comparar y aplicar modelos de reconocimiento de voz en diferentes dominios.
Mira el Modelo en la cara abrazada, Página de Github y Detalle técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.