¿Qué es Olmoasr y cómo se compara con el susurro de Openi en el reconocimiento de voz?

El Instituto Allen para AI (AI2) ha publicado Olmoasrun conjunto de abiertos Reconocimiento automático de voz (ASR) Modelos que rivalizan en sistemas de código cerrado como el susurro de OpenAI. Más allá de solo liberar pesos de modelos, AI2 ha publicado identificadores de datos de entrenamiento, pasos de filtrado, recetas de entrenamiento y scripts de referencia, un movimiento inusualmente transparente en el espacio ASR. Esto hace que Olmoasr sea una de las plataformas más tendentes y extensibles para la investigación de reconocimiento de voz.

¿Por qué abrir el reconocimiento de voz automático ASR?

La mayoría de los modelos de reconocimiento de voz disponibles hoy en día, ya sea desde Openai, Google o Microsoft, solo son accesibles a través de API. Si bien estos servicios proporcionan un alto rendimiento, operan como cajas negras: Los conjuntos de datos de entrenamiento son opacos, los métodos de filtrado son indocumentados y los protocolos de evaluación no siempre están alineados con los estándares de investigación.

Esta falta de transparencia plantea desafíos para la reproducibilidad y el progreso científico. Los investigadores no pueden verificar las afirmaciones, las variaciones de prueba o adaptar modelos a los nuevos dominios sin reconstruir grandes conjuntos de datos. OLMOASR aborda este problema abriendo toda la tubería. El lanzamiento no se trata solo de habilitar la transcripción práctica, se trata de Empujando ASR hacia una base científica más abierta.

Arquitectura y escala de modelos

Olmoasr usa un Arquitectura de codificador de transformador -decodificadorEl paradigma dominante en ASR moderno.

El codificador Ingesta formas de onda de audio y produce representaciones ocultas.
El descifrador genera tokens de texto condicionados en las salidas del codificador.

Este diseño es similar a Whisper, pero Olmoasr hace que la implementación sea completamente abierta.

La familia de modelos cubre seis tamaños, todos entrenados en inglés:

Tiny.en – Parámetros de 39m, diseñados para inferencia liviana
base.en – Parámetros de 74 m
pequeño.en – parámetros de 244m
medio.en – 769m parámetros
grande.en-v1 – Parámetros 1.5B, entrenados en 440k horas
grande.en-v2 – 1.5B parámetros, entrenados en 680k horas

Esta gama permite a los desarrolladores intercambiar entre costo de inferencia y precisión. Los modelos más pequeños son adecuados para dispositivos integrados o transcripción en tiempo real, mientras que los modelos más grandes maximizan la precisión para la investigación o las cargas de trabajo por lotes.

Datos: desde el raspado web hasta las mezclas curadas

Una de las contribuciones principales de Olmoasr es la Lanzamiento abierto de conjuntos de datos de capacitaciónno solo los modelos.

Olmoasr-pool (~ 3m horas)

Esta colección masiva contiene un discurso débilmente supervisado junto con transcripciones raspadas de la web. Incluye alrededor 3 millones de horas de audio y 17 millones de transcripciones de texto. Al igual que el conjunto de datos original de Whisper, es ruidoso, que contiene subtítulos, duplicados y errores de transcripción desalineados.

Olmoasr-mix (~ 1m horas)

Para abordar los problemas de calidad, AI2 aplicó filtrado riguroso:

Heurística de alineación Para garantizar que coincidan el audio y las transcripciones
Deduplicación difusa Para eliminar ejemplos repetidos o de baja diversidad
Reglas de limpieza Para eliminar líneas duplicadas y texto no coincidente

El resultado es un conjunto de datos de alta calidad y 1 m-hora que aumenta generalización de disparo cero—Crítico para tareas del mundo real donde los datos pueden diferir de las distribuciones de capacitación.

Esta estrategia de datos de dos niveles refleja las prácticas en el modelo de lenguaje a gran escala previa: use grandes corpus ruidosos para la escala, luego refine con subconjuntos filtrados para mejorar la calidad.

Puntos de referencia de rendimiento

AI2 comparó a Olmoasr contra Whisper en tareas de voz de forma corta y de forma larga, utilizando conjuntos de datos como Librispeech, TED-Lium3, centralita, AMI y Voxpopuli.

Modelo medio (769m)

12.8% era (tasa de error de palabras) en discurso de forma corta
11.0% fue en el discurso de forma larga

Esto casi coincide con Whisper-Medium.en, que logra 12.4% y 10.5% respectivamente.

Modelos grandes (1.5b)

grande.en-v1 (440k horas): 13.0% fue una forma corta vs susurro grande-v1 al 12.2%
grande.en-v2 (680k horas): 12.6% eran, cerrando la brecha a menos del 0.5%

Modelos más pequeños

Incluso el diminuto y base Las versiones funcionan de manera competitiva:

Tiny.en: ~ 20.5% era una forma corta, ~ 15.6% era una forma larga
base.en: ~ 16.6% no tenían forma corta, ~ 12.9% era una forma larga

Esto brinda a los desarrolladores flexibilidad para elegir modelos basados en los requisitos de cálculo y latencia.

¿Cómo usar?

La transcripción de audio toma solo unas pocas líneas de código:

import olmoasr

model = olmoasr.load_model("medium", inference=True)
result = model.transcribe("audio.mp3")
print(result)

La salida incluye tanto la transcripción como segmentos alineados en el tiempohaciéndolo útil para subtitular, cumplir con la transcripción o tuberías de PNL aguas abajo.

Ajuste de fino y adaptación de dominio

Dado que AI2 proporciona un código de entrenamiento completo y recetas, Olmoasr puede ser afinado para dominios especializados:

Reconocimiento médico -Adaptando modelos en conjuntos de datos como Mimic-III o grabaciones de hospital de propiedad
Transcripción legal – Capacitación sobre audio o procedimientos legales
Acentos de baja recursos -ajuste de dialectos no bien cubiertos en olmoasr-mix

Esta adaptabilidad es crítica: el rendimiento de ASR a menudo cae cuando los modelos se usan en dominios especializados con jerga específica de dominio. Las tuberías abiertas hacen que la adaptación del dominio sea directa.

Aplicaciones

Olmoasr abre oportunidades emocionantes en la investigación académica y el desarrollo de IA del mundo real:

Investigación educativa: Los investigadores pueden explorar las intrincadas relaciones entre la arquitectura del modelo, la calidad del conjunto de datos y las técnicas de filtrado para comprender sus efectos en el rendimiento del reconocimiento de voz.
Interacción humana-computadora: Los desarrolladores obtienen la libertad de integrar las capacidades de reconocimiento de voz directamente en sistemas de IA conversacionales, plataformas de transcripción de reuniones en tiempo real y aplicaciones de accesibilidad, todo sin dependencia de API patentadas o servicios externos.
Desarrollo de IA multimodal: Cuando se combina con modelos de idiomas grandes, OLMOASR permite la creación de asistentes multimodales avanzados que pueden procesar sin problemas las entradas habladas y generar respuestas inteligentes y contextualmente conscientes.
Benchmarking de investigación: La disponibilidad abierta de los datos de capacitación y las métricas de evaluación posiciona OLMOASR como un punto de referencia estandarizado, lo que permite a los investigadores comparar nuevos enfoques con una línea de base consistente y reproducible en futuros estudios ASR.

Conclusión

El lanzamiento de OLMOASR trae reconocimiento de voz de alta calidad se puede desarrollar y lanzar de una manera que priorice la transparencia y la reproducibilidad. Si bien los modelos se limitan actualmente al inglés y aún exigen un cálculo significativo para la capacitación, proporcionan una base sólida para la adaptación y la extensión. Este lanzamiento establece un punto de referencia claro para el trabajo futuro en ASR abierto y facilita a los investigadores y desarrolladores estudiar, comparar y aplicar modelos de reconocimiento de voz en diferentes dominios.

Mira el Modelo en la cara abrazada, Página de Github y Detalle técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

¿Qué es Olmoasr y cómo se compara con el susurro de Openi en el reconocimiento de voz?

ByEquipo de 7 minutos

¿Por qué abrir el reconocimiento de voz automático ASR?

Arquitectura y escala de modelos

Datos: desde el raspado web hasta las mezclas curadas

Olmoasr-pool (~ 3m horas)

Olmoasr-mix (~ 1m horas)

Puntos de referencia de rendimiento

Modelo medio (769m)

Modelos grandes (1.5b)

Modelos más pequeños

¿Cómo usar?

Ajuste de fino y adaptación de dominio

Aplicaciones

Conclusión

By Equipo de 7 minutos

Related Post

Google presenta Simula: un marco de razonamiento primero para generar conjuntos de datos sintéticos escalables y controlables en dominios de IA especializados

Una implementación de codificación en Phi-4-Mini de Microsoft para la herramienta de razonamiento de inferencia cuantificada utiliza el ajuste fino RAG y LoRA

Una implementación de codificación en Qwen 3.6-35B-A3B que cubre inferencia multimodal, control de pensamiento, llamada de herramientas, enrutamiento MoE, RAG y persistencia de sesión

You missed

Largas colas en Madrid mientras comienza el registro de amnistía para inmigrantes ⋆ Madrid Metropolitan

El Unistellar Odyssey Pro más barato ha sido durante todo el año.

¿Crea una sentencia en la sombra una ley “claramente establecida” a los efectos de la inmunidad calificada?

Mil millones de barriles de petróleo desaparecieron: Vitol advierte de guerra contra Irán