El equipo de IA de Google Health ha lanzado MedASR, un modelo médico abierto de voz a texto que se centra en el dictado clínico y las conversaciones entre médicos y pacientes y está diseñado para conectarse directamente a los flujos de trabajo de IA modernos.
¿Qué es MedASR y dónde encaja?
MedASR es un modelo de voz a texto basado en la arquitectura Conformer y está previamente capacitado para dictado y transcripción médicos. Se posiciona como un punto de partida para los desarrolladores que desean crear aplicaciones de voz basadas en atención médica, como herramientas de dictado de radiología o sistemas de captura de notas de visitas.
El modelo tiene 105 millones de parámetros y acepta audio de canal mono a 16000 hercios con formas de onda enteras de 16 bits. Produce resultados solo de texto, por lo que ingresa directamente al procesamiento de lenguaje natural posterior o a modelos generativos como MedGemma.
MedASR se encuentra dentro de la cartera de Health AI Developer Foundations, junto con MedGemma, MedSigLIP y otros modelos médicos de dominios específicos que comparten términos de uso comunes y una historia de gobernanza consistente.
Datos de entrenamiento y especialización de dominio.
MedASR se basa en un corpus diverso de discurso médico identificado. El conjunto de datos incluye alrededor de 5000 horas de dictados médicos y conversaciones clínicas sobre radiología, medicina interna y medicina familiar.
La capacitación combina segmentos de audio con transcripciones y metadatos. Los subconjuntos de datos conversacionales están anotados con entidades médicas nombradas, incluidos síntomas, medicamentos y afecciones. Esto le da al modelo una sólida cobertura del vocabulario clínico y los patrones de fraseo que aparecen en la documentación de rutina.
El modelo es solo en inglés y la mayor parte del audio de capacitación proviene de hablantes para quienes el inglés es su primer idioma y que se criaron en los Estados Unidos. La documentación señala que el rendimiento puede ser menor para otros perfiles de altavoces o micrófonos ruidosos y recomienda realizar ajustes finos para dichas configuraciones.
Arquitectura y decodificación
MedASR sigue el diseño del codificador Conformer. Conformer combina bloques de convolución con capas de autoatención para poder capturar patrones acústicos locales y dependencias temporales de mayor alcance en la misma pila.
El modelo se presenta como un detector de voz automatizado con una interfaz estilo CTC. En la implementación de referencia, los desarrolladores utilizan AutoProcessor para crear funciones de entrada a partir de audio de forma de onda y AutoModelForCTC para producir secuencias de tokens. La decodificación utiliza decodificación codiciosa de forma predeterminada. El modelo también se puede combinar con un modelo de lenguaje externo de seis gramos con búsqueda por haz de tamaño 8 para mejorar la tasa de error de palabras.
La capacitación MedASR utiliza JAX y ML Pathways en hardware TPUv4p, TPUv5p y TPUv5e. Estos sistemas proporcionan la escala necesaria para modelos de voz de gran tamaño y se alinean con la pila de capacitación de modelos básicos más amplia de Google.
Rendimiento en tareas de habla médica.
Los resultados clave, con decodificación codiciosa y con un modelo de lenguaje de seis gramos, son:
RAD DICT, dictado por radiólogo: MedASR greedy 6,6 por ciento, MedASR plus language model 4,6 por ciento, Gemini 2.5 Pro 10,0 por ciento, Gemini 2.5 Flash 24,4 por ciento, Whisper v3 Large 25,3 por ciento. DICT GENERAL, medicina general e interna: MedASR greedy 9,3 por ciento, MedASR plus language model 6,9 por ciento, Gemini 2.5 Pro 16,4 por ciento, Gemini 2.5 Flash 27,1 por ciento, Whisper v3 Large 33,1 por ciento. FM DICT, medicina familiar: MedASR codicioso 8,1 por ciento, MedASR plus language model 5,8 por ciento, Gemini 2.5 Pro 14,6 por ciento, Gemini 2.5 Flash 19,9 por ciento, Whisper v3 Large 32,5 por ciento. Eye Gaze, dictado de 998 casos de radiografía de tórax MIMIC: MedASR greedy 6,6 por ciento, MedASR plus language model 5,2 por ciento, Gemini 2.5 Pro 5,9 por ciento, Gemini 2.5 Flash 9,3 por ciento, Whisper v3 Large 12,5 por ciento.
Opciones de implementación y flujo de trabajo del desarrollador
Un ejemplo mínimo de canalización es:
Para obtener más control, los desarrolladores cargan AutoProcessor y AutoModelForCTC, vuelven a muestrear el audio a 16000 hercios con librosa, mueven los tensores a CUDA si están disponibles y llaman a model.generate seguido de Processor.batch_decode.
Conclusiones clave
MedASR es un modelo ASR médico ligero y de pesos abiertos basado en Conformer: tiene 105 millones de parámetros, está entrenado específicamente para dictado y transcripción médicos y se publica bajo el programa Health AI Developer Foundations como un modelo solo en inglés para desarrolladores de atención médica. Capacitación específica de dominio en aproximadamente 5000 horas de audio médico identificado: MedASR está previamente capacitado en dictados médicos y conversaciones clínicas en especialidades como radiología, medicina interna y medicina familiar, lo que le brinda una sólida cobertura de terminología clínica en comparación con los sistemas ASR de propósito general. Tasas de error de palabras competitivas o mejores en puntos de referencia de dictado médico: en radiología interna, medicina general, medicina familiar y conjuntos de datos Eye Gaze, MedASR con decodificación de modelo greedy o de lenguaje iguala o supera a modelos generales grandes como Gemini 2.5 Pro, Gemini 2.5 Flash y Whisper v3 Large en tasa de error de palabras para discurso médico en inglés.
Consulte el repositorio, el modelo en HF y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.