Screenshot 2024 03 31 At 2.35.05 Pm.png

El procesamiento del lenguaje natural (NLP) se ha apoderado del campo de la inteligencia artificial (IA) con la introducción de modelos de lenguaje grandes (LLM), como el GPT-4 de OpenAI. Estos modelos utilizan entrenamiento masivo en grandes conjuntos de datos para predecir la siguiente palabra en una secuencia y mejoran con la retroalimentación humana. Estos modelos han demostrado potencial para su uso en investigación biomédica y aplicaciones de atención médica al funcionar bien en una variedad de tareas, incluidos resúmenes y respuestas a preguntas.

Los modelos especializados, como Med-PaLM 2, han influido enormemente en campos como la atención sanitaria y la investigación biomédica al permitir actividades como la interpretación de informes radiológicos, el análisis de información clínica a partir de registros médicos electrónicos y la recuperación de información de la literatura biomédica. La mejora de los modelos de lenguaje de dominios específicos puede generar menores costos de atención médica, descubrimientos biológicos más rápidos y mejores resultados para los pacientes.

Sin embargo, los LLM todavía enfrentan varios obstáculos a pesar de su impresionante desempeño. Con el tiempo, los gastos relacionados con la capacitación y aplicación de estos modelos han aumentado significativamente, planteando problemas tanto financieros como ambientales. Además, la naturaleza cerrada de estos modelos, administrados por grandes empresas digitales, genera preocupaciones sobre la accesibilidad y la privacidad de los datos.

En el campo biomédico, la estructura cerrada de estos modelos impide ajustes adicionales para necesidades particulares. Aunque proporcionan respuestas específicas de un dominio, modelos como PubMedBERT, SciBERT y BioBERT son modestos en comparación con modelos más amplios como GPT-4.

Para abordar estos problemas, un equipo de investigadores de la Universidad de Stanford y DataBricks desarrolló y lanzó BioMedLM, un modelo autorregresivo estilo GPT con 2.700 millones de parámetros. BioMedLM supera a los modelos genéricos en inglés en múltiples puntos de referencia y logra un rendimiento competitivo en tareas de respuesta a preguntas biomédicas.

Para proporcionar un corpus específico y cuidadosamente seleccionado para tareas de PNL biomédica, BioMedLM solo utiliza datos de capacitación de resúmenes y artículos completos de PubMed. Cuando se optimiza para determinadas aplicaciones biomédicas, BioMedLM funciona de manera sólida incluso si es de menor escala que los modelos más grandes.

Las evaluaciones han demostrado que BioMedLM puede desempeñarse bien en tareas de respuesta a preguntas biomédicas de opción múltiple. Puede lograr resultados competitivos a la par de modelos más grandes. Su rendimiento en la extracción de información pertinente de textos biológicos ha quedado demostrado por sus puntuaciones del 69,0 % en la prueba MMLU Medical Genetics y del 57,3 % en el conjunto de datos MedMCQA (dev).

El equipo ha compartido que BioMedLM se puede mejorar aún más para producir respuestas interesantes a las consultas de los pacientes sobre temas médicos. Esta adaptabilidad resalta cómo los modelos más pequeños, como BioMedLM, pueden funcionar como soluciones efectivas, transparentes y que preservan la privacidad para aplicaciones especializadas de PNL, especialmente en el campo biomédico.

Como opción más compacta que requiere menos gastos computacionales para la capacitación y la implementación, BioMedLM ofrece beneficios en términos de eficiencia de recursos e impacto ambiental. Su dependencia de un conjunto de datos cuidadosamente seleccionado también mejora la apertura y la confiabilidad, resolviendo problemas con la opacidad de las fuentes de datos de entrenamiento.


Revisar la Papel y Modelo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.