La extracción, el análisis y la interpretación de datos médicos de la literatura clínica no estructurada se incluyen en la disciplina emergente del procesamiento clínico del lenguaje natural (PLN). A pesar de su importancia, surgen dificultades particulares al desarrollar metodologías para la PNL clínica. Por ejemplo, los textos clínicos pueden confundir los modelos ordinarios de PNL, ya que con frecuencia están llenos de acrónimos y terminología médica especializada. Afortunadamente, los desarrollos recientes en modelos de lenguaje de gran tamaño brindan una solución prometedora a estos problemas, ya que están previamente entrenados en grandes corpus e incluyen miles de millones de parámetros, capturando naturalmente información clínica sustancial.
Estos desarrollos resaltan la necesidad de desarrollar métodos específicos para modificar los LLM para su uso en entornos clínicos que aborden la complejidad de la terminología y mejoren los modelos mediante el ajuste de datos clínicos. Aunque los LLM genéricos tienen un gran potencial, usarlos directamente para hacer inferencias sobre datos de textos clínicos solo a veces es deseable en entornos del mundo real. En primer lugar, estos LLM suelen tener miles de millones de parámetros, lo que requiere una potencia de procesamiento sustancial incluso durante la concepción. Esto da como resultado altos costos de infraestructura y largos tiempos de inferencia. La información confidencial del paciente contenida en el texto clínico también genera preocupaciones sobre la privacidad y el cumplimiento normativo. La creación de datos de capacitación sintéticos con LLM es una técnica potencial para abordar estos problemas, ya que utiliza las capacidades de los LLM de una manera consciente de los recursos y la privacidad.
Los modelos pueden operar a niveles de alto rendimiento y al mismo tiempo cumplir con las leyes de privacidad de datos cuando se entrenan con estos conjuntos de datos artificiales, replicando datos clínicos del mundo real. En el aprendizaje automático general, una de las áreas de estudio más comunes es la creación de datos sintéticos utilizando modelos básicos. Sin embargo, el uso de LLM capacitados en textos disponibles para crear datos clínicos presenta obstáculos especiales cuando se proporcionan datos de alta calidad que siguen la distribución del conjunto de datos original. Para evaluar la calidad de los datos producidos por las técnicas existentes, realizan un análisis exhaustivo centrado en la variedad y la distribución. La puntuación de Discrepancia del momento central (CMD) y la visualización de incorporación t-SNE revelan un cambio notable en la distribución de datos.
También analizan las cantidades y frecuencias de entidades clínicamente relacionadas en los datos sintéticos; Se observa una disminución significativa al comparar los datos sintéticos con los datos reales. Aunque varios estudios han explorado la creación de datos clínicos utilizando modelos de lenguaje, muchas de estas iniciativas son tareas específicas. Los registros médicos electrónicos, las notas clínicas, la extracción de textos médicos y las conversaciones médicas son algunos ejemplos. Estos estudios pueden utilizar datos de entrenamiento excesivos y con frecuencia utilizan modelos de lenguaje directamente para la producción de texto. Hay un número limitado de ideas coherentes para mejorar la forma en que se modifican los LLM para producir texto sintético que ayudará con las aplicaciones clínicas posteriores.
Inspirándose en la investigación anterior, investigadores de la Universidad Emory y el Instituto de Tecnología de Georgia presentaron CLINGEN, un marco genérico imbuido de experiencia clínica para producir textos clínicos de alta calidad en situaciones de pocas tomas. Sus objetivos finales son promover la variedad de temas en el texto producido y cerrar la brecha entre los datos sintéticos y los datos reales. Proporcionan un método para utilizar la extracción de conocimientos clínicos para contextualizar las indicaciones para lograr este objetivo. Esto implica obtener ideas para temas clínicos de KG y LLM y consejos sobre estilos de escritura de LLM. De esta manera, CLINGEN combina la información paramétrica interna incorporada en grandes modelos de lenguaje con conocimientos no paramétricos de gráficos de conocimiento clínico externos.
Es importante señalar que CLINGEN se puede utilizar fácilmente para diversas tareas clínicas fundamentales de PNL y requiere muy poco trabajo humano adicional. A continuación se presenta un resumen de sus contribuciones:
• Para crear datos de textos clínicos en circunstancias de pocas oportunidades, sugieren CLINGEN, un marco genérico lleno de información clínica.
• Ofrecen un método sencillo pero eficaz para utilizar la extracción de conocimientos clínicos para adaptar las indicaciones a las tareas clínicas de PNL previstas, que pueden aplicarse fácilmente a diversas actividades de PNL clínica. Esto implica obtener ideas para temas clínicos de KG y LLM y consejos sobre estilos de escritura de LLM.
• Realizan un análisis exhaustivo de la creación de datos clínicos sintéticos utilizando 16 conjuntos de datos y 7 tareas clínicas de PNL. Los resultados experimentales muestran que CLINGEN aumenta la variedad de las muestras de entrenamiento producidas mientras se alinea más estrechamente con la distribución de datos original. Los aumentos de rendimiento empíricos (8,98 % para PubMedBERTBase y 7,27 % para PubMedBERTLarge) son consistentes en múltiples tareas con diferentes LLM y clasificadores.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
también estamos en Telegrama y WhatsApp.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.