A medida que los LLM se vuelven más prominentes en los entornos de atención médica, asegurar que las fuentes creíbles respalden sus resultados es cada vez más importante. Aunque no hay LLM aún aprobados por la FDA para la toma de decisiones clínicas, los modelos principales como GPT-4O, Claude y MedPalm han superado a los médicos en exámenes estandarizados como el USMLE. Estos modelos ya se están utilizando en escenarios del mundo real, incluido el apoyo a la salud mental y el diagnóstico de enfermedades raras. Sin embargo, su tendencia a alucinar, generar declaraciones no verificadas o inexactas, pospone un riesgo grave, especialmente en contextos médicos donde la información errónea puede provocar daños. Este problema se ha convertido en una preocupación importante para los médicos, y muchos citan una falta de confianza y la incapacidad de verificar las respuestas de LLM como barreras clave para la adopción. Los reguladores, como la FDA, también han enfatizado la importancia de la transparencia y la responsabilidad, lo que subraya la necesidad de una atribución de fuentes confiable en las herramientas médicas de IA.
Mejoras recientes, como instrucciones ajustadas y TRAPOhan habilitado las LLM para generar fuentes cuando se solicitan. Sin embargo, incluso cuando las referencias son de sitios web legítimos, a menudo hay poca claridad sobre si esas fuentes realmente respaldan las afirmaciones del modelo. Investigaciones anteriores han introducido conjuntos de datos como WebGPT, Expertqa y Hagrid para evaluar la atribución de la fuente de LLM; Sin embargo, estos dependen en gran medida de la evaluación manual, que requiere mucho tiempo y es difícil de escalar. Los enfoques más nuevos utilizan los propios LLM para evaluar la calidad de la atribución, como se demuestra en trabajos como ALCE, AttributedQA y Factcore. Si bien herramientas como ChatGPT pueden ayudar a evaluar la precisión de las citas, los estudios revelan que tales modelos aún luchan para garantizar una atribución confiable en sus resultados, destacando la necesidad de un desarrollo continuo en esta área.
Investigadores de la Universidad de Stanford y otras instituciones han desarrollado SourCecheckup, una herramienta automatizada diseñada para evaluar la precisión con la que los LLM respaldan sus respuestas médicas con fuentes relevantes. Analizando 800 preguntas y más de 58,000 pares de declaraciones de origen, encontraron que el 50% –90% de las respuestas generadas por LLM no estaban totalmente respaldadas por fuentes citadas, y GPT-4 muestra reclamos no respaldados en aproximadamente el 30% de los casos. Incluso los LLM con acceso web lucharon para proporcionar respuestas respaldadas por la fuente de manera consistente. Válido por expertos médicos, SourCecheckup reveló brechas significativas en la confiabilidad de las referencias generadas por LLM, lo que plantea preocupaciones críticas sobre su preparación para su uso en la toma de decisiones clínicas.
El estudio evaluó el rendimiento de atribución de origen de varios LLM de mayor rendimiento y de código abierto utilizando una tubería personalizada llamada SourCecheckup. El proceso implicó generar 800 preguntas médicas, la mitad de R/askdocs de Reddit y la mitad creada por GPT-4O utilizando textos mayoclínicos, luego evaluando las respuestas de cada LLM para la precisión objetiva y la calidad de las citas. Las respuestas se dividieron en declaraciones verificables, coincidieron con fuentes citadas y obtuvieron puntajes utilizando GPT-4 para soporte. El marco informó métricas, incluida la validez y el apoyo de la URL, tanto en los niveles de declaración como de respuesta. Los expertos médicos validaron todos los componentes, y los resultados se verificaron cruzados utilizando Claude Sonnet 3.5 para evaluar el sesgo potencial de GPT-4.
El estudio presenta una evaluación completa de qué tan bien los LLM verifican y citan fuentes médicas, introduciendo un sistema llamado SourCecheckup. Los expertos humanos confirmaron que las preguntas generadas por el modelo eran relevantes y respondidas, y que las declaraciones analizadas coincidían estrechamente con las respuestas originales. En la verificación de la fuente, la precisión del modelo casi coincidía con la de los médicos expertos, sin diferencias estadísticamente significativas entre los juicios modelo y expertos. Claude Sonnet 3.5 y GPT-4O demostraron un acuerdo comparable con anotaciones de expertos, mientras que los modelos de código abierto como Llama 2 y Meditron tienen un rendimiento significativamente inferior, a menudo no produciendo URL de citas válidas. Incluso GPT-4O con RAG, aunque mejor que otros debido a su acceso a Internet, respaldó solo el 55% de sus respuestas con fuentes confiables, con limitaciones similares observadas en todos los modelos.
Los hallazgos subrayan desafíos persistentes para garantizar la precisión objetiva en las respuestas de LLM a consultas médicas abiertas. Muchos modelos, incluso aquellos mejorados con la recuperación, no pudieron vincular constantemente las afirmaciones con evidencia creíble, particularmente para preguntas de plataformas comunitarias como Reddit, que tienden a ser más ambiguas. Las evaluaciones humanas y las evaluaciones de SourCecheckup revelaron consistentemente tasas de soporte de nivel de respuesta bajas, destacando una brecha entre las capacidades del modelo actual y los estándares necesarios en los contextos clínicos. Para mejorar la confiabilidad, el estudio sugiere que los modelos deben ser entrenados o ajustados explícitamente para una cita y verificación precisas. Además, las herramientas automatizadas como SourceCleanup demostraron prometer en editar declaraciones no respaldadas para mejorar la base objetiva, ofreciendo una ruta escalable para mejorar la confiabilidad de las citas en las salidas de LLM.
Mira el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.