El desarrollo de un diagnóstico diferencial preciso (DDX) es una parte fundamental de la atención médica, típicamente lograda a través de un proceso paso a paso que integra el historial del paciente, los exámenes físicos y las pruebas de diagnóstico. Con el auge de las LLM, existe un potencial de creciente para apoyar y automatizar partes de este viaje de diagnóstico utilizando herramientas interactivas con alimentación de IA. A diferencia de los sistemas de IA tradicionales que se centran en producir un solo diagnóstico, el razonamiento clínico del mundo real implica actualizar y evaluar continuamente múltiples posibilidades de diagnóstico a medida que hay más datos de pacientes disponibles. Aunque el aprendizaje profundo ha generado con éxito DDX en campos como radiología, oftalmología y dermatología, estos modelos generalmente carecen de las capacidades interactivas y conversacionales necesarias para comprometerse de manera efectiva con los médicos.
The Adviento de LLMS ofrece una nueva vía para construir herramientas que pueden soportar DDX a través de la interacción del lenguaje natural. Estos modelos, incluidos los de uso general como GPT-4 y los específicos de los médicos como Med-Palm 2, han mostrado un alto rendimiento en los exámenes médicos estandarizados y de opción múltiple. Si bien estos puntos de referencia inicialmente evalúan el conocimiento médico de un modelo, no reflejan su utilidad en entornos clínicos reales o su capacidad para ayudar a los médicos durante casos complejos. Aunque algunos estudios recientes han probado LLM en informes de casos desafiantes, todavía hay una comprensión limitada de cómo estos modelos podrían mejorar la toma de decisiones del médico o mejorar la atención al paciente a través de la colaboración en tiempo real.
Los investigadores de Google introdujeron Amie, un modelo de lenguaje grande Administrado para el razonamiento de diagnóstico clínico, para evaluar su efectividad para ayudar con DDX. El desempeño independiente de Amie superó a los médicos sin ayuda en un estudio que involucra a 20 médicos y 302 casos médicos complejos del mundo real. Cuando se integran en una interfaz interactiva, los médicos que usan AMIE junto con herramientas tradicionales produjeron listas DDX significativamente más precisas e integrales que aquellos que usan recursos estándar solo. AMIE no solo mejoró la precisión diagnóstica sino también mejoró las habilidades de razonamiento de los médicos. Su desempeño también superó a GPT-4 en evaluaciones automatizadas, mostrando promesa de aplicaciones clínicas del mundo real y un acceso más amplio al soporte de nivel experto.
Amie, un modelo de idioma ajustado para tareas médicas, demostró un fuerte rendimiento en la generación de DDX. Sus listas fueron calificadas altamente para la calidad, la idoneidad y la amplitud. En el 54% de los casos, el DDX de Amie incluyó el diagnóstico correcto, superando significativamente a los médicos no asistidos. Logró una precisión de los 10 mejores del 59%, con el diagnóstico adecuado clasificado primero en el 29% de los casos. Los médicos asistidos por Amie también mejoraron su precisión diagnóstica en comparación con el uso de herramientas de búsqueda o trabajando solo. A pesar de ser nuevo en la interfaz AMIE, los médicos lo usaron de manera similar a los métodos de búsqueda tradicionales, mostrando su usabilidad práctica.
En un análisis comparativo entre AMIE y GPT-4 utilizando un subconjunto de 70 casos de CPC NEJM, las comparaciones directas de evaluación humana fueron limitadas debido a diferentes conjuntos de evaluadores. En cambio, se utilizó una métrica automatizada que se alineaba razonablemente con el juicio humano. Mientras que GPT-4 superó marginalmente a AMIE en la precisión de Top-1 (aunque no es estadísticamente significativa), AMIE demostró una precisión superior superior para N> 1, con ganancias notables para N> 2. Esto sugiere que AMIE generó DDX más integral y apropiado, un aspecto crucial en la razonamiento clínico del mundo real. Además, AMIE superó a los médicos certificados por la junta en tareas DDX independientes y mejoró significativamente el rendimiento del clínico como una herramienta de asistencia, produciendo una mayor precisión de Top-N, calidad DDX y exhaustividad que la asistencia tradicional basada en la búsqueda.
Más allá del rendimiento bruto, la interfaz conversacional de Amie fue intuitiva y eficiente, y los médicos informaron una mayor confianza en sus listas DDX después de su uso. Si bien existen limitaciones, como la falta de acceso de Amie a imágenes y datos tabulares en materiales clínicos y la naturaleza artificial de las presentaciones de casos de estilo CPC. No obstante, el estudio enfatiza la necesidad de una cuidadosa integración de los LLM en los flujos de trabajo clínicos, con atención a la calibración de confianza, la expresión de incertidumbre del modelo y el potencial para anclar sesgos y alucinaciones. El trabajo futuro debe evaluar rigurosamente la aplicabilidad, la equidad y los impactos a largo plazo del mundo real asistido por el diagnóstico.
Verificar Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.