La inteligencia artificial es prometedora para ayudar a los médicos a diagnosticar pacientes y personalizar las opciones de tratamiento. Sin embargo, un grupo internacional de científicos dirigido por el MIT advierte que los sistemas de IA, tal como están diseñados actualmente, conllevan el riesgo de llevar a los médicos en la dirección equivocada porque pueden tomar decisiones incorrectas con exceso de confianza.
Según los investigadores, una forma de prevenir estos errores es programar los sistemas de inteligencia artificial para que sean más “humildes”. Dichos sistemas revelarían cuándo no confían en sus diagnósticos o recomendaciones y alentarían a los usuarios a recopilar información adicional cuando el diagnóstico sea incierto.
“Ahora estamos usando la IA como un oráculo, pero podemos usarla como entrenador. Podríamos usar la IA como un verdadero copiloto. Eso no sólo aumentaría nuestra capacidad para recuperar información, sino que aumentaría nuestra agencia para poder conectar los puntos”, dice Leo Anthony Celi, científico investigador principal del Instituto de Ingeniería y Ciencias Médicas del MIT, médico del Centro Médico Beth Israel Deaconess y profesor asociado de la Facultad de Medicina de Harvard.
Celi y sus colegas han creado un marco que, según dicen, puede guiar a los desarrolladores de IA en el diseño de sistemas que muestren curiosidad y humildad. Este nuevo enfoque podría permitir que los médicos y los sistemas de IA trabajen como socios, dicen los investigadores, y ayudar a evitar que la IA ejerza demasiada influencia sobre las decisiones de los médicos.
Celi es el autor principal del estudio, que aparece hoy en BMJ Health and Care Informatics. El autor principal del artículo es Sebastián Andrés Cajas Ordoñez, investigador del MIT Critical Data, un consorcio global liderado por el Laboratorio de Fisiología Computacional del Instituto de Ingeniería y Ciencias Médicas del MIT.
Inculcando valores humanos
Según el equipo del MIT, los sistemas de IA demasiado confiados pueden provocar errores en entornos médicos. Estudios anteriores han descubierto que los médicos de la UCI prefieren los sistemas de IA que perciben como confiables incluso cuando su propia intuición va en contra de la sugerencia de la IA. Es más probable que tanto los médicos como los pacientes acepten recomendaciones incorrectas de la IA cuando se las percibe como autorizadas.
Según los investigadores, en lugar de sistemas que ofrecen consejos demasiado confiados pero potencialmente incorrectos, los centros de atención médica deberían tener acceso a sistemas de inteligencia artificial que trabajen de manera más colaborativa con los médicos.
“Estamos tratando de incluir a los humanos en estos sistemas humanos-IA, de modo que facilitemos que los humanos reflexionen y reimaginen colectivamente, en lugar de tener agentes de IA aislados que lo hagan todo. Queremos que los humanos se vuelvan más creativos mediante el uso de la IA”, dice Cajas Ordoñez.
Para crear un sistema de este tipo, el consorcio diseñó un marco que incluye varios módulos computacionales que pueden incorporarse a los sistemas de IA existentes. El primero de estos módulos requiere un modelo de IA para evaluar su propia certeza a la hora de realizar predicciones diagnósticas. Desarrollado por los miembros del consorcio Janan Arslan y Kurt Benke de la Universidad de Melbourne, el puntaje de virtud epistémica actúa como una verificación de la autoconciencia, garantizando que la confianza del sistema esté adecuadamente atenuada por la incertidumbre y complejidad inherentes de cada escenario clínico.
Con esa autoconciencia, el modelo puede adaptar su respuesta a la situación. Si el sistema detecta que su confianza excede lo que respalda la evidencia disponible, puede pausar y señalar la discrepancia, solicitando pruebas o antecedentes específicos que resolverían la incertidumbre, o recomendando una consulta a un especialista. El objetivo es una IA que no sólo proporcione respuestas, sino que también indique cuándo esas respuestas deben tratarse con precaución.
“Es como tener un copiloto que te diga que necesitas buscar un par de ojos nuevos para poder comprender mejor a este paciente complejo”, dice Celi.
Celi y sus colegas han desarrollado previamente bases de datos a gran escala que pueden usarse para entrenar sistemas de inteligencia artificial, incluida la base de datos Medical Information Mart for Intensive Care (MIMIC) del Beth Israel Deaconess Medical Center. Su equipo ahora está trabajando para implementar el nuevo marco en sistemas de inteligencia artificial basados en MIMIC y presentarlo a los médicos del sistema de salud Beth Israel Lahey.
Según los investigadores, este enfoque también podría implementarse en sistemas de inteligencia artificial que se utilizan para analizar imágenes de rayos X o para determinar las mejores opciones de tratamiento para pacientes en la sala de emergencias, entre otras cosas.
Hacia una IA más inclusiva
Este estudio es parte de un esfuerzo mayor de Celi y sus colegas para crear sistemas de inteligencia artificial diseñados por y para las personas que, en última instancia, se verán más afectadas por estas herramientas. Muchos modelos de IA, como MIMIC, se basan en datos disponibles públicamente en los Estados Unidos, lo que puede llevar a la introducción de sesgos hacia una determinada forma de pensar sobre cuestiones médicas y a la exclusión de otras.
Incorporar más puntos de vista es fundamental para superar estos posibles sesgos, dice Celi, y enfatiza que cada miembro del consorcio global aporta una perspectiva distinta a un entendimiento colectivo más amplio.
Otro problema con los sistemas de inteligencia artificial existentes que se utilizan para el diagnóstico es que generalmente están entrenados en registros médicos electrónicos, que originalmente no estaban destinados a ese propósito. Esto significa que los datos carecen de gran parte del contexto que sería útil para realizar diagnósticos y recomendaciones de tratamiento. Además, muchos pacientes nunca son incluidos en esos conjuntos de datos debido a la falta de acceso, como las personas que viven en zonas rurales.
En los talleres de datos organizados por MIT Critical Data, grupos de científicos de datos, profesionales de la salud, científicos sociales, pacientes y otros trabajan juntos en el diseño de nuevos sistemas de IA. Antes de comenzar, se pide a todos que piensen si los datos que están utilizando capturan todos los impulsores de lo que pretenden predecir, asegurándose de que no codifiquen inadvertidamente las desigualdades estructurales existentes en sus modelos.
“Les hacemos cuestionar el conjunto de datos. ¿Confían en sus datos de entrenamiento y de validación? ¿Creen que hay pacientes que fueron excluidos, intencional o no, y cómo afectará eso al modelo en sí?” él dice. “Por supuesto, no podemos detener ni siquiera retrasar el desarrollo de la IA, no sólo en la atención sanitaria, sino en todos los sectores. Pero debemos ser más deliberados y reflexivos a la hora de hacerlo”.
La investigación fue financiada por el Proyecto de Investigación Innovadora Boston-Corea a través del Instituto de Desarrollo de la Industria de la Salud de Corea.