Los errores tipográficos y la jerga estima la IA para desanimar la búsqueda de atención médica

Tenga cuidado de pedirle consejo a la IAI sobre cuándo ver a un médico

Chong Kee Siong/Getty Images

¿Debería ver a un médico sobre su dolor de garganta? El consejo de AI puede depender de cuán cuidadosamente escribiera su pregunta. Cuando se probaron modelos de inteligencia artificial sobre la escritura simulada de posibles pacientes, tenían más probabilidades de asesorar contra la búsqueda de atención médica si el escritor hiciera errores tipográficos, incluía un lenguaje emocional o incierto, o era mujer.

“El sesgo insidioso puede cambiar el tenor y el contenido de los consejos de IA, y eso puede conducir a diferencias sutiles pero importantes” en cómo se distribuyen los recursos médicos, dice Karandeep Singh en la Universidad de California, San Diego, que no participó en el estudio.

Abinitha gourabathina en el Instituto de Tecnología de Massachusetts y sus colegas usaron IA para ayudar a crear miles de notas de pacientes en diferentes formatos y estilos. Por ejemplo, algunos mensajes incluyeron espacios adicionales y errores tipográficos para imitar a pacientes con dominio limitado del inglés o menos facilidad con la escritura. Otras notas utilizaron un lenguaje incierto en el estilo de los escritores con ansiedad de la salud, expresiones coloridas que prestaron un tono dramático o emocional o pronombres neutral de género.

Luego, los investigadores alimentaron las notas a cuatro modelos de idiomas grandes (LLM) comúnmente utilizados para alimentar chatbots y le dijeron a la IA que respondiera preguntas sobre si el paciente debe administrar su condición en el hogar o visitar una clínica, y si el paciente debe recibir ciertas pruebas de laboratorio y otros recursos médicos. Estos modelos de IA incluyeron GPT-4 de OpenAI, Meta’s Llama-3-70B y Llama-3-8B, y el modelo Palmyra-Med desarrollado para la industria de la salud por el escritor de la compañía de IA.

Las pruebas mostraron que los diversos cambios de formato y estilo hicieron todos los modelos de IA entre 7 y 9 por ciento más de probabilidades de recomendar que los pacientes se queden en casa en lugar de recibir atención médica. Los modelos también tenían más probabilidades de recomendar que las pacientes femeninas permanezcan en casa y un seguimiento investigación demostró que eran más propensos que los médicos humanos a cambiar sus recomendaciones para los tratamientos debido al estilo de género y lenguaje en los mensajes.

Openai y Meta no respondieron a una solicitud de comentarios. El escritor no “recomienda o apoya” el uso de LLM, incluido el modelo Palmyra-Med de la compañía, para decisiones clínicas o asesoramiento de salud “sin un humano en el bucle”, dice Zayed Yasin en el escritor.

La mayoría de las herramientas de IA operacionales utilizadas actualmente en los sistemas de registros de salud electrónicos se basan en el GPT-4O de OpenAI, que no se estudió específicamente en esta investigación, dice Singh. Pero dijo que una gran comida para llevar del estudio es la necesidad de mejorar las formas de “evaluar y monitorear los modelos generativos de IA” utilizados en la industria de la salud.

Temas: