Gamificar el etiquetado de datos médicos para avanzar en la IA |  Noticias del MIT

Cuando Erik Duhaime PhD ’19 estaba trabajando en su tesis en el Centro de Inteligencia Colectiva del MIT, notó que su esposa, entonces estudiante de medicina, pasaba horas estudiando en aplicaciones que ofrecían tarjetas didácticas y cuestionarios. Su investigación había demostrado que, como grupo, los estudiantes de medicina podían clasificar las lesiones cutáneas con mayor precisión que los dermatólogos profesionales; El truco consistía en medir continuamente el desempeño de cada estudiante en casos con respuestas conocidas, descartar las opiniones de las personas que eran malas en la tarea y reunir inteligentemente las opiniones de las personas que eran buenas.

Combinando los hábitos de estudio de su esposa con su investigación, Duhaime fundó Centaur Labs, una empresa que creó una aplicación móvil llamada DiagnosUs para recopilar opiniones de expertos médicos sobre datos científicos y biomédicos del mundo real. A través de la aplicación, los usuarios revisan cualquier cosa, desde imágenes de lesiones cutáneas potencialmente cancerosas o clips de audio de sonidos cardíacos y pulmonares que podrían indicar un problema. Si los usuarios son precisos, Centaur utiliza sus opiniones y les otorga pequeños premios en efectivo. Esas opiniones, a su vez, ayudan a las empresas de inteligencia artificial médica a entrenar y mejorar sus algoritmos.

El enfoque combina el deseo de los expertos médicos de perfeccionar sus habilidades con la desesperada necesidad de datos médicos bien etiquetados por parte de las empresas que utilizan la IA para la biotecnología, el desarrollo de productos farmacéuticos o la comercialización de dispositivos médicos.

“Me di cuenta de que los estudios de mi esposa podían ser un trabajo productivo para los desarrolladores de IA”, recuerda Duhaime. “Hoy en día tenemos decenas de miles de personas que utilizan nuestra aplicación, y aproximadamente la mitad son estudiantes de medicina que están impresionados de ganar dinero en el proceso de estudiar. Entonces, tenemos esta plataforma gamificada donde las personas compiten entre sí para entrenar datos y ganar dinero si son buenos y mejoran sus habilidades al mismo tiempo, y al hacerlo, etiquetan datos para equipos que construyen IA que salva vidas”.

Gamificación del etiquetado médico

Duhaime completó su doctorado con Thomas Malone, profesor de Gestión Patrick J. McGovern y director fundador del Centro de Inteligencia Colectiva.

“Lo que me interesó fue la sabiduría del fenómeno de las multitudes”, dice Duhaime. “Pregúntele a un grupo de personas cuántas gominolas hay en un frasco y el promedio de las respuestas de todos será bastante cercano. Me interesaba saber cómo se resuelve ese problema en una tarea que requiere habilidad o experiencia. Obviamente, no desea preguntarle a un grupo de personas al azar si tiene cáncer, pero al mismo tiempo, sabemos que las segundas opiniones en el cuidado de la salud pueden ser extremadamente valiosas. Puedes pensar en nuestra plataforma como una forma potente de obtener una segunda opinión”.

Duhaime comenzó a explorar formas de aprovechar la inteligencia colectiva para mejorar los diagnósticos médicos. En un experimento, capacitó a grupos de legos y estudiantes de medicina a los que describe como “semiexpertos” para clasificar las afecciones de la piel, y descubrió que combinando las opiniones de los de mayor rendimiento podía superar a los dermatólogos profesionales. También descubrió que combinando algoritmos entrenados para detectar cáncer de piel con las opiniones de expertos, podía superar a cualquiera de los métodos por sí solo.

“La idea central fue que se hacen dos cosas”, explica Duhaime. “Lo primero es medir el desempeño de las personas, lo cual parece obvio, pero ni siquiera en el ámbito médico se hace mucho. Si le preguntas a un dermatólogo si es bueno, te dirá: “Sí, por supuesto, soy dermatólogo”. No necesariamente saben qué tan buenos son en tareas específicas. La segunda cosa es que cuando obtienes múltiples opiniones, necesitas identificar las complementariedades entre las diferentes personas. Es necesario reconocer que la experiencia es multidimensional, por lo que se parece más a reunir el equipo de trivia óptimo que a reunir a cinco personas que sean las mejores en lo mismo. Por ejemplo, un dermatólogo podría ser mejor para identificar el melanoma, mientras que otro podría ser mejor para clasificar la gravedad de la psoriasis”.

Mientras aún cursaba su doctorado, Duhaime fundó Centaur y comenzó a utilizar el ecosistema empresarial del MIT para desarrollar aún más la idea. Recibió financiación del Fondo de Innovación Sandbox del MIT en 2017 y participó en el acelerador de startups delta v dirigido por el Martin Trust Center for MIT Entrepreneurship durante el verano de 2018. La experiencia lo ayudó a ingresar al prestigioso acelerador Y Combinator más tarde ese año.

La aplicación DiagnosUs, que Duhaime desarrolló con los cofundadores de Centaur, Zach Rausnitz y Tom Gellatly, está diseñada para ayudar a los usuarios a probar y mejorar sus habilidades. Duhaime dice que aproximadamente la mitad de los usuarios son estudiantes de medicina y la otra mitad son en su mayoría médicos, enfermeras y otros profesionales médicos.

“Es mejor que estudiar para los exámenes, donde es posible que tengas preguntas de opción múltiple”, dice Duhaime. “Pueden ver casos y prácticas reales”.

Centaur recopila cada semana millones de opiniones de decenas de miles de personas en todo el mundo. Duhaime dice que la mayoría de la gente gana dinero con el café, aunque la persona que más gana con la plataforma es un médico de Europa del Este que gana alrededor de 10.000 dólares.

“La gente puede hacerlo en el sofá o en la T”, dice Duhaime. “No se siente como un trabajo, es divertido”.

El enfoque contrasta marcadamente con el etiquetado de datos tradicional y la moderación de contenido de IA, que normalmente se subcontratan a países de bajos recursos.

El enfoque de Centaur también produce resultados precisos. en un papel Con investigadores del Brigham and Women’s Hospital, el Massachusetts General Hospital (MGH) y la Universidad Tecnológica de Eindhoven, Centaur demostró que sus opiniones colectivas etiquetaban las ecografías pulmonares con tanta fiabilidad como lo hacían los expertos. Otro estudio con investigadores del Memorial Sloan Kettering demostró que el etiquetado de imágenes dermatoscópicas mediante colaboración colectiva era más preciso que el de dermatólogos con mucha experiencia. Más allá de las imágenes, la plataforma de Centaur también funciona con vídeo, audio, texto de fuentes como artículos de investigación o conversaciones anónimas entre médicos y pacientes, y ondas de electroencefalogramas (EEG) y electrocardiografías (ECG).

Encontrar a los expertos

Centaur ha descubierto que los mejores artistas provienen de lugares sorprendentes. En 2021, para recopilar opiniones de expertos sobre los patrones de EEG, los investigadores realizaron un concurso a través de la aplicación DiagnosUs en una conferencia en la que participaron unos 50 epileptólogos, cada uno con más de 10 años de experiencia. Los organizadores hicieron una camiseta personalizada para entregársela al ganador del concurso, quien asumieron que asistiría a la conferencia.

Pero cuando llegaron los resultados, un par de estudiantes de medicina de Ghana, Jeffery Danquah y Andrews Gyabaah, habían superado a todos los presentes. El asistente a la conferencia mejor clasificado quedó en noveno lugar.

“Empecé a hacerlo por dinero, pero me di cuenta de que en realidad empezó a ayudarme mucho”, dijo Gyabaah al equipo de Centaur más tarde. “Hubo momentos en la clínica en los que me di cuenta de que me estaba yendo mejor que a otros gracias a lo que aprendí en la aplicación DiagnosUs”.

A medida que la IA continúa cambiando la naturaleza del trabajo, Duhaime cree que Centaur Labs se utilizará como un control continuo de los modelos de IA.

“En este momento, estamos ayudando a las personas a entrenar algoritmos principalmente, pero creo que cada vez más seremos utilizados para monitorear algoritmos y en conjunto con algoritmos, básicamente sirviendo como humanos en el circuito para una variedad de tareas”, dice Duhaime. “Se podría pensar en nosotros menos como una forma de entrenar la IA y más como parte del ciclo de vida completo, donde brindamos retroalimentación sobre los resultados de los modelos o monitoreamos el modelo”.

Duhaime considera que el trabajo de los humanos y los algoritmos de IA se está integrando cada vez más y cree que Centaur Labs tiene un papel importante que desempeñar en ese futuro.

“No se trata sólo de entrenar algoritmos, implementar algoritmos”, dice Duhaime. “En cambio, habrá líneas de montaje digitales en toda la economía, y se necesitará un juicio humano experto a pedido, infundido en diferentes lugares a lo largo de la cadena de valor”.