Los estudios del genoma asistidos por IA están plagados de errores

tEl genoma sirve como modelo del cuerpo, influyendo en cada rasgo, desde la forma de la cara hasta los arcos de los pies, e incluso en el desarrollo de ciertas enfermedades. Si bien algunos trastornos, como la fibrosis quística, están vinculados a genes únicos y pueden predecirse de manera confiable basándose en los datos genéticos de una persona, muchos otros, como el trastorno del espectro autista, la enfermedad de Alzheimer, la depresión y la obesidad, no lo están.

Durante los últimos 15 años, los científicos han utilizado estudios de asociación de todo el genoma (GWAS) para comparar genomas de grandes grupos de personas para identificar cientos de miles de variantes genéticas asociadas con un rasgo o enfermedad.1 Este método ha ayudado a los científicos a desentrañar la biología subyacente y los factores de riesgo de enfermedades complejas y también ha llevado al descubrimiento de nuevos objetivos farmacológicos. A pesar de estos avances, los estudios GWAS tienen sus limitaciones, que los científicos han intentado abordar con la ayuda de la inteligencia artificial (IA). Sin embargo, en dos estudios publicado en Genética de la naturalezainvestigadores de la Universidad de Wisconsin-Madison identificaron enfermedades generalizadas prejuicios Estos nuevos enfoques pueden introducirse cuando se trabaja con conjuntos de datos grandes pero incompletos.2,3

GWAS depende de grandes biobancos con amplios datos de pacientes. Sin embargo, es posible que a estos repositorios les falte cualquier cosa, desde informes de sangre, escaneos e historial del paciente hasta datos familiares. Incluso con una encuesta exhaustiva, desafíos como la falta de datos sobre enfermedades de aparición tardía en una cohorte de participantes jóvenes pueden arruinar los planes de los investigadores.

Para abordar las lagunas en los datos, los científicos desarrollaron dos enfoques: aprendizaje automático y GWAS-by-proxy (GWAX), que se basa en datos de antecedentes familiares como predictores de enfermedades de aparición tardía. Muchos investigadores combinan GWAS y GWAX para mejorar el poder estadístico de sus predicciones. Sin embargo, el equipo de investigación de la Universidad de Wisconsin-Madison ha descubierto que estas “soluciones” pueden vincular erróneamente variantes genéticas con enfermedades.

“En los últimos años se ha vuelto muy popular aprovechar los avances en el aprendizaje automático, por lo que ahora tenemos estos modelos avanzados de inteligencia artificial de aprendizaje automático que los investigadores utilizan para predecir rasgos complejos y riesgos de enfermedades incluso con datos limitados”, dijo Qiongshi Lubioestadístico de la Universidad de Wisconsin-Madison y coautor de los estudios, en un presione soltar.

Con GWAS asistido por IA, Lu y sus colegas notaron asociaciones falsas entre variantes genéticas y diabetes tipo II. Por ejemplo, cuatro variantes genéticas mostraron una alta correlación con la enfermedad en un GWAS asistido por IA, pero no cuando se utilizó un enfoque GWAS convencional. Sin embargo, investigaciones anteriores han demostrado que, aunque estos genes actúan en una vía celular que está indirectamente relacionada con los niveles de glucosa en sangre, no influyen fuertemente en ellos.

En cohortes donde todas las muestras tienen datos genéticos pero solo una fracción de las muestras tiene datos fenotípicos deseados, los algoritmos GWAS asistidos por IA intentan llenar los vacíos basándose en patrones aprendidos. Pero sin el conocimiento de las complejidades fisiológicas, este enfoque puede llevar a los investigadores por el camino equivocado.

“El problema es que si se confía en el riesgo de diabetes predicho por el aprendizaje automático como riesgo real, se podría pensar que todas esas variaciones genéticas están correlacionadas con la diabetes real, aunque no lo estén”, dijo Lu.

También es problemático compensar los agujeros en los bancos de datos con proxys. Por ejemplo, al analizar la correlación de múltiples rasgos con el riesgo de desarrollar la enfermedad de Alzheimer, Lu observó una divergencia con los resultados del GWAS, que se basan en datos reales. Una discrepancia clave fue la asociación entre el nivel educativo y el riesgo de enfermedad de Alzheimer. Varios grupos han informado de una correlación inversa entre estas variables, un resultado respaldado por GWAS. Sin embargo, Lu observó una correlación positiva cuando se utilizaron los enfoques GWAX. El enfoque de información indirecta tampoco logró mostrar un vínculo entre la enfermedad y una cognición más baja en el futuro, contrariamente a los datos anteriores y los hallazgos del GWAS.

El equipo propuso nuevos métodos estadísticos que los investigadores pueden utilizar para corregir estos sesgos y aumentar la confiabilidad de sus hallazgos. Instan a la comunidad investigadora a informar de manera transparente los hallazgos y a adoptar una perspectiva más rigurosa y cautelosa al sacar conclusiones de estos métodos.

“Los estudios recientes de nuestro grupo proporcionan ejemplos aleccionadores y resaltan la importancia del rigor estadístico en los estudios de investigación a escala de biobancos”, dijo Lu.