Un catálogo de mutaciones genéticas para ayudar a identificar la causa de las enfermedades

Investigación

Publicado
Autores

Žiga Avsec y Jun Cheng

Nueva herramienta de IA clasifica los efectos de 71 millones de mutaciones “sin sentido”

Descubrir las causas fundamentales de las enfermedades es uno de los mayores desafíos de la genética humana. Con millones de posibles mutaciones y datos experimentales limitados, sigue siendo en gran medida un misterio cuáles podrían dar lugar a enfermedades. Este conocimiento es crucial para un diagnóstico más rápido y el desarrollo de tratamientos que salven vidas.

Hoy lanzamos un Catálogo de mutaciones “sin sentido” donde los investigadores pueden aprender más sobre el efecto que pueden tener. Las variantes sin sentido son mutaciones genéticas que pueden afectar la función de las proteínas humanas. En algunos casos, pueden provocar enfermedades como la fibrosis quística, la anemia falciforme o el cáncer.

El catálogo AlphaMissense se desarrolló utilizando AlphaMissense, nuestro nuevo modelo de IA que clasifica variantes sin sentido. En un artículo publicado en Ciencia, mostramos que categorizó el 89% de los 71 millones de posibles variantes sin sentido como probablemente patógenas o probablemente benignas. Por el contrario, sólo el 0,1% ha sido confirmado por expertos humanos.

Las herramientas de inteligencia artificial que pueden predecir con precisión el efecto de las variantes tienen el poder de acelerar la investigación en campos que van desde la biología molecular hasta la genética clínica y estadística. Experimentos para descubrir mutaciones que causan enfermedades Son costosos y laboriosos: cada proteína es única y cada experimento debe diseñarse por separado, lo que puede llevar meses. Al utilizar predicciones de IA, los investigadores pueden obtener una vista previa de los resultados de miles de proteínas a la vez, lo que puede ayudar a priorizar recursos y acelerar estudios más complejos.

Hemos puesto todas nuestras predicciones a disposición de la comunidad de investigación de forma gratuita y hemos abierto el código fuente. código de modelo para AlphaMissense.

AlphaMissense predijo la patogenicidad de los 71 millones de variantes sin sentido posibles. Clasificó el 89%, prediciendo que el 57% era probablemente benigno y el 32% probablemente patógeno.

¿Qué es una variante sin sentido?

Una variante sin sentido es una sustitución de una sola letra en el ADN que da como resultado un aminoácido diferente dentro de una proteína. Si piensa en el ADN como un lenguaje, cambiar una letra puede cambiar una palabra y alterar por completo el significado de una oración. En este caso, una sustitución cambia qué aminoácido se traduce, lo que puede afectar la función de una proteína.

La persona promedio lleva más de 9.000 variantes sin sentido. La mayoría son benignos y tienen poco o ningún efecto, pero otros son patógenos y pueden alterar gravemente la función de las proteínas. Las variantes sin sentido se pueden utilizar en el diagnóstico de enfermedades genéticas raras, donde unas pocas o incluso una sola variante sin sentido pueden causar directamente la enfermedad. También son importantes para estudiar enfermedades complejas, como la diabetes tipo 2, que puede ser causada por una combinación de muchos tipos diferentes de cambios genéticos.

Clasificar las variantes sin sentido es un paso importante para comprender cuál de estos cambios proteicos podría dar lugar a una enfermedad. De los más de 4 millones de variantes sin sentido que ya se han observado en humanos, sólo el 2% han sido consideradas patógenas o benignas por los expertos, aproximadamente el 0,1% de los 71 millones de variantes sin sentido posibles. El resto se consideran “variantes de significado desconocido” debido a la falta de datos experimentales o clínicos sobre su impacto. Con AlphaMissense ahora tenemos la imagen más clara hasta la fecha al clasificar el 89% de las variantes utilizando un umbral que arrojó una precisión del 90% en una base de datos de variantes de enfermedades conocidas.

Patógena o benigna: cómo AlphaMissense clasifica las variantes

AlphaMissense se basa en nuestro innovador modelo AlfaFold, que predijo las estructuras de casi todas las proteínas conocidas por la ciencia a partir de sus secuencias de aminoácidos. Nuestro modelo adaptado puede predecir la patogenicidad de variantes sin sentido que alteran aminoácidos individuales de proteínas.

Para entrenar AlphaMissense, ajustamos AlphaFold en etiquetas que distinguen las variantes observadas en poblaciones humanas y de primates estrechamente relacionados. Las variantes que se ven comúnmente se tratan como benignas y las variantes que nunca se ven se tratan como patógenas. AlphaMissense no predice el cambio en la estructura de la proteína tras una mutación u otros efectos sobre la estabilidad de la proteína. En cambio, aprovecha bases de datos de secuencias de proteínas relacionadas y contexto estructural de variantes para producir una puntuación entre 0 y 1 que califica aproximadamente la probabilidad de que una variante sea patógena. La puntuación continua permite a los usuarios elegir un umbral para clasificar variantes como patógenas o benignas que coincida con sus requisitos de precisión.

Una ilustración de cómo AlphaMissense clasifica las variantes humanas sin sentido. Se ingresa una variante sin sentido y el sistema de inteligencia artificial la califica como patógena o probablemente benigna. AlphaMissense combina el contexto estructural y el modelado del lenguaje de proteínas, y está optimizado en bases de datos de frecuencia de poblaciones variantes de humanos y primates.

AlphaMissense logra predicciones de última generación en una amplia gama de puntos de referencia genéticos y experimentales, todo ello sin entrenar explícitamente dichos datos. Nuestra herramienta superó a otros métodos computacionales cuando se utilizó para clasificar variantes de ClinVar, un archivo público de datos sobre la relación entre variantes humanas y enfermedades. Nuestro modelo también fue el método más preciso para predecir resultados de laboratorio, lo que demuestra que es consistente con diferentes formas de medir la patogenicidad.

AlphaMissense supera a otros métodos computacionales en la predicción de efectos de variantes sin sentido.
Izquierda: Comparación del rendimiento de AlphaMissense y otros métodos en la clasificación de variantes del archivo público de Clinvar. Los métodos que se muestran en gris se entrenaron directamente en ClinVar y es probable que su rendimiento en este punto de referencia esté sobreestimado, ya que algunas de sus variantes de entrenamiento están contenidas en este conjunto de pruebas.
Bien: Gráfico que compara el rendimiento de AlphaMissense y otros métodos en la predicción de mediciones de experimentos biológicos.

Construyendo un recurso comunitario

AlphaMissense se basa en AlphaFold para mejorar la comprensión mundial de las proteínas. Hace un año lanzamos 200 millones de estructuras proteicas predijo utilizando AlphaFold, que está ayudando a millones de científicos de todo el mundo a acelerar la investigación y allanar el camino hacia nuevos descubrimientos. Esperamos ver cómo AlphaMissense puede ayudar a resolver preguntas abiertas en el corazón de la genómica y en todas las ciencias biológicas.

Hemos puesto las predicciones de AlphaMissense a disposición gratuita de la comunidad científica. Junto con EMBL-EBI, también los estamos haciendo más utilizables para los investigadores a través de la Predictor de efecto de variante de conjunto.

Además de nuestra tabla de búsqueda de mutaciones sin sentido, hemos compartido las predicciones ampliadas de todas las posibles 216 millones de sustituciones de secuencias de aminoácidos individuales en más de 19.000 proteínas humanas. También hemos incluido la predicción promedio para cada gen, que es similar a medir la restricción evolutiva de un gen: esto indica cuán esencial es el gen para la supervivencia del organismo.

Ejemplos de predicciones de AlphaMissense superpuestas en estructuras predichas de AlphaFold (rojo = predicho como patógeno, azul = predicho como benigno, gris = incierto). Los puntos rojos representan variantes patogénicas sin sentido conocidas, los puntos azules representan variantes benignas conocidas de la base de datos ClinVar.
Izquierda: Proteína HBB. Las variantes de esta proteína pueden provocar anemia de células falciformes.
Bien: Proteína CFTR. Las variantes de esta proteína pueden causar fibrosis quística.

Acelerar la investigación sobre enfermedades genéticas

Un paso clave para traducir esta investigación es la colaboración con la comunidad científica. Hemos estado trabajando en asociación con Genomics England para explorar cómo estas predicciones podrían ayudar a estudiar la genética de enfermedades raras. Genomics England cruzó los hallazgos de AlphaMissense con datos de patogenicidad de variantes previamente agregados con participantes humanos. Su evaluación confirmó que nuestras predicciones son precisas y consistentes, lo que proporciona otro punto de referencia del mundo real para AlphaMissense.

Si bien nuestras predicciones no están diseñadas para ser utilizadas directamente en la clínica (y deben interpretarse con otras fuentes de evidencia), este trabajo tiene el potencial de mejorar el diagnóstico de trastornos genéticos raros y ayudar a descubrir nuevos genes que causan enfermedades.

En última instancia, esperamos que AlphaMissense, junto con otras herramientas, permita a los investigadores comprender mejor las enfermedades y desarrollar nuevos tratamientos que salven vidas.