Investigación
Basada en Transformers, nuestra nueva arquitectura Enformer avanza en la investigación genética al mejorar la capacidad de predecir cómo la secuencia de ADN influye en la expresión genética.
Cuando el Proyecto Genoma Humano logró mapear la secuencia de ADN del genoma humano, la comunidad investigadora internacional se mostró entusiasmada por la oportunidad de comprender mejor las instrucciones genéticas que influyen en la salud y el desarrollo humanos. El ADN transporta la información genética que determina todo, desde el color de los ojos hasta la susceptibilidad a determinadas enfermedades y trastornos. Las aproximadamente 20.000 secciones de ADN del cuerpo humano, conocidas como genes, contienen instrucciones sobre la secuencia de aminoácidos de las proteínas, que desempeñan numerosas funciones esenciales en nuestras células. Sin embargo, estos genes constituyen menos del 2% del genoma. Los pares de bases restantes, que representan el 98% de los 3 mil millones de “letras” del genoma, se denominan “no codificantes” y contienen instrucciones menos comprendidas sobre cuándo y dónde se deben producir o expresar los genes en el cuerpo humano. En DeepMind, creemos que la IA puede desbloquear una comprensión más profunda de dominios tan complejos, acelerando el progreso científico y ofreciendo beneficios potenciales para la salud humana.
Hoy Nature Methods publica “Predicción eficaz de la expresión genética a partir de la secuencia mediante la integración de interacciones de largo alcance”(compartido por primera vez como preimpresión en bioRxiv), en el que nosotros, en colaboración con nuestros colegas de Alphabet en Calicó — introducir una arquitectura de red neuronal llamada Enformer que permitió aumentar considerablemente la precisión en la predicción de la expresión genética a partir de la secuencia de ADN. Para avanzar en el estudio de la regulación genética y los factores causales de las enfermedades, también elaboramos nuestro modelo y sus predicciones iniciales de variantes genéticas comunes. disponible abiertamente aquí.
Los trabajos anteriores sobre expresión génica han utilizado normalmente redes neuronales convolucionales como componentes fundamentales, pero sus limitaciones a la hora de modelar la influencia de los potenciadores distales en la expresión génica han dificultado su precisión y aplicación. Nuestras exploraciones iniciales se basaron en Basenji2, que podría predecir la actividad reguladora a partir de secuencias de ADN relativamente largas de 40.000 pares de bases. Motivados por este trabajo y el conocimiento de que los elementos reguladores del ADN pueden influir en la expresión a mayores distancias, vimos la necesidad de un cambio arquitectónico fundamental para capturar secuencias largas.
Desarrollamos un nuevo modelo basado en Transformadores, común en el procesamiento del lenguaje natural, para hacer uso de mecanismos de autoatención que podrían integrar un contexto de ADN mucho mayor. Debido a que los Transformers son ideales para ver largos pasajes de texto, los adaptamos para “leer” secuencias de ADN muy extendidas. Al procesar secuencias de manera efectiva para considerar interacciones a distancias que son más de 5 veces (es decir, 200.000 pares de bases) la longitud de los métodos anteriores, nuestra arquitectura puede modelar la influencia de importantes elementos reguladores llamados potenciadores en la expresión genética desde más lejos dentro de la secuencia de ADN. .
Enformer está capacitado para predecir datos genómicos funcionales, incluida la expresión genética de 200.000 pares de bases de ADN de entrada. El ejemplo anterior presenta tres de más de 5000 pistas genómicas posibles. Al utilizar módulos transformadores, que recopilan información a lo largo de toda la secuencia mediante la atención, podemos considerar de manera efectiva secuencias de entrada mucho más largas en comparación con los modelos anteriores.
Para comprender mejor cómo Enformer interpreta la secuencia de ADN para llegar a predicciones más precisas, utilizamos puntuaciones de contribución para resaltar qué partes de la secuencia de entrada fueron más influyentes para la predicción. Coincidiendo con la intuición biológica, observamos que el modelo prestó atención a los potenciadores incluso si estaban ubicados a más de 50.000 pares de bases del gen. Predecir qué potenciadores regulan qué genes sigue siendo un importante problema sin resolver en genómica, por lo que nos complació ver que las puntuaciones de contribución de Enformer funcionan de manera comparable con los métodos existentes desarrollados específicamente para esta tarea (utilizando datos experimentales como entrada). Enformer también aprendió sobre los elementos aislantes, que separan dos regiones del ADN reguladas independientemente.
Enformer atiende a regiones reguladoras relevantes del ADN (mostradas en azul) llamadas potenciadores (cuadros grises) incluso a distancias superiores a 20.000 pares de bases del gen gracias a un campo receptivo más expansivo.
Aunque ahora es posible estudiar el ADN de un organismo en su totalidad, se requieren experimentos complejos para comprender el genoma. A pesar de un enorme esfuerzo experimental, la gran mayoría del control del ADN sobre la expresión genética sigue siendo un misterio. Con la IA, podemos explorar nuevas posibilidades para encontrar patrones en el genoma y proporcionar hipótesis mecanicistas sobre cambios de secuencia. De manera similar a un corrector ortográfico, Enformer comprende parcialmente el vocabulario de la secuencia de ADN y, por lo tanto, puede resaltar ediciones que podrían conducir a una expresión genética alterada.
La principal aplicación de este nuevo modelo es predecir qué cambios en las letras del ADN, también llamados variantes genéticas, alterarán la expresión del gen. En comparación con modelos anteriores, Enformer es significativamente más preciso a la hora de predecir los efectos de las variantes en la expresión genética, tanto en el caso de variantes genéticas naturales como de variantes sintéticas que alteran importantes secuencias reguladoras. Esta propiedad es útil para interpretar el creciente número de variantes asociadas a enfermedades obtenidas mediante estudios de asociación de todo el genoma. Las variantes asociadas con enfermedades genéticas complejas se encuentran predominantemente en la región no codificante del genoma, y probablemente causan enfermedades al alterar la expresión genética. Pero debido a las correlaciones inherentes entre las variantes, muchas de estas variantes asociadas a enfermedades sólo tienen una correlación espuria en lugar de ser causales. Las herramientas computacionales ahora pueden ayudar a distinguir las asociaciones verdaderas de los falsos positivos.
La variante rs11644125, ubicada en el gen de respuesta inmune NLRC5, se asocia con niveles más bajos de glóbulos blancos monocitos y linfocitos. Al mutar sistemáticamente cada posición que rodea a la variante y predecir el cambio resultante en la expresión del gen NLRC5 (que se muestra como altura de la letra), observamos que la variante conduce a una expresión general más baja de NLRC5 y modula el motivo de unión conocido de un factor de transcripción llamado SP1. Por lo tanto, las predicciones de Enformer sugieren que el mecanismo biológico detrás del efecto de esta variante en los recuentos de glóbulos blancos es una menor expresión del gen NLRC5 debido a la alteración de la unión de SP1.
Estamos lejos de resolver los innumerables enigmas que aún quedan en el genoma humano, pero Enformer es un paso adelante en la comprensión de la complejidad de las secuencias genómicas. Si está interesado en utilizar la IA para explorar cómo funcionan los procesos celulares fundamentales, cómo están codificados en la secuencia del ADN y cómo construir nuevos sistemas para avanzar en la genómica y nuestra comprensión de las enfermedades, estamos contratando. También esperamos ampliar nuestras colaboraciones con otros investigadores y organizaciones deseosos de explorar modelos computacionales para ayudar a resolver las preguntas abiertas en el corazón de la genómica.