Investigación
En julio de 2022, publicamos predicciones de la estructura de proteínas AlphaFold para casi todas las proteínas catalogadas conocidas por la ciencia. Lea el último blog aquí.
Nos complace compartir el primer hito importante de DeepMind al demostrar cómo la investigación en inteligencia artificial puede impulsar y acelerar nuevos descubrimientos científicos. Con un enfoque fuertemente interdisciplinario de nuestro trabajo, DeepMind ha reunido a expertos de los campos de la biología estructural, la física y el aprendizaje automático para aplicar técnicas de vanguardia para predecir la estructura 3D de una proteína basándose únicamente en su secuencia genética.
Nuestro sistema, AlfaFold, en el que hemos estado trabajando durante los últimos dos años, se basa en años de investigaciones previas en el uso de una gran cantidad de datos genómicos para predecir la estructura de las proteínas. Los modelos 3D de proteínas que genera AlphaFold son mucho más precisos que cualquiera de los anteriores, lo que supone un avance significativo en uno de los principales desafíos de la biología.
¿Cuál es el problema del plegamiento de proteínas?
Las proteínas son moléculas grandes y complejas esenciales para el sustento de la vida. Casi todas las funciones que realiza nuestro cuerpo (contraer músculos, detectar la luz o convertir los alimentos en energía) pueden atribuirse a una o más proteínas y a cómo se mueven y cambian. Las recetas de esas proteínas, llamadas genes, están codificadas en nuestro ADN.
Lo que puede hacer cualquier proteína determinada depende de su estructura tridimensional única. Por ejemplo, las proteínas de anticuerpos que componen nuestro sistema inmunológico tienen “forma de Y” y son similares a ganchos únicos. Al adherirse a virus y bacterias, las proteínas de anticuerpos pueden detectar y marcar microorganismos que causan enfermedades para su exterminio. De manera similar, las proteínas de colágeno tienen forma de cordones, que transmiten tensión entre cartílagos, ligamentos, huesos y piel. Otros tipos de proteínas incluyen Cas9, que, utilizando secuencias CRISPR como guía, actúan como tijeras para cortar y pegar secciones de ADN; proteínas anticongelantes, cuya estructura tridimensional les permite unirse a los cristales de hielo y evitar que los organismos se congelen; y ribosomas que actúan como una línea de ensamblaje programada, que ayudan a construir proteínas por sí mismos.
Pero descubrir la forma tridimensional de una proteína únicamente a partir de su secuencia genética es una tarea compleja que los científicos han considerado un desafío durante décadas. El desafío es que el ADN sólo contiene información sobre la secuencia de los componentes básicos de una proteína llamados residuos de aminoácidos, que forman cadenas largas. Predecir cómo esas cadenas se plegarán en la intrincada estructura tridimensional de una proteína es lo que se conoce como el “problema de plegamiento de proteínas”.
Cuanto más grande es la proteína, más complicado y difícil es modelar porque hay más interacciones entre aminoácidos a tener en cuenta. Como se señala en La paradoja de Levinthalse necesitaría más tiempo que la edad del universo para enumerar todas las configuraciones posibles de una proteína típica antes de alcanzar la estructura 3D correcta.
¿Por qué es importante el plegamiento de proteínas?
La capacidad de predecir la forma de una proteína es útil para los científicos porque es fundamental para comprender su papel dentro del cuerpo, así como para diagnosticar y tratar enfermedades que se cree que son causadas por proteínas mal plegadas, como Alzheimer, Parkinson, Huntington y fibrosis quística.
Estamos especialmente entusiasmados con la forma en que podría mejorar nuestra comprensión del cuerpo y cómo funciona, permitiendo a los científicos diseñar curas nuevas y efectivas para enfermedades de manera más eficiente. A medida que adquirimos más conocimiento sobre las formas de las proteínas y cómo operan a través de simulaciones y modelos, se abre un nuevo potencial en el descubrimiento de fármacos y al mismo tiempo se reducen los costos asociados con la experimentación. En última instancia, esto podría mejorar la calidad de vida de millones de pacientes en todo el mundo.
Comprender el plegamiento de proteínas también ayudará en el diseño de proteínas, lo que podría generar una enorme cantidad de beneficios. Por ejemplo, los avances en las enzimas biodegradables, que pueden ser posibles mediante el diseño de proteínas, podrían ayudar a gestionar contaminantes como el plástico y el petróleo, ayudándonos a descomponer los desechos de maneras más respetuosas con nuestro medio ambiente. De hecho, los investigadores ya han comenzado bacterias de ingeniería para secretar proteínas que harán que los residuos sean biodegradables y más fáciles de procesar.
Para catalizar la investigación y medir el progreso de los métodos más nuevos para mejorar la precisión de las predicciones, se organizó un concurso bienal mundial llamado CASP (Evaluación crítica de la predicción de la estructura de proteínas) se estableció en 1994 y se ha convertido en el estándar de oro para la evaluación de técnicas.
¿Cómo puede la IA marcar la diferencia?
Durante las últimas cinco décadas, los científicos han podido determinar formas de proteínas en laboratorios utilizando técnicas experimentales como microscopía crioelectrónica, resonancia magnética nuclear o Cristalografía de rayos X, pero cada método depende de muchas pruebas y errores, lo que puede llevar años y costar decenas de miles de dólares por estructura. Es por eso que los biólogos están recurriendo a métodos de IA como alternativa a este largo y laborioso proceso para las proteínas difíciles.
Afortunadamente, el campo de la genómica es bastante rico en datos gracias a la rápida reducción del coste de la secuenciación genética. Como resultado, el aprendizaje profundo enfoques al problema de predicción que se basan en datos genómicos se han vuelto cada vez más populares en los últimos años. El trabajo de DeepMind sobre este problema dio como resultado AlphaFold, que presentamos a CASP este año. Estamos orgullosos de ser parte de lo que los organizadores del CASP han llamado “progreso sin precedentes en la capacidad de los métodos computacionales para predecir la estructura de las proteínas”, colocando primero en clasificaciones entre los equipos que ingresaron (nuestra entrada es A7D).
Nuestro equipo se centró específicamente en el difícil problema de modelar formas objetivo desde cero, sin utilizar proteínas previamente resueltas como plantillas. Logramos un alto grado de precisión al predecir las propiedades físicas de una estructura proteica y luego utilizamos dos métodos distintos para construir predicciones de estructuras proteicas completas.
Uso de redes neuronales para predecir propiedades físicas.
Ambos métodos se basaron en redes neuronales profundas que están entrenadas para predecir las propiedades de la proteína a partir de su secuencia genética. Las propiedades que predicen nuestras redes son: (a) las distancias entre pares de aminoácidos y (b) los ángulos entre los enlaces químicos que conectan esos aminoácidos. El primer avance es un avance en las técnicas comúnmente utilizadas que estiman si los pares de aminoácidos están cerca uno del otro.
Entrenamos una red neuronal para predecir una distribución separada de distancias entre cada par de residuos en una proteína. Luego, estas probabilidades se combinaron en una puntuación que estima la precisión de la estructura proteica propuesta. También entrenamos una red neuronal separada que utiliza todas las distancias en conjunto para estimar qué tan cerca está la estructura propuesta de la respuesta correcta.
Nuevos métodos para construir predicciones de estructuras de proteínas.
Utilizando estas funciones de puntuación, pudimos buscar en el panorama de proteínas estructuras que coincidieran con nuestras predicciones. Nuestro primer método se basó en técnicas comúnmente utilizadas en biología estructural y reemplazó repetidamente partes de una estructura proteica con nuevos fragmentos de proteínas. Entrenamos una red neuronal generativa para inventar nuevos fragmentos, que se utilizaron para mejorar continuamente la puntuación de la estructura proteica propuesta.
El segundo método optimizó las puntuaciones mediante descenso de gradiente(una técnica matemática comúnmente utilizada en el aprendizaje automático para realizar pequeñas mejoras incrementales) que resultó en estructuras de alta precisión. Esta técnica se aplicó a cadenas de proteínas enteras en lugar de a piezas que deben doblarse por separado antes de ensamblarse, lo que reduce la complejidad del proceso de predicción.
¿Qué pasa después?
El éxito de nuestra primera incursión en el plegamiento de proteínas es indicativo de cómo los sistemas de aprendizaje automático pueden integrar diversas fuentes de información para ayudar a los científicos a encontrar rápidamente soluciones creativas a problemas complejos. Así como hemos visto cómo la IA puede ayudar a las personas a dominar juegos complejos a través de sistemas como AlfaGo y alfacerotambién esperamos que algún día los avances de la IA nos ayuden a dominar también problemas científicos fundamentales.
Es emocionante ver estos primeros signos de progreso en el plegamiento de proteínas, que demuestran la utilidad de la IA para los descubrimientos científicos. Aunque queda mucho trabajo por hacer antes de que podamos tener un impacto cuantificable en el tratamiento de enfermedades, la gestión del medio ambiente y más, sabemos que el potencial es enorme. Con un equipo dedicado centrado en profundizar en cómo el aprendizaje automático puede hacer avanzar el mundo de la ciencia, esperamos ver las muchas formas en que nuestra tecnología puede marcar la diferencia.