Istock 1490465298 800x560 M.jpg

ALa inteligencia artificial (IA) se está integrando cada vez más en todas las industrias, y la investigación en biología no es una excepción. Sin embargo, la mayoría de estos modelos realizan tareas específicas. Por ejemplo, AlphaFold predice plegamiento de proteínas y estructura, pero se limita al uso de secuencias de entrada cortas. Por el contrario, los genomas contienen grandes extensiones de secuencias genéticas que codifican diferentes tipos de ARN, algunos de los cuales producen proteínas, mientras que otros sirven como regiones reguladoras.

Patricio Hsu, bioingeniero del Instituto Arc y la Universidad de California, Berkeley, y su equipo desarrollaron una nueva herramienta, Evo, para superar estas limitaciones. Como informaron en sus bioRxiv En la preimpresión, que no ha sido revisada por pares, el equipo entrenó a Evo en secuencias largas de genomas completos de procariotas, arqueas y bacteriófagos.1 Hsu y su equipo demostraron que el entrenamiento con entradas más largas e inespecíficas permitía que el modelo fuera independiente de la tarea y capaz de predecir la funcionalidad del ADN, el ARN y las proteínas.

¿Qué tiene de especial Evo?

Evo es un modelo de aprendizaje automático que ha sido entrenado utilizando largas secuencias de ADN de genomas completos para predecir la función o secuencia de un gen o para ayudar a diseñar nuevas secuencias para aplicaciones biológicas. Utilizamos secuencias de hasta 131.000 bases, lo que le dio al modelo más capacidad para interpretar realmente la función de genes o segmentos de ADN. Sin embargo, como el ADN codifica los diferentes tipos de ARN y todas las proteínas de un organismo, Evo también conoció información sobre estas moléculas.

Patrick Hsu, bioingeniero del Instituto Arc y la Universidad de California, Berkeley, y su equipo han desarrollado un nuevo modelo de lenguaje, Evo, que puede predecir la funcionalidad del ADN, el ARN y las proteínas.

Fotografía Raymond Rudolph

¿Qué desafíos enfrentó al desarrollar esta herramienta?

Para que la tarea de Evo sea independiente, entrenamos el modelo en genomas completos en lugar de solo secuencias de proteínas de anticuerpos o regiones reguladoras de ADN. En total, la red consta de siete mil millones de parámetros, o conexiones entre nodos del modelo. Esto requiere mucha potencia computacional. Afortunadamente, la tecnología de computación en la nube y los propios algoritmos de aprendizaje automático han avanzado, y los datos de entrenamiento están más disponibles más allá de los laboratorios de investigación estrictamente de IA.

¿Qué te motivó a diseñar Evo?

Queríamos hacer que la biología fuera más predictiva. Anteriormente, los modelos se construían para tareas específicas, de modo que solo podían trabajar con proteínas o buscar material genético con una función específica, como la regulación. Queríamos saber qué pasaría si entrenáramos una red con un conjunto de datos de genomas procarióticos y descubrimos que, a diferencia de estos otros modelos específicos, Evo puede predecir características del ARN y las proteínas.

Esta flexibilidad puede ayudar a acelerar la investigación, por ejemplo, reemplazando largas pruebas para determinar la esencialidad de un gen o desarrollar secuencias para una nucleasa de edición de genes y un ARN guía. También era importante para nosotros demostrar cómo un biólogo puede utilizar esta herramienta, por lo que nos tomamos mucho tiempo para crear ejemplos que mostraran cómo Evo podría usarse para la investigación, no solo como una herramienta de aprendizaje automático.

¿Cuáles son algunos posibles usos de Evo en biología?

Evo tiene muchas aplicaciones amplias debido a su capacidad para aprender del ADN y hacer predicciones sobre el ARN y las proteínas. Puede predecir secuencias de ADN o qué genes son necesarios en un genoma y su función, y puede usarse para diseñar proteínas o complejos de repeticiones palindrómicas cortas agrupadas regularmente interespaciadas (CRISPR). Además, es capaz de generar secuencias de ADN más largas que los modelos anteriores que son más específicos para tareas o que han sido entrenados en secuencias más cortas. Eso abre la posibilidad de utilizarlo para desarrollar genomas sintéticos.

Ha sido realmente emocionante ver cuánto interés ha generado ya esta herramienta. En el futuro, buscamos ampliar el modelo para aprender y hacer predicciones sobre los genomas eucariotas. Hay muchas preguntas fundamentales y mecanicistas que puedes explorar con esta herramienta.

Referencia

  1. Nguyen E, et al. Modelado y diseño de secuencias desde escala molecular hasta genómica con Evo. bioRxiv. Publicado en línea el 27 de febrero de 2024: 2024.02.27.582234