File 20240507 16 Dnxnex.jpg

Los virus son una fuerza misteriosa y poco comprendida en los ecosistemas microbianos. Los investigadores saben que pueden infectar, matar y manipular células humanas y bacterianas en casi todos los entornos, desde los océanos hasta tus entrañas. Pero los científicos aún no tienen una idea completa de cómo los virus afectan el entorno que los rodea, en gran parte debido a su extraordinaria diversidad y capacidad de evolucionar rápidamente.

Las comunidades de microbios son difíciles de estudiar en un laboratorio. Muchos microbios son difíciles de cultivar y su entorno natural ha muchas más características influyendo en su éxito o fracaso que los que los científicos pueden replicar en un laboratorio.

Entonces biólogos de sistemas como yo a menudo secuencian todo el ADN presente en una muestra (por ejemplo, una muestra fecal de un paciente) separar el secuencias de ADN viralentonces anotar las secciones del genoma viral que codifica proteínas. Estas notas sobre la ubicación, estructura y otras características de los genes ayudan a los investigadores a comprender las funciones que los virus pueden desempeñar en el medio ambiente y ayudan a identificar diferentes tipos de virus. Los investigadores anotan virus haciendo coincidir secuencias virales en una muestra con secuencias previamente anotadas disponibles en bases de datos públicas de secuencias genéticas virales.

Sin embargo, los científicos están identificando secuencias virales en el ADN recolectado del medio ambiente en un tasa que supera con creces nuestra capacidad para anotar esos genes. Esto significa que los investigadores están publicando hallazgos sobre virus en ecosistemas microbianos utilizando fracciones inaceptablemente pequeñas de los datos disponibles.

Para mejorar la capacidad de los investigadores para estudiar virus en todo el mundo, mi equipo y yo hemos desarrolló un enfoque novedoso para anotar secuencias virales utilizando inteligencia artificial. A través de modelos de lenguaje de proteínas similares a modelos de lenguaje grandes como ChatGPT pero específicos de proteínas, pudimos clasificar secuencias virales nunca antes vistas. Esto abre la puerta para que los investigadores no sólo aprendan más sobre los virus, sino también para abordar cuestiones biológicas que son difíciles de responder con las técnicas actuales.

Anotar virus con IA

Grandes modelos de lenguaje utilizar relaciones entre palabras en grandes conjuntos de datos de texto para proporcionar respuestas potenciales a preguntas cuyas respuestas no se les “enseña” explícitamente. Cuando le preguntas a un chatbot «¿Cuál es la capital de Francia?» por ejemplo, el modelo no busca la respuesta en una tabla de ciudades capitales. Más bien, está utilizando su formación en enormes conjuntos de datos de documentos e información para inferir la respuesta: «La capital de Francia es París».

Similarmente, modelos de lenguaje de proteínas son algoritmos de IA que están entrenados para reconocer relaciones entre miles de millones de secuencias de proteínas de entornos de todo el mundo. A través de este entrenamiento, es posible que puedan inferir algo sobre la esencia de las proteínas virales y sus funciones.

Nos preguntamos si los modelos de lenguaje de proteínas podrían responder a esta pregunta: «Dadas todas las secuencias genéticas virales anotadas, ¿cuál es la función de esta nueva secuencia?»

En nuestro prueba de concepto, entrenamos redes neuronales en secuencias de proteínas virales previamente anotadas en modelos de lenguaje de proteínas previamente entrenados y luego las usamos para predecir la anotación de nuevas secuencias de proteínas virales. Nuestro enfoque nos permite investigar lo que el modelo «ve» en una secuencia viral particular que conduce a una anotación particular. Esto ayuda a identificar proteínas candidatas de interés, ya sea en función de sus funciones específicas o de cómo está organizado su genoma, reduciendo el espacio de búsqueda de vastos conjuntos de datos.

Proclorococo es una de las muchas especies de bacterias marinas con proteínas que los investigadores no habían visto antes. Anne Thompson/Chisholm Lab, MIT vía Flickr

Al identificar funciones de genes virales relacionadas más lejanamente, los modelos de lenguaje de proteínas pueden complementar los métodos actuales para proporcionar nuevos conocimientos sobre microbiología. Por ejemplo, mi equipo y yo pudimos usar nuestro modelo para descubrir un integrasa previamente no reconocida– un tipo de proteína que puede mover información genética dentro y fuera de las células – en las picocianobacterias marinas, abundantes en todo el mundo proclorococo y sinecococo. En particular, esta integrasa puede ser capaz de mover genes dentro y fuera de estas poblaciones de bacterias en los océanos y permitir que estos microbios se adapten mejor a entornos cambiantes.

Nuestro modelo de lenguaje también identificó una nueva proteína de la cápside viral que está muy extendido en los océanos del mundo. Produjimos la primera imagen de cómo están organizados sus genes, mostrando que puede contener diferentes conjuntos de genes que creemos que indican que este virus cumple diferentes funciones en su entorno.

Estos hallazgos preliminares representan sólo dos de los miles de anotaciones que nuestro enfoque ha proporcionado.

Analizando lo desconocido

La mayoría de cientos de miles de Recientemente descubierto los virus permanecen desclasificado. Muchas secuencias genéticas virales coinciden con familias de proteínas sin función conocida o nunca antes se habían visto. Nuestro trabajo muestra que modelos de lenguaje de proteínas similares podrían ayudar a estudiar la amenaza y la promesa de los numerosos virus no caracterizados de nuestro planeta.

Si bien nuestro estudio se centró en los virus en los océanos globales, una mejor anotación de las proteínas virales es fundamental para comprender mejor el papel que desempeñan los virus en la salud y las enfermedades del cuerpo humano. Nosotros y otros investigadores hemos planteado la hipótesis de que la actividad viral en el microbioma intestinal humano podría ser alterado cuando estás enfermo. Esto significa que los virus pueden ayudar a identificar el estrés en las comunidades microbianas.

Sin embargo, nuestro enfoque también es limitado porque requiere anotaciones de alta calidad. Los investigadores están desarrollando modelos de lenguaje de proteínas más nuevos que incorporan otras «tareas» como parte de su entrenamiento, en particular predecir estructuras de proteínas para detectar proteínas similares, para hacerlas más poderosas.

Hacer que todas las herramientas de IA estén disponibles a través de Principios de datos FAIR(datos que se pueden encontrar, acceder, interoperar y reutilizar) pueden ayudar a los investigadores en general a darse cuenta del potencial de estas nuevas formas de anotar secuencias de proteínas que conducen a descubrimientos que benefician la salud humana.


Libusha Kelly es profesor asociado de biología computacional y de sistemas, microbiología e inmunología en la Facultad de Medicina Albert Einstein. Este artículo se republica desde La conversación debajo de Licencia Creative Commons. Leer el artículo original.