Algoritmo de búsqueda revela casi 200 nuevos tipos de sistemas CRISPR |  Noticias del MIT

Las bases de datos de secuencias microbianas contienen una gran cantidad de información sobre enzimas y otras moléculas que podrían adaptarse a la biotecnología. Pero estas bases de datos han crecido tanto en los últimos años que se ha vuelto difícil buscar eficientemente enzimas de interés.

Ahora, científicos del Instituto McGovern para la Investigación del Cerebro del MIT, el Instituto Broad del MIT y Harvard, y el Centro Nacional de Información Biotecnológica (NCBI) de los Institutos Nacionales de Salud han desarrollado un nuevo algoritmo de búsqueda que ha identificado 188 tipos de nuevos Sistemas CRISPR raros en genomas bacterianos, que abarcan miles de sistemas individuales. La obra aparece hoy en Ciencia.

El algoritmo, que proviene del laboratorio del profesor investigador pionero de CRISPR. Feng Zhang, utiliza enfoques de agrupación de big data para buscar rápidamente cantidades masivas de datos genómicos. El equipo utilizó su algoritmo, llamado agrupación basada en hash sensible a la localidad rápida (FLSHclust) para extraer tres bases de datos públicas importantes que contienen datos de una amplia gama de bacterias inusuales, incluidas las que se encuentran en minas de carbón, cervecerías, lagos antárticos y saliva de perro. . Los científicos encontraron una sorprendente cantidad y diversidad de sistemas CRISPR, incluidos algunos que podrían realizar ediciones en el ADN de las células humanas, otros que pueden apuntar al ARN y muchos con una variedad de otras funciones.

Los nuevos sistemas podrían aprovecharse para editar células de mamíferos con menos efectos fuera del objetivo que los sistemas Cas9 actuales. También podrían algún día usarse como diagnóstico o servir como registros moleculares de la actividad dentro de las células.

Los investigadores dicen que su búsqueda destaca un nivel sin precedentes de diversidad y flexibilidad de CRISPR y que es probable que aún queden muchos más sistemas raros por descubrir a medida que las bases de datos continúan creciendo.

“La biodiversidad es un tesoro escondido y, a medida que continuamos secuenciando más genomas y muestras metagenómicas, existe una creciente necesidad de mejores herramientas, como FLSHclust, para buscar en ese espacio de secuencia las gemas moleculares”, dice Zhang, coautor del estudio. autor principal del estudio y profesor de neurociencia James y Patricia Poitras en el MIT con nombramientos conjuntos en los departamentos de ciencias cerebrales y cognitivas e ingeniería biológica. Zhang también es investigador en el Instituto McGovern para la Investigación del Cerebro del MIT, miembro central del instituto Broad e investigador del Instituto Médico Howard Hughes. Eugene Koonin, un distinguido investigador del NCBI, también es coautor principal del estudio.

Buscando CRISPR

CRISPR, que significa repeticiones palindrómicas cortas agrupadas y regularmente espaciadas, es un sistema de defensa bacteriana que se ha diseñado en muchas herramientas para la edición y el diagnóstico del genoma.

Para extraer bases de datos de secuencias de proteínas y ácidos nucleicos para nuevos sistemas CRISPR, los investigadores desarrollaron un algoritmo basado en un enfoque tomado de la comunidad de big data. Esta técnica, llamada hash sensible a la localidad, agrupa objetos que son similares pero no exactamente idénticos. El uso de este enfoque permitió al equipo sondear miles de millones de secuencias de proteínas y ADN, desde el NCBIes Escopeta del genoma completo base de datos, y el Instituto Conjunto del Genoma – en semanas, mientras que los métodos anteriores que buscaban objetos idénticos habrían tardado meses. Diseñaron su algoritmo para buscar genes asociados con CRISPR.

“Este nuevo algoritmo nos permite analizar datos en un período de tiempo lo suficientemente corto como para que podamos recuperar resultados y formular hipótesis biológicas”, dice Soumya Kannan PhD ’23, coautor del estudio. Kannan era un estudiante de posgrado en el laboratorio de Zhang cuando comenzó el estudio y actualmente es postdoctorado y miembro junior de la Universidad de Harvard. Han Altae-Tran PhD ’23, estudiante de posgrado en el laboratorio de Zhang durante el estudio y actualmente postdoctorado en la Universidad de Washington, fue el otro coautor del estudio.

“Esto es una prueba de lo que se puede hacer cuando se mejoran los métodos de exploración y se utiliza la mayor cantidad de datos posible”, afirma Altae-Tran. “Es realmente emocionante poder mejorar la escala a la que realizamos búsquedas”.

Nuevos sistemas

En su análisis, Altae-Tran, Kannan y sus colegas notaron que los miles de sistemas CRISPR que encontraron se clasificaban en algunas categorías existentes y muchas nuevas. Estudiaron varios de los nuevos sistemas con mayor detalle en el laboratorio.

Encontraron varias variantes nuevas de los sistemas CRISPR Tipo I conocidos, que utilizan un ARN guía de 32 pares de bases de largo en lugar de la guía de 20 nucleótidos de Cas9. Debido a sus ARN guía más largos, estos sistemas de Tipo I podrían usarse para desarrollar una tecnología de edición de genes más precisa que sea menos propensa a la edición fuera del objetivo. El equipo de Zhang demostró que dos de estos sistemas podían realizar ediciones breves en el ADN de las células humanas. Y debido a que estos sistemas de Tipo I son similares en tamaño a CRISPR-Cas9, probablemente podrían administrarse a células de animales o humanos utilizando las mismas tecnologías de administración de genes que se utilizan hoy en día para CRISPR.

Uno de los sistemas de Tipo I también mostró “actividad colateral”: una amplia degradación de los ácidos nucleicos después de que la proteína CRISPR se une a su objetivo. Los científicos han utilizado sistemas similares para realizar diagnósticos de enfermedades infecciosas como SHERLOCKa herramienta capaz de detectar rápidamente una sola molécula de ADN o ARN. El equipo de Zhang cree que los nuevos sistemas también podrían adaptarse a tecnologías de diagnóstico.

Los investigadores también descubrieron nuevos mecanismos de acción para algunos sistemas CRISPR de tipo IV y un sistema de tipo VII que se dirige precisamente al ARN, que podría usarse potencialmente en la edición de ARN. Otros sistemas podrían usarse potencialmente como herramientas de registro (un documento molecular de cuándo se expresó un gen) o como sensores de actividad específica en una célula viva.

Datos mineros

Los científicos dicen que su algoritmo podría ayudar en la búsqueda de otros sistemas bioquímicos. “Este algoritmo de búsqueda podría ser utilizado por cualquiera que quiera trabajar con estas grandes bases de datos para estudiar cómo evolucionan las proteínas o descubrir nuevos genes”, afirma Altae-Tran.

Los investigadores añaden que sus hallazgos ilustran no sólo cuán diversos son los sistemas CRISPR, sino también que la mayoría son raros y sólo se encuentran en bacterias inusuales. “Algunos de estos sistemas microbianos se encontraron exclusivamente en el agua de las minas de carbón”, dice Kannan. “Si alguien no hubiera estado interesado en eso, es posible que nunca hubiésemos visto esos sistemas. Ampliar nuestra diversidad de muestras es realmente importante para continuar ampliando la diversidad de lo que podemos descubrir”.

Este trabajo fue apoyado por el Instituto Médico Howard Hughes; el Centro de Terapéutica Molecular K. Lisa Yang y Hock E. Tan del MIT; Donantes de donaciones de terapias programables del Broad Institute; La Fundación Pershing Square, William Ackman y Neri Oxman; James y Patricia Poitras; Fundación Caritativa BT; Fundación de la Familia Asness; Kenneth C. Grifo; la familia Phillips; David Cheng; y Robert Metcalfe.