El nuevo motor de búsqueda de ADN pone orden en los macrodatos de la biología

El nuevo motor de búsqueda de ADN pone orden en los macrodatos de la biología

MetaGraph comprime vastos archivos de datos en un motor de búsqueda para científicos, abriendo nuevas fronteras en el descubrimiento biológico

Internet tiene a Google. Ahora la biología tiene MetaGraph. Detallado hoy en Nature, el motor de búsqueda puede examinar rápidamente los asombrosos volúmenes de datos biológicos alojados en depósitos públicos.

“Es un gran logro”, afirma Rayan Chikhi, investigador de biocomputación del Instituto Pasteur de París. “Establecieron un nuevo estándar” para analizar datos biológicos sin procesar –incluyendo secuencias de ADN, ARN y proteínas– de bases de datos que pueden contener millones de miles de millones de letras de ADN, lo que equivale a ‘pebases’ de información, más entradas que todas las páginas web del vasto índice de Google.

Aunque MetaGraph está etiquetado como “Google para ADN”, Chikhi compara la herramienta con un motor de búsqueda de YouTube, porque las tareas son más exigentes desde el punto de vista computacional. De la misma manera que las búsquedas en YouTube pueden recuperar todos los videos que presentan, digamos, globos rojos incluso cuando esas palabras clave no aparecen en el título, las etiquetas o la descripción, MetaGraph puede descubrir patrones genéticos ocultos en lo profundo de conjuntos de datos de secuenciación expansivos sin necesidad de que esos patrones sean anotados explícitamente de antemano.

Sobre el apoyo al periodismo científico

Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.

“Permite cosas que no se pueden hacer de otra manera”, afirma Chikhi.

Indexando la biblioteca de la vida

La motivación detrás de MetaGraph fue abordar un problema de accesibilidad en la secuenciación de conjuntos de datos. El tamaño de estos repositorios ha aumentado a un ritmo vertiginoso en las últimas décadas, pero este crecimiento ha presentado desafíos para los científicos que utilizan los datos que contienen. Las lecturas de secuenciación sin procesar están fragmentadas, son ruidosas y demasiado numerosas para buscarlas directamente. “El volumen de datos, paradójicamente, es el principal inhibidor para que realmente utilicemos los datos”, dice Artem Babaian, biólogo computacional de la Universidad de Toronto en Canadá.

Según uno de los autores del estudio, André Kahles, bioinformático del Instituto Federal Suizo de Tecnología (ETH) de Zurich, en Suiza, MetaGraph podría ayudar a los investigadores a plantear cuestiones biológicas en repositorios como el Sequence Read Archive (SRA), una base de datos pública que contiene más de 100 millones de billones de letras de ADN.

Abordaron el problema mediante el uso de “gráficos” matemáticos que vinculan fragmentos de ADN superpuestos, de manera muy similar a oraciones que comparten las mismas palabras alineadas en el índice de un libro.

Los investigadores integraron datos de siete depósitos de datos financiados con fondos públicos, creando 18,8 millones de conjuntos únicos de secuencias de ADN y ARN y 210 mil millones de conjuntos de secuencias de aminoácidos en todos los clados de la vida, incluidos virus, bacterias, hongos, plantas y animales, incluidos los humanos. También desarrollaron un motor de búsqueda para estas secuencias, en el que los usuarios utilizan mensajes de texto para buscar estos archivos integrados de datos sin procesar.

“Es una forma totalmente nueva de interactuar con este conjunto de datos”, afirma Kahles. “Está comprimido, pero es accesible sobre la marcha”.

Para demostrar la utilidad de MetaGraph, los autores del estudio lo utilizaron para escanear 241.384 muestras de microbioma intestinal humano en busca de indicadores genéticos de resistencia a los antibióticos en todo el mundo, basándose en un trabajo que utilizó una versión anterior de la herramienta para rastrear genes de resistencia a los medicamentos en cepas bacterianas que viven en los sistemas de metro de los principales centros urbanos. Los autores dicen que realizaron el análisis en aproximadamente una hora en una computadora de alta potencia.

Camino abierto al descubrimiento

MetaGraph no es la única herramienta de búsqueda de secuencias a gran escala que se ofrece actualmente.

Chikhi y Babaian, por ejemplo, han construido una plataforma llamada Logan, que une miles de millones de lecturas de secuenciación cortas para crear tramos de ADN más largos y organizados. Esta arquitectura de diseño permite que el sistema detecte genes completos y sus variantes en colecciones de lecturas de secuenciación aún más grandes de lo que es posible con MetaGraph, aunque con ciertas compensaciones. “Tenemos menos funcionalidad pero más rendimiento”, afirma Chikhi.

El alcance adicional de Logan ayudó a los investigadores a descubrir más de 200 millones de versiones naturales de una enzima que come plástico y que se encuentra en una variedad de bacterias, hongos e insectos, incluidas algunas versiones que funcionan incluso mejor que las enzimas diseñadas en el laboratorio. Chikhi y Babaian informaron de sus hallazgos en una preimpresión publicada el mes pasado.

Ellos y otros también han utilizado una herramienta de búsqueda anterior y más limitada adaptada a depósitos de ADN viral para revelar resmas de virus y contaminantes virales no documentados previamente en terapias de células T diseñadas para tratar el cáncer.

Según Babaian, tales descubrimientos no habrían sido posibles sin dos cosas: herramientas de búsqueda de código abierto, disponibles en sitios como metagraph.ethz.ch y logan-search.org, y los repositorios públicos de secuenciación a los que acceden. Dado que los recortes de financiación amenazan a otros tipos de bases de datos biológicas, Babaian enfatiza que estas innovaciones de búsqueda subrayan la “importancia crítica del intercambio abierto de datos”.

“Estos son recursos para impulsar el progreso científico en todo el mundo”, afirma Babaian. “Están abriendo un campo completamente nuevo de genómica a escala de petabasa”, y las aplicaciones de mayor impacto aún están por llegar.

Este artículo se reproduce con autorización y se publicó por primera vez el 8 de octubre de 2025.

Es hora de defender la ciencia

Si te ha gustado este artículo, me gustaría pedirte tu apoyo. Científico americano ha servido como defensor de la ciencia y la industria durante 180 años, y ahora mismo puede ser el momento más crítico en esos dos siglos de historia.

he sido un Científico americano suscriptor desde que tenía 12 años y me ayudó a moldear mi forma de ver el mundo. Ciencia-Am Siempre me educa y me deleita, e inspira una sensación de asombro por nuestro vasto y hermoso universo. Espero que también lo haga por ti.

Si te suscribes a Científico americanousted ayuda a garantizar que nuestra cobertura se centre en investigaciones y descubrimientos significativos; que tenemos los recursos para informar sobre las decisiones que amenazan a los laboratorios en todo Estados Unidos; y que apoyemos a los científicos tanto en ciernes como en activo en un momento en el que con demasiada frecuencia el valor de la ciencia misma pasa desapercibido.

A cambio, obtiene noticias esenciales, podcasts cautivadores, infografías brillantes, boletines informativos imperdibles, vídeos imprescindibles, juegos desafiantes y los mejores escritos e informes del mundo científico. Incluso puedes regalarle a alguien una suscripción.

Nunca ha habido un momento más importante para que nos levantemos y demostremos por qué la ciencia es importante. Espero que nos apoyes en esa misión.