Su ADN contiene aproximadamente 20.000 genes, cada uno de los cuales es una receta para producir proteínas. Pero hay algo que no entendíamos hasta hace poco: ¿cómo sabe una célula qué recetas usar, cuándo usarlas y con qué intensidad? Las instrucciones existen en algún lugar de las vastas extensiones de ADN entre los genes: secuencias reguladoras que actúan como sistema operativo del genoma. Sólo que no pudimos leerlos.
Eso cambió la semana pasada. Con unos días de diferencia, dos equipos de investigación publicaron modelos de IA capaces de predecir cómo las mutaciones genéticas afectan la regulación genética. Uno, de DeepMind de Google, es un coloso computacional que procesa megabases de ADN. El otro, de investigadores holandeses, requiere sólo una placa de Petri de células y un día de tiempo de computación. Juntos, marcan el momento en que finalmente aprendimos a leer el código de control del genoma.
El problema que han resuelto es engañosamente simple. Conocemos el código genético (cómo el ADN deletrea las proteínas) desde la década de 1960. Pero la mayoría de las mutaciones que causan cáncer no se encuentran en los genes en sí. Están en las regiones reguladoras, los interruptores y diales que controlan la actividad genética. “El código genético clásico explica cómo los genes de nuestro ADN codifican proteínas”, dice Bas van Steensel del Instituto del Cáncer de los Países Bajos. “Pero, sinceramente, no entendíamos cómo se regulan la mayoría de los genes”.
Entre los genes se encuentran promotores, potenciadores y silenciadores: elementos reguladores que juntos deciden si un gen se activa, en qué tipo de célula y con qué fuerza. Una mutación podría fortalecer un potenciador, inundando una célula con un oncogén. O podría alterar un promotor y silenciar un supresor de tumores. Hasta ahora, predecir estos efectos requería un minucioso trabajo de laboratorio, probando las mutaciones una por una.
AlphaGenome, publicado en Nature el miércoles pasado, adopta un enfoque maximalista. Aliméntelo con un millón de pares de bases de secuencia de ADN (aproximadamente el 0,03 por ciento de su genoma) y predice casi 6.000 mediciones diferentes en células humanas. Niveles de expresión genética, sitios de empalme donde se edita el ARN, regiones donde los cromosomas se pliegan, puntos donde las proteínas se unen al ADN. El modelo superó a las herramientas existentes en 25 de 26 tareas de predicción de variantes, desde defectos de empalme hasta cambios en la expresión genética.
Es el equivalente de IA a las imágenes satelitales: integral, extraordinariamente detallada y que requiere recursos informáticos a escala de Google para funcionar. La arquitectura abarca ocho procesadores interconectados que trabajan en paralelo, combinando capas convolucionales para patrones de secuencia local con bloques transformadores para interacciones de largo alcance entre elementos reguladores distantes.
Quizás lo más impresionante es que AlphaGenome puede calificar los efectos de una variante a través de múltiples mecanismos simultáneamente, lo que muestra, por ejemplo, cómo una única mutación cerca del oncogén TAL1 interrumpe simultáneamente la unión del factor de transcripción, altera la accesibilidad a la cromatina y cambia los patrones de modificación de las histonas. Estas predicciones multimodales recapitularon con éxito los mecanismos de las mutaciones cancerígenas caracterizadas en pacientes con leucemia linfoblástica aguda.
Ingrese PARM, del laboratorio de van Steensel y sus colaboradores en todos los Países Bajos. También publicado esta semana, adopta exactamente el enfoque opuesto: ligero, específico y experimental. “La mayoría de los modelos de IA aprenden de cualquier dato que exista”, explica Jeroen de Ridder de UMC Utrecht. “Aquí, las mediciones y la IA se diseñaron juntas”.
La diferencia es la eficiencia computacional. Mientras que AlphaGenome requiere una enorme potencia de procesamiento, PARM fue diseñado explícitamente para laboratorios académicos sin supercomputadoras. El equipo desarrolló una tecnología que genera millones de mediciones cuidadosamente controladas de cómo las secuencias de ADN influyen en la actividad genética y luego entrenó modelos de IA específicamente con esos datos. El resultado es una herramienta que se ejecuta en computadoras comunes, procesa tipos de células individuales y ofrece resultados con la suficiente rapidez para aplicaciones clínicas.
Van Steensel es diplomático con la comparación. “Este es un gran modelo”, dice sobre AlphaGenome. “Sin embargo, PARM es más flexible y experimental y computacionalmente liviano”. Las cifras son sorprendentes: PARM requiere aproximadamente mil veces menos potencia informática que AlphaGenome. “Con este modelo sólo se necesita una placa de Petri de células y un día de computación para ver en detalle cómo un tipo de célula particular, como una célula tumoral, utiliza su código de ADN para responder a una señal como una hormona, nutriente o fármaco”.
Aquí hay un contraste más profundo, más allá de los recursos computacionales. AlphaGenome apunta a una cobertura integral: predice todo sobre cualquier secuencia de ADN que le proporcione. PARM es personalizable: entrénelo según su tipo de célula específico, su pregunta de investigación particular y sus células tumorales. Un modelo para todos los contextos versus muchos modelos, cada uno optimizado para aplicaciones específicas.
Ambos enfoques fueron sometidos a pruebas rigurosas, pero de maneras bastante diferentes. Los creadores de AlphaGenome en DeepMind evaluaron su modelo en 26 tareas de predicción de variantes distintas, comparándolas con el método más potente disponible para cada una. En loci de rasgos cuantitativos (variantes genéticas asociadas con cambios moleculares mensurables), AlphaGenome mejoró la precisión en un 25,5 por ciento para los efectos de expresión y un 8 por ciento para los cambios de accesibilidad.
Para las predicciones de empalme, donde las mutaciones alteran la forma en que los genes se editan en ARN maduro, AlphaGenome logró el rendimiento más alto en seis de siete puntos de referencia, incluida la predicción supervisada y no supervisada de variantes raras que interrumpen el empalme. El modelo predijo con precisión los efectos sobre la poliadenilación alternativa, el proceso que determina dónde terminan las moléculas de ARN, un mecanismo que influye en la estabilidad del ARN y puede contribuir a la enfermedad cuando se interrumpe.
La estrategia de prueba del equipo holandés fue diferente. Cada predicción que hace PARM se verifica experimentalmente, lo que garantiza que el modelo capture genuinamente la realidad biológica en lugar de artefactos estadísticos. Este enfoque iterativo (predecir, probar, refinar, repetir) generó confianza en que la gramática regulatoria de PARM refleja los mecanismos reales.
Ninguno de los modelos es perfecto. AlphaGenome, a pesar de todo su poder, lucha con elementos reguladores muy distantes más allá de 100 kilobases de los genes objetivo. Predecir con precisión los efectos específicos de los tejidos sigue siendo un desafío. El modelo se entrenó principalmente en genes que codifican proteínas, dejando lagunas de cobertura para los microARN y otros ARN no codificantes.
Las limitaciones de PARM son diferentes. Su eficiencia proviene de la especialización: debes entrenar modelos separados para diferentes tipos de células. La herramienta tampoco puede manejar aún la predicción del genoma personal en todas las variantes que porta un individuo, una debilidad conocida de los modelos de secuencia a función.
Lo que ninguna limitación socava es el logro fundamental: leer el código regulatorio. “Ahora podemos leer el lenguaje del sistema de control genético”, afirma van Steensel. “Nuestro modelo PARM nos permite descubrir estas reglas a escala, por lo que ahora podemos comprender, e incluso predecir, cómo el ADN regulador controla la actividad genética”.
Las implicaciones se extienden hacia afuera. La mayoría de las variantes genéticas identificadas en estudios de enfermedades (miles de ellas) se encuentran en regiones reguladoras. Sabemos que son importantes; No pudimos predecir cómo. Ahora podemos evaluar sus efectos sobre la accesibilidad a la cromatina, la unión del factor de transcripción y la expresión genética. Cada predicción se convierte en una hipótesis para el seguimiento experimental.
El diagnóstico del cáncer obtiene una nueva herramienta para la estratificación de pacientes, agrupando los tumores no sólo por genes mutados sino también por sus alteraciones regulatorias. El diagnóstico de enfermedades raras se expande más allá de las mutaciones codificadoras de proteínas hacia variantes reguladoras de significado incierto. El desarrollo terapéutico, desde oligonucleótidos antisentido hasta tratamientos dirigidos a potenciadores, se puede diseñar in silico antes de una costosa validación de laboratorio.
Hay algo casi irónico en el momento. Google publicó AlphaGenome pocos días antes de que apareciera el artículo PARM del equipo holandés, creando una fotografía científica accidental. Uno representa la IA corporativa en su forma más ambiciosa: datos masivos, modelos enormes, predicciones integrales. El otro encarna la innovación académica: diseño experimental inteligente, eficiencia a través de la especialización, herramientas diseñadas para un uso generalizado.
No tenemos que elegir. Los genetistas de enfermedades raras podrían comenzar con las predicciones generales de AlphaGenome y luego recurrir a PARM para un análisis detallado de variantes candidatas en células derivadas de pacientes. Los investigadores del cáncer podrían utilizar AlphaGenome para estudiar los panoramas regulatorios y luego implementar PARM para un seguimiento de mecanismos específicos. Las herramientas son ventanas complementarias y diferentes al mismo código regulatorio.
Alrededor del 98 por ciento de la variación genética humana no está codificada y se encuentra en esas misteriosas regiones reguladoras que no pudimos interpretar. Hemos secuenciado genomas durante dos décadas sin dejar de ser en gran medida analfabetos en el lenguaje de control del genoma. Ahora, de repente, lo estamos leyendo, no perfectamente, no completamente, pero lo suficientemente bien como para empezar a entender las variantes que nos han desconcertado durante años.
El genoma contiene dos códigos, superpuestos uno sobre otro. El código genético, descifrado en los años sesenta, nos dice qué proteínas pueden producir las células. El código regulatorio, que finalmente cede ante la IA, nos dice cuándo y dónde se producen realmente esas proteínas. Pasaron sesenta años entre los dos avances, lo que dice algo sobre la complejidad del segundo código. Pero quizás también se trate de la necesidad de las herramientas adecuadas para el trabajo: no solo secuenciadores y bioquímica, sino aprendizaje automático entrenado en millones de mediciones regulatorias.
El equipo de Van Steensel colaboró en siete grupos de investigación dentro del Instituto Oncode de los Países Bajos, un recordatorio de que incluso en la era del dominio de la IA de Google, los consorcios académicos siguen siendo formidables. Han hecho que PARM sea accesible para investigadores de todo el mundo, apostando a que la innovación distribuida superará al desarrollo centralizado. Mientras tanto, Google proporciona AlphaGenome a través de una API en línea, democratizando el acceso a predicciones que de otro modo requerirían supercomputadoras.
La próxima frontera es obvia: la interpretación del genoma personal. Ahora podemos secuenciar el ADN completo de un individuo por aproximadamente 500 dólares. Lo que no podemos hacer de manera confiable es interpretar todas esas variantes regulatorias que cada persona porta: cientos de miles de ellas, la mayoría con efectos desconocidos. Modelos como AlphaGenome y PARM acercan ese objetivo, aunque persisten desafíos importantes en torno a la precisión, la calibración y la comprensión de las conexiones entre genes y enfermedades más allá de los efectos moleculares.
También está la cuestión de qué sucede cuando las predicciones regulatorias se integran con la predicción de la estructura de las proteínas, la IA del diseño de fármacos y otras herramientas de aprendizaje automático biológico. Estamos montando un microscopio computacional para observar sistemas biológicos, una lente a la vez. El código regulatorio era una pieza crucial que faltaba.
Por ahora, sin embargo, hay algo satisfactorio en cerrar un ciclo abierto en 1953, cuando Watson y Crick describieron la estructura del ADN. Reconocieron inmediatamente que el emparejamiento de bases sugería un mecanismo de copia: cómo se transmite la información genética. Pero el mecanismo de control, es decir, cómo las células regulan qué genes utilizar, permaneció opaco durante otras siete décadas. Con estas nuevas herramientas, finalmente estamos aprendiendo a leer ambos códigos en los que escribe nuestro genoma.
Enlace del estudio: https://www.nature.com/articles/s41586-025-10014-0
Aquí no hay muro de pago
Si nuestros informes lo han informado o inspirado, considere hacer una donación. Cada contribución, sin importar el tamaño, nos permite continuar brindando noticias médicas y científicas precisas, atractivas y confiables. El periodismo independiente requiere tiempo, esfuerzo y recursos; su apoyo garantiza que podamos seguir descubriendo las historias que más le importan.
Únase a nosotros para hacer que el conocimiento sea accesible e impactante. ¡Gracias por estar con nosotros!