Google DeepMind está ampliando su conjunto de herramientas biológicas más allá del mundo del plegamiento de proteínas. Tras el éxito de AlphaFold, el equipo de investigación de Google ha presentado AlphaGenome. Este es un modelo unificado de aprendizaje profundo diseñado para que la secuencia funcione en genómica. Esto representa un cambio importante en la forma en que modelamos el genoma humano. AlphaGenome no trata el ADN como un simple texto. En cambio, procesa ventanas de 1.000.000 de pares de bases de ADN sin procesar para predecir el estado funcional de una célula.
Cerrando la brecha de escala con arquitecturas híbridas
La complejidad del genoma humano proviene de su escala. La mayoría de los modelos existentes tienen dificultades para ver el panorama general y, al mismo tiempo, realizar un seguimiento de los detalles finos. AlphaGenome resuelve esto mediante el uso de una arquitectura híbrida. Combina una red troncal U-Net con bloques Transformer. Esto permite que el modelo capture interacciones de largo alcance en 1 megabase de secuencia mientras mantiene la resolución del par de bases. Esto es como construir un sistema que puede leer un libro de mil páginas y aún recordar la ubicación exacta de una sola coma.
Mapeo de secuencias a modalidades biológicas funcionales
AlphaGenome es un modelo de secuencia para funcionar. Esto significa que su objetivo principal es mapear secuencias de ADN directamente a actividades biológicas. Estas actividades se miden en pistas genómicas. El equipo de investigación entrenó a AlphaGenome para predecir 11 modalidades genómicas diferentes. Estas modalidades incluyen RNA-seq, CAGE y ATAC-seq. También incluyen ChIP-seq para varios factores de transcripción y mapas de contacto de cromatina. Al predecir todas estas pistas a la vez, el modelo obtiene una comprensión holística de cómo el ADN regula la célula.
El poder del aprendizaje multitarea en genómica
El avance técnico de AlphaGenome radica en su capacidad para manejar 11 tipos distintos de datos simultáneamente. En el pasado, los investigadores solían construir modelos separados para cada tarea. AlphaGenome utiliza un enfoque de aprendizaje multitarea. Esto ayuda al modelo a aprender características compartidas entre diferentes procesos biológicos. Si el modelo comprende cómo se une una proteína al ADN, puede predecir mejor cómo se expresará ese ADN como ARN. Este enfoque unificado reduce la necesidad de múltiples modelos especializados.
Predicción avanzada del efecto variante mediante destilación
Una de las aplicaciones más críticas de AlphaGenome es la predicción de efectos variantes o VEP. Este proceso determina cómo una sola mutación en el ADN afecta al cuerpo. Las mutaciones pueden provocar enfermedades como cáncer o enfermedades cardíacas. AlphaGenome se destaca en esto mediante el uso de un método de capacitación específico llamado destilación Teacher Student. El equipo de investigación creó primero un conjunto de modelos docentes “de todos los pliegues”. Estos profesores fueron capacitados con grandes cantidades de datos genómicos. Luego, destilaron ese conocimiento en un modelo de estudiante único.
Comprendiendo el conocimiento para la medicina de precisión
Este proceso de destilación hace que el modelo sea más rápido y más robusto. Esta es una forma estándar de comprimir el conocimiento. Sin embargo, aplicarlo a la genómica a esta escala es un nuevo hito. El modelo de estudiante aprende a replicar las predicciones de alta calidad del conjunto de profesores. Esto le permite identificar mutaciones dañinas con gran precisión. El modelo puede incluso predecir cómo una mutación en un elemento regulador distante podría afectar a un gen muy alejado en la cadena de ADN.
Computación de alto rendimiento con JAX y TPU
La arquitectura se implementa utilizando JAX. JAX es una biblioteca de computación numérica de alto rendimiento. A menudo se utiliza para el aprendizaje automático a gran escala en Google. El uso de JAX permite que AlphaGenome se ejecute de manera eficiente en unidades de procesamiento tensoriales o TPU. El equipo de investigación utilizó el paralelismo de secuencia para manejar las enormes ventanas de entrada de 1 Megabase. Esto garantiza que los requisitos de memoria no aumenten a medida que aumenta la longitud de la secuencia. Esto muestra la importancia de seleccionar el marco adecuado para datos biológicos a gran escala.
Transferir aprendizaje para tipos de celdas con escasez de datos
AlphaGenome también aborda el desafío de la escasez de datos en ciertos tipos de células. Debido a que es un modelo básico, se puede ajustar para tareas específicas. El modelo aprende reglas biológicas generales a partir de grandes conjuntos de datos públicos. Estas reglas se pueden aplicar luego a enfermedades raras o tejidos específicos donde es difícil encontrar datos. Esta capacidad de aprendizaje por transferencia es una de las razones por las que AlphaGenome es tan versátil. Puede predecir cómo se comportará un gen en una célula cerebral incluso si se entrenó principalmente con datos de células hepáticas.
Hacia una nueva era de atención personalizada
En el futuro, AlphaGenome podría dar paso a una nueva era de medicina personalizada. Los médicos podrían utilizar el modelo para escanear el genoma completo de un paciente en fragmentos de 1.000.000 de pares de bases. Podrían identificar exactamente qué variantes pueden causar problemas de salud. Esto permitiría tratamientos que se adapten al código genético específico de una persona. AlphaGenome nos acerca a esta realidad al proporcionar un mapa claro y preciso del genoma funcional.
Estableciendo el estándar para la IA biológica
AlphaGenome también marca un punto de inflexión para la IA en genómica. Demuestra que podemos modelar los sistemas biológicos más complejos utilizando los mismos principios utilizados en la IA moderna. Al combinar estructuras U-Net con Transformers y utilizar la destilación entre profesores y alumnos, el equipo de Google DeepMind ha establecido un nuevo estándar.
Conclusiones clave
Arquitectura de secuencia híbrida: AlphaGenome utiliza un diseño híbrido especializado que combina una columna vertebral U-Net con bloques Transformer. Esto permite que el modelo procese ventanas masivas de 1.000.000 de pares de bases manteniendo la alta resolución necesaria para identificar mutaciones individuales. Predicción funcional multimodal: el modelo está entrenado para predecir 11 modalidades genómicas diferentes simultáneamente, que incluyen RNA-seq, CAGE y ATAC-seq. Al aprender estas diversas pistas biológicas juntas, el sistema obtiene una comprensión holística de cómo el ADN regula la actividad celular en diferentes tejidos. Destilación profesor-estudiante: para lograr una precisión líder en la industria en la predicción del efecto variante (VEP), los investigadores utilizaron un método de destilación. Transferieron el conocimiento de un conjunto de modelos de “maestros” de alto rendimiento a un modelo único y eficiente de “estudiantes” que es más rápido y más sólido para identificar mutaciones que causan enfermedades. Creado para informática de alto rendimiento: el marco está implementado en JAX y optimizado para TPU. Al utilizar el paralelismo de secuencias, AlphaGenome puede manejar la carga computacional del análisis de secuencias de ADN a escala de megabases sin exceder los límites de memoria, lo que la convierte en una poderosa herramienta para investigaciones a gran escala.
Consulte el documento y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.