Investigadores de Genentech y la Universidad de Stanford desarrollan un procedimiento iterativo Perturb-seq que aprovecha el aprendizaje automático para un diseño eficiente de experimentos de perturbación

La información básica sobre la función de los genes y las células se revela mediante la expresión-respuesta de una célula a una alteración genética. Utilizando una lectura de la respuesta de expresión a una perturbación utilizando secuencias de ARN unicelulares (scRNA-seq), perturba-seq es un nuevo método para evaluaciones genéticas agrupadas. Perturb-seq permite la ingeniería de células hasta un cierto estado, arroja luz sobre el sistema de regulación genética y ayuda a identificar genes objetivo para la intervención terapéutica.

La eficiencia, escalabilidad y amplitud de Perturb-Seq se han visto aumentadas por los recientes desarrollos tecnológicos. El número de pruebas necesarias para evaluar diversas perturbaciones se multiplica exponencialmente debido a la gran variedad de contextos biológicos, tipos de células, estados y estímulos. Esto se debe a que las interacciones genéticas no aditivas son una posibilidad. Ejecutar todos los experimentos directamente resulta poco práctico cuando hay miles de millones de configuraciones posibles.

Según investigaciones recientes, los resultados de las perturbaciones se pueden predecir utilizando modelos de aprendizaje automático. Utilizan conjuntos de datos de Perturb-seq preexistentes para entrenar sus algoritmos, pronosticando los resultados de expresión de perturbaciones invisibles, genes individuales o combinaciones de genes. Aunque estos modelos son prometedores, tienen fallas debido a un sesgo de selección introducido por el diseño del experimento original, que afectó las circunstancias biológicas y las perturbaciones elegidas para el entrenamiento.

Los investigadores de Genentech y la Universidad de Stanford introducen una nueva forma de pensar acerca de la ejecución de una serie de experimentos de secuencia perturbadora para investigar un espacio de perturbación. En este paradigma, el ensayo Perturb-seq se lleva a cabo en un entorno de laboratorio húmedo y el modelo de aprendizaje automático se implementa utilizando un enfoque de diseño óptimo secuencial entrelazado. La adquisición de datos y el reentrenamiento del modelo de aprendizaje automático se producen en cada etapa del proceso. Para garantizar que el modelo pueda pronosticar con precisión perturbaciones no perfiladas, los investigadores utilizan a continuación una técnica de diseño óptima para elegir un conjunto de experimentos de perturbación. Para muestrear inteligentemente el espacio de perturbaciones, se deben considerar las perturbaciones más informativas y representativas del modelo, permitiendo al mismo tiempo la diversidad. Este enfoque permite la creación de un modelo que ha explorado adecuadamente el espacio de perturbación con experimentos de perturbación mínimos realizados.

El aprendizaje activo se basa en este principio, que ha sido ampliamente investigado en el aprendizaje automático. La clasificación de documentos, las imágenes médicas y el reconocimiento de voz son ejemplos de las muchas áreas que han puesto en práctica el aprendizaje activo. Los hallazgos demuestran que los métodos de aprendizaje activo que funcionan requieren un gran conjunto inicial de ejemplos etiquetados (perturbaciones perfiladas en este caso) junto con varios lotes que suman decenas de miles de puntos de datos etiquetados. El equipo también realizó un análisis económico que muestra que tales condiciones no son factibles debido a las limitaciones de tiempo y dinero del Perturb-seq iterativo en el laboratorio.

Para abordar la cuestión del aprendizaje activo en un contexto presupuestario para los datos de Perturb-seq, el equipo proporciona un enfoque novedoso denominado ITERPERT (ITERative PERTurb-seq). Inspirándose en la investigación basada en datos, la principal conclusión de este trabajo es que podría resultar útil complementar la evidencia de datos con fuentes de conocimiento previo disponibles públicamente, particularmente en las primeras etapas y cuando los fondos son escasos. Los datos sobre interacciones moleculares físicas, como complejos de proteínas, información Perturb-seq de sistemas comparables y análisis genéticos a gran escala que utilizan otras modalidades, como análisis de agrupación óptica a escala del genoma, son ejemplos de ese conocimiento previo. El conocimiento previo abarca varias formas de representación, incluidas redes, texto, imágenes y estructuras tridimensionales, que podrían resultar difíciles de utilizar cuando se participa en un aprendizaje activo. Para solucionar esto, el equipo define la replicación de espacios de Hilbert del núcleo en todas las modalidades y utiliza un enfoque de fusión del núcleo para fusionar datos de diferentes fuentes.

Realizaron una investigación empírica intensiva utilizando un conjunto de datos CRISPRi Perturb-seq de un solo gen a gran escala obtenido en una línea celular cancerosa (células K562). Compararon ocho metodologías de aprendizaje activo recientes para comparar ITERPERT con otros enfoques utilizados habitualmente. ITERPERT obtuvo niveles de precisión comparables a la técnica de aprendizaje activo superior mientras utilizaba datos de entrenamiento que contenían tres veces menos perturbaciones. Al considerar los efectos de los lotes a lo largo de las iteraciones, ITERPERT demostró un sólido rendimiento en exámenes críticos a escala de genes y genoma.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.