IA para ayudar a los investigadores a ver el panorama más amplio de la biología celular | Noticias del MIT

Estudiar la expresión genética en las células de un paciente con cáncer puede ayudar a los biólogos clínicos a comprender el origen del cáncer y predecir el éxito de diferentes tratamientos. Pero las células son complejas y contienen muchas capas, por lo que la forma en que el biólogo realiza las mediciones afecta los datos que puede obtener. Por ejemplo, medir las proteínas en una célula podría arrojar información diferente sobre los efectos del cáncer que medir la expresión genética o la morfología celular.

Importa de dónde proviene la información en la celda. Pero para capturar información completa sobre el estado de la célula, los científicos a menudo deben realizar muchas mediciones utilizando diferentes técnicas y analizarlas una a la vez. Los métodos de aprendizaje automático pueden acelerar el proceso, pero los métodos existentes agrupan toda la información de cada modalidad de medición, lo que dificulta determinar qué datos provienen de qué parte de la celda.

Para superar este problema, investigadores del Broad Institute del MIT y Harvard y ETH Zurich/Paul Scherrer Institute (PSI) desarrollaron un marco impulsado por inteligencia artificial que aprende qué información sobre el estado de una célula se comparte entre diferentes modalidades de medición y qué información es exclusiva de un tipo de medición particular.

Al identificar qué información proviene de qué partes de la célula, el enfoque proporciona una visión más holística del estado de la célula, lo que facilita que un biólogo vea la imagen completa de las interacciones celulares. Esto podría ayudar a los científicos a comprender los mecanismos de las enfermedades y rastrear la progresión del cáncer, los trastornos neurodegenerativos como el Alzheimer y las enfermedades metabólicas como la diabetes.

“Cuando estudiamos células, una medición a menudo no es suficiente, por lo que los científicos desarrollan nuevas tecnologías para medir diferentes aspectos de las células. Si bien tenemos muchas formas de observar una célula, al final del día solo tenemos un estado celular subyacente. Al reunir la información de todas estas modalidades de medición de una manera más inteligente, podríamos tener una imagen más completa del estado de la célula”, dice el autor principal Xinyi Zhang SM ’22, PhD ’25, ex estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT. (EECS) y afiliado del Centro Eric y Wendy Schmidt del Broad Institute del MIT y Harvard, que ahora es líder de grupo en AITHYRA en Viena, Austria.

A Zhang se le une en un artículo sobre el trabajo GV Shivashankar, profesor del Departamento de Ciencias y Tecnología de la Salud de ETH Zurich y jefe del Laboratorio de Bioimagen Multiescala de PSI; y la autora principal Caroline Uhler, profesora de EECS y del Instituto de Datos, Sistemas y Sociedad (IDSS) del MIT, miembro del Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT y directora del Centro Eric y Wendy Schmidt del Broad Institute. La investigación aparece hoy en Nature Computational Science.

Manipulación de múltiples mediciones

Hay muchas herramientas que los científicos pueden utilizar para capturar información sobre el estado de una célula. Por ejemplo, pueden medir el ARN para ver si la célula está creciendo, o pueden medir la morfología de la cromatina para ver si la célula está lidiando con señales físicas o químicas externas.

“Cuando los científicos realizan análisis multimodales, recopilan información utilizando múltiples modalidades de medición y la integran para comprender mejor el estado subyacente de la célula. Parte de la información se captura solo mediante una modalidad, mientras que otra información se comparte entre modalidades. Para comprender completamente lo que sucede dentro de la célula, es importante saber de dónde proviene la información”, dice Shivashankar.

A menudo, para los científicos, la única manera de resolver esto es realizar múltiples experimentos individuales y comparar los resultados. Este proceso lento y engorroso limita la cantidad de información que pueden recopilar.

En el nuevo trabajo, los investigadores construyeron un marco de aprendizaje automático que comprende específicamente qué información se superpone entre diferentes modalidades y qué información es exclusiva de una modalidad particular pero no capturada por otras.

“Como usuario, simplemente puede ingresar los datos de su celular y automáticamente le indicará qué datos se comparten y qué datos son específicos de la modalidad”, dice Zhang.

Para construir este marco, los investigadores repensaron la forma típica en que se diseñan los modelos de aprendizaje automático para capturar e interpretar mediciones celulares multimodales.

Por lo general, estos métodos, conocidos como codificadores automáticos, tienen un modelo para cada modalidad de medición y cada modelo codifica una representación separada de los datos capturados por esa modalidad. La representación es una versión comprimida de los datos de entrada que descarta cualquier detalle irrelevante.

El método MIT tiene un espacio de representación compartido donde se codifican los datos que se superponen entre múltiples modalidades, así como espacios separados donde se codifican datos únicos de cada modalidad.

En esencia, podemos considerarlo como un diagrama de Venn de datos móviles.

Los investigadores también utilizaron un procedimiento de entrenamiento especial de dos pasos que ayuda a su modelo a manejar la complejidad involucrada en decidir qué datos se comparten entre múltiples modalidades de datos. Después del entrenamiento, el modelo puede identificar qué datos se comparten y cuáles son únicos cuando se alimenta con datos celulares que nunca antes había visto.

Datos distintivos

En pruebas sobre conjuntos de datos sintéticos, el marco capturó correctamente información conocida compartida y específica de la modalidad. Cuando aplicaron su método a conjuntos de datos unicelulares del mundo real, distinguieron de manera integral y automática entre la actividad genética capturada conjuntamente por dos modalidades de medición, como la transcriptómica y la accesibilidad a la cromatina, al mismo tiempo que identificaron correctamente qué información provenía de solo una de esas modalidades.

Además, los investigadores utilizaron su método para identificar qué modalidad de medición capturaba un determinado marcador proteico que indica daño en el ADN en pacientes con cáncer. Saber de dónde proviene esta información ayudaría al científico clínico a determinar qué técnica debería utilizar para medir ese marcador.

“Hay demasiadas modalidades en una celda y no podemos medirlas todas, por lo que necesitamos una herramienta de predicción. Pero entonces la pregunta es: ¿qué modalidades deberíamos medir y qué modalidades deberíamos predecir? Nuestro método puede responder a esa pregunta”, dice Uhler.

En el futuro, los investigadores quieren que el modelo proporcione información más interpretable sobre el estado de la célula. También quieren realizar experimentos adicionales para garantizar que desentrañe correctamente la información celular y aplique el modelo a una gama más amplia de preguntas clínicas.

“No basta con integrar la información de todas estas modalidades”, afirma Uhler. “Podemos aprender mucho sobre el estado de una célula si comparamos cuidadosamente las diferentes modalidades para comprender cómo los diferentes componentes de las células se regulan entre sí”.

Esta investigación está financiada, en parte, por el Centro Eric y Wendy Schmidt del Broad Institute, la Fundación Nacional Suiza para la Ciencia, los Institutos Nacionales de Salud de EE. UU., la Oficina de Investigación Naval de EE. UU., AstraZeneca, el MIT-IBM Watson AI Lab, la MIT J-Clinic for Machine Learning and Health y un premio Simons Investigator.