Estudios recientes han demostrado que el aprendizaje de la representación se ha convertido en una herramienta importante para el descubrimiento de fármacos y la comprensión del sistema biológico. Es un componente fundamental en la identificación de los mecanismos de los fármacos, la predicción de la toxicidad y actividad de los fármacos y la identificación de compuestos químicos relacionados con estados patológicos.
La limitación surge al representar la compleja interacción entre la estructura química de una molécula pequeña y sus características físicas o biológicas. Varias técnicas de aprendizaje de representaciones moleculares actualmente en uso codifican únicamente la identificación química de una molécula, lo que conduce a representaciones unimodales, lo que tiene inconvenientes ya que moléculas con estructuras comparables pueden tener funciones notablemente diversas dentro de un entorno biológico.
Los esfuerzos recientes se han concentrado en modelos de entrenamiento que aplican aprendizaje contrastivo multimodal para mapear estructuras químicas 2D en imágenes de microscopio celular de alto contenido. En biotecnología, la detección de fármacos de alto rendimiento es esencial para evaluar y comprender la relación entre la estructura química de un fármaco y su actividad biológica. Este método utiliza medidas de expresión genética o imágenes celulares para indicar los efectos de los fármacos.
Sin embargo, el manejo de efectos por lotes presenta un desafío importante cuando se ejecutan pantallas a gran escala, lo que requiere su división en muchas pruebas. La interpretación adecuada de los resultados puede verse obstaculizada por estos efectos de lote, que potencialmente pueden incorporar errores sistemáticos y conexiones no biológicas en los datos.
Para superar esto, un equipo de investigadores presentó recientemente InfoCORE, una estrategia de maximización de información para COnfounder REmoval. Los principales objetivos de InfoCORE son gestionar eficazmente los efectos de los lotes y mejorar el calibre de las representaciones moleculares derivadas de datos de detección de fármacos de alto rendimiento. Dado un identificador de lote, el método establece un límite inferior variacional en la información mutua condicional de las representaciones latentes. Para ello, vuelve a pesar las muestras de forma adaptativa para ecualizar su distribución de lotes inferida.
Pruebas exhaustivas sobre datos de detección de drogas han demostrado que InfoCORE funciona mejor que otros algoritmos en una variedad de tareas, como recuperar el fenotipo de una molécula y predecir propiedades químicas. Esto implica que InfoCORE reduce con éxito la influencia de los efectos de los lotes, lo que da como resultado un mejor rendimiento en tareas relacionadas con el análisis molecular y el descubrimiento de fármacos.
El estudio también ha enfatizado cuán flexible es InfoCORE como marco que puede manejar problemas más complejos. Ha demostrado cómo InfoCORE puede gestionar los cambios en la distribución general y los problemas de equidad de los datos reduciendo la correlación con características falsas o eliminando atributos sensibles. La versatilidad de InfoCORE lo convierte en una herramienta poderosa para abordar una variedad de desafíos relacionados con la distribución y la equidad de los datos, además de eliminar el efecto por lotes en la detección de drogas.
Los investigadores han resumido sus principales contribuciones de la siguiente manera.
- El enfoque InfoCORE tiene como objetivo proponer un marco de aprendizaje de representación molecular multimodal que pueda integrar sin problemas estructuras químicas con una variedad de pruebas de detección de fármacos de alto contenido.
- La investigación proporciona una base teórica sólida al demostrar que InfoCORE maximiza el límite inferior variacional de la información mutua condicional de la representación dado el identificador de lote.
- InfoCORE ha demostrado su eficiencia en tareas de predicción de propiedades moleculares y recuperación de fenotipos moleculares al superar consistentemente varios modelos de referencia en estudios del mundo real.
- La filosofía de maximización de la información de InfoCORE se extiende más allá del campo del desarrollo de fármacos. La evidencia empírica respalda su eficacia para eliminar información confidencial para lograr una representación justa, lo que la convierte en una herramienta flexible con usos más amplios.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.