El descubrimiento de nuevos materiales y fármacos suele implicar un proceso manual de prueba y error que puede llevar décadas y costar millones de dólares. Para agilizar este proceso, los científicos suelen utilizar el aprendizaje automático para predecir propiedades moleculares y limitar las moléculas que necesitan sintetizar y probar en el laboratorio.
Investigadores del MIT y del MIT-IBM Watson AI Lab han desarrollado un nuevo marco unificado que pueden predecir simultáneamente propiedades moleculares y generar nuevas moléculas de manera mucho más eficiente que estos populares enfoques de aprendizaje profundo.
Para enseñarle a un modelo de aprendizaje automático a predecir las propiedades biológicas o mecánicas de una molécula, los investigadores deben mostrarle millones de estructuras moleculares etiquetadas, un proceso conocido como entrenamiento. Debido al costo de descubrir moléculas y los desafíos de etiquetar manualmente millones de estructuras, a menudo es difícil conseguir grandes conjuntos de datos de entrenamiento, lo que limita la efectividad de los enfoques de aprendizaje automático.
Por el contrario, el sistema creado por los investigadores del MIT puede predecir eficazmente propiedades moleculares utilizando sólo una pequeña cantidad de datos. Su sistema tiene una comprensión subyacente de las reglas que dictan cómo se combinan los componentes básicos para producir moléculas válidas. Estas reglas capturan las similitudes entre las estructuras moleculares, lo que ayuda al sistema a generar nuevas moléculas y predecir sus propiedades de manera eficiente en términos de datos.
Este método superó a otros enfoques de aprendizaje automático en conjuntos de datos grandes y pequeños, y fue capaz de predecir con precisión propiedades moleculares y generar moléculas viables cuando se le proporcionó un conjunto de datos con menos de 100 muestras.
“Nuestro objetivo con este proyecto es utilizar algunos métodos basados en datos para acelerar el descubrimiento de nuevas moléculas, de modo que se pueda entrenar un modelo para hacer la predicción sin todos estos experimentos costosos”, dice el autor principal Minghao Guo, un Estudiante de posgrado en informática e ingeniería eléctrica (EECS).
Los coautores de Guo incluyen a Veronika Thost, Payel Das y Jie Chen, miembros del personal de investigación del MIT-IBM Watson AI Lab; los recién graduados del MIT Samuel Song ’23 y Adithya Balachandran ’23; y el autor principal Wojciech Matusik, profesor de ingeniería eléctrica e informática y miembro del Laboratorio de IA Watson de MIT-IBM, que dirige el Grupo de Fabricación y Diseño Computacional dentro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL). La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.
Aprender el lenguaje de las moléculas.
Para lograr los mejores resultados con modelos de aprendizaje automático, los científicos necesitan entrenar conjuntos de datos con millones de moléculas que tengan propiedades similares a las que esperan descubrir. En realidad, estos conjuntos de datos específicos de un dominio suelen ser muy pequeños. Por lo tanto, los investigadores utilizan modelos que han sido previamente entrenados en grandes conjuntos de datos de moléculas generales, que aplican a un conjunto de datos mucho más pequeño y específico. Sin embargo, debido a que estos modelos no han adquirido mucho conocimiento específico del dominio, tienden a funcionar mal.
El equipo del MIT adoptó un enfoque diferente. Crearon un sistema de aprendizaje automático que aprende automáticamente el “lenguaje” de las moléculas (lo que se conoce como gramática molecular) utilizando sólo un pequeño conjunto de datos de dominio específico. Utiliza esta gramática para construir moléculas viables y predecir sus propiedades.
En teoría del lenguaje, uno genera palabras, oraciones o párrafos basándose en un conjunto de reglas gramaticales. Puedes pensar en una gramática molecular de la misma manera. Es un conjunto de reglas de producción que dictan cómo generar moléculas o polímeros combinando átomos y subestructuras.
Al igual que una gramática de un lenguaje, que puede generar una gran cantidad de oraciones usando las mismas reglas, una gramática molecular puede representar una gran cantidad de moléculas. Las moléculas con estructuras similares utilizan las mismas reglas de producción gramática y el sistema aprende a comprender estas similitudes.
Dado que las moléculas estructuralmente similares a menudo tienen propiedades similares, el sistema utiliza su conocimiento subyacente de similitud molecular para predecir las propiedades de nuevas moléculas de manera más eficiente.
“Una vez que tengamos esta gramática como representación de todas las diferentes moléculas, podremos usarla para impulsar el proceso de predicción de propiedades”, dice Guo.
El sistema aprende las reglas de producción de una gramática molecular mediante el aprendizaje por refuerzo, un proceso de prueba y error en el que el modelo es recompensado por el comportamiento que lo acerca a lograr una meta.
Pero como podría haber miles de millones de formas de combinar átomos y subestructuras, el proceso para aprender las reglas de producción gramática sería demasiado costoso desde el punto de vista computacional para cualquier cosa que no fuera el conjunto de datos más pequeño.
Los investigadores desacoplaron la gramática molecular en dos partes. La primera parte, llamada metagramática, es una gramática general y ampliamente aplicable que diseñan manualmente y le dan al sistema desde el principio. Entonces solo necesita aprender una gramática específica de molécula mucho más pequeña del conjunto de datos del dominio. Este enfoque jerárquico acelera el proceso de aprendizaje.
Grandes resultados, pequeños conjuntos de datos
En los experimentos, el nuevo sistema de los investigadores generó simultáneamente moléculas y polímeros viables, y predijo sus propiedades con mayor precisión que varios enfoques populares de aprendizaje automático, incluso cuando los conjuntos de datos de dominios específicos tenían solo unos pocos cientos de muestras. Algunos otros métodos también requirieron un costoso paso de capacitación previa que el nuevo sistema evita.
La técnica fue especialmente eficaz para predecir las propiedades físicas de los polímeros, como la temperatura de transición vítrea, que es la temperatura necesaria para que un material pase de sólido a líquido. Obtener esta información manualmente suele ser extremadamente costoso porque los experimentos requieren temperaturas y presiones extremadamente altas.
Para impulsar su enfoque aún más, los investigadores redujeron un conjunto de entrenamiento a más de la mitad, a solo 94 muestras. Su modelo aún logró resultados que estaban a la par de los métodos entrenados con todo el conjunto de datos.
“Esta representación basada en gramática es muy poderosa. Y debido a que la gramática en sí es una representación muy general, se puede implementar en diferentes tipos de datos en forma de gráficos. Estamos intentando identificar otras aplicaciones más allá de la química o la ciencia de materiales”, afirma Guo.
En el futuro, también quieren ampliar su gramática molecular actual para incluir la geometría 3D de moléculas y polímeros, que es clave para comprender las interacciones entre cadenas de polímeros. También están desarrollando una interfaz que mostraría al usuario las reglas de producción gramática aprendidas y solicitaría comentarios para corregir las reglas que puedan estar equivocadas, aumentando la precisión del sistema.
Este trabajo está financiado, en parte, por el MIT-IBM Watson AI Lab y su empresa miembro, Evonik.