Este artículo sobre IA del MIT explora la ampliación de modelos de aprendizaje profundo para la investigación química

Investigadores del MIT investigaron el comportamiento de escala de grandes modelos de lenguaje químico, centrándose tanto en transformadores generativos preentrenados (GPT) para química (ChemGPT) como en campos de fuerza de redes neuronales gráficas (GNN). Introducen el concepto de escalamiento neuronal, donde el rendimiento de los modelos se caracteriza por leyes de escalamiento empírico, particularmente en términos de escalamiento de pérdidas como una ley de potencia relacionada con el número de parámetros del modelo, el tamaño del conjunto de datos o los recursos informáticos. El estudio profundiza en los desafíos y oportunidades asociados con la ampliación de modelos químicos a gran escala, con el objetivo de proporcionar información sobre la asignación óptima de recursos para mejorar la pérdida previa al entrenamiento.

Para el modelado del lenguaje químico, los investigadores diseñan ChemGPT, un modelo de estilo GPT-3 basado en GPT-Neo, con un tokenizador para representaciones de moléculas de cadenas incrustadas con autorreferencia (SELFIES). El modelo está previamente entrenado con moléculas de PubChem y el estudio explora el impacto del conjunto de datos y el tamaño del modelo en la pérdida previa al entrenamiento.

Además de los modelos de lenguaje, el artículo aborda gráficos de campos de fuerza de redes neuronales (GNN) para tareas que requieren geometría molecular y estructura tridimensional. Se consideran cuatro tipos de GNN, que van desde modelos con capas internas que manipulan solo cantidades invariantes E(3) hasta aquellos que utilizan cantidades equivariantes E(3) con arquitecturas de modelos cada vez más basadas en la física. Los autores evalúan la capacidad de estos GNN, definidos en términos de profundidad y ancho, durante experimentos de escala neuronal.

Para manejar de manera eficiente la optimización de hiperparámetros (HPO) para modelos químicos profundos, el artículo presenta una técnica llamada Estimación del rendimiento del entrenamiento (TPE), adaptándola de un método utilizado en arquitecturas de visión por computadora. TPE utiliza la velocidad de entrenamiento para permitir la estimación del rendimiento en diferentes dominios y tamaños de modelos/conjuntos de datos. El documento detalla las configuraciones experimentales, incluido el uso de GPU NVIDIA Volta V100, PyTorch y aceleración de datos distribuidos en paralelo para la implementación y el entrenamiento del modelo.

En general, el estudio proporciona una exploración integral del escalamiento neuronal en el contexto de grandes modelos de lenguaje químico, considerando tanto transformadores generativos preentrenados como campos de fuerza de redes neuronales gráficas, e introduce un método eficiente para la optimización de hiperparámetros. Los resultados y conocimientos experimentales contribuyen a comprender la eficiencia de los recursos de diferentes arquitecturas de modelos en aplicaciones científicas de aprendizaje profundo.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.