Meta AI presenta UMA (Modelos Universales para átomos): una familia de modelos universales para átomos

La teoría funcional de densidad (DFT) sirve como base de la química computacional moderna y la ciencia de los materiales. Sin embargo, su alto costo computacional limita severamente su uso. Los potenciales interatómicos de aprendizaje automático (MLIP) tienen el potencial de aproximar estrechamente la precisión de DFT al tiempo que mejora significativamente el rendimiento, reduciendo el tiempo de cálculo de horas a menos de un segundo con la escala O (N) versus O (N³). Sin embargo, la capacitación de MLIP que se generalizan en diferentes tareas químicas sigue siendo un desafío abierto, ya que los métodos tradicionales dependen de conjuntos de datos específicos de problemas más pequeños en lugar de utilizar las ventajas de escala que han impulsado avances significativos en los modelos de lenguaje y visión.

Los intentos existentes para abordar estos desafíos se han centrado en desarrollar MLIP universales capacitados en conjuntos de datos más grandes, con conjuntos de datos como Alexandria y OMAT24, lo que lleva a un mejor rendimiento en la tabla de clasificación Matbench-Descossvery. Además, los investigadores han explorado las relaciones de escala para comprender las relaciones entre el cálculo, los datos y el tamaño del modelo, inspirándose en las leyes de escala empírica en LLM que motivaron la capacitación en más tokens con modelos más grandes para mejoras de rendimiento predecibles. Estas relaciones de escala ayudan a determinar la asignación óptima de recursos entre el conjunto de datos y el tamaño del modelo. Sin embargo, su aplicación a MLIPS sigue siendo limitada en comparación con el impacto transformador observado en el modelado de idiomas.

Investigadores de Fair en Meta y Carnegie Mellon University han propuesto una familia de modelos universales para átomos (UMA) diseñados para probar los límites de precisión, velocidad y generalización para un solo modelo en química y ciencia de los materiales. Para abordar estos desafíos, además, desarrollaron leyes de escala empírica que relacionan el cálculo, los datos y el tamaño del modelo para determinar las estrategias óptimas del tamaño del modelo y la capacitación. Esto ayudó a superar el desafío de equilibrar la precisión y la eficiencia, que se debió al conjunto de datos sin precedentes de ~ 500 millones de sistemas atómicos. Además, UMA funciona de manera similar o mejor que los modelos especializados en la precisión y la velocidad de inferencia en una amplia gama de puntos de referencia material, molecular y catálisis, sin ajustar las tareas específicas.

La arquitectura UMA se basa en ESEN, una red neuronal de gráficos equímenos, con modificaciones cruciales para permitir una escala eficiente y manejar entradas adicionales, incluidas la carga total, el giro y la configuración de DFT para la emulación. También incorpora una nueva incrustación que permite que los modelos UMA integren tareas relacionadas con la carga, giro y DFT. Cada una de estas entradas genera una incrustación de la misma dimensión que los canales esféricos utilizados. El entrenamiento sigue un enfoque de dos etapas: la primera etapa predice directamente las fuerzas para un entrenamiento más rápido, y la segunda etapa elimina la cabeza de fuerza y ajusta el modelo para predecir las fuerzas y tensiones de conservación utilizando autos de grado, garantizando la conservación de la energía y los paisajes de energía potencial suaves.

Los resultados muestran que los modelos UMA exhiben un comportamiento de escala lineal log en los rangos de flop probados. Esto indica que se requiere una mayor capacidad del modelo para adaptarse al conjunto de datos UMA, con estas relaciones de escala utilizadas para seleccionar tamaños de modelo precisos y mostrar las ventajas de Mole sobre las arquitecturas densas. En la capacitación de varias tareas, se observa una mejora significativa en la pérdida al pasar de 1 experto a 8 expertos, ganancias más pequeñas con 32 expertos y mejoras insignificantes en 128 expertos. Además, los modelos UMA demuestran una eficiencia de inferencia excepcional a pesar de tener grandes recuentos de parámetros, con Uma-S capaz de simular 1000 átomos a 16 pasos por segundo y los tamaños del sistema de ajuste de hasta 100,000 átomos en la memoria en una sola GPU de 80 GB.

En conclusión, los investigadores introdujeron una familia de modelos universales para átomos (UMA) que muestra un fuerte rendimiento en una amplia gama de puntos de referencia, incluidos materiales, moléculas, catalizadores, cristales moleculares y marcos metal-orgánicos. Logra nuevos resultados de última generación en puntos de referencia establecidos como ADSORBML y Matbench Discovery. Sin embargo, no maneja las interacciones de largo alcance debido a la distancia de corte estándar de 6å. Además, utiliza incrustaciones separadas para valores discretos de carga o giro, lo que limita la generalización a cargas o giros invisibles. La investigación futura tiene como objetivo avanzar hacia MLIP universales y desbloquear nuevas posibilidades en simulaciones atómicas, al tiempo que destaca la necesidad de puntos de referencia más desafiantes para impulsar el progreso futuro.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.