Investigadores del MIT presentan MechGPT: un pionero basado en el lenguaje que une escalas, disciplinas y modalidades en mecánica y modelado de materiales

Los investigadores enfrentan un desafío formidable dentro del amplio dominio de la ciencia de los materiales: destilar de manera eficiente conocimientos esenciales a partir de textos científicos densamente poblados. Esta intrincada danza implica navegar por contenidos complejos y generar pares coherentes de preguntas y respuestas que encapsulan el núcleo del material. La complejidad radica en la importante tarea de extraer información fundamental del denso tejido de los textos científicos, lo que requiere que los investigadores elaboren pares de preguntas y respuestas significativos que capturen la esencia del material.

Las metodologías actuales dentro de este dominio a menudo se apoyan en modelos de lenguaje de propósito general para la extracción de información. Sin embargo, estos enfoques necesitan ayuda para perfeccionar el texto y la incorporación precisa de ecuaciones. En respuesta, un equipo de investigadores del MIT presentó MechGPT, un modelo novedoso basado en un modelo de lenguaje previamente entrenado. Este enfoque innovador emplea un proceso de dos pasos, utilizando un modelo de lenguaje de propósito general para formular pares de preguntas y respuestas interesantes. Más allá de la mera extracción, MechGPT mejora la claridad de los hechos clave.

El viaje de MechGPT comienza con un meticuloso proceso de capacitación implementado en PyTorch dentro del ecosistema Hugging Face. Basado en la arquitectura del transformador Llama 2, el modelo hace alarde de 40 capas de transformador y aprovecha la incrustación posicional giratoria para facilitar longitudes de contexto extendidas. Al emplear un optimizador AdamW paginado de 32 bits, el proceso de capacitación alcanza una pérdida encomiable de aproximadamente 0,05. Los investigadores introducen la Adaptación de bajo rango (LoRA) durante el ajuste para aumentar las capacidades del modelo. Esto implica integrar capas adicionales entrenables mientras se congela el modelo original previamente entrenado, evitando que el modelo borre su base de conocimientos inicial. El resultado es una mayor eficiencia de la memoria y un rendimiento de entrenamiento acelerado.

Además del modelo fundamental MechGPT con 13 mil millones de parámetros, los investigadores profundizan en el entrenamiento de dos modelos más extensos, MechGPT-70b y MechGPT-70b-XL. El primero es una iteración afinada del modelo de chat Meta/Llama 2 70, y el segundo incorpora RoPE escalado dinámicamente para longitudes de contexto sustanciales que superan los 10.000 tokens.

El muestreo dentro de MechGPT se adhiere al principio autorregresivo, implementando un enmascaramiento causal para la generación de secuencias. Esto garantiza que el modelo prediga cada elemento en función de los elementos anteriores, lo que le impide considerar palabras futuras. La implementación incorpora escalamiento de temperatura para regular el enfoque del modelo, introduciendo el concepto de temperatura de incertidumbre.

En conclusión, MechGPT emerge como un faro prometedor, particularmente en el desafiante terreno de extraer conocimiento de textos científicos dentro de la ciencia de materiales. El proceso de formación del modelo, enriquecido con técnicas innovadoras como LoRA y la cuantificación de 4 bits, muestra su potencial para aplicaciones más allá de los modelos de lenguaje tradicionales. La manifestación tangible de MechGPT en una interfaz de chat, que proporciona a los usuarios acceso a Google Scholar, sirve como puente para futuras extensiones. El estudio presenta a MechGPT como un activo valioso en la ciencia de materiales y lo posiciona como pionero, ampliando los límites de los modelos de lenguaje dentro de dominios especializados. A medida que el equipo de investigación continúa avanzando, MechGPT es un testimonio de la evolución dinámica de los modelos de lenguaje, que abre nuevas fronteras en la extracción de conocimiento.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Madhur Garg es pasante de consultoría en MarktechPost. Actualmente está cursando su Licenciatura en Ingeniería Civil y Ambiental en el Instituto Indio de Tecnología (IIT), Patna. Comparte una gran pasión por el aprendizaje automático y disfruta explorando los últimos avances en tecnologías y sus aplicaciones prácticas. Con un gran interés en la inteligencia artificial y sus diversas aplicaciones, Madhur está decidido a contribuir al campo de la ciencia de datos y aprovechar su impacto potencial en diversas industrias.