En el panorama contemporáneo de la investigación científica, el potencial transformador de la IA se ha vuelto cada vez más evidente. Esto es particularmente cierto cuando se aplican sistemas de IA escalables a plataformas de computación de alto rendimiento (HPC). Esta exploración de la IA escalable para la ciencia subraya la necesidad de integrar recursos computacionales a gran escala con vastos conjuntos de datos para abordar desafíos científicos complejos.
El éxito de modelos de IA como ChatGPT resalta dos avances principales que son cruciales para su eficacia:
- El desarrollo de la arquitectura del transformador
- La capacidad de entrenar con grandes cantidades de datos a escala de Internet.
Estos elementos han sentado las bases para importantes avances científicos, como se ve en esfuerzos como el modelado de agujeros negros, la dinámica de fluidos y la predicción de la estructura de las proteínas. Por ejemplo, un estudio utilizó inteligencia artificial y computación a gran escala para avanzar en modelos de fusiones de agujeros negros, aprovechando un conjunto de datos de 14 millones de formas de onda en la supercomputadora Summit.
Un ejemplo claro del impacto de la IA escalable es el descubrimiento de fármacos, donde los modelos de lenguaje basados en transformadores (LLM) han revolucionado la exploración del espacio químico. Estos modelos utilizan conjuntos de datos extensos y ajustes precisos en tareas específicas para aprender y predecir de manera autónoma las estructuras moleculares, acelerando así el proceso de descubrimiento. Los LLM pueden explorar de manera eficiente el espacio químico mediante el empleo de técnicas de tokenización y predicción de máscaras, integrando modelos entrenados previamente para moléculas y secuencias de proteínas con ajustes precisos en pequeños conjuntos de datos etiquetados para mejorar el rendimiento.
La computación de alto rendimiento es indispensable para lograr estos avances científicos. Los distintos problemas científicos requieren distintos niveles de escala computacional, y la computación de alto rendimiento proporciona la infraestructura para manejar estos diversos requisitos. Esta distinción distingue a la IA para la ciencia (AI4S) de la IA centrada en el consumidor, que a menudo se ocupa de datos escasos y de alta precisión de experimentos o simulaciones costosos. La IA científica requiere el manejo de características específicas de los datos científicos, incluida la incorporación de conocimientos de dominio conocidos, como las ecuaciones diferenciales parciales (PDE). Las redes neuronales informadas por la física (PINN), las ecuaciones diferenciales ordinarias neuronales (NODE) y las ecuaciones diferenciales universales (UDE) son metodologías desarrolladas para satisfacer estos requisitos únicos.
El escalado de los sistemas de IA implica tanto un paralelismo basado en modelos como en datos. Por ejemplo, entrenar un modelo grande como GPT-3 en una sola GPU NVIDIA V100 llevaría siglos, pero el uso de técnicas de escalado paralelo puede reducir este tiempo a poco más de un mes en miles de GPU. Estos métodos de escalado son esenciales no solo para un entrenamiento más rápido, sino también para mejorar el rendimiento del modelo. El escalado paralelo tiene dos enfoques principales: el paralelismo basado en modelos, necesario cuando los modelos superan la capacidad de memoria de la GPU, y el paralelismo basado en datos, que surge de la gran cantidad de datos necesarios para el entrenamiento.
La IA científica se diferencia de la IA de consumo en sus requisitos de precisión y manejo de datos. Mientras que las aplicaciones de consumo pueden depender de inferencias de números enteros de 8 bits, los modelos científicos a menudo necesitan números de punto flotante de alta precisión y un estricto cumplimiento de las leyes físicas. Esto es particularmente cierto para los modelos sustitutos de simulación, donde la integración del aprendizaje automático con enfoques tradicionales basados en la física puede producir resultados más precisos y rentables. Las redes neuronales en aplicaciones basadas en la física pueden necesitar imponer condiciones de contorno o leyes de conservación, especialmente en modelos sustitutos que reemplazan partes de simulaciones más grandes.
Un aspecto crítico de AI4S es adaptarse a las características específicas de los datos científicos. Esto incluye el manejo de limitaciones físicas y la incorporación de conocimientos de dominio conocidos, como las PDE. Las restricciones de penalización suave, los operadores neuronales y la regresión simbólica son métodos utilizados en el aprendizaje automático científico. Por ejemplo, los PINN incorporan la norma residual de PDE en la función de pérdida, lo que garantiza que el optimizador del modelo minimice tanto la pérdida de datos como el residuo de PDE, lo que lleva a una aproximación física satisfactoria.
Las técnicas de escalado en paralelo son diversas, e incluyen enfoques de datos en paralelo y de modelos en paralelo. El entrenamiento en paralelo de datos implica dividir un lote grande de datos en varias GPU, cada una de las cuales procesa una parte de los datos simultáneamente. Por otro lado, el entrenamiento en paralelo de modelos distribuye diferentes partes del modelo en varios dispositivos, lo que resulta particularmente útil cuando el tamaño del modelo excede la capacidad de memoria de una sola GPU. La descomposición espacial se puede aplicar en muchos contextos científicos donde las muestras de datos son demasiado grandes para caber en un solo dispositivo.
La evolución de la IA para la ciencia incluye el desarrollo de flujos de trabajo híbridos de IA y simulación, como las simulaciones cognitivas (CogSim) y los gemelos digitales. Estos flujos de trabajo combinan simulaciones tradicionales con modelos de IA para mejorar la precisión de las predicciones y los procesos de toma de decisiones. Por ejemplo, en los experimentos de dispersión de neutrones, los métodos impulsados por IA pueden reducir el tiempo necesario para la toma de decisiones experimentales al proporcionar capacidades de análisis y dirección en tiempo real.
Varias tendencias están dando forma al panorama de la IA escalable para la ciencia. El cambio hacia modelos de mezcla de expertos (MoE), que están escasamente conectados y, por lo tanto, son más rentables que los modelos monolíticos, está ganando terreno. Estos modelos pueden manejar muchos parámetros de manera eficiente, lo que los hace adecuados para tareas científicas complejas. El concepto de un laboratorio autónomo impulsado por IA es otro avance interesante. Con infraestructuras de investigación integradas (IRI) y modelos de base, estos laboratorios pueden realizar experimentos y análisis en tiempo real, acelerando el descubrimiento científico.
Las limitaciones de los modelos basados en transformadores, como la longitud del contexto y el gasto computacional, han renovado el interés en las redes neuronales lineales recurrentes (RNN), que ofrecen una mayor eficiencia para tokens de gran longitud. Además, los modelos basados en operadores para resolver PDE son cada vez más prominentes, lo que permite a la IA simular clases completas de problemas en lugar de instancias individuales.
Por último, es necesario tener en cuenta la interpretabilidad y la explicabilidad de los modelos de IA. Como los científicos siguen siendo cautelosos con los métodos de IA/ML, es fundamental desarrollar herramientas para dilucidar la lógica detrás de las predicciones de IA. Técnicas como el mapeo de activación de clases (CAM) y la visualización de mapas de atención ayudan a proporcionar información sobre cómo toman decisiones los modelos de IA, lo que fomenta la confianza y una adopción más amplia en la comunidad científica.
Fuentes
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.