Aprendizaje profundo Se enfrenta dificultades cuando se aplican a grandes sistemas físicos en cuadrículas irregulares, especialmente cuando las interacciones ocurren a largas distancias o a múltiples escalas. El manejo de estas complejidades se vuelve más difícil a medida que aumenta el número de nodos. Varias técnicas tienen dificultades para abordar estos grandes problemas, lo que resulta en altos costos computacionales e ineficiencia. Algunos problemas importantes son capturar efectos de largo alcance, manejar dependencias a múltiples escala y un cálculo eficiente con un uso mínimo de recursos. Estos problemas hacen que sea difícil aplicar modelos de aprendizaje profundo de manera efectiva a campos como simulaciones moleculares, predicción del clima y mecánica de partículas, donde los grandes conjuntos de datos e interacciones complejas son comunes.
Actualmente, los métodos de aprendizaje profundo luchan por escalar mecanismos de atención para grandes sistemas físicos. Tradicional autoenvío Calcula las interacciones entre todos los puntos, lo que lleva a costos computacionales extremadamente altos. Algunos métodos aplican atención a pequeños parches, como Swintransformer Para imágenes, pero los datos irregulares necesitan pasos adicionales para estructurarlo. Técnicas como PointTransformer Use curvas de relleno de espacio, pero esto puede romper las relaciones espaciales. Métodos jerárquicos, como Transformador H y FormerGrupar datos en diferentes niveles, pero confía en operaciones costosas. Métodos de atención de clúster Reduzca la complejidad al agregar puntos, pero este proceso pierde detalles finos y lucha con las interacciones a múltiples escala.
Para abordar estos problemas, los investigadores de Amlab, la Universidad de Amsterdam y Cuspai introdujeron Erwinun transformador jerárquico que mejora la eficiencia del procesamiento de datos a través de bola partición. El mecanismo de atención permite el cálculo paralelo a través de grupos a través de particiones de árboles de pelota que dividen datos jerárquicamente para estructurar sus cálculos. Este enfoque minimiza la complejidad computacional sin sacrificar la precisión, cerrando la brecha entre la eficiencia de los métodos basados en árboles y la generalidad de los mecanismos de atención. Erwin Utiliza la autoatación en regiones localizadas con codificación posicional y sesgo de atención basado en la distancia para capturar estructuras geométricas. Bola cruzada Las conexiones facilitan la comunicación entre varias secciones, con mecanismos de engrosamiento y refinamiento de árboles que equilibran las interacciones globales y locales. La escalabilidad y la expresividad con gastos computacionales mínimos se garantizan a través de este proceso organizado.
Los investigadores realizaron experimentos para evaluar Erwin. Superó a las líneas de base equivalentes y no ópticas en simulaciones cosmológicas, capturando interacciones de largo alcance y mejorando con conjuntos de datos de entrenamiento más grandes. Para la dinámica molecular, aceleró simulaciones por 1.7–2.5 veces sin comprometer la precisión, superando Mpnn y PointNet ++ en tiempo de ejecución mientras mantiene la pérdida de prueba competitiva. Erwin superó a Meshgraphnet, REVÓLVER, Dilresnety ÁGUILA en la dinámica de fluidos turbulentos, sobresaliendo en la predicción de la presión mientras se Tres veces más rápido y usando ocho veces menos memoria que ÁGUILA. Tamaños de bola más grandes en la cosmología El rendimiento mejorado al retener las dependencias de largo alcance pero aumentó el tiempo de ejecución computacional y la aplicación Mpnn en el paso de incrustación mejoró las interacciones locales en la dinámica molecular.
El diseño del transformador jerárquico propuesto aquí maneja efectivamente los sistemas físicos a gran escala con partición de árboles de bola y obtiene resultados de cosmología de última generación y dinámica molecular. Aunque su estructura optimizada se compromete entre la expresividad y el tiempo de ejecución, tiene una sobrecarga computacional del relleno y los altos requisitos de memoria. El trabajo futuro puede investigar la agrupación aprendida y otras estrategias de codificación geométrica para mejorar la eficiencia. El rendimiento y la escalabilidad de Erwin en todos los dominios lo convierten en un punto de referencia para los desarrollos en el modelado de sistemas de partículas grandes, química computacional y dinámica molecular.
Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Divyesh es un pasante de consultoría en MarktechPost. Está buscando un BTech en ingeniería agrícola y alimentaria del Instituto Indio de Tecnología, Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el dominio agrícola y resolver desafíos.