Investigadores de UT Austin introducen panda: un modelo de base para la dinámica no lineal provocada en 20,000 oda caótica descubierta a través de la búsqueda evolutiva

Los sistemas caóticos, como la dinámica de fluidos o la actividad cerebral, son altamente sensibles a las condiciones iniciales, lo que dificulta las predicciones a largo plazo. Incluso los errores menores en el modelado de estos sistemas pueden crecer rápidamente, lo que limita la efectividad de muchos enfoques de aprendizaje automático científico (SCIML). Los métodos de pronóstico tradicionales se basan en modelos entrenados en series de tiempo específicas o conjuntos de datos amplios que carecen de una verdadera estructura dinámica. Sin embargo, el trabajo reciente ha demostrado el potencial de modelos de pronóstico locales para predecir los sistemas caóticos con mayor precisión en los plazos más largos al aprender las reglas numéricas que rigen estos sistemas. El verdadero desafío es lograr la generalización fuera del dominio, creando modelos que pueden adaptarse y pronosticar nuevos sistemas dinámicos previamente invisibles. Esto requeriría integrar el conocimiento previo con la capacidad de adaptarse localmente. Aún así, la necesidad de datos específicos de la tarea restringe los métodos actuales y, a menudo, pasa por alto las propiedades clave del sistema dinámico, como la ergodicidad, el acoplamiento de canales y las cantidades conservadas.

El aprendizaje automático para sistemas dinámicos (MLDS) utiliza las propiedades únicas de sistemas tales como sesgos inductivos. Estos incluyen relaciones fijas entre las variables del sistema y las medidas estadísticas invariantes, como atractores extraños o cantidades conservadas. Los modelos MLDS utilizan estas propiedades para construir modelos más precisos y generalizables, a veces incorporando técnicas variables probabilísticas o latentes. Si bien los conjuntos de datos de los sistemas dinámicos se han seleccionado y los nuevos sistemas a menudo se generan ajustando parámetros o utilizando métodos simbólicos, estos enfoques generalmente no aseguran una dinámica diversa o estable. La estabilidad estructural es un desafío: los cambios pequeños pueden no producir nuevos comportamientos, mientras que los grandes pueden causar dinámicas triviales. Los modelos de base tienen como objetivo abordar esto permitiendo el aprendizaje de transferencia e inferencia de cero disparos. Aún así, la mayoría de los modelos actuales funcionan de manera comparable a los modelos de series temporales estándar o son limitados en la generación de una variedad significativa y dinámica. Se han realizado algunos progresos a través de técnicas como los espacios de incrustación o el descubrimiento simbólico, pero un muestreo más rico y diverso de los comportamientos dinámicos sigue siendo un desafío abierto.

Investigadores del Instituto Oden, UT Austin, introducen Panda (atención parcheada para la dinámica no lineal), un modelo previo a la petróleo entrenado únicamente en datos sintéticos de 20,000 sistemas caóticos generados algorítmicamente. Estos sistemas se crearon utilizando un algoritmo evolutivo basado en ODES caóticas conocidas. A pesar del entrenamiento solo en ODES de baja dimensión, el panda muestra un fuerte pronóstico de disparo cero en los sistemas no lineales del mundo real, incluida la dinámica de fluidos y la electrofisiología, y se generaliza inesperadamente a las PDE. El modelo incorpora innovaciones como el pretratenaje enmascarado, la atención del canal y los parches noinelizados para capturar la estructura dinámica. También surge una ley de escala neural, que vincula el rendimiento de pronóstico de Panda con la diversidad de los sistemas de capacitación.

Los investigadores generaron 20,000 nuevos sistemas caóticos utilizando un algoritmo genético que evoluciona a partir de un conjunto curado de 135 ODES caóticas conocidas. Estos sistemas están mutados y recombinados utilizando un enfoque de producto sesgo, con solo comportamientos verdaderamente caóticos retenidos a través de rigurosas pruebas. Aumentos como incrustaciones de tiempo de tiempo y transformaciones afines expanden el conjunto de datos al tiempo que preservan su dinámica. Se mantiene un conjunto separado de 9.300 sistemas invisibles para pruebas de disparo cero. El modelo, Panda, se basa en PatchTST y se mejora con características como atención del canal, capas de atención del canal temporal y integridades dinámicas utilizando características polinomiales y de Fourier, inspirados en la teoría del operador de Koopman.

Panda demuestra fuertes capacidades de pronóstico de disparo cero en sistemas dinámicos no lineales invisibles, modelos superiores a los modelos como Chronos-SFT en varias métricas y horizontes de predicción. Entrenado únicamente en sistemas 3D, se generaliza a los dimensionales más altos debido a la atención del canal. A pesar de que nunca se encuentra con PDE durante el entrenamiento, Panda también tiene éxito en los datos experimentales del mundo real y las PDE caóticas, como la calle Kuramoto-Sivashinsky y Von Kármán Vortex. Las ablaciones arquitectónicas confirman la importancia de la atención del canal y las incrustaciones de la dinámica. El modelo exhibe escala neuronal con una mayor diversidad del sistema dinámico y forma patrones de atención interpretables, lo que sugiere resonancia y estructura sensible al atractor. Esto indica la amplia generalización de Panda a través de comportamientos dinámicos complejos.

En conclusión, Panda es un modelo previamente diseñado para descubrir patrones generalizables en sistemas dinámicos. Entrenado en un conjunto grande y diverso de sistemas caóticos sintéticos, Panda demuestra un fuerte pronóstico de disparo cero en datos no vistos del mundo real e incluso ecuaciones diferenciales parciales, a pesar de ser entrenadas solo en ODES de baja dimensión. Su rendimiento mejora con la diversidad del sistema, revelando una ley de escala neural. El modelo también muestra resonancia no lineal emergente en los patrones de atención. Mientras se centra en la dinámica de baja dimensión, el enfoque puede extenderse a sistemas de mayor dimensión al aprovechar las interacciones escasas. Las direcciones futuras incluyen estrategias alternativas de pretrario para mejorar el pronóstico del rendimiento del despliegue.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.