Reconstruir los factores causales no medidos de series temporales complejas a partir de datos de respuesta observados representa un desafío fundamental en diversos dominios científicos. Las variables latentes, incluidos los reguladores genéticos o los factores ambientales, son esenciales para determinar la dinámica de un sistema, pero rara vez se miden. Los desafíos con los enfoques actuales surgen del ruido de los datos, la alta dimensionalidad de los sistemas y las capacidades de los algoritmos existentes para manejar interacciones no lineales. Esto será de gran ayuda a la hora de modelar, predecir y controlar sistemas de alta dimensión en biología de sistemas, ecología y dinámica de fluidos.
Las técnicas más utilizadas para la reconstrucción del controlador causal generalmente se basan en el procesamiento de señales o aprendizaje automático marcos. Algunos de los más comunes incluyen métodos de información mutua, aplicaciones de redes neuronales y reconstrucción dinámica de atractores. Si bien estas técnicas funcionan bien en algunas situaciones, tienen limitaciones importantes. La mayoría exige conjuntos de datos grandes y de alta calidad que rara vez se encuentran en aplicaciones del mundo real. Son muy propensos al ruido de medición, lo que da como resultado una baja precisión de reconstrucción. Algunos requieren algoritmos computacionalmente costosos y, por lo tanto, no son adecuados para aplicaciones en tiempo real. Además, muchos modelos carecen de principios físicos, lo que reduce su interpretabilidad y aplicabilidad en todos los dominios.
Los investigadores de la Universidad de Texas introducen un marco de aprendizaje no supervisado basado en la física llamado SHREC (Shared Recurrences) para reconstruir los factores causales a partir de datos de series temporales. El enfoque se basa en la teoría de los sistemas dinámicos de productos sesgados y el análisis de datos topológicos. La innovación incluye el uso de eventos recurrentes en series de tiempo para inferir estructuras causales comunes entre respuestas, la construcción de un gráfico de recurrencia de consenso que se recorre para exponer la dinámica del conductor latente y la introducción de una nueva red integrada que se adapta a entornos ruidosos y conjuntos de datos dispersos que utilizan complejos simpliciales difusos. A diferencia de los métodos existentes, el marco SHREC captura bien datos ruidosos y no lineales, requiere un ajuste mínimo de parámetros y proporciona información útil sobre la dinámica física subyacente a los sistemas de respuesta del conductor.
El algoritmo SHREC se implementa en múltiples etapas. Las series de tiempo de respuesta medidas se asignan a redes de recurrencia ponderadas mediante incrustaciones topológicas, donde se construye una matriz de afinidad para cada serie de tiempo en función de las distancias de los vecinos más cercanos y los umbrales adaptativos. Los gráficos de recurrencia se combinan a partir de series temporales individuales para obtener un gráfico de consenso que captura la dinámica colectiva. Los controladores de tiempo discreto se han vinculado a la descomposición mediante algoritmos de detección comunitarios, incluido el método de Leiden, para proporcionar distintas clases de equivalencia. Para los conductores continuos, por otro lado, la descomposición laplaciana del gráfico revela modos transitorios correspondientes a estados de los conductores. El algoritmo se probó con diversos datos: expresión genética, abundancia de plancton y flujos turbulentos. Mostró una excelente reconstrucción de los conductores en condiciones desafiantes como mucho ruido y datos faltantes. La estructura del marco se basa en representaciones basadas en gráficos. Por lo tanto, evita la costosa optimización iterativa basada en gradientes y la hace computacionalmente eficiente.
SHREC tuvo un desempeño notablemente bueno y consistente en los conjuntos de datos que desafiaron los puntos de referencia. La metodología reconstruyó con éxito determinantes causales a partir de conjuntos de datos de expresión genética, descubriendo así componentes reguladores esenciales, incluso en presencia de datos escasos y ruidosos. En experimentos con flujo turbulento, este enfoque detectó con éxito factores de forzamiento sinusoidales, lo que demuestra superioridad sobre las técnicas tradicionales de procesamiento de señales. En cuanto a los conjuntos de datos ecológicos, SHREC reveló tendencias inducidas por la temperatura en las poblaciones de plancton, a pesar de una considerable falta de información, lo que ilustra su resistencia a datos incompletos y ruidosos. La comparación con otros enfoques ha puesto de relieve la mayor precisión y eficiencia de SHREC en el cálculo, especialmente en presencia de niveles de ruido más altos y dependencias no lineales complejas. Estos hallazgos resaltan su amplia aplicabilidad y confiabilidad en muchos campos.
SHREC es un marco de aprendizaje no supervisado basado en la física que permite la reconstrucción de factores causales no observados a partir de datos complejos de series temporales. Este nuevo enfoque aborda los graves inconvenientes de las técnicas contemporáneas, que incluyen la susceptibilidad al ruido y el alto costo computacional, mediante el uso de estructuras de recurrencia e incrustaciones topológicas. La exitosa viabilidad de SHREC en diversos conjuntos de datos subraya su amplia aplicabilidad con la capacidad de mejorar AIModelado basado en biología, física e ingeniería. Esta metodología mejora la precisión de la reconstrucción de los factores causales y, al mismo tiempo, establece un marco basado en los principios de la teoría de sistemas dinámicos y arroja nueva luz sobre las características esenciales de la transferencia de información dentro de sistemas interconectados.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.
🚨 [Recommended Read] Nebius AI Studio se expande con modelos de visión, nuevos modelos de lenguaje, incorporaciones y LoRA (Promovido)
Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.