Uso de transformadores para pronosticar erupciones solares increíblemente raras

Introducción (X-45)

La previsión cambia fundamentalmente cada vez que intentamos predecir un evento muy raro. Debemos cambiar fundamentalmente lo que estamos modelando para centrarnos en los eventos de cola. Desde las métricas de rendimiento del modelo y la definición de objetivos hasta el modelo de cola y los cabezales de salida del transformador, la previsión de eventos raros es difícil. Difícil pero vale la pena.

Las tormentas de Halloween de 2003 comenzaron como una perturbación en el Sol, una única mancha oscura que creó uno de los fenómenos meteorológicos espaciales más fuertes de la era de los satélites. Desde finales de octubre hasta principios de noviembre, una serie de enormes regiones activas se agitaron a lo largo del disco solar. Esto liberó poderosas llamaradas y nubes de plasma magnetizado hacia la Tierra. Este evento presentó un estilo estético único con implicaciones de ondas de radio.

Los satélites funcionaron mal, el GPS y la radio se interrumpieron y las aerolíneas desviaron los vuelos polares. Según la NOAA, las redes eléctricas de todo el mundo se vieron afectadas y algunas corrientes superaron los 100 amperios, lo que provocó el apagón de Malmö en Suecia. A las 20:07 UT, un corte de energía afectó a la región, dejando aproximadamente a 50.000 clientes sin electricidad durante 20 a 50 minutos.

El Sol estalla con una intensa actividad magnética, su corona brilla en luz ultravioleta extrema mientras regiones activas brillantes y una poderosa llamarada de extremidad se arquean sobre la superficie solar.
Crédito de la imagen: NASA/Observatorio de Dinámica Solar (SDO)/AIA. Dominio público

El evento, que fue un shock internacional, saturó los sensores de rayos X del GOES, por lo que el verdadero tamaño de la llamarada sólo pudo calcularse mediante la reconstrucción. A menudo llamada X-45, por su magnitud, 450 veces mayor que la M-1, una llamarada mediana. La siguiente tabla muestra la escala Flare Richter.

Las clases de erupciones solares se miden según el brillo máximo de los rayos X suaves en la Tierra. Cada clase de letra principal es diez veces más fuerte que la anterior. El número después de la letra escala la llamarada dentro de esa clase: X45 es 45 veces más fuerte que X1, 450 veces más fuerte que M1 y 4500 veces más fuerte que C1.

El problema de la predicción

Un problema paradójico de las catástrofes es que cuanto más catastróficas son, más raras tienden a ser. Piense en inundaciones, tormentas de nieve y avalanchas. Cada historia de 50 años ocurre una vez cada cincuenta años. Esto suele ser algo bueno, pero debido a su rareza, se vuelven increíblemente difíciles de predecir.

Hay varias cosas que hacen que la predicción de eventos raros sea un desafío particularmente interesante en el aprendizaje automático:

Nuestras métricas para la evaluación del modelo deben cambiar. Las características deben diseñarse a partir de datos de magnetismo. Crear un modelo de cola para capturar específicamente eventos raros. Combinar el modelo de cola con el modelo de distribución completo usando un transformador.

Una nota sobre la precisión, que suele ser una buena métrica para la clasificación binaria. Podríamos lograr una precisión del 99% si omitiéramos cada erupción solar en 10.000 pronósticos si solo tuviéramos 100 llamaradas importantes. Simplemente podríamos adivinar. No sucederá todas las veces.

Precisión = (10.000-100)/10.000 = 9900/10.000 = 0,99 = 99%

Verdaderos positivos = 0

Los datos

Si está interesado en saber de dónde provienen estos datos, todos los datos que tenemos sobre las erupciones solares provienen de una capa del sol completamente diferente a la de donde ocurre la erupción. Los datos que tenemos sobre las erupciones solares provienen de la Fotosfera, la primera capa visible del sol.

Las llamaradas ocurren en la Corona y la Cromosfera. Los datos son recopilados por el Observatorio de Dinámica Solar (SDO), una nave espacial de la NASA que observa continuamente el Sol para monitorear su actividad. Uso del generador de imágenes heliosísmico y magnético (HMI).

El pronóstico de las llamaradas solares mide el campo magnético más directamente en la fotosfera, la superficie visible del Sol, mientras que la liberación de energía de las llamaradas ocurre más arriba en la corona. Por lo tanto, los datos de las manchas solares fotosféricas y del campo magnético se utilizan para inferir la acumulación de tensión magnética coronal que puede provocar reconexión y llamaradas. Imagen realizada con la ayuda de Chat GPT.

Entrada del modelo

Afortunadamente, gracias a la NASA, la construcción, el despliegue y el viaje al Sol de nuestro satélite ya se han completado y ahora podemos centrarnos en la entrada de nuestro modelo. Un magnetograma vectorial estima el vector B del campo magnético. Las primeras observaciones son de dos tipos:

Desde este punto de partida, el parche de región activa HMI de Space Weather hace dos cosas:

Ingeniería de funciones de localización

significa seleccionar regiones activas en el Sol (localización) y calcular parámetros magnéticos que describan mejor la estructura solar y magnética (ingeniería de características).

La lección importante aquí es que, para abordar cuán raro es el evento que intentamos predecir, nos concentramos en recopilar datos de los lugares donde es más probable que ocurra. Tomamos nuestros datos de medición iniciales sobre los campos magnéticos y calculamos diferentes características como:

Se utilizan cuatro cantidades magnéticas para comprender las regiones activas productoras de llamaradas: el flujo magnético muestra cómo las líneas de campo se conectan con polaridades opuestas de las manchas solares, la corriente eléctrica rastrea los flujos portadores de energía a lo largo de esos campos, la torsión magnética muestra el devanado helicoidal dentro de un tubo de flujo y la helicidad magnética describe el enlace, trenzado y anudamiento a mayor escala de los campos magnéticos coronales. Imagen realizada con la ayuda de Chat GPT.
Una erupción solar comienza cuando la energía magnética se acumula en líneas de campo tensas sobre una región de manchas solares. A medida que el campo se reconecta, la energía almacenada se libera en forma de radiación intensa, erupciones de plasma y bucles magnéticos posteriores a las llamaradas. Imagen realizada con la ayuda de Chat GPT.

Nuestros datos de entrada se convierten en una función del tiempo y de las características de ingeniería:

Si nuestro modelo utiliza las últimas 24 horas y 9 características de ingeniería, nuestra entrada sería

Objetivo modelo

También podríamos hacer que nuestro objetivo sea más preciso ahora. Lo definimos como la probabilidad de observar un evento de clase M-1 en las próximas 24 horas, dada la historia magnética. Aquí, el historial magnético serían todos nuestros datos de entrada.

Pero hay muchas decisiones de diseño implícitas que hemos tomado y que la siguiente tabla hace explícitas.

Observe que hay muchas opciones a la hora de construir nuestro objetivo. Este es un problema importante al comparar diferentes modelos. Vale la pena señalar que simplemente tomar más datos no es mejor, ya que los eventos que sucedieron en el pasado tienden a ser predictores menos poderosos de eventos futuros. Esto introduce un problema de ruido a señal con respecto a su ventana de entrenamiento.

El TSS métrico

Para resolver el problema presentado anteriormente de tener un modelo con 99% de precisión y cero recuperación, introducimos una nueva estadística llamada True Skill Statistic (TSS), definida como la diferencia entre la tasa de verdaderos positivos y la tasa de falsos positivos. TSS premia los verdaderos positivos y al mismo tiempo castiga los falsos positivos.

Hacer un modelo de cola

Debido a la rareza de las llamaradas, si utilizamos el siguiente objetivo de riesgo, encontraremos que los eventos comunes, en los que no hubo ninguna erupción solar, dominan el plazo de pérdida. Los eventos raros apenas contribuyen, ya que ocurren muy poco, a pesar de que son los más relevantes para lo que intentamos predecir. El modelo puede llegar a ser muy bueno en la mayor parte de la distribución mientras aprende muy poco sobre los eventos extremos que nos interesan. Es por eso que tiene sentido considerar la adaptación.

Riesgo objetivo/empírico (lo que minimiza la mayor parte del ML)

Podemos describir el problema con mayor precisión diciendo que nuestro objetivo está ponderado en frecuencia, lo que significa que los eventos frecuentes dominan el término de pérdida, mientras que los eventos menos frecuentes (raros) son los que menos contribuyen, aunque eso es lo que nuestro modelo necesita aprender.

El Observatorio de Dinámica Solar de la NASA capturó los momentos iniciales de una erupción solar de clase X4.9 el 24 de febrero de 2014, vista aquí en múltiples longitudes de onda como una erupción brillante en el lado izquierdo del Sol. La llamarada alcanzó su punto máximo a las 7:49 pm EST; Se ven bucles de plasma caliente sobre la región activa de la corona. Crédito: NASA/SDO. Licencia: Política de uso de imágenes de la NASA Dominio público.

Por tanto, nuestro modelo puede aprender de eventos en su mayoría raros. Elegimos un umbral constante para una variable continua, como el flujo suave de rayos X, cualquier cosa que mida la gravedad de la llamarada podría funcionar. Establecimos nuestro objetivo en la diferencia entre el umbral y nuestra variable de gravedad de la llamarada observada, y utilizamos solo datos de la cola de la distribución.

Entonces los datos que modelamos son:

Usando transformadores

Ahora podemos combinar nuestro modelo original y el modelo de cola usando un transformador para lograr una solución más sólida, que idealmente aprende qué sucede tanto por debajo del umbral de un evento raro como por encima de él. En otras palabras, nos gustaría que el modelo aprendiera el origen de la función discreta así como la forma del exceso de riesgo definida por el modelo de cola. Para ello podemos utilizar transformadores con diferentes cabezales. Un modelo puede comenzar con datos del historial magnético y codificarlos en una representación h; cabezas separadas pueden estimar diferentes cantidades como la probabilidad de llamarada, la superación de la incertidumbre de la cola y la señal precursora.

El cabezal de clasificación, que estima la probabilidad de que nuestro objetivo sea uno dados nuestros datos, a menudo se entrena con la entropía cruzada binaria, tal vez ponderada para tener en cuenta el desequilibrio de clases.

Podemos utilizar la Distribución Generalizada de Pareto (GPD), que proporciona un modelo compacto para los excesos (nuestra distribución de cola). Aquí, σ controla la escala y ξ controla el peso de la cola. El transformador produce una representación de los estados solares recientes. H asigna esa representación a parámetros GPD, por lo que diferentes historias magnéticas implican diferentes distribuciones de cola para una región activa (mancha solar).

El objetivo completo combina dos tareas de previsión. El término de clasificación le enseña al modelo a estimar si una llamarada cruza el umbral elegido, mientras que el término de cola le enseña cómo se ve el exceso de gravedad una vez que se ha cruzado ese umbral. Esto es importante porque el modelo no sólo debe aprender “flare or no flare”. También debería saber qué tan grande podría ser el evento una vez que entre en la parte peligrosa de la distribución.

Pérdida combinada
Pérdida de clasificación
Pérdida de clasificación ponderada
Mancha solar AR 1302 en el Sol, fotografiada el 24 de septiembre de 2011. La NASA describió la región activa como productora de grandes erupciones solares durante el ciclo solar 24.
NASA, Sunspots 1302, septiembre de 2011 por NASA.jpg, 24 de septiembre de 2011, a través de Wikimedia Commons. Dominio público

Conclusión

Cuando se trata de obtener un buen pronóstico para un evento muy raro utilizando un transformador, no basta con simplemente conectar los datos y minimizar la función de pérdida. Cuando se trata de predecir erupciones solares, primero se deben aplicar técnicas de localización e ingeniería de características a nuestros datos. Luego necesitamos especificar un objetivo modelo que pueda distinguir entre eventos positivos y negativos. Tenemos que elegir una métrica adecuada que recompense los verdaderos positivos y penalice los falsos positivos. Además, debido al enorme desequilibrio de clases, tiene sentido crear un modelo de cola que utilice la distribución de Pareto generalizada para modelar las superaciones más allá de un umbral. Estas técnicas y funciones de pérdida se pueden utilizar como diferentes cabezales de un transformador que es capaz de predecir y estimar, y también aprende qué tan grande podría ser un evento una vez que ingresa a una parte peligrosa de una distribución. Lo que obtenemos de esto es un rendimiento predictivo mejorado y un modelo mejor especificado.

Sitio web | LinkedIn | GitHub

Marco Hening Tallarico
Autor