La investigación esencialmente ha pasado al manejo de grandes conjuntos de datos. Los modelos del sistema terrestre (ESM) a gran escala y los productos de reanálisis como CMIP6 y ERA5 ya no son meros depósitos de datos científicos, sino conjuntos de datos espacio-temporales masivos de alta dimensión y de tamaño de petabytes que exigen una ingeniería de datos exhaustiva antes de que puedan usarse para el análisis.
Desde el punto de vista del aprendizaje automático y la arquitectura de datos, el proceso de convertir la ciencia climática en políticas se asemeja a un proceso clásico: ingesta de datos sin procesar, ingeniería de características, modelado determinista y generación del producto final. Sin embargo, a diferencia del aprendizaje automático convencional sobre datos tabulares, la climatología computacional plantea cuestiones como escalas espacio-temporales irregulares, umbrales climáticos específicos no lineales y el imperativo de conservar la interpretabilidad física que son mucho más complejos.
Este artículo presenta un proceso liviano y práctico que cierra la brecha entre el procesamiento de datos climáticos sin procesar y el modelado de impacto aplicado, transformando conjuntos de datos NetCDF en conocimientos de riesgo interpretables a nivel de ciudad.
El problema: de los tensores brutos al conocimiento listo para tomar decisiones
Aunque se ha producido una publicación sin precedentes de datos climáticos de alta resolución a nivel mundial, convertirlos en conocimientos prácticos y específicos de cada lugar sigue sin ser trivial. La mayoría de las veces, el problema no es que no haya datos; es la complicación del formato de datos.
Los datos climáticos se guardan convencionalmente en el Formulario de datos comunes de red (NetCDF). Estos archivos:
Contienen enormes matrices multidimensionales (los tensores generalmente tienen la forma tiempo × latitud × longitud × variables). Es necesario enmascarar espacialmente, agregar temporalmente y alinear el sistema de referencia de coordenadas (CRS) incluso antes del análisis estadístico. No son comprensibles por naturaleza para las estructuras tabulares (por ejemplo, bases de datos SQL o Pandas DataFrames) que suelen utilizar los planificadores urbanos y los economistas.
Este tipo de alteración en la estructura provoca una brecha de traducción: los datos físicos en bruto están ahí, pero los conocimientos socioeconómicos, que deberían derivarse de manera determinista, no.
Fuentes de datos fundamentales
Uno de los aspectos de una cartera sólida es que puede integrar líneas de base tradicionales con proyecciones prospectivas:
Reanálisis ERA5: Ofrece datos climáticos pasados (1991-2020), como temperatura y humedad. Proyecciones CMIP6: Ofrece posibles escenarios climáticos futuros basados en diversas trayectorias de emisiones.
Con estas fuentes de datos se puede realizar una detección de anomalías localizadas en lugar de depender únicamente de promedios globales.
Líneas de base específicas de la ubicación: definición de calor extremo
Una cuestión crítica en el análisis climático es decidir cómo definir las condiciones “extremas”. Un umbral global fijo (por ejemplo, 35°C) no es adecuado ya que la adaptación local varía mucho de una región a otra.
Por lo tanto, caracterizamos el calor extremo mediante un umbral basado en percentiles obtenido de los datos históricos:
importar numpy como np importar xarray como xr def Compute_local_threshold(tmax_series: xr.DataArray, percentil: int = 95) -> float: devolver np.percentile(tmax_series, percentil) T_threshold = Compute_local_threshold(Tmax_historical_baseline)
Este enfoque garantiza que los eventos extremos se definan en relación con las condiciones climáticas locales, lo que hace que el análisis sea más contextual y significativo.
Ingeniería de características termodinámicas: temperatura de bulbo húmedo
La temperatura por sí sola no es suficiente para determinar con precisión el estrés por calor humano. La humedad, que influye en el mecanismo de enfriamiento del cuerpo a través de la evaporación, también es un factor importante. La temperatura de bulbo húmedo (WBT), que es una combinación de temperatura y humedad, es un buen indicador del estrés fisiológico. Aquí está la fórmula que utilizamos basada en la aproximación de Stull (2011), que es simple y rápida de calcular:
importar numpy como np def compute_wet_bulb_temperature(T: float, RH: float) -> float: wbt = ( T * np.arctan(0.151977 * np.sqrt(RH + 8.313659)) + np.arctan(T + RH) – np.arctan(RH – 1.676331) + 0,00391838 * RH**1,5 * np.arctan(0,023101 * RH) – 4,686035 ) devolver wbt
Las temperaturas sostenidas de bulbo húmedo por encima de 31 a 35 °C se acercan a los límites de la supervivencia humana, lo que la convierte en una característica fundamental en la modelización de riesgos.
Traducir datos climáticos en impacto humano
Para ir más allá de las variables físicas, traducimos la exposición al clima en impacto humano utilizando un marco epidemiológico simplificado.
def estimación_calor_mortalidad(población, tasa_de_muerte_base, días_de_exposición, AF): población de retorno * tasa_de_muerte_base * días_de_exposición * AF
En este caso, la mortalidad se modela como una función de la población, la tasa de mortalidad inicial, la duración de la exposición y una fracción atribuible que representa el riesgo.
Si bien está simplificada, esta formulación permite traducir las anomalías de temperatura en métricas de impacto interpretables, como el exceso de mortalidad estimado.
Modelado de impacto económico
El cambio climático también afecta la productividad económica. Los estudios empíricos sugieren una relación no lineal entre la temperatura y la producción económica, en la que la productividad disminuye a temperaturas más altas.
Aproximamos esto usando una función polinómica simple:
def Compute_economic_loss(temp_anomaly): devuelve 0.0127 * (temp_anomaly – 13)**2
Aunque simplificado, esto capta la idea clave de que las pérdidas económicas se aceleran a medida que las temperaturas se desvían de las condiciones óptimas.
Estudio de caso: Contextos climáticos contrastantes
Para ilustrar el oleoducto, consideramos dos ciudades contrastantes:
Jacobabad (Pakistán): una ciudad con un clima base extremo Yakutsk (Rusia): una ciudad con un clima base frío
A pesar de utilizar el mismo oleoducto, los resultados difieren significativamente debido a las bases climáticas locales. Esto resalta la importancia del modelado consciente del contexto.
Arquitectura de canalización: de los datos al conocimiento
El proceso completo sigue un flujo de trabajo estructurado:
importar xarray como xr importar numpy como np ds = xr.open_dataset(“cmip6_climate_data.nc”) tmax = ds[“tasmax”].sel(lat=28.27, lon=68.43, método=”más cercano”) umbral = np.percentile(tmax.sel(time=slice(“1991”, “2020”)), 95) futuro_tmax = tmax.sel(time=slice(“2030”, “2050”)) heat_days_mask = futuro_tmax > umbral
Este método se puede dividir en una serie de pasos que reflejan un flujo de trabajo de ciencia de datos tradicional. Comienza con la ingesta de datos, que implica cargar archivos NetCDF sin procesar en una configuración computacional. Posteriormente, se lleva a cabo la extracción de características espaciales, mediante la cual variables relevantes como la temperatura máxima se identifican para una determinada coordenada geográfica. El siguiente paso es el cálculo de referencia, utilizando datos históricos para determinar un umbral basado en percentiles que designa situaciones extremas.
En el punto en que se fija la línea de base, la detección de anomalías detecta intervalos de tiempo futuros cuando las temperaturas superan el umbral, lo que literalmente identifica eventos de calor. Por último, estos sucesos reconocidos se remiten a modelos de impacto que los convierten en resultados comprensibles, como cuentas de muertes y daños económicos.
Cuando se optimiza adecuadamente, esta secuencia de operaciones permite procesar de manera eficiente conjuntos de datos climáticos a gran escala, transformando datos multidimensionales complejos en resultados estructurados e interpretables.
Limitaciones y suposiciones
Como cualquier proceso analítico, éste también depende de un conjunto de supuestos simplificadores, que deben tenerse en cuenta al interpretar los resultados. Las estimaciones de mortalidad se basan en el supuesto de una vulnerabilidad uniforme de la población, que apenas refleja las variaciones en la división de edades, las condiciones sociales o la disponibilidad de infraestructuras como sistemas de refrigeración, etc. Al mismo tiempo, la evaluación del impacto económico describe un esbozo muy aproximado de la situación y pasa por alto por completo las sensibilidades de los diferentes sectores y las estrategias de adaptación en determinadas localidades. Además, existe una incertidumbre intrínseca en las propias proyecciones climáticas derivada de la diversidad de los modelos climáticos y los escenarios de emisiones del futuro. Finalmente, la resolución espacial de los conjuntos de datos globales puede amortiguar el efecto de puntos locales como las islas de calor urbanas, siendo así una causa de la posible subestimación del riesgo en el entorno urbano densamente poblado.
En general, estas limitaciones apuntan al hecho de que los resultados de este proceso no deben tomarse literalmente como pronósticos precisos sino más bien como estimaciones exploratorias que pueden proporcionar información direccional.
Información clave
Este canal ilustra algunos conocimientos clave en la encrucijada de la ciencia climática y la ciencia de datos. Por un lado, la principal dificultad en los estudios climáticos no es la complejidad del modelado, sino más bien el enorme esfuerzo de ingeniería de datos necesario para procesar conjuntos de datos sin procesar y de alta dimensión en formatos utilizables. En segundo lugar, la integración de modelos de múltiples dominios (la combinación de datos climáticos con marcos epidemiológicos y económicos) frecuentemente proporciona el valor más práctico, en lugar de simplemente mejorar un solo componente por sí solo. Además, la transparencia y la interpretabilidad resultan ser principios de diseño esenciales, ya que los flujos de trabajo bien organizados y fácilmente rastreables permiten la validación, la confianza y una mayor adopción entre los académicos y los tomadores de decisiones.
Conclusión
Los conjuntos de datos climáticos son ricos pero complicados. A menos que se creen canales estructurados, su valor permanecerá oculto para quienes toman las decisiones.
Utilizando principios de ingeniería de datos e incorporando modelos de dominios específicos, se pueden convertir los datos brutos de NetCDF en proyecciones climáticas funcionales a nivel de ciudad. El mismo enfoque sirve como ejemplo de cómo la ciencia de datos puede ser fundamental para cerrar la brecha entre los científicos del clima y los tomadores de decisiones.
Aquí se puede explorar una implementación simple de esta canalización como referencia:
https://openplanet-ai.vercel.app/
Referencias
[1] Gasparrini A., Mortalidad relacionada con la temperatura (2017), Lancet Planetary Health
[2] Burke M., Temperatura y producción económica (2018), Naturaleza
[3] Stull R., Temperatura de bulbo húmedo (2011), Journal of Applied Meteorology
[4] Hersbach H., reanálisis de ERA5 (2020), ECMWF