Falso Profeta: Ingeniería de funciones para series temporales

Aprovechando las ideas del paquete Prophet de Meta para crear funciones potentes para modelos de aprendizaje automático de series temporales

Foto por Scott Rodgerson en desempaquetar

El paquete Meta’s Prophet¹ es uno de los paquetes más utilizados para series temporales. Al menos anecdóticamente, según yo, después de revisar una lista de artículos de series temporales que he marcado como favorito para leer más adelante.

Dejando a un lado el sarcasmo, he usado el paquete antes y me encanta.

Otro gran recurso para el modelado de series temporales es la charla de Vincent Warmerdam titulada “Ganar con modelos simples, incluso lineales”² donde aborda el modelado de series temporales con modelos lineales (con un poco de preparación).

Ahora bien, hay algunos elementos de la ciencia de datos que desdibujan los límites del arte y la ciencia: piense en el ajuste de hiperparámetros o en la definición de la estructura de una red neuronal.

Nos inclinaremos hacia el arte y haremos lo que han hecho muchos grandes artistas: tomar prestadas ideas de otros. Entonces, en esta serie de artículos tomaremos prestadas ideas de ingeniería de funciones de Prophet e ideas de modelado lineal de Vincent para realizar nuestra propia regresión de series de tiempo con una serie de tiempo del mundo real.

Veamos primero cuál es el objetivo general, antes de centrarnos en la ingeniería de funciones.

El objetivo general es simple: generar el pronóstico más preciso de eventos futuros en un horizonte temporal específico.

Empezaremos desde cero con una serie temporal que contiene sólo una variable de fecha y la cantidad de interés. A partir de esto, vamos a derivar información adicional que nos permitirá modelar resultados futuros con precisión. Estas características adicionales estarán fuertemente “inspiradas” en Prophet.

Luego, introduciremos nuestros datos de ingeniería en un modelo liviano y le dejaremos aprender cómo pronosticar mejor el futuro. Más adelante, profundizaremos en el funcionamiento interno del modelo; después de todo, necesitaremos comprender qué impulsa nuestros pronósticos.

Ahora que hemos visto el bosque, veamos de cerca los árboles, comenzando con un vistazo a nuestros datos.