(Si aún no has leído la Parte 1, échale un vistazo aquí.)
La falta de datos en el análisis de series temporales es un problema recurrente.
Como exploramos en Parte 1técnicas de imputación simples o incluso modelos basados en regresión: regresión lineal, árboles de decisión puede llevarnos muy lejos.
Pero ¿y si nosotros Necesito manejar patrones más sutiles.¿Y capturar la fluctuación detallada en los datos complejos de series de tiempo?
En este artículo exploraremos K-vecinos más cercanos. Las fortalezas de este modelo incluyen pocas suposiciones con respecto a relaciones no lineales en sus datos; por lo tanto, se convierte en una solución versátil y sólida para la imputación de datos faltantes.
seremos usando el mismo conjunto de datos simulados de producción de energía que ya has visto en la Parte 1, con valores faltantes del 10%, introducidos al azar.
Atribuiremos los datos faltantes al utilizar un conjunto de datos que usted mismo puede generar fácilmente, lo que le permitirá seguir y aplicar las técnicas en tiempo real mientras explora el proceso paso a paso.