Entonces has recopilado tus datos. Ha esbozado el caso de negocio, ha decidido un modelo candidato (por ejemplo, Random Forest), ha configurado su entorno de desarrollo y tiene las manos en el teclado. Está listo para crear y entrenar su modelo de series temporales.
Espera, no empieces todavía. Antes de entrenar y probar su modelo de Random Forest, debe Primero entrene un modelo de referencia.
A modelo de referencia es un modelo simple que se utiliza para crear un punto de referencia sobre el cual construirá su modelo final de aprendizaje automático más complejo.
Los científicos de datos crean modelos de referencia porque:
- Los modelos de referencia pueden darle una buena idea de cómo funcionará un modelo más complejo.
- Si un modelo de referencia funciona mal, podría ser una señal de un problema con la calidad de los datos que debe abordarse.
- Si un modelo de referencia funciona mejor que el modelo final, podría indicar problemas con ese algoritmo, características, hiperparámetros u otro preprocesamiento de datos.
- Si el modelo básico y el modelo complejo funcionan más o menos igual, esto podría indicar que el modelo complejo necesita un ajuste más preciso (en características, arquitectura o hiperparámetros). También podría mostrar que no es necesario un modelo más complejo y que un modelo más simple será suficiente.
Normalmente, un modelo de referencia es un modelo estadístico, como un modelo de media móvil. Alternativamente, es una versión más simple del modelo de destino; por ejemplo, si va a entrenar un modelo de bosque aleatorio, primero puede entrenar un modelo de árbol de decisión como base.
Para datos de series temporales, hay un par de opciones populares para modelos de referencia que me gustaría compartir con ustedes. Ambos funcionan bien porque asumen el orden temporal de los datos y hacen pronósticos de acuerdo con los patrones de los datos.
Pronóstico ingenuo
El pronóstico ingenuo es el más simple: supone que el siguiente valor será el mismo que…