1firvob6pkrlrwskin1x4xg.jpeg

Revelando el poder de los intervalos de predicción

Foto por Ian Taylor en desempaquetar.

Los intervalos de predicción desempeñan un papel crucial en el análisis de regresión, especialmente cuando el objetivo se extiende más allá de las meras predicciones puntuales para evaluar la incertidumbre o variabilidad de las predicciones. A diferencia de las predicciones puntuales, que proporcionan un único valor estimado para cada entrada, los intervalos de predicción ofrecen un rango dentro del cual se espera que se encuentre el valor real con una cierta probabilidad. Esto es particularmente valioso porque tiene en cuenta la incertidumbre inherente a cualquier modelo predictivo. Al cuantificar esta incertidumbre, los intervalos de predicción proporcionan una comprensión más completa de los posibles resultados. Por ejemplo, en la previsión financiera, conocer el rango dentro del cual podrían fluctuar los rendimientos futuros es crucial para la gestión de riesgos y las estrategias de inversión.

Además, la búsqueda de crear los intervalos de predicción más estrechos o “eficientes” en un modelo de regresión mejora la precisión y confiabilidad de los resultados del modelo. Los intervalos más estrechos indican un mayor nivel de certeza en las predicciones, suponiendo que los intervalos sean precisos y capturen consistentemente los valores verdaderos.

En general, el intervalo de predicción se escribe como:

[𝜇-𝘻𝜎, 𝜇+𝘻𝜎]

donde 𝜇 es la media (es decir, la predicción de la media), 𝘻 son cuantiles de valores de 𝘡 y 𝜎 es la desviación estándar. Entonces, para ese fin, podemos encontrar el intervalo de predicción del 90% estableciendo 𝘻 = 1,64 o si deseamos tener un intervalo más estrecho, como el 95%, podemos establecer 𝘻 = 1,96.

Supongamos que tenemos un conjunto de datos con características 𝒙. El marco de regresión convencional que emplea la pérdida RMSE se limita a predecir el promedio de 𝒙. Sin embargo, supongamos que el objetivo es determinar la varianza de 𝒚, que refleja la incertidumbre de los datos o identificar qué predicciones probablemente sean imprecisas. En ese caso, hay que recurrir a modelos de regresión probabilística capaces de pronosticar tanto la media como la varianza. Este incertidumbre de los datos o varianza de 𝒚 es similar al llamado incertidumbre aleatoria.

Para solucionar esto, CatBoost utiliza una nueva función de pérdida llamada RMSEConIncertidumbre. Esta función permite a CatBoost aproximar tanto la media como la varianza…