Dominar la incertidumbre con CatBoost | por Ilia Teimouri PhD

Revelando el poder de los intervalos de predicción

Los intervalos de predicción desempeñan un papel crucial en el análisis de regresión, especialmente cuando el objetivo se extiende más allá de las meras predicciones puntuales para evaluar la incertidumbre o variabilidad de las predicciones. A diferencia de las predicciones puntuales, que proporcionan un único valor estimado para cada entrada, los intervalos de predicción ofrecen un rango dentro del cual se espera que se encuentre el valor real con una cierta probabilidad. Esto es particularmente valioso porque tiene en cuenta la incertidumbre inherente a cualquier modelo predictivo. Al cuantificar esta incertidumbre, los intervalos de predicción proporcionan una comprensión más completa de los posibles resultados. Por ejemplo, en la previsión financiera, conocer el rango dentro del cual podrían fluctuar los rendimientos futuros es crucial para la gestión de riesgos y las estrategias de inversión.

Además, la búsqueda de crear los intervalos de predicción más estrechos o “eficientes” en un modelo de regresión mejora la precisión y confiabilidad de los resultados del modelo. Los intervalos más estrechos indican un mayor nivel de certeza en las predicciones, suponiendo que los intervalos sean precisos y capturen consistentemente los valores verdaderos.

En general, el intervalo de predicción se escribe como:

[𝜇-𝘻𝜎, 𝜇+𝘻𝜎]

donde 𝜇 es la media (es decir, la predicción de la media), 𝘻 son cuantiles de valores de 𝘡 y 𝜎 es la desviación estándar. Entonces, para ese fin, podemos encontrar el intervalo de predicción del 90% estableciendo 𝘻 = 1,64 o si deseamos tener un intervalo más estrecho, como el 95%, podemos establecer 𝘻 = 1,96.

Supongamos que tenemos un conjunto de datos con características 𝒙. El marco de regresión convencional que emplea la pérdida RMSE se limita a predecir el promedio de 𝒙. Sin embargo, supongamos que el objetivo es determinar la varianza de 𝒚, que refleja la incertidumbre de los datos o identificar qué predicciones probablemente sean imprecisas. En ese caso, hay que recurrir a modelos de regresión probabilística capaces de pronosticar tanto la media como la varianza. Este incertidumbre de los datos o varianza de 𝒚 es similar al llamado incertidumbre aleatoria.

Para solucionar esto, CatBoost utiliza una nueva función de pérdida llamada RMSEConIncertidumbre. Esta función permite a CatBoost aproximar tanto la media como la varianza…

Dominar la incertidumbre con CatBoost | por Ilia Teimouri PhD | marzo de 2024

ByEquipo de 7 minutos

Revelando el poder de los intervalos de predicción

By Equipo de 7 minutos

Related Post

OpenAI lanza filtro de privacidad: un modelo de redacción de PII de código abierto de 1,500 millones de parámetros con 50 millones de parámetros activos

Conozca Talkie-1930: un LLM de peso abierto 13B capacitado en textos en inglés anteriores a 1931 para el razonamiento histórico y la investigación de generalización

¡Correlación no significa causalidad! ¿Pero qué significa?

You missed

Los delfines crean vórtices invisibles con sus colas, lo que les ayuda a avanzar bajo el agua

PP y Vox reducen los cupos de preguntas de la oposición en la Asamblea de Extremadura

La violación de datos del biobanco del Reino Unido expone riesgos en la Ley de datos (uso y acceso) de 2025

Cambios en las pensiones estatales del Reino Unido en mayo: lo que los expatriados británicos deben saber – The Leader