Por qué nunca debería utilizar la validación cruzada |  de Samuele Mazzanti |  marzo de 2024

Como Como científico de datos, me sucede con frecuencia que necesito una estimación rápida y aproximada de cómo funcionaría un modelo predictivo en un conjunto de datos determinado. Durante mucho tiempo, hice esto mediante validación cruzada. Entonces me di cuenta de que estaba completamente fuera de lugar. En efecto,

Con los problemas del mundo real, la validación cruzada no es nada confiable.

Dado que puedo apostar que muchos científicos de datos todavía confían en esta técnica, creo que es muy relevante profundizar en este tema.

En este artículo, con la ayuda de un ejemplo de juguete y un conjunto de datos reales, analizaré las razones por las que la validación cruzada nunca es una buena opción cuando se trata de problemas del mundo real.

La validación cruzada es una técnica de validación de modelos que se utiliza para obtener una estimación de cómo funcionará un modelo entrenado en un conjunto de datos en un conjunto de datos nuevo (invisible).

Nota: existen muchos tipos de validación cruzada. En este artículo, por simplicidad, cuando decimos “validación cruzada” nos referimos a una validación cruzada aleatoria de K vecesque es, con diferencia, el tipo más común de…