A menudo escuchamos: “¡Oh, hay paquetes disponibles para hacer de todo! Solo lleva 10 minutos ejecutar los modelos usando los paquetes”. Sí, estoy de acuerdo en que existen paquetes, pero solo funcionan si tienes un conjunto de datos limpio y listo para acompañarlos. ¿Y cuánto tiempo lleva crear, seleccionar y limpiar un conjunto de datos de múltiples fuentes que sea adecuado para su propósito? Pregúntele a un científico de datos que esté luchando por crear uno. ¡Todos aquellos que tuvieron que pasar horas limpiando datos, investigando, leyendo y reescribiendo códigos, fallando y reescribiendo nuevamente estarán de acuerdo conmigo! Esto nos lleva al punto:
‘La ciencia de datos de la vida real es 70% limpieza de datos y 30% modelado o análisis real’
Por lo tanto, pensé, volvamos un poco a lo básico y aprendamos cómo limpiar conjuntos de datos y hacerlos utilizables para resolver problemas comerciales de manera más eficiente. Comenzaremos esta serie con el tratamiento de los valores perdidos. Aquí está la agenda:
- ¿Cuáles son los valores faltantes?
- ¿Cuáles son las causas de los valores faltantes en un conjunto de datos?
- ¿Por qué son importantes los valores faltantes?
- Enfoque para lidiar con los valores perdidos