Tres potentes bibliotecas de Python para automatizar (parcialmente) EDA y comenzar con su proyecto de datos |  de Juan José Muñoz |  diciembre de 2023

Todos los problemas de aprendizaje automático son problemas de datos.

Para evitar el viejo dicho de “basura entra, basura sale”, tiene sentido que dediques un tiempo considerable a comprender y limpiar tus datos.. Recientemente leí “El libro de Kaggle” de Konrad Banachewicz y Luca Massaron, donde entrevistan a muchos grandes maestros de Kaggle. Curiosamente, apresurarse o saltarse la EDA es el error más común que cometen tanto ellos como los principiantes.

Foto por Choong Deng Xiang en desempaquetar

Todos sabemos lo importante que es la EDA y, sin embargo, todavía nos saltamos este paso.. Puede ser porque es difícil saber por dónde empezar, qué preguntas deberíamos hacer, o tal vez estamos demasiado ansiosos por lanzarnos al modelaje.

Aquí hay 3 bibliotecas de Python que puede usar para automatizar parcialmente su análisis de datos exploratorios y comenzar con su proyecto de datos.

Los datos para el siguiente análisis provienen de la competencia Kaggle, Precios de la vivienda – Técnicas avanzadas de regresión.

Esta es la nueva versión de creación de perfiles de Pandas compatible con Spark y ahora va más allá de Pandas DataFrame.

El objetivo, sin embargo, sigue siendo el mismo: proporcionar una experiencia de análisis de datos exploratorios (EDA) de una sola línea. Este paquete destaca la importancia de contar con un marco de evaluación de la calidad de los datos fácil de implementar. Este marco no debe limitarse a la fase inicial de su proyecto, sino implementarse a lo largo de todo el proyecto de datos.

La creación de perfiles de Ydata se puede ejecutar en dos líneas.

!pip install ydata-profiling
from ydata_profiling import ProfileReport

#Generate the data profile report
profile = ProfileReport(train,title='EDA')

#show the report on the notebook
profile.to_notebook_iframe()

Alertas que indican alta correlación, desequilibrios de clases, datos faltantes, etc… Imagen del autor
Distribución de variables. Imagen del autor

El resultado muestra la distribución de las variables y le proporciona un conjunto de alertas…