Un truco sencillo para realizar su análisis de datos en segundos |  de Christopher Tao |  enero de 2024

Descubra información oculta utilizando ydata-profiling

El análisis de datos exploratorios (EDA) desempeña un papel crucial en la ciencia de datos, lo que nos permite obtener información y comprender los patrones dentro de un conjunto de datos. En uno de mis artículos anteriores, presenté la conveniencia de una biblioteca de Python llamada “Pandas GUI”, que es una herramienta EDA de Python lista para usar.

Ahora, dirijamos nuestra atención a “ydata-profiling”, un sucesor de la popular biblioteca “pandas-profiling”. “ydata-profiling” ofrece capacidades EDA avanzadas y aborda las limitaciones de su predecesor, lo que lo convierte en un recurso invaluable para científicos y analistas de datos.

Imagen por Stevenom de Pixabay

Como siempre, antes de que podamos comenzar a usar la biblioteca, debemos instalarla usando pip.

pip install ydata-profiling

Para realizar EDA, necesitamos tener un conjunto de datos. Utilicemos uno de los conjuntos de datos públicos más famosos: el conjunto de datos Iris para esta demostración. Puede obtenerlo en la biblioteca de Sci-kit Learn. Sin embargo, para hacerlo más fácil, dado que no vamos a utilizar la biblioteca Sci-kit Learn en esta demostración, encontré el conjunto de datos en el datahub.io sitio web que puede utilizar directamente.

https://datahub.io/machine-learning/iris/r/iris.csv

Podemos cargar fácilmente los datos de la URL en el marco de datos de Pandas de la siguiente manera.

import pandas as pd

df = pd.read_csv("https://datahub.io/machine-learning/iris/r/iris.csv")
df.head()

Luego podemos importar el ProfileReport módulo de la biblioteca ydata-profiler para generar el informe EDA desde el marco de datos de pandas.

from ydata_profiling…