Visualice profesionalmente distribuciones de datos en Python |  de Kurt Klingensmith |  febrero de 2024

Aprenda siete métodos diferentes para visualizar distribuciones de datos

Foto por NEOM en desempaquetar.

El análisis exploratorio de datos y la visualización de datos a menudo incluyen la inspección de la distribución de un conjunto de datos. Hacerlo proporciona información importante sobre los datos, como identificar el rango, los valores atípicos o agrupaciones inusuales, la tendencia central de los datos y el sesgo dentro de los datos. Comparar subconjuntos de datos puede revelar aún más información sobre los datos disponibles. Una visualización creada profesionalmente de la distribución de un conjunto de datos proporcionará información inmediata. Esta guía detalla varias opciones para usar Python rápidamente para crear visualizaciones limpias y significativas.

Visualizaciones cubiertas:

  • Histogramas
  • Gráficos de KDE (densidad)
  • Parcelas de alegría o parcelas de cresta
  • Diagramas de caja
  • Tramas de violín
  • Parcelas de franjas y enjambres
  • Parcelas ECDF

Datos y Código:

Este artículo utiliza datos meteorológicos completamente sintéticos generados siguiendo los conceptos de uno de mis artículos anteriores. Los datos de este artículo y el cuaderno completo de Jupyter están disponibles en este página de GitHub vinculada. No dudes en descargar ambos y seguirlos, o consultar los bloques de código a continuación.

Las bibliotecas, importaciones y configuraciones utilizadas para esto son las siguientes:

# Data Handling:
import pandas as pd
from pandas.api.types import CategoricalDtype

# Data Visualization Libraries:
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from joypy import joyplot

# Display Configuration:
%config InlineBackend.figure_format='retina'

Primero, carguemos y preparemos los datos, que es un marco de datos meteorológico sintético simple que muestra varias lecturas de temperatura para 3 ciudades a lo largo de las 4 estaciones.

# Load data:
df = pd.read_csv('weatherData.csv')

# Set season as a categorical data type:
season = CategoricalDtype(['Winter', 'Spring', 'Summer', 'Fall'])
df['Season'] = df['Season'].astype(season)

Tenga en cuenta que el código establece la columna Temporada en un tipo de datos categórico. Esta voluntad…