Este tutorial práctico lo guiará a través de todo el proceso de trabajar con archivos CSV/Excel y realizar el análisis de datos exploratorios (EDA) en Python. Utilizaremos un conjunto de datos de ventas de comercio electrónico realista que incluya transacciones, información del cliente, datos de inventario y más.

Introducción

El análisis de datos es una habilidad esencial en el mundo basado en datos de hoy. En este tutorial, aprenderemos cómo:

  • Importar datos de los archivos de Excel
  • Datos limpios y preprocesos
  • Explorar y analizar datos a través de estadísticas y visualización
  • Dibuje información significativa de los datos comerciales

Usaremos varias bibliotecas clave de Python:

  • pandas: Para manipulación y análisis de datos
  • numpy: Para operaciones numéricas
  • mate y marino: Para la visualización de datos

Configuración de su entorno

Primero, instalemos las bibliotecas necesarias:

  • OpenPyXL y XLRD son backends que Pandas usa para leer archivos de Excel
  • Importar las bibliotecas en su script de Python:

Comprender nuestro conjunto de datos

Nuestro conjunto de datos de muestra representa los datos de ventas de una compañía de comercio electrónico. Contiene cinco hojas:

  1. Sales_data: Datos transaccionales principales con 1,000 pedidos
  2. Customer_data: Información demográfica del cliente
  3. Inventario: Detalles del inventario de productos
  4. Monthly_summary: Datos de ventas mensuales previamente agregados
  5. Data_issues: Una muestra de datos con problemas de calidad intencionales para la práctica

Puedes descargar el conjunto de datos aquí

Lectura de archivos de Excel

Ahora que tenemos nuestro conjunto de datos, comencemos leyendo el archivo de Excel:

Debería ver la salida que muestra las hojas disponibles y sus dimensiones.

Leer filas o columnas específicas

A veces es posible que solo desee leer partes específicas de un archivo de Excel grande:

Exploración de datos básica

Exploremos nuestros datos de ventas para comprender su estructura y contenido:

Veamos la distribución de pedidos en diferentes categorías y regiones:

Limpieza y preparación de datos

Practicemos la limpieza de datos utilizando la hoja «data_issues», que se creó específicamente con problemas de datos comunes:

Ahora limpiemos los datos:

Limpiemos también nuestros principales datos de ventas:

Fusionar y unir datos

Ahora combinemos datos de diferentes hojas para obtener ideas más ricas:

También nos unamos a los datos de inventario para analizar las métricas a nivel de producto:

Análisis de datos exploratorios

Ahora realicemos un análisis de datos exploratorios significativos para comprender nuestro negocio:

Análisis de rendimiento de ventas

Análisis de segmento de clientes

Análisis del método de pago

Análisis de tasas de retorno

Análisis de tabulación cruzada

Análisis de correlación

Visualización de datos

Ahora creemos visualizaciones para comprender mejor nuestros datos:

Visualizaciones básicas

Visualizaciones avanzadas con Seaborn

Visualizaciones complejas

Conclusión

En este tutorial, exploramos el flujo de trabajo completo del manejo de archivos CSV y Excel en Python, desde importar y limpiar datos sin procesar hasta realizar un análisis de datos exploratorios perspicaces (EDA). Utilizando un conjunto de datos realista de comercio electrónico, aprendimos cómo fusionar y unir conjuntos de datos, manejar problemas comunes de calidad de datos y extraer información comercial clave a través del análisis y visualización estadística. También cubrimos bibliotecas esenciales de Python como pandas, numpy, matplotlib y seaborn. Al final, debe estar equipado con habilidades prácticas de EDA para transformar los datos sin procesar en ideas procesables para aplicaciones del mundo real.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Por automata