Este tutorial práctico lo guiará a través de todo el proceso de trabajar con archivos CSV/Excel y realizar el análisis de datos exploratorios (EDA) en Python. Utilizaremos un conjunto de datos de ventas de comercio electrónico realista que incluya transacciones, información del cliente, datos de inventario y más.
Introducción
El análisis de datos es una habilidad esencial en el mundo basado en datos de hoy. En este tutorial, aprenderemos cómo:
- Importar datos de los archivos de Excel
- Datos limpios y preprocesos
- Explorar y analizar datos a través de estadísticas y visualización
- Dibuje información significativa de los datos comerciales
Usaremos varias bibliotecas clave de Python:
- pandas: Para manipulación y análisis de datos
- numpy: Para operaciones numéricas
- mate y marino: Para la visualización de datos
Configuración de su entorno
Primero, instalemos las bibliotecas necesarias:
- OpenPyXL y XLRD son backends que Pandas usa para leer archivos de Excel
- Importar las bibliotecas en su script de Python:
Comprender nuestro conjunto de datos
Nuestro conjunto de datos de muestra representa los datos de ventas de una compañía de comercio electrónico. Contiene cinco hojas:
- Sales_data: Datos transaccionales principales con 1,000 pedidos
- Customer_data: Información demográfica del cliente
- Inventario: Detalles del inventario de productos
- Monthly_summary: Datos de ventas mensuales previamente agregados
- Data_issues: Una muestra de datos con problemas de calidad intencionales para la práctica
Puedes descargar el conjunto de datos aquí
Lectura de archivos de Excel
Ahora que tenemos nuestro conjunto de datos, comencemos leyendo el archivo de Excel:
Debería ver la salida que muestra las hojas disponibles y sus dimensiones.
Leer filas o columnas específicas
A veces es posible que solo desee leer partes específicas de un archivo de Excel grande:
Exploración de datos básica
Exploremos nuestros datos de ventas para comprender su estructura y contenido:
Veamos la distribución de pedidos en diferentes categorías y regiones:
Limpieza y preparación de datos
Practicemos la limpieza de datos utilizando la hoja «data_issues», que se creó específicamente con problemas de datos comunes:
Ahora limpiemos los datos:
Limpiemos también nuestros principales datos de ventas:
Fusionar y unir datos
Ahora combinemos datos de diferentes hojas para obtener ideas más ricas:
También nos unamos a los datos de inventario para analizar las métricas a nivel de producto:
Análisis de datos exploratorios
Ahora realicemos un análisis de datos exploratorios significativos para comprender nuestro negocio:
Análisis de rendimiento de ventas
Análisis de segmento de clientes
Análisis del método de pago
Análisis de tasas de retorno
Análisis de tabulación cruzada
Análisis de correlación
Visualización de datos
Ahora creemos visualizaciones para comprender mejor nuestros datos:
Visualizaciones básicas
Visualizaciones avanzadas con Seaborn
Visualizaciones complejas
Conclusión
En este tutorial, exploramos el flujo de trabajo completo del manejo de archivos CSV y Excel en Python, desde importar y limpiar datos sin procesar hasta realizar un análisis de datos exploratorios perspicaces (EDA). Utilizando un conjunto de datos realista de comercio electrónico, aprendimos cómo fusionar y unir conjuntos de datos, manejar problemas comunes de calidad de datos y extraer información comercial clave a través del análisis y visualización estadística. También cubrimos bibliotecas esenciales de Python como pandas, numpy, matplotlib y seaborn. Al final, debe estar equipado con habilidades prácticas de EDA para transformar los datos sin procesar en ideas procesables para aplicaciones del mundo real.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.