En antecedentes, aprender Python para el análisis de datos ha sido un poco desafiante. La sintaxis es más simple: verdadera. Sin embargo, el lenguaje y la terminología son completamente diferentes. En SQL, tendrás que interactuar con bases de datos, tablas y columnas. En Python, sin embargo, para el análisis de datos, su pan de cada día serán las estructuras de datos.
Las estructuras de datos en Python son como objetos de almacenamiento de datos. Python incluye varias estructuras de datos integradas, como listas, tuplas, conjuntos y diccionarios. Todos estos se utilizan para almacenar y manipular datos. Algunas son mutables (listas) y otras no (tuplas). Para obtener más información sobre las estructuras de datos de Python, recomiendo leer el libro “Python para el análisis de datos” de Wes McKinney. Recién comencé a leerlo y creo que es estelar.
En este artículo, le explicaré qué es un DataFrame en Pandas y cómo crear uno paso a paso.
Comprender los fundamentos de la matriz
Hay una biblioteca en Python llamada NumPy; es posible que hayas oído hablar de ello. Se utiliza principalmente para cálculos matemáticos y numéricos. Una de las características que ofrece es la posibilidad de crear matrices. Quizás te lo preguntes. ¿Qué diablos es una matriz?
Una matriz es similar a una lista, excepto que solo almacena valores del mismo tipo de datos. Sin embargo, las listas pueden almacenar valores de diferentes tipos de datos (int, texto, booleanos, etc.). A continuación se muestra un ejemplo de una lista.
mi_lista = [1, “hello”, 3.14, True]
Las listas también son mutables. En otras palabras, puedes agregar y eliminar elementos.
Volver a las matrices. En Numpy, las matrices pueden ser multidimensionales; esto se llama ndarrays (matrices de N dimensiones). Por ejemplo, importemos la biblioteca Numpy en Python.
importar numpy como np
Para crear una matriz básica en Numpy, usamos la función np.array(). En esta función, nuestra matriz se almacena.
matriz = np.matriz([1, 2, 3, 4, 5]) llegar
Aquí está el resultado:
formación([1, 2, 3, 4, 5])
Para comprobar el tipo de datos.
tipo(arr)
Obtendremos el tipo de datos.
numpy.ndarray
Lo bueno de las matrices es que puedes realizar cálculos matemáticos con ellas. Por ejemplo
llegar*2
El resultado:
formación([ 2, 4, 6, 8, 10])
Muy bien, ¿verdad?
Ahora que conoces los conceptos básicos de las matrices en Numpy. Profundicemos en las matrices de N dimensiones.
La matriz que ve arriba es una matriz unidimensional (1D). También conocidas como matrices vectoriales, las matrices 1D constan de una secuencia de valores. Así, [1,2,3,4,5]
Las matrices bidimensionales (Matrix) pueden almacenar matrices 1D como valores. De manera similar a las filas de una tabla en SQL, cada matriz 1D es como una fila de datos. El resultado es como una cuadrícula de valores. Por ejemplo:
importar numpy como np arr = np.array ([[1, 2, 3], [4, 5, 6]]) arr
Producción:
[[1 2 3]
[4 5 6]]
Las matrices tridimensionales (tensores) pueden almacenar matrices 2D (matrices). Por ejemplo,
importar numpy como np arr = np.array ([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]]) arr
Producción:
[[[1 2 3]
[4 5 6]]
[[1 2 3]
[4 5 6]]]
Una matriz puede tener un número infinito de dimensiones, dependiendo de la cantidad de datos que desee almacenar.
Crear un marco de datos a partir de una matriz
Ahora que ha entendido lo esencial sobre las matrices. Creemos un DataFrame a partir de uno.
Primero, tendremos que importar las bibliotecas pandas y NumPy.
importar pandas como pd importar numpy como np
A continuación, crea nuestra matriz:
datos = np.matriz ([[1, 4], [2, 5], [3, 6]])
Aquí, he creado una matriz 2D. Pandas DataFrame solo puede almacenar matrices 1D y 2D. Si intenta pasar una matriz 3D, obtendrá un error.
Ahora que tenemos nuestro Array. Pasémoslo a nuestro DataFrame. Para crear un DataFrame, use la función pd.DataFrame().
# creando el DataFrame df = pd.DataFrame(data) # mostrando el DataFrame df
Producción
0 1 0 1 4 1 2 5 2 3 6
Se ve bien hasta ahora. Pero necesita un poco de formato:
# creando un marco de datos df = pd.DataFrame(datos, índice=[‘row1’, ‘row2’, ‘row3’]columnas=[‘col1’, ‘col2’]) # mostrando el marco de datos df
Producción
col1 col2 fila1 1 4 fila2 2 5 fila3 3 6
Ahora eso es mejor. Todo lo que hice fue cambiar el nombre de las filas usando el atributo de índice y las columnas usando el atributo de columnas.
Y ahí lo tienes, tienes tu DataFrame. Es así de simple. Exploremos algunas formas más útiles de crear un DataFrame.
Crear un DataFrame a partir de un diccionario
Una de las estructuras de datos integradas que ofrece Python son los diccionarios. Básicamente, los diccionarios se utilizan para almacenar pares clave-valor, donde todas las claves deben ser únicas e inmutables. Está representado por llaves {}. A continuación se muestra un ejemplo de diccionario:
dict = {“nombre”: “Juan”, “edad”: 30}
Aquí, las claves son nombre y edad, y los valores son Alice y 30. Así de simple. Ahora, creemos un DataFrame a partir de un diccionario.
nombres = [“John”, “David”, “Jane”, “Mary”]
edad = [30, 27, 35, 23]
Primero, creé una lista para almacenar varios nombres y edades:
dict_names = {‘Nombres’: nombres, ‘Edad’: edad}
A continuación, almacené todos los valores en un diccionario y creé claves para Nombres y Edad.
# Creando el marco de datos df_names = pd.DataFrame(dict_names) df_names
Arriba, tenemos nuestro DataFrame que almacena el diccionario que creamos. Aquí está el resultado a continuación:
Nombres Edad 0 Juan 30 1 David 27 2 Jane 35 3 María 23
Y ahí vamos, tenemos un DataFrame creado a partir de un diccionario.
Crear un DataFrame a partir de un archivo CSV
Este es probablemente el método que utilizarás con más frecuencia. Es una práctica común leer archivos CSV en pandas cuando se intenta realizar un análisis de datos. De manera similar a cómo abre hojas de cálculo en Excel o importa datos a SQL. En Python, los archivos CSV se leen mediante la función read_csv(). He aquí un ejemplo:
# leyendo el archivo csv df_exams = pd.read_csv(‘StudentsPerformance.csv’)
En algunos casos, tendrás que copiar la ruta del archivo y pegarla como:
pd.read_csv (“C:\datos\listas de proveedores – Hoja1.csv”)
Producción:
¡Y ahí lo tienes!
Concluyendo
Crear DataFrames en pandas puede parecer complejo, pero en realidad no lo es. En la mayoría de los casos, probablemente leerás archivos CSV de todos modos. Así que no te preocupes. Espero que este artículo te haya resultado útil. Me encantaría escuchar tu opinión en los comentarios. ¡Gracias por leer!
¿Quieres conectarte? No dudes en saludar en estas plataformas.
Gorjeo
YouTube
Medio