09lnxklsmdx8qoeqw.jpeg

PANDAS PARA LA CIENCIA DE DATOS

¿Importa cómo lo haces? ¿Quizás uno es más rápido que el otro?

La sintaxis de puntos es muy popular en Python, también en Pandas. Foto por Alejandro Barba en desempaquetar

Al utilizar Pandas, la mayoría de los científicos de datos optarían por df['x'] o df["x"] — Realmente no importa cuál uses, siempre y cuando te ciñas al que hayas elegido. Puedes leer más sobre esto aquí:

Por lo tanto, de ahora en adelante, dondequiera que escriba df["x"]esto se referirá igualmente a df['x']. Sin embargo, hay otra opción. También puedes ir por df.x. Si bien es una opción menos frecuente, puede mejorar la legibilidad, suponiendo que el nombre de la columna sea un identificador de Python válido

¿Importa qué sintaxis elijas? Este artículo pretende abordar esta cuestión, desde dos puntos de vista muy importantes: legibilidad y rendimiento.

Los dos enfoques df["x"] y df.x – son métodos comunes para acceder a la columna (aquí, "x") de un marco de datos (aquí, df). En el ámbito de la ciencia de datos, lo más probable es que el primero se utilice con más frecuencia; al menos mi experiencia en una variedad de proyectos de ciencia de datos sugiere esto.

Legibilidad y simplicidad de uso.

Consideremos las ventajas y desventajas de los métodos en términos de legibilidad y simplicidad:

  1. df["x"]: Este es el método explícito. Esta opción permite usar columnas con nombres que tienen espacios o caracteres especiales o, más generalmente, que son identificadores de Python no válidos. Gracias a esta sintaxis, inmediatamente sabrás que "x” es el nombre de una columna. Sin embargo, esta es la versión menos legible para los ojos: cuando ves mucho código de este tipo, es posible que tengas que luchar con el desorden visual frente a tus ojos.
  2. df.x: Este método proporciona una sintaxis más concisa, ya que cada vez que utiliza df.x, guardas tres caracteres. Apreciará esto especialmente cuando se prefiera un código conciso. Usando df.xes como…