Cómo pasar de Pandas a PySpark | por Gustavo Santos | Sep, 2024

Aprenda algunos comandos básicos para comenzar la transición de Pandas a PySpark

Foto de Karsten Wurth en Dejar de salpicar

Soy parte de algunas comunidades de ciencia de datos en LinkedIn y otros lugares y una cosa que veo de vez en cuando es gente preguntando sobre PySpark.

Seamos realistas: la ciencia de datos es un campo demasiado amplio para que cualquiera pueda saberlo todo. Por eso, cuando me uno a un curso o comunidad sobre estadística, por ejemplo, a veces la gente me pregunta: ¿Qué es PySpark?, Cómo calcular algunas estadísticas en PySpark, y muchos otros tipos de preguntas.

Por lo general, quienes ya trabajan con Pandas se interesan especialmente por Spark. Y creo que eso sucede por un par de razones:

  1. Pandas es sin duda muy famoso y utilizado por los científicos de datos, pero también es cierto que no es el paquete más rápido. A medida que los datos aumentan de tamaño, la velocidad disminuye proporcionalmente.
  2. Es un camino natural para quienes ya dominan Pandas querer aprender una nueva opción para manejar datos. Como los datos están más disponibles y en mayor volumen, conocer Spark es una gran opción para manejar big data.
  3. Databricks es muy famoso y PySpark es posiblemente el lenguaje más utilizado en la plataforma, junto con SQL.