Soy parte de algunas comunidades de ciencia de datos en LinkedIn y otros lugares y una cosa que veo de vez en cuando es gente preguntando sobre PySpark.
Seamos realistas: la ciencia de datos es un campo demasiado amplio para que cualquiera pueda saberlo todo. Por eso, cuando me uno a un curso o comunidad sobre estadística, por ejemplo, a veces la gente me pregunta: ¿Qué es PySpark?, Cómo calcular algunas estadísticas en PySpark, y muchos otros tipos de preguntas.
Por lo general, quienes ya trabajan con Pandas se interesan especialmente por Spark. Y creo que eso sucede por un par de razones:
- Pandas es sin duda muy famoso y utilizado por los científicos de datos, pero también es cierto que no es el paquete más rápido. A medida que los datos aumentan de tamaño, la velocidad disminuye proporcionalmente.
- Es un camino natural para quienes ya dominan Pandas querer aprender una nueva opción para manejar datos. Como los datos están más disponibles y en mayor volumen, conocer Spark es una gran opción para manejar big data.
- Databricks es muy famoso y PySpark es posiblemente el lenguaje más utilizado en la plataforma, junto con SQL.