Explicación de PySpark: cuatro formas de crear y completar marcos de datos | por Thomas Reid | julio de 2024

De CSV a bases de datos: carga de datos en PySpark DataFrames

Al utilizar PySpark, especialmente si tiene conocimientos de SQL, una de las primeras cosas que querrá hacer es obtener los datos que desea procesar en un DataFrame. Una vez que los datos están en un DataFrame, es fácil crear una vista temporal (o tabla permanente) a partir del DataFrame. En esa etapa, todo el amplio conjunto de operaciones de PySpark SQL está disponible para que lo use para explorar y procesar los datos en mayor profundidad.

Dado que muchas de las habilidades estándar de SQL se pueden transferir fácilmente a PySpark SQL, es fundamental preparar los datos para su uso directo con PySpark SQL lo antes posible en el proceso de procesamiento. Hacer esto debería ser una prioridad máxima para un manejo y análisis de datos eficiente.

No lo haces tener Por supuesto, para hacer esto, ya que todo lo que se puede hacer con PySpark SQL en vistas o tablas se puede hacer directamente en DataFrames también mediante la API. Pero como alguien que se siente mucho más cómodo usando SQL que la API DataFrame, mi proceso de referencia al usar Spark siempre ha sido,

Datos de entrada -> DataFrame->vista temporal->procesamiento SQL

Para ayudarlo con este proceso, este artículo analizará la primera parte de este proceso, es decir, cómo introducir sus datos en DataFrames, mostrando cuatro de…