Guardar Pandas DataFrames de manera eficiente y rápida: Parquet vs Feather vs ORC vs CSV | de Mike Clayton | noviembre de 2024

Mejoramiento

Velocidad, RAM, tamaño y conveniencia. ¿Qué método de almacenamiento es mejor?

gráfico de barras que compara tamaños de archivos de salida para datos mixtos en un marco de datos para formatos de archivo csv, feather, orc y parquet
Escribir tamaños de archivos de salida para datos mixtos – Imagen del autor

Con el volumen cada vez mayor de datos que se produce, existe inevitablemente la necesidad de almacenar y recargar esos datos de manera eficiente y rápida.

CSV ha sido el elemento básico durante mucho tiempo. Sin embargo, existen alternativas mucho mejores diseñadas específicamente para abordar directamente el almacenamiento y la recarga eficiente de datos tabulares.

Entonces, ¿cuánto estás perdiendo si todavía usas el formato CSV para almacenar tus tablas de datos? ¿Y qué alternativa deberías considerar?

A la hora de almacenar datos tabulares lo ideal sería:

  • Rápido para escribir
  • Rápido de leer
  • Bajo uso de RAM
  • Bajos requisitos de almacenamiento
  • Buenas opciones para la compresión.

Una opción para leer solo una parte de los datos, sin cargar todo el conjunto de datos, también sería una excelente adición a lo anterior.

Por lo tanto, la lista descrita anteriormente formará la base para probar algunos de los métodos más utilizados contra estos…