0nzqbozcpjj6qkdsx.jpeg

Readers Digest para aprender ingeniería de datos gradualmente

Foto por Tamas Pap en desempaquetar

En esta historia, me gustaría hablar sobre libros y recursos de ingeniería de datos que podrían ser de interés para quienes aprenden ingeniería de datos (DE). Me di cuenta de que no hay muchos en el mercado que expliquen la ingeniería de datos como un concepto de manera integral. Algunos de ellos son excelentes en cuanto a cómo usar herramientas particulares y arquitecturas de plataformas de datos y algunos de ellos son mis lecturas favoritas antes de dormir: sorprendentemente fácil conciliar el sueño mientras se lee y gloriosamente aburrido. Algunos son excelentes para la toma de decisiones estratégicas y otros pueden parecer un poco obsoletos, pero siguen siendo útiles. Espero que lo encuentres interesante.

Divulgación: esta publicación puede contener enlaces de afiliados, lo que significa que obtengo una comisión si decides realizar una compra a través de mis enlaces, sin costo para ti.

Trabaje con conjuntos de datos masivos para diseñar modelos de datos y automatizar canalizaciones de datos utilizando Python
Paul Crickard, 2020

Este es un gran libro para aquellos que quieran aprender las herramientas de Apache de código abierto para la ingeniería de datos. Cubre todos los temas esenciales de ingeniería de datos, como el modelado de datos, y ofrece una gran cantidad de ejemplos de las transformaciones de datos más comunes. Como se menciona en la descripción del libro, se trata de Python y el modelado de datos, por lo que los lectores se centrarán en las técnicas ETL para extraer, limpiar y enriquecer los conjuntos de datos utilizando las herramientas de Python. Explica Apache Kafka y Apache Spark en detalle, pero también cubre los conceptos básicos de trabajar con formatos de archivos, transformación y limpieza de datos. El libro ofrece algunas opiniones realmente buenas sobre las implementaciones de canalizaciones de datos, así como sobre el trabajo con entornos de datos.

Una de mis historias con técnicas avanzadas de ETL para complementar este libro:

por Joe Reis y Matt Housley
Publicado en junio de 2022
Editor: O’Reilly Media, Inc.