Almacenamiento de datos moderno.  Diseño de plataforma de datos de última generación |  por 💡Mike Shakhomirov |  diciembre de 2023

Diseño de plataforma de datos de última generación

Foto por Nubelson Fernandes en desempaquetar

En esta historia, intentaré arrojar algo de luz sobre los beneficios de las soluciones modernas de almacenamiento de datos (DWH) en comparación con otros tipos de arquitectura de plataformas de datos. Me atrevería a decir que DWH es la plataforma más popular entre los ingenieros de datos en este momento. Ofrece beneficios invaluables en comparación con otros tipos de soluciones, pero también tiene algunas limitaciones bien conocidas. ¿Quieres aprender ingeniería de datos? Esta historia es un buen punto de partida porque explica la ingeniería de datos en su esencia: la solución DWH en el centro del diagrama de arquitectura. Veremos cómo se pueden ingerir y transformar datos en diferentes DWH disponibles en el mercado.
También me gustaría abrir la discusión con usuarios experimentados. Sería genial saber tu opinión y ver lo que tienes que decir sobre este tema.

Características clave de un almacén de datos

Un motor SQL distribuido y sin servidor (BigQuery, Snowflake, Redshift, Microsoft Azure Synapse, Teradata) es lo que llamamos un almacén de datos moderno (DWH). Es una arquitectura de datos que da prioridad a SQL. [1] donde los datos se almacenan en un almacén de datos y podemos aprovechar todas las ventajas de utilizar un esquema en estrella desnormalizado [2] conjuntos de datos porque la mayoría de los almacenes de datos modernos están distribuidos y escalan bien, lo que significa que no hay necesidad de preocuparse por las claves y los índices de las tablas. Es adecuado para consultas analíticas ad hoc sobre Big Data.

La mayoría de las soluciones modernas de almacenamiento de datos pueden procesar datos estructurados y no estructurados y son muy convenientes para los analistas de datos con buenos conocimientos de SQL.

Ciclo de vida de los datos DWH. Imagen del autor.

Los almacenes de datos modernos se integran fácilmente con soluciones de inteligencia empresarial como Looker, Tableau, Sisense y Mode, que utilizan ANSI-SQL para procesar datos. En el siguiente diagrama intenté trazar un recorrido común de transformación de datos y las herramientas utilizadas (no es una lista completa, por supuesto). Podemos ver eso…