Las pilas de datos modernas constan de varias herramientas y marcos para procesar datos. Por lo general, sería una gran colección de diferentes recursos en la nube destinados a transformar los datos y llevarlos al estado en el que podamos generar información valiosa. Gestionar la multitud de estos recursos de procesamiento de datos no es una tarea trivial y puede parecer abrumadora. Lo bueno es que los ingenieros de datos inventaron una solución llamada infraestructura como código. Básicamente, es la codificación la que nos ayuda a implementar, aprovisionar y gestionar todos los recursos que podamos necesitar en nuestros canales de datos. En esta historia, me gustaría analizar técnicas populares y marcos existentes que tienen como objetivo simplificar el aprovisionamiento de recursos y la implementación de canalizaciones de datos. Recuerdo cómo, al principio de mi carrera en el ámbito de los datos, implementé recursos de datos utilizando la interfaz de usuario web, es decir, depósitos de almacenamiento, roles de seguridad, etc. Esos días quedaron atrás, pero todavía recuerdo la alegría y la felicidad cuando supe que podía ser así. se realiza mediante programación utilizando plantillas y código.
Pilas de datos modernas
¿Qué sería eso: una pila de datos moderna (MDS)? Las tecnologías que se utilizan específicamente para organizar, almacenar y manipular datos serían algo que conformaría una pila de datos moderna. [1]. Esto es lo que ayuda a dar forma a una plataforma de datos moderna y exitosa. Recuerdo que planteé esta discusión en una de las historias anteriores.
Un modelo de plataforma de datos simplificado suele verse así:
Por lo general, contiene docenas de fuentes de datos diferentes y recursos de plataforma en la nube para procesarlos.
Puede haber diferentes tipos de arquitectura de plataforma de datos según los requisitos funcionales y comerciales, las habilidades de nuestros usuarios, etc., pero en general el diseño de la infraestructura abarca varios procesamientos de datos…