Delinear estrategias y arquitecturas de soluciones para cargar datos de forma incremental desde diversas fuentes de datos.
La era del big data requiere estrategias para manejar los datos de manera eficiente y rentable. La ingesta incremental de datos se convierte en la solución ideal cuando se trabaja con diversas fuentes de datos críticas que generan datos a alta velocidad y baja latencia.
Tras años de servicio como ingeniero y analista de datos trabajando en la integración de muchas fuentes de datos en plataformas de datos empresariales, logré encontrar una complejidad tras otra al intentar ingerir y cargar datos de forma incremental en bases de datos y lagos de datos de destino. La complejidad brilla cuando los datos son fragmentos esparcidos por el polvo y en los rincones de los viejos y queridos sistemas heredados. Explorando esos sistemas para encontrar las interfaces, marcas de tiempo e identificadores dorados que, con suerte, permitan una integración fluida e incremental.
Este es un escenario común al que se enfrentan los ingenieros y analistas cuando se necesitan nuevas fuentes de datos para casos de uso analítico. Ejecutar una implementación de ingesta de datos sin problemas es un oficio que muchos ingenieros y analistas pretenden perfeccionar. Esto a veces es descabellado y, dependiendo de los sistemas de origen y de los datos que proporcionan, las cosas pueden complicarse y complicarse con soluciones alternativas y scripts aquí y allá para arreglar las cosas.
En esta historia, describiré una descripción general completa de las soluciones para implementar estrategias de ingesta de datos incrementales. Teniendo en cuenta las características de la fuente de datos, el formato de los datos y las propiedades de los datos que se ingieren. Las siguientes secciones se centrarán en estrategias para optimizar la carga incremental de datos, evitando así registros de datos duplicados, reduciendo la transferencia de datos redundantes y disminuyendo la carga en los sistemas de origen operativos. Discutimos implementaciones de soluciones de alto nivel y explicamos sus componentes con los flujos de datos esperados. Enumeramos estrategias incrementales según las fuentes de datos, desde bases de datos hasta almacenamiento de archivos, y cómo abordar las soluciones para cada una. Vamos a sumergirnos.