Una introducción a la ingeniería analítica

¿Quién es un ingeniero analítico y qué se supone que debe hacer?

Imagen generada a través de DALL-E2

Tradicionalmente, los equipos de datos estaban formados por ingenieros y analistas de datos.

Los ingenieros de datos son responsables de construir la infraestructura para respaldar las operaciones de datos. Estos incluirían la configuración de bases de datos y la implementación de procesos ETL que se utilizan para ingerir datos de fuentes externas en un sistema de destino (quizás otra base de datos). Además, los ingenieros de datos suelen estar a cargo de garantizar la integridad, la actualización y la seguridad de los datos para que los analistas puedan consultarlos. Un conjunto de habilidades típico para un ingeniero de datos incluye Python (o Java), SQL, orquestación (usando herramientas como Apache Airflow) y modelado de datos.

Por otro lado, se supone que los analistas de datos deben crear paneles e informes utilizando Excel o SQL para proporcionar información empresarial a los usuarios y departamentos internos.

Formación tradicional de Equipos de Datos

Para procesar datos y obtener información valiosa, primero debemos extraerlos, ¿verdad? 🤯

La ingesta de datos se realiza mediante procesos ETL (y más recientemente con ELT). Tanto el paradigma ETL como el ELT implican tres pasos principales; Extraer, transformar y cargar. Por ahora, ignoremos la secuencia de ejecución de estos pasos y centrémonos en lo que hace cada paso de forma independiente.

Extracto

Este paso se refiere al proceso de extraer datos de una fuente persistente. Esta fuente de datos podría ser una base de datos, un punto final API, un archivo o una cola de mensajes.

El paso de extracción extrae datos de varias fuentes. Fuente: Autor

Transformar

En el paso Transformar, se espera que la canalización realice algunos cambios en la estructura y/o formato de los datos para lograr un objetivo determinado. Una transformación podría ser una modificación (por ejemplo, mapeo “United States” a “US”), una selección de atributos, un cálculo numérico o una unión.