De analista de datos a ingeniero de datos: mi hoja de ruta de autoaprendizaje de 12 meses

. Una parte de mí comenzó este viaje porque la ingeniería de datos es una de las carreras más populares y mejor pagadas en este momento. No voy a fingir que eso no fue un factor.

Pero hay más que eso.

Llevo un tiempo aprendiendo sobre análisis de datos. SQL, Power BI, Python (Pandas, NumPy, un poco Polars), limpieza de datos, EDA. Lo que sea, he estado en la maleza con eso. Y realmente lo disfruto. Pero en algún momento del camino, comencé a sentir curiosidad por saber qué sucede antes de que los datos lleguen a mi escritorio. ¿Cómo se mueve? ¿Quién construye esos oleoductos? ¿Cómo es realmente la infraestructura detrás de todo esto?

Esa curiosidad plantó una semilla.

Luego, la IA empezó a hacer mucho de lo que hago más rápido y más fácil. Lo cual es genial. Pero también me hizo pensar: si la IA puede manejar el análisis, ¿cuál es mi ventaja? ¿Qué puedo construir y comprender que sea más profundo? Trabajo como analista de sistemas de TI en una startup y, aunque disfruto el trabajo, me di cuenta de que no me estaba desafiando como quería. Estaba listo para más.

El impulso final provino de un video de Data With Baraa, donde presentó una hoja de ruta completa de ingeniería de datos. Algo en verlo estructurado y desglosado lo hacía parecer real y factible. Así que aquí estoy.

Estoy aprendiendo ingeniería de datos en público. Y este artículo es el comienzo de ese viaje.

Además, solo dejo un descargo de responsabilidad de que no estoy afiliado a Data with Baraa. Sólo estoy compartiendo mi viaje personal. Espero que ayude.

Por qué la ingeniería de datos específicamente

Quiero dedicar un momento aquí porque creo que esta pregunta merece una respuesta real.

El análisis de datos me enseñó cómo trabajar con los datos una vez que llegan. Límpielo, explórelo, visualícelo, extraiga ideas de él. Ese conjunto de habilidades es realmente valioso. Pero cuanto más aprendía, más me topaba con la misma pared. Los datos con los que estaba trabajando ya habían sido moldeados y movidos por otra persona. Alguien había construido el oleoducto que me lo trajo. Alguien había decidido cómo se almacenaba, cómo se estructuraba y con qué frecuencia se actualizaba.

Yo quería ser esa persona.

La ingeniería de datos se encuentra antes que el análisis. Se trata, en primer lugar, de construir los sistemas que hagan posible el análisis. Canalizaciones de datos, arquitectura de almacenamiento, orquestación del flujo de trabajo, procesamiento de datos a gran escala. Éstas son las bases sobre las que se construye todo lo demás. Y, sinceramente, ese tipo de trabajo de infraestructura me atrae de una manera que el análisis puro ya no me atrae.

También hay un argumento práctico. Los roles de ingeniería de datos se encuentran constantemente entre los mejor pagados en la industria de datos. A medida que las herramientas de inteligencia artificial mejoren en la automatización de la capa analítica, la demanda de personas que puedan construir y mantener una infraestructura de datos confiable solo crecerá. Prefiero construir las tuberías que simplemente usarlas.

Y una cosa más. La startup en la que trabajo no utiliza ninguna de las herramientas que estoy a punto de aprender. Lo que significa que cada hora que dedico a esto es totalmente autodirigida. No hay equipo del que aprender, ni proyectos de trabajo en los que aplicarlo. Solo yo, Internet y todo lo que pueda construir por mi cuenta. Ése es un desafío que elijo a propósito.

Por qué estoy haciendo esto en público

Escribir sobre lo que aprendo es algo en lo que ya creo profundamente. Te obliga a comprender algo antes de explicarlo. Te mantiene responsable. Y con el tiempo, construye algo que un currículum por sí solo nunca podría lograr.

Pero también seré honesto acerca de mis temores, porque creo que ese es el objetivo de hacer esto públicamente.

Tengo el síndrome del objeto brillante. Ahí lo dije. He explorado el diseño gráfico, la animación, la redacción, el marketing y la TI antes de llegar a los datos. Siempre hay algo nuevo y emocionante que llama mi atención. La ingeniería de datos podría ser reemplazada fácilmente por la siguiente cosa llamativa en mi feed si no lo hago intencionalmente.

La coherencia es otra. Trabajo de 9 a 5 y apenas toco las herramientas que aprenderé. No hay ningún refuerzo natural en el trabajo, no hay ningún colega con quien pueda responder preguntas de Airflow. Estoy construyendo esto completamente en mi propio tiempo, fuera de mis responsabilidades laborales.

Y equilibrio. El objetivo es de tres a cuatro horas al día. Algunos días te resultará fácil. Otros días te parecerá imposible.

Publicar este viaje es mi sistema de rendición de cuentas. Si me quedo callado, sabrás que cometí un error. Y prefiero no resbalar.

Con qué estoy empezando

No empiezo de cero, lo que ayuda. Ya tengo conocimientos de SQL de principiante a intermedio gracias a mi trabajo de análisis de datos, fundamentos básicos de Python y algo de experiencia práctica con Pandas. Eso me da una base sobre la cual construir en lugar de reconstruir desde cero.

Aquí está la pila de aprendizaje completa, aproximadamente en el orden en que la abordaré.

1. SQL: profundizando más que el análisis

Conozco SQL. Pero el SQL analítico y el SQL de ingeniería son animales diferentes. Profundizaré en la optimización de consultas, la indexación, el trabajo con conjuntos de datos muy grandes y la escritura de SQL diseñado para el rendimiento en lugar de solo la exploración. Si alguna vez solo ha usado SQL para extraer y filtrar datos, hay otra capa debajo que vale la pena comprender.

Por qué es primero: Todo en ingeniería de datos eventualmente toca SQL. Afinar aquí antes de aplicar capas de herramientas más complejas hace que el resto del viaje sea más fácil.

2. Python: de exploratorio a listo para producción

Tengo lo básico. Pandas, NumPy, algunos polares. Pero el Python que he estado escribiendo vive principalmente en cuadernos. Exploratorio, desordenado, no diseñado para durar. El objetivo ahora es escribir código más limpio, más estructurado y reutilizable. Funciones, módulos, manejo de errores, scripting. El tipo de Python que realmente pondrías en una tubería.

Por qué es importante: Python es el pegamento que mantiene unidas la mayoría de las pilas de ingeniería de datos modernas. El flujo de aire lo usa. PySpark se basa en él. Sentirse cómodo aquí no es negociable.

3. Git y GitHub: control de versiones realizado correctamente

Seré honesto. Mi conocimiento de Git actualmente es “copiar el comando, espero que funcione”. Eso tiene que cambiar. El control de versiones es fundamental para trabajar como ingeniero y no simplemente como analista. Aprenderé sobre ramificaciones, solicitudes de extracción y cómo administrar el código correctamente en todos los proyectos.

Por qué es importante: Cada proyecto que construyo a partir de ahora va a GitHub. Es portafolio, es disciplina y así es como trabajan los equipos reales.

4. Apache Spark y PySpark: procesamiento de big data

Aquí es donde las cosas se ponen realmente emocionantes. Apache Spark es uno de los motores más utilizados para procesar datos a gran escala. PySpark es la API de Python, lo que significa que puedo usar un lenguaje con el que ya estoy familiarizado para trabajar con datos distribuidos a escala.

El salto de Pandas a Spark supone un cambio de mentalidad. Pandas funciona en una sola máquina. Spark está diseñado para ejecutarse en clústeres. Aprender a pensar de esa manera distribuida es una de las habilidades que separa a los ingenieros de datos de los analistas.

Por qué es importante: si desea trabajar con big data en un entorno de producción, Spark es casi inevitable. Aparece constantemente en las descripciones de los puestos y es fundamental para el ecosistema de Databricks hacia el que me desarrollaré.

5. Apache Airflow: orquestación de canalizaciones de datos

Los canales de datos no se ejecutan por sí solos. Necesita algo para programarlos, monitorearlos y manejar las fallas con elegancia. Ahí es donde entran las herramientas de orquestación del flujo de trabajo y Airflow es mi elección.

Consideré algunas opciones aquí. Los flujos de trabajo de Databricks son excelentes si ya estás inmerso en el ecosistema de Databricks. Azure Data Factory tiene sentido para entornos con mucho uso de Azure. Pero Airflow es gratuito, de código abierto, independiente de la nube y ampliamente utilizado en toda la industria. También le enseña los conceptos básicos de la orquestación de una manera que se transfiere a otras herramientas. Comenzar con Airflow me pareció la decisión correcta, especialmente porque estoy tratando de mantener los costos bajos.

Por qué es importante: la orquestación es lo que convierte una colección de scripts en una canalización real. Comprender Airflow es comprender cómo se gestionan los flujos de trabajo de datos de producción.

6. Databricks: la plataforma de datos

En algún momento, deberás elegir una plataforma de datos y profundizar en ella. Voy con Databricks. Está construido sobre Spark, tiene una gran demanda y tiene una edición comunitaria gratuita que te permite practicar sin pagar créditos en la nube.

Las alternativas también son sólidas. Snowflake es un almacén SQL limpio y rápido que a muchas empresas les encanta. BigQuery es la opción sin servidor totalmente administrada de Google y realmente excelente si te inclinas por Google Cloud. Pero Databricks se encuentra en la intersección de big data, aprendizaje automático e ingeniería de datos de una manera que coincide con el lugar al que quiero llegar. Tenía más sentido para mis objetivos.

Por qué es importante: Los empleadores quieren que usted tenga experiencia en plataformas. Profundizar en uno es más valioso que saber un poco sobre todos ellos.

Cómo estoy estructurando los 12 meses

La respuesta honesta es que esto podría llevar más de 12 meses. Y estoy bien con eso. Prefiero tomarme 15 meses y realmente entender lo que estoy haciendo que apresurarme en 12 y salir inestable en los fundamentos.

El enfoque general es avanzar en cada habilidad en orden y no avanzar hasta haber construido algo con lo que acabo de aprender. Los tutoriales están bien como orientación, pero los proyectos son donde ocurre el verdadero aprendizaje. Mi plan es documentar cada fase aquí en Hacia la ciencia de datos: los conceptos, los proyectos, las frustraciones y las victorias.

Para realizar un seguimiento del progreso, estoy usando la hoja de ruta de Notion de Data With Baraa como columna vertebral. Divide cada habilidad en temas centrales y me permite realizar un seguimiento de dónde estoy sin sentirme abrumado por el panorama completo de una sola vez.

En cuanto al compromiso de tiempo, el objetivo es de tres a cuatro horas al día. Parte de eso será aprendizaje estructurado. Algunos estarán construyendo. Algunos escribirán sobre lo que acabo de aprender, que es su propia forma de estudiar.

Cómo se ve el éxito

El objetivo es conseguir un puesto de ingeniería de datos bien remunerado. Eso es real y no voy a disfrazarlo.

Pero además de eso, quiero convertirme en una voz creíble en este espacio. Alguien que construye cosas de las que vale la pena hablar, documenta el viaje sin filtrar las partes difíciles y tal vez aclara un poco el camino para alguien que viene detrás de mí.

La escritura y el aprendizaje se retroalimentan. El portafolio se convierte en la prueba. La prueba construye la marca. Esa es la visión.

A partir de hoy

Este artículo es mi fecha de inicio oficial. No espero hasta sentirme preparado o hasta que todo esté perfectamente planificado. Estoy empezando ahora, escribiendo sobre la marcha y dejando que el proceso sea público y un poco complicado.

Si estás en algún lugar en un camino similar. Ya sea que esté en análisis pensando en ingeniería, en TI preguntándose qué sigue, o simplemente alguien tratando de desarrollar habilidades que mantengan su valor en un mundo acelerado por la IA. Síguenos.

Creo que tendremos mucho de qué hablar. También estaré compartiendo mis aprendizajes en mi canal de YouTube. Así que siéntete libre de suscribirte a continuación y seguirnos.

Este es el primer artículo de una serie en curso que documenta mi viaje en ingeniería de datos. Publicaré periódicamente sobre mi progreso, los proyectos que estoy construyendo y todo lo que aprenda a lo largo del camino.

Y si deseas obtener acceso a la plantilla de Notion, en caso de que estés en el mismo viaje que yo, puedes acceder a ella aquí.

Siga mi viaje a continuación.

YouTube

Medio

LinkedIn

Gorjeo