en 2022, las cosas fueron tremendamente diferentes.
Los niños de hoy en día no saben cómo es.
Solía pasar horas:
Escribir código Python y SQL desde cero, línea por línea Memorizar qué bibliotecas importar y qué funciones contienen (de sklearn.metrics import r2_score) Depurar errores de código Escribir documentación para mi código Crear paneles para analizar grandes conjuntos de datos
Incluso en el último año, a medida que las herramientas de inteligencia artificial se han vuelto cada vez más avanzadas, mi trabajo como científico de datos ha cambiado. Soy menos una máquina de codificación y más un estratega. Alguien que comprenda muy bien los datos de mi organización y sepa cómo presentarlos mejor y obtener información de ellos.
Claude está cambiando las cosas aún más rápido
Claude es una de esas herramientas que creo que transformará la industria y esta carrera más rápido de lo que nadie pueda imaginar. No mentiré, da un poco de miedo. Al mismo tiempo, hay formas en que los científicos de datos pueden apropiarse de esta herramienta, dominarla y seguir estando a la vanguardia.
Aquí hay 3 habilidades CRUCIALES que todo científico de datos debería dominar ahora mismo:
1. Paneles de Claude
Solía pasar un día entero creando un panel de Tableau para un cliente solo para explorar algunas preguntas sobre un gran conjunto de datos que quizás nunca volvería a analizar en unos meses.
Ahora, Claude puede generar un panel interactivo completamente funcional en unos minutos, completo con:
Tarjetas de métricas de KPI Gráficos de líneas Gráficos de barras Botones de profundización Pestañas… y más
Mostremos un ejemplo sencillo utilizando el conjunto de datos de energía por hora de AEP (licencia CC0).
Claude pregunta:
Tengo un conjunto de datos de series temporales de consumo de energía por hora (AEP_MW) con una columna de fecha y hora. Constrúyeme un panel HTML interactivo que incluya:
1. Cuatro tarjetas KPI que muestran carga promedio, carga máxima, carga mínima,
y comparación verano versus invierno
2. Un gráfico de líneas que muestra la carga promedio por hora del día dividida por día laborable y fin de semana.
3. Un gráfico de barras de la carga mensual promedio con los meses más altos resaltados en un color más cálido.
4. Un gráfico de barras de carga promedio por día de la semana con los fines de semana en diferente color. Utilice un estilo limpio y minimalista.
El resultado se ve así:
Algunas ideas se destacan inmediatamente en el panel de control que no sería posible obtener desde un CSV sin formato:
El consumo entre semana alcanza su punto máximo entre las 5 y las 6 p. m., mientras que los fines de semana alcanza su punto máximo más temprano (alrededor de las 2 p. m.) y a un nivel más bajo. El consumo general de julio y agosto es significativamente mayor que el de los meses de primavera, lo que confirma la fuerte estacionalidad del verano debido a la carga de aire acondicionado. Las cargas de los sábados y domingos son consistentemente alrededor de un 10 % más bajas que los días laborables.
Estos tipos de paneles son perfectos para realizar EDA, así como para producir informes únicos para las partes interesadas que solo quieren saber qué está sucediendo en un momento determinado. También puede generar un panel según un cronograma para poder obtener un nuevo informe cada semana.
2. Claude Cowork por priorizar los tickets y tareas de Jira
Así es como solía ser para mí un típico lunes por la mañana: abre Jira, haz clic en 20 tickets abiertos, intenta recordar el contexto de cada uno, descubre qué está bloqueando qué y escribe una lista aproximada de prioridades para la semana.
Claude Cowork se diferencia de Claude Chat en que en realidad se conecta a su escritorio y puede leer/escribir archivos. Puede conectarse a Jira (u otra plataforma Scrum/Agile) y resumir sus prioridades para la semana. He aquí un ejemplo:
Extraiga todos mis tickets abiertos del sprint actual. Para cada uno, dame: el ID del ticket, un resumen de una frase de lo que debe suceder, el estado actual y cualquier bloqueador. Clasifíquelos por prioridad y dígame qué debo abordar primero hoy.
Aquí hay algunas otras indicaciones que puede usar con Cowork:
Escribir entradas para Jira
Aquí están mis notas de la reunión de revisión de modelos de hoy: [paste notes – or link to the notes if your Cowork is connected to Google Drive]. Cree tickets de Jira para cada elemento de acción en el proyecto de DS.
Para cada uno, escribe un título claro, una descripción de 2 oraciones de lo que
debe suceder y por qué, establecer la prioridad en función de la urgencia,
y asignarlos al sprint actual.
Preparándose para una reunión de partes interesadas
Lea los comentarios de las últimas 3 semanas sobre tickets etiquetados como “implementación de modelo” y escríbame un resumen de estado de cinco viñetas que pueda compartir con el líder del equipo de ingeniería. Mantenlo no técnico.
Redacción de documentación desde cero.
Abra el archivo preprocessing_pipeline.py en la carpeta de mi proyecto y escriba una sección README que explique qué hace la canalización, qué entradas espera y qué genera.
Informes de fin de sprint
Con base en los tickets cerrados de este sprint, escriba un resumen del sprint de 3 párrafos para mi gerente que cubra lo que enviamos, lo que aprendimos y lo que se trasladará al próximo sprint.
Esto supone un gran ahorro de tiempo y también le mantendrá más organizado.
3. Depuración con Claude Code
Claude Code es una herramienta de línea de comandos que se ejecuta en su terminal con acceso completo a su base de código. Puede:
Leer archivos en todo su proyecto Ejecutar comandos Ejecutar pruebas Realizar cambios en varios archivos
Para los científicos de datos, la aplicación más útil de inmediato es la depuración de canalizaciones.
Aquí hay un escenario real con el que me encontré recientemente en el trabajo con dbt. Los nombres de los modelos y archivos han sido cambiados por lo que no comparto ninguna información confidencial de la empresa.
Ejecuté dbt run –select fct_energy_forecast y obtuve esto:
Error de base de datos en la columna “meter_reading_mw” del modelo fct_energy_forecast no existe LÍNEA 14: AVG(meter_reading_mw) AS avg_load_mw,
El problema con los modelos dbt es que un error de columna en un modelo de mercado descendente no indica dónde se rompió realmente la columna. Se le podría haber cambiado el nombre en la fuente sin procesar, en el modelo de preparación, en una capa de agregación intermedia o en el propio centro comercial. Para encontrar la causa raíz manualmente, tendría que abrir cada archivo en la cadena de dependencia uno por uno, rastrear el nombre de la columna a través de cada transformación y descubrir dónde nunca se actualizó el nombre anterior. En un proyecto con 24 modelos y 6 fuentes, eso podría requerir más de una hora de lectura, repetición y reconstrucción de modelos.
En su lugar, se lo entregué a Claude Code:
Mi modelo dbt fct_energy_forecast falla con ‘la columna meter_reading_mw no existe’.
Encuentre dónde se define esta columna en sentido ascendente, rastree todos los dependientes
modelos y archivos fuente, averigüe qué sucedió y corríjalo.
Claude leyó todos los archivos de la cadena de dependencia y regresó en unos 40 segundos con un diagnóstico.
Luego aplicó la corrección en las tres líneas, volvió a ejecutar el modelo y confirmó que pasó.
Conclusión
A medida que las herramientas evolucionen, nuestros roles también lo harán. Claude está cambiando el tipo de trabajo que acabarán haciendo los científicos de datos. En lugar de pasar 8 horas al día depurando varios errores de dbt y Python, esos errores se resolverán en 2 minutos, lo que nos permitirá tener más tiempo para profundizar en nuestros datos y hacer preguntas más importantes. Como científicos de datos en 2026, es importante que aumentemos continuamente nuestro conjunto de habilidades y nos mantengamos actualizados.
También es importante tener en cuenta que, si bien Claude tiene muchas capacidades, sigue siendo IA y puede (y comete) errores. Aún se necesitarán científicos de datos que dominen Claude para validar los datos, mejorar las indicaciones y los procesos, y corregir a Claude cuando esté equivocado.