Más allá de la generación de código: IA para el flujo de trabajo completo de ciencia de datos

sintiendo una sensación constante de AI FOMO. Todos los días, veo personas que comparten consejos sobre inteligencia artificial, nuevos agentes y habilidades que desarrollaron, y aplicaciones codificadas por vibración. Cada vez me doy más cuenta de que adaptarme rápidamente a la IA se está convirtiendo en un requisito para seguir siendo competitivo como científico de datos en la actualidad.

Pero no me refiero sólo a una lluvia de ideas con ChatGPT, a generar código con Cursor o a pulir un informe con Claude. El cambio más importante es que la IA ahora puede participar en un flujo de trabajo de ciencia de datos mucho más integral.

Para concretar la idea, la probé en un proyecto real utilizando mis datos de Apple Health.

Un ejemplo simple: análisis de salud de Apple

Contexto

He estado usando un Apple Watch todos los días desde 2019 para realizar un seguimiento de mis datos de salud, como frecuencia cardíaca, energía quemada, calidad del sueño, etc. Estos datos contienen años de señales de comportamiento sobre mi vida diaria, pero la aplicación Apple Health los muestra principalmente con vistas de tendencias simples.

Intenté analizar una exportación de Apple Health de dos años hace seis años. Pero terminó convirtiéndose en uno de esos proyectos paralelos que nunca terminas… Mi objetivo esta vez es extraer más información de los datos sin procesar rápidamente con la ayuda de la IA.

Con lo que tuve que trabajar

Aquí están los recursos relevantes que tengo:

Datos de exportación sin procesar de Apple Health: 1,85 GB en XML, cargados en mi Google Drive. Código de muestra para analizar la exportación sin procesar a conjuntos de datos estructurados en mi repositorio de GitHub de hace seis años. Pero el código podría estar desactualizado.

Captura de pantalla de datos XML sin procesar realizada por el autor

Flujo de trabajo sin IA

Un flujo de trabajo estándar sin IA se parecería mucho a lo que probé hace seis años: inspeccionar la estructura XML, escribir Python para analizarlo en conjuntos de datos locales estructurados, realizar EDA con Pandas y Numpy y resumir los conocimientos.

Estoy seguro de que todos los científicos de datos están familiarizados con este proceso; no es una ciencia espacial, pero lleva tiempo desarrollarlo. Para obtener un informe de insights pulido, se necesitaría al menos un día completo. Es por eso que ese repositorio de hace 6 años todavía está marcado como WIP…

Flujo de trabajo de IA de un extremo a otro

Mi flujo de trabajo actualizado con IA es:

La IA localiza los datos sin procesar en mi Google Drive y los descarga. AI hace referencia a mi antiguo código GitHub y escribe un script en Python para analizar los datos sin procesar. AI carga los conjuntos de datos analizados en Google BigQuery. Por supuesto, el análisis también se podría realizar localmente sin BigQuery, pero lo configuré de esta manera para que se pareciera mejor a un entorno de trabajo real. La IA ejecuta consultas SQL en BigQuery para realizar el análisis y compilar un informe de análisis.

Básicamente, la IA maneja casi todos los pasos, desde la ingeniería de datos hasta el análisis, y yo actúo más como revisor y tomador de decisiones.

Informe generado por IA

Ahora, veamos qué Codex pudo generar con mi guía y algunas idas y venidas en 30 minutos, excluyendo el tiempo para configurar el entorno y las herramientas.

Elegí Codex porque uso principalmente Claude Code en el trabajo, así que quería explorar una herramienta diferente. Aproveché esta oportunidad para configurar mi entorno Codex desde cero para poder evaluar mejor todo el esfuerzo requerido.

Puede ver que este informe está bien estructurado y visualmente pulido. Resumió información valiosa sobre las tendencias anuales, la coherencia del ejercicio y el impacto de los viajes en los niveles de actividad. También proporcionó recomendaciones y declaró limitaciones y suposiciones. Lo que más me impresionó no fue sólo la velocidad, sino también la rapidez con la que el resultado empezó a parecer un análisis de las partes interesadas en lugar de un cuaderno preliminar.

Tenga en cuenta que el informe está desinfectado para proteger la privacidad de mis datos.

Informe generado por el Codex (cifras ajustadas según la privacidad de los datos, captura de pantalla del autor)
Informe generado por el Codex (cifras ajustadas según la privacidad de los datos, captura de pantalla del autor)
Informe generado por el Codex (cifras ajustadas según la privacidad de los datos, captura de pantalla del autor)

Cómo lo hice realmente

Ahora que hemos visto el impresionante trabajo que la IA puede generar en 30 minutos, permítanme desglosarlo y mostrarles todos los pasos que tomé para hacerlo realidad. Utilicé Codex para este experimento. Al igual que Claude Code, se puede ejecutar en la aplicación de escritorio, un IDE o CLI.

1. Configurar MCP

Para permitir que Codex acceda a herramientas, incluidos Google Drive, GitHub y Google BigQuery, el siguiente paso fue configurar servidores Model Context Protocol (MCP).

La forma más sencilla de configurar MCP es pedirle a Codex que lo haga por usted. Por ejemplo, cuando le pedí que configurara Google Drive MCP, configuró mis archivos locales rápidamente con los siguientes pasos claros sobre cómo crear un cliente OAuth en Google Cloud Console.

No siempre se consigue el éxito en el primer intento, pero la perseverancia ayuda. Cuando le pedí que configurara BigQuery MCP, falló al menos 10 veces antes de que la conexión se realizara correctamente. Pero cada vez, me proporcionó instrucciones claras sobre cómo probarlo y qué información fue útil para solucionar problemas.

Codex MCP configuró capturas de pantalla del autor
Codex MCP configuró capturas de pantalla del autor

2. Haz un plan con el Modo Plan

Después de configurar los MCP, pasé al proyecto real. Para un proyecto complicado que involucra múltiples fuentes de datos/herramientas/preguntas, normalmente comienzo con el modo Planificar para decidir los pasos de implementación. Tanto en Claude Code como en Codex, puede habilitar el modo Plan con /plan. Funciona así: usted describe la tarea y su plan aproximado, el modelo hace preguntas aclaratorias y propone un plan de implementación más detallado para que usted lo revise y refine. En las capturas de pantalla a continuación, puedes encontrar mi primera versión.

Capturas de pantalla del modo Plan realizadas por el autor – Parte 1
Capturas de pantalla del modo Plan realizadas por el autor – Parte 2
Capturas de pantalla del modo Plan realizadas por el autor – Parte 3

3. Ejecución e iteración

Después de presionar “Sí, implementar este plan”, Codex comenzó a ejecutarse por sí solo, siguiendo los pasos. Funcionó durante 13 minutos y generó el primer análisis a continuación. Se movió rápidamente entre diferentes herramientas, pero realizó el análisis localmente ya que encontró más problemas con BigQuery MCP. Después de otra ronda de solución de problemas, pudo cargar los conjuntos de datos y ejecutar consultas en BigQuery correctamente.

Primera captura de pantalla del resultado del análisis realizada por el autor.

Sin embargo, el resultado del primer paso aún era superficial, por lo que lo guié para que profundizara con preguntas de seguimiento. Por ejemplo, tengo billetes de avión y planes de viaje de viajes anteriores en mi Google Drive. Le pedí que los encontrara y analizara mis patrones de actividad durante los viajes. Localizó con éxito esos archivos, extrajo mis días de viaje y ejecutó el análisis.

Después de algunas iteraciones, pude generar un informe mucho más completo, como compartí al principio, en 30 minutos. Puedes encontrar su código aquí. Esa fue probablemente una de las lecciones más importantes del ejercicio: la IA se movió rápido, pero la profundidad aún surgió de la iteración y de mejores preguntas.

Códice que localiza mis fechas de viajes anteriores (captura de pantalla del autor)

Conclusiones para los científicos de datos

Qué cambia la IA

Arriba hay un pequeño ejemplo de cómo utilicé Codex y MCP para ejecutar un análisis de un extremo a otro sin escribir manualmente una sola línea de código. ¿Cuáles son las conclusiones para los científicos de datos en el trabajo?

Piense más allá de la asistencia con la codificación. En lugar de utilizar la IA únicamente para codificar y escribir, vale la pena ampliar su función a todo el ciclo de vida de la ciencia de datos. En este caso, utilicé IA para localizar datos sin procesar en Google Drive y cargar conjuntos de datos analizados en BigQuery. Hay muchos más casos de uso de IA relacionados con la canalización de datos y la implementación de modelos. El contexto se convierte en un multiplicador de fuerzas. Los MCP son los que hicieron que este flujo de trabajo fuera mucho más poderoso. Codex escaneó mi Google Drive para localizar las fechas de mi viaje y leyó mi antiguo código de GitHub para encontrar un código de análisis de muestra. De manera similar, puede habilitar otros MCP aprobados por la empresa para ayudar a su IA (y a usted mismo) a comprender mejor el contexto. Por ejemplo:
– Conéctese a Slack MCP y Gmail MCP para buscar conversaciones relevantes pasadas.
– Utilice Atlassian MCP para acceder a la documentación de la tabla en Confluence.
– Configure Snowflake MCP para explorar el esquema de datos y ejecutar consultas. Las reglas y las habilidades reutilizables son importantes. Aunque no lo demostré explícitamente en este ejemplo, debes personalizar las reglas y crear habilidades para guiar tu IA y ampliar sus capacidades. Estos temas merecen su propio artículo la próxima vez 🙂

Cómo evolucionará el papel de los científicos de datos

¿Pero significa esto que la IA reemplazará a los científicos de datos? Este ejemplo también arroja luz sobre cómo cambiarán las funciones de los científicos de datos en el futuro.

Menos ejecución manual, más resolución de problemas. En el ejemplo anterior, el análisis inicial que generó el Codex fue muy básico. La calidad del análisis generado por IA depende en gran medida de la calidad del planteamiento del problema. Es necesario definir la pregunta con claridad, dividirla en tareas viables, identificar el enfoque correcto y profundizar el análisis. El conocimiento del dominio es fundamental. Todavía se requiere mucho conocimiento del dominio para interpretar los resultados correctamente y brindar recomendaciones. Por ejemplo, AI notó que mi nivel de actividad había disminuido significativamente desde 2020. No pudo encontrar una explicación convincente, pero dijo: “Las posibles causas incluyen cambios de rutina, horario de trabajo, cambios en el estilo de vida, lesiones, motivación o entrenamiento menos estructurado, pero esas son inferencias, no hallazgos”. Pero la verdadera razón detrás de esto, como ya habrás comprendido, es la pandemia. Comencé a trabajar desde casa a principios de 2020, así que, naturalmente, quemé menos calorías. Este es un ejemplo muy simple de por qué el conocimiento del dominio sigue siendo importante: incluso si la IA puede acceder a todos los documentos anteriores de su empresa, eso no significa que comprenderá todos los matices del negocio, y esa es su ventaja competitiva. Este ejemplo fue relativamente sencillo, pero todavía hay muchas clases de trabajo en las que hoy en día no confiaría en que la IA funcione de forma independiente, especialmente proyectos que requieren un juicio técnico y estadístico más sólido, como la inferencia causal.

Advertencias importantes

Por último, pero no menos importante, hay algunas consideraciones que debes tener en cuenta al utilizar la IA:

Seguridad de los datos. Estoy seguro de que ya has oído esto muchas veces, pero déjame repetirlo una vez más. El riesgo de seguridad de los datos que supone el uso de la IA es real. Para un proyecto paralelo personal, puedo configurar las cosas como quiera y asumir mi propio riesgo (sinceramente, otorgar a la IA acceso completo a Google Drive parece una medida arriesgada, por lo que esto es más para fines ilustrativos). Pero en el trabajo, siga siempre las instrucciones de su empresa sobre qué herramientas son seguras de usar y cómo. Y asegúrese de leer cada comando antes de hacer clic en “aprobar”. Vuelva a verificar el código. Para mi proyecto simple, la IA puede escribir SQL preciso sin problemas. Pero en entornos empresariales más complicados, todavía veo que la IA comete errores en su código de vez en cuando. A veces, une tablas con diferentes granularidades, lo que provoca que se desplieguen y se cuenten dos veces. Otras veces, omite filtros y condiciones críticas. La IA es conveniente, pero puede lograr tu objetivo con efectos secundarios inesperados… Déjame contarte una historia divertida para finalizar este artículo. Esta mañana, encendí mi computadora portátil y vi una alerta de que no quedaba almacenamiento en disco: tengo una MacBook Pro con SSD de 512 GB y estaba bastante seguro de que solo había usado alrededor de la mitad del almacenamiento. Desde que estuve jugando con Codex anoche, se convirtió en mi primer sospechoso. Entonces le pregunté: “¿Hiciste algo? Mis ‘datos del sistema’ habían aumentado 150 GB durante la noche”. Respondió: “No, el Codex sólo ocupa xx MB”. Luego desenterré mis archivos y vi un “bigquery-mcp-wrapper.log” de 142 GB… Probablemente, Codex configuró este registro cuando estaba solucionando problemas con la configuración de BigQuery MCP. Más adelante, en la tarea de análisis real, explotó en un archivo gigante. Entonces sí, esta mágica máquina de deseos tiene un costo.

Esta experiencia resumió bien la compensación para mí: la IA puede comprimir drásticamente la distancia entre los datos sin procesar y el análisis útil, pero aprovecharlos al máximo aún requiere juicio, supervisión y voluntad de depurar el flujo de trabajo en sí.