ChatGPT es un problema típico de pasantía de un mes en el espacio de datos. En cierto sentido, el problema se “resolvió”, pero no estoy seguro de que signifique lo que pensé. Para los profesionales de datos e inteligencia artificial, esta es ahora una pregunta muy práctica. Muchos equipos recurren a pasantes o a picos de investigación para explorar ideas: ¿es la IA lo suficientemente buena ahora? ¿Estos proyectos se refieren únicamente al artefacto final?
Pasantes como exploradores
Crear una hoja de ruta tecnológica en una startup de datos en etapa inicial no es tan diferente de un mapa típico de un videojuego:
La hoja de ruta es mucho más grande no sólo de lo que puedes hacer, sino también de lo que puedes ver. Si tan solo pudiéramos echar un vistazo por encima del “horizonte (del producto)” enviando un explorador para limpiar el mapa, entonces ganaríamos cierta conciencia de lo que te espera una vez que llegues allí (el explorador puede morir, por lo que la analogía es buena hasta cierto punto).
Bauplan (que cofundé en 2024) tomó la decisión inusual (para su tamaño) de realizar pasantías de verano en las principales instituciones (Universidad de Columbia, CMU, Universidad de Wisconsin-Madison) para mirar hacia el horizonte. Ha funcionado muy bien hasta ahora. Además de un mejor embudo de contratación, una posición en la comunidad y cierta influencia social, las exploraciones se abrieron paso en nuestro producto y serán activos estratégicos a medida que la empresa crezca.
Mientras envío ofertas de pasantías para el verano de 2026, la mitad de mi feed X me dice que lo estoy haciendo todo mal. Lejos de ser un problema hipotético, en diferentes etapas, tamaños y limitaciones, todos los equipos de datos e inteligencia artificial se enfrentan hoy a la misma pregunta: ¿existe ahora una mejor manera de realizar picos de investigación con agentes? En caso afirmativo, ¿qué es una configuración de IA buena y probada que sea fácil de adaptar?
Con la esperanza de que nuestra experiencia y perspectiva sean valiosas para muchos profesionales de datos, esta es nuestra configuración y las lecciones que aprendimos de un aumento de investigación real realizado al combinarlo con ChatGPT.
Primero vinieron por los consultores y yo no hablé…
En un momento en que la IA amenaza a los trabajadores del conocimiento, los puestos junior parecen ser los que caen primero. ¿Por qué McKinsey debería contratar a un analista de la Ivy League cuando una suscripción de 200 dólares produce más informes y más rápido? Últimamente, mis noticias parecen indicar que la IA también puede estar persiguiendo a los investigadores, con académicos tratando de automatizarse («investigación totalmente autónoma desde la idea hasta el papel») y profesores debatiendo si seguir contratando asistentes.
Hay argumentos obvios para resistir la tendencia. Podemos atacar el resultado y argumentar que la tecnología todavía tiene errores, por lo que la prometida paridad de la “Ivy League” simplemente no está ahí. Podemos argumentar que se está rompiendo el contrato social: claro, los investigadores jóvenes siempre han sido (en cierto sentido) una “carga”, pero esa carga era a la vez una forma de retribuir y una inversión en la próxima generación. También podemos resaltar el daño potencial a largo plazo que supone reemplazar un proceso de pensamiento bien comprendido por un flujo de trabajo nuevo y no probado.
Si bien hay peso detrás de todos estos argumentos, argumentos paralelos podrían interpretarse superficialmente a favor de la invención de los automóviles o lo que sea. Siempre hay un momento y un lugar para estos debates, pero mi interés hoy es mucho más localizado y personal: ¿qué sentiría si abandonara a mis pasantes por una suscripción de 200 dólares?
Entonces (al igual que este experimento de física que descubrí recientemente) traté de convertir el mes de un pasante en un fin de semana con ChatGPT.
Si bien el problema exacto no es muy importante, determinar el alcance de la pasantía puede ser útil para tener una idea del tipo de cosas que hacen los pasantes en Bauplan (¡siéntete libre de omitirlo!). Bauplan es una plataforma de datos ramificada: los agentes y los humanos pueden abrir ramas similares a Git en sus mesas. Como resultado, la misma tabla puede tener diferentes versiones en diferentes ramas. En nuestro motivador ejemplo, Acme Inc. es un minorista en línea en el que un enjambre de agentes de datos tiene la tarea de ejecutar diferentes predicciones sobre las ventas de mañana:
Idealmente, un humano verificaría el trabajo, compararía y contrastaría los hallazgos y luego fusionaría la tabla de predicciones como la representación de datos canónicos. Pero ¿qué pasa si alguien hace una pregunta antes de que esto suceda?
Los sistemas existentes simplemente se negarían a responder, incluso si esto parece intuitivamente un desperdicio: dos agentes que calculan los ingresos mensuales pueden no estar de acuerdo con la cifra exacta, pero ambos coinciden en que los ingresos crecieron >10% trimestre tras trimestre. En otras palabras, incluso cuando no existe una versión de datos acordada en todo el sistema, aún podríamos responder muchas preguntas interesantes.
Nuestro objetivo de prácticas es entonces construir un prototipo de dicho sistema. Requiere aprender sobre bifurcaciones, aprender nuevas matemáticas, diseñar una solución sobre Bauplan y crear un módulo de texto a SQL (más fácil) y una ruta de consulta personalizada (más difícil).
La configuración de la IA
Los Bauplaners recientemente tuvieron el privilegio de ver al único Wes McKinney dando una demostración en vivo de su configuración, así que decidí adoptarla (con algunos ajustes menores):
ChatGPT 5.2 para planificar y decidir estrategias (es decir, cómo diseñar un punto de referencia que destaque la diferencia entre los enfoques de ingeniería); Claude Code dentro de Visual Studio para realizar el ciclo de desarrollo real; Roborev se compromete a revisar localmente de manera adversa. Desarrolladas por Codex, las revisiones destacan problemas potenciales y sugieren mejoras; Roborev revisa para controlar la complejidad del proyecto cada 10 confirmaciones aproximadamente: estas revisiones adoptan un punto de vista arquitectónico y ayudan a reducir la hinchazón.
El verdadero tesoro fueron los amigos que hicimos en el camino.
Como no puedo soportar la idea de que AI escriba por mí (porque, para ser honesto, tampoco puedo soportar la idea de que los pasantes lo hagan), yo mismo hice la redacción final. Como las pasantías generalmente terminan compartiendo resultados con la comunidad, terminé teniendo suficientes cosas para un artículo de ACM SAO, “Consultar todo en todas partes, todo a la vez”.
Según algunas métricas, el grupo X tenía razón: incluso admitiendo una discrepancia en la calidad, cuidé a la IA durante 48 horas para hacer, digamos, el 80% de lo que habría tomado semanas. Curiosamente, cuidar niños es de una naturaleza diferente: la IA está tan ansiosa por complacer que a menudo termina “haciendo trampa” para lograr resultados superficiales mediante atajos codificados. Si bien muchos problemas de datos y de IA son superficialmente fáciles de verificar, en nuestra experiencia también son fáciles de jugar: esto es especialmente cierto cuando la interpretación de la configuración experimental tiene matices o la métrica final no es sencilla: debes verificar tres veces si tus agentes de IA están escalando colinas o simplemente fingiendo.
Por otro lado, la IA no necesita que se le enseñen los modelos de Tarski o los excesos de verdad, ya que adjuntar algunos documentos es suficiente para comenzar a trabajar. Los resultados también fueron “tangibles”: tengo una aplicación web atractiva sin tener que volver a utilizar D3.js (¡10 años después de mi última vez!) y un script de demostración que simula procesos de agente y preguntas comerciales sobre sucursales. Si cree (como yo) que los prototipos generalmente superan a PowerPoint (o a los documentos), no hay duda de que la pila de IA logró algo.
Lo que es más difícil de expresar con palabras es lo que no se entregó o, para decirlo más precisamente, lo que perdí en el proceso. A pesar de todo el entusiasmo por el increíble gráfico y el sorprendente punto de referencia, nada de eso realmente produjo más comprensión. No soy más sabio por haber pasado por el proceso de investigación: tengo un poco más de intuición que antes (por ejemplo, cómo solicitar buenas traducciones de SQL), pero mis modelos mentales tienen en gran medida la misma resolución que cuando comencé. Trabajar con pasantes puede llevar mucho tiempo y, a veces, incluso frustrar, pero siempre produce mejores pensamientos, en ellos y en mí: al explicarles y orientarlos, ellos también me explican y me guían a mí en cierto sentido.
Si ahora obtengo resultados sin aprender mucho, me siento incómodo principalmente porque no está claro si eso debería importar. No me refiero a si importa a escala global y de gran cerebro: por supuesto, si nuestros hijos ya no aprenden y nuestros científicos descargan el pensamiento en un chat, eso es malo. Ahora estoy modestamente centrado en esto: ¿importa para mí, para mi empresa, para mis inversores?
La respuesta local y personal –a menos que uno tenga un concepto muy exagerado de sí mismo– es menos clara. Sé codificar y probablemente todavía podría enseñar algo de lógica matemática, por lo que, en cierto sentido, nada de este proyecto es innovador: tal vez, no hay mucho que aprender aquí (aparte de la viabilidad de todo esto, que por supuesto sospechaba en primer lugar), y la inquietud que siento es el legado de una mentalidad pasada. O, tal vez, no hay tarea demasiado humilde para convertirme en una versión ligeramente mejor de mí mismo: hacer el trabajo esencial de conectar nuestras API a un gráfico, no compilar DataFusion 13 veces, ir y venir sobre cómo elegir consultas para un punto de referencia convincente donde ningún otro sistema puede expresar (y mucho menos calcular) nuestra ruta de consulta. Me siento incómodo porque los proyectos del mundo real para personas del mundo real, no demasiado egoístas, tienen una superficie muy grande de cuestiones que no son obviamente pensamientos de primeros principios, ni detalles obvios de implementación.
No tengo ningún problema hoy (mañana, veremos…) con la visión simplista de que los humanos deberían pensar y los LLM deberían arreglar la sintaxis de matplotlib. Pero lucho con la gran área gris en el medio y la voz interior que susurra que al tratar todo como un detalle de implementación, mis pensamientos pronto dejarán de ser nítidos. ¿Nos estamos volviendo como esos capitalistas de riesgo que “coinciden con patrones” y pierden todos los matices? ¿El objetivo de una prueba es demostrar un teorema (por muy extraña que pueda parecer la prueba) o brindarnos una comprensión novedosa?
El futuro puede esperar (un poco)
Observar mis decisiones (y no mis sentimientos) durante el verano de 2026 revela, en efecto, las consecuencias de este experimento. Bauplan ha contratado a dos pasantes (humanos), dos científicos informáticos jóvenes, talentosos y motivados, encargados de explorar el borde de nuestro mapa de productos con respecto a la optimización de la IA de un extremo a otro (evolución de habilidades con GEPA) y el escalado de git-for-data. Desde una perspectiva práctica, tomé la misma decisión que habría tomado antes de este proyecto. Sin embargo, no creo haber salido ileso de ello: mis sentimientos en algún momento cristalizarán en nuevos conceptos y luego influirán en mis decisiones.
Por un lado, como gran admirador del Principito, no se me escapa que fue el tiempo perdido en esa rosa lo que la hizo importante: pasar tiempo con mis pasantes este verano (creo) hará que ellos y nuestro proyecto juntos sean más importantes. Por otro lado, esto capta sólo parcialmente mi vibra estos días. Tuve que profundizar en Internet Archive para recuperar algo que recordaba recientemente de 2006 (al parecer, la lógica matemática no es lo único que recuerdo de mis 20 años). Esta es la entrada número 1 en las “50 peores cosas que le pueden pasar a la música” de Blender:
#01. NIÑOS HOY
En nuestros días, no teníamos ninguno de sus elegantes iPods, ni tonos de llamada ni descargas. No teníamos el lujo y la comodidad de sus anillos en el escroto y sus registros en la World Wide Web. Cuando quisimos robar el nuevo álbum de URIAH HEEP, no pudimos simplemente buscarlo en Internet, tuvimos que hacerlo a la antigua usanza: caminando hasta la tienda (cuesta arriba, en ambos sentidos) y metiendo 12 pulgadas de vinilo debajo de nuestros suéteres (que tuvimos que tejer nosotros mismos). Es por eso que ustedes, llorones y látigos, no aprecian el valor real de la música. O Urías Heep. ¡Ahora lárgate de nuestro césped!
¿Seguiremos apreciando el “valor real de las cosas” si ahora podemos “robarlas” desde la comodidad de nuestras computadoras portátiles?
Nos vemos, vaqueros agentes.
Gracias a Luca, Colin y Ethan por sus comentarios sobre un borrador anterior de este artículo.
Si quieres ser pasante en Bauplan y hacer cosas interesantes sobre datos e inteligencia artificial (como esta o esta), todavía acepto candidatos humanos: ¡ponte en contacto!