Los agentes de ciencia de datos deben inspeccionar conjuntos de datos, diseñar flujos de trabajo, ejecutar código y devolver respuestas verificables, no solo autocompletar código Pandas. DSGym, presentado por investigadores de la Universidad de Stanford, Together AI, la Universidad de Duke y la Universidad de Harvard, es un marco que evalúa y entrena a dichos agentes en más de 1000 desafíos de ciencia de datos con datos reales seleccionados por expertos y un proceso de capacitación posterior consistente.
¿Por qué los puntos de referencia existentes no son suficientes?
El equipo de investigación primero analiza los puntos de referencia existentes que afirman probar agentes conscientes de los datos. Cuando los archivos de datos están ocultos, los modelos aún conservan una alta precisión. En QRData la caída promedio es del 40,5 por ciento, en DAEval es del 86,8 por ciento y en DiscoveryBench es del 44,4 por ciento. Muchas preguntas se pueden resolver utilizando antecedentes y coincidencia de patrones únicamente en el texto en lugar de un análisis de datos genuino, y también encuentran errores de anotación y tolerancias numéricas inconsistentes.
Tarea, agente y entorno
DSGym estandariza la evaluación en tres objetos: Tarea, Agente y Entorno. Las tareas son Análisis de datos o Predicción de datos. Las tareas de análisis de datos proporcionan uno o más archivos junto con una pregunta en lenguaje natural que debe responderse mediante código. Las tareas de predicción de datos proporcionan divisiones de entrenamiento y prueba junto con una métrica explícita y requieren que el agente cree una canalización de modelado y predicciones de resultados.
Cada tarea está empaquetada en un objeto de tarea que contiene los archivos de datos, el mensaje de consulta, la función de puntuación y los metadatos. Los agentes interactúan a través de un bucle de estilo CodeAct. En cada turno, el agente escribe un bloque de razonamiento que describe su plan, un bloque de código que se ejecuta dentro del entorno y un bloque de respuesta cuando está listo para comprometerse. El entorno se implementa como un administrador y un clúster de trabajadores de contenedores Docker, donde cada trabajador monta datos como volúmenes de solo lectura, expone un espacio de trabajo grabable y se envía con bibliotecas Python específicas del dominio.
Tareas DSGym, DSBio y DSPredict
Además de este tiempo de ejecución, DSGym Tasks agrega y refina conjuntos de datos existentes y agrega otros nuevos. El equipo de investigación limpia QRData, DAEval, DABStep, MLEBench Lite y otros eliminando elementos que no se pueden calificar y aplicando un filtro de acceso directo que elimina preguntas resueltas fácilmente por múltiples modelos sin acceso a datos.
Para cubrir los descubrimientos científicos, presentan DSBio, un conjunto de 90 tareas bioinformáticas derivadas de artículos revisados por pares y conjuntos de datos de código abierto. Las tareas cubren análisis unicelular, espacial y multiómico, y genética humana, con respuestas deterministas numéricas o categóricas respaldadas por cuadernos de referencia de expertos.
DSPredict apunta al modelado de competencias reales de Kaggle. Un rastreador recopila competiciones recientes que aceptan envíos CSV y cumplen con las reglas de tamaño y claridad. Después del preprocesamiento, la suite se divide en DSPredict Easy con 38 competencias introductorias y de estilo patio de juegos, y DSPredict Hard con 54 desafíos de alta complejidad. En total, DSGym Tasks incluye 972 tareas de análisis de datos y 114 tareas de predicción.
Lo que los agentes actuales pueden y no pueden hacer
La evaluación cubre modelos de código cerrado como GPT-5.1, GPT-5 y GPT-4o, modelos de peso abierto como Qwen3-Coder-480B, Qwen3-235B-Instruct y GPT-OSS-120B, y modelos más pequeños como Qwen2.5-7B-Instruct y Qwen3-4B-Instruct. Todos se ejecutan con el mismo agente CodeAct, temperatura 0 y herramientas deshabilitadas.
En puntos de referencia de análisis generales limpios, como QRData Verified, DAEval Verified y la división más sencilla de DABStep, los mejores modelos alcanzan entre un 60 y un 90 por ciento de precisión de coincidencia exacta. En DABStep Hard, la precisión disminuye para cada modelo, lo que muestra que el razonamiento cuantitativo de varios pasos sobre tablas financieras aún es frágil.
DSBio expone una debilidad más severa. Kimi-K2-Instruct logra la mejor precisión general del 43,33 por ciento. Para todos los modelos, entre el 85 y el 96 por ciento de las fallas inspeccionadas en DSBio son errores de conexión a tierra de dominio, incluido el uso indebido de bibliotecas especializadas e interpretaciones biológicas incorrectas, en lugar de errores básicos de codificación.
En MLEBench Lite y DSPredict Easy, la mayoría de los modelos fronterizos logran una tasa de envío válido casi perfecta por encima del 80 por ciento. En DSPredict Hard, las presentaciones válidas rara vez superan el 70 por ciento y las tasas de medallas en las tablas de clasificación de Kaggle están cerca del 0 por ciento. Este patrón respalda la observación del equipo de investigación de un sesgo de simplicidad en el que los agentes se detienen después de una solución básica en lugar de explorar modelos e hiperparámetros más competitivos.
DSGym como fábrica de datos y campo de entrenamiento
El mismo entorno también puede sintetizar datos de entrenamiento. A partir de un subconjunto de QRData y DABStep, el equipo de investigación pide a los agentes que exploren conjuntos de datos, propongan preguntas, las resuelvan con código y registren trayectorias, lo que produce 3700 consultas sintéticas. Un modelo de juez los filtra a un conjunto de 2000 pares de consultas más trayectorias de alta calidad llamado DSGym-SFT, y el ajuste fino de un modelo basado en 4B Qwen3 en DSGym-SFT produce un agente que alcanza un rendimiento competitivo con GPT-4o en puntos de referencia de análisis estandarizados a pesar de tener muchos menos parámetros.
Conclusiones clave
DSGym proporciona un marco unificado de tareas, agentes y entornos, con ejecución en contenedores y un bucle de estilo CodeAct, para evaluar agentes de ciencia de datos en flujos de trabajo basados en código real en lugar de indicaciones estáticas. El conjunto de referencia, DSGym-Tasks, consolida y limpia conjuntos de datos anteriores y agrega DSBio y DSPredict, alcanzando 972 tareas de análisis de datos y 114 tareas de predicción en dominios como finanzas, bioinformática y ciencias de la tierra. El análisis abreviado de los puntos de referencia existentes muestra que eliminar el acceso a los datos solo reduce moderadamente la precisión en muchos casos, lo que confirma que las evaluaciones anteriores a menudo miden la coincidencia de patrones en el texto en lugar de un análisis de datos genuino. Los modelos de frontera logran un rendimiento sólido en tareas de análisis generales limpias y en tareas de predicción más sencillas, pero funcionan mal en DSBio y DSPredict-Hard, donde la mayoría de los errores provienen de problemas de conexión a tierra del dominio y de procesos de modelado conservadores y poco ajustados. El conjunto de datos DSGym-SFT, construido a partir de 2000 trayectorias sintéticas filtradas, permite que un agente basado en 4B Qwen3 se acerque al nivel de precisión GPT-4o en varios puntos de referencia de análisis, lo que muestra que la ejecución de la supervisión basada en tareas estructuradas es una forma eficaz de mejorar los agentes de ciencia de datos.
Consulte el documento y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.