Autores: Augusto Cerqua, Marco Letta, Gabriele Pinto
El aprendizaje (ML) ha adquirido un papel central en la economía, las ciencias sociales y la toma de decisiones empresariales. En el sector público, el ML se utiliza cada vez más para los llamados problemas de políticas de predicción: entornos en los que los formuladores de políticas intentan identificar las unidades con mayor riesgo de sufrir un resultado negativo e intervenir de manera proactiva; por ejemplo, centrarse en los subsidios públicos, predecir recesiones locales o anticipar patrones migratorios. En el sector privado, surgen tareas predictivas similares cuando las empresas buscan pronosticar la pérdida de clientes u optimizar la evaluación del riesgo crediticio. En ambos ámbitos, mejores predicciones se traducen en una asignación más eficiente de recursos e intervenciones más efectivas.
Para lograr estos objetivos, los algoritmos de ML se aplican cada vez más a datos de panel, caracterizados por observaciones repetidas de las mismas unidades durante múltiples períodos de tiempo. Sin embargo, los modelos ML no se diseñaron originalmente para su uso con datos de panel, que presentan dimensiones transversales y longitudinales distintivas. Cuando el ML se aplica a datos de panel, existe un alto riesgo de que se produzca un problema sutil pero grave: la fuga de datos. Esto ocurre cuando información que no está disponible en el momento de la predicción ingresa accidentalmente al proceso de entrenamiento del modelo, lo que aumenta el rendimiento predictivo. En nuestro artículo “Sobre el (uso) erróneo del aprendizaje automático con datos de panel” (Cerqua, Letta y Pinto, 2025), publicado recientemente en el Oxford Bulletin of Economics and Statistics, proporcionamos la primera evaluación sistemática de la fuga de datos en ML con datos de panel, proponemos pautas claras para los profesionales e ilustramos las consecuencias a través de una aplicación empírica con datos de condados de EE. UU. disponibles públicamente.
El problema de las fugas
Los datos de panel combinan dos estructuras: una dimensión temporal (unidades observadas a lo largo del tiempo) y una dimensión transversal (múltiples unidades, como regiones o empresas). La práctica estándar de ML, que divide la muestra aleatoriamente en conjuntos de entrenamiento y prueba, supone implícitamente datos independientes e idénticamente distribuidos (iid). Esta suposición se viola cuando se aplican procedimientos de LD predeterminados (como una división aleatoria) a datos de panel, lo que genera dos tipos principales de filtración:
Fuga temporal: la información futura se filtra en el modelo durante la fase de entrenamiento, lo que hace que los pronósticos parezcan irrealmente precisos. Además, la información pasada puede terminar en el conjunto de pruebas, haciendo que las “previsiones” sean retrospectivas. Fuga transversal: aparecen unidades iguales o muy similares tanto en los conjuntos de entrenamiento como en los de prueba, lo que significa que el modelo ya ha “visto” la mayor parte de la dimensión transversal de los datos.
La Figura 1 muestra cómo las diferentes estrategias de división afectan el riesgo de fuga. Una división aleatoria a nivel de unidad de tiempo (Panel A) es la más problemática, ya que introduce fugas tanto temporales como transversales. Alternativas como la división por unidades (Panel B), por grupos (Panel C) o por tiempo (Panel D), mitigan un tipo de fuga pero no el otro. Como resultado, ninguna estrategia elimina por completo el problema: la elección adecuada depende de la tarea en cuestión (ver más abajo), ya que en algunos casos una forma de fuga puede no ser una preocupación real.
Figura 1 | Conjuntos de entrenamiento y prueba bajo diferentes reglas de división
Dos tipos de problemas de política de predicción
Una idea clave del estudio es que los investigadores deben definir claramente su objetivo de predicción ex ante. Distinguimos dos clases amplias de problemas de políticas de predicción:
1. Predicción transversal: la tarea consiste en mapear los resultados entre unidades en el mismo período. Por ejemplo, imputar datos faltantes sobre el PIB per cápita en todas las regiones cuando solo algunas tienen mediciones confiables. La mejor división aquí es a nivel de unidad: se asignan diferentes unidades a conjuntos de entrenamiento y prueba, mientras se mantienen todos los períodos de tiempo. Esto elimina las fugas transversales, aunque persisten las fugas temporales. Pero como la previsión no es el objetivo, éste no es un problema real.
2. Pronóstico secuencial: el objetivo es predecir resultados futuros basándose en datos históricos; por ejemplo, predecir disminuciones de ingresos a nivel de condado con un año de anticipación para desencadenar intervenciones tempranas. En este caso, la división correcta es por tiempo: períodos anteriores para entrenamiento, períodos posteriores para pruebas. Esto evita fugas temporales pero no fugas transversales, lo cual no es una preocupación real ya que se pronostican las mismas unidades a lo largo del tiempo.
El enfoque incorrecto en ambos casos es la división aleatoria por unidad de tiempo (Panel A de la Figura 1), que contamina los resultados con ambos tipos de fugas y produce métricas de rendimiento engañosamente altas.
Directrices prácticas
Para ayudar a los profesionales, resumimos un conjunto de lo que se debe y no se debe hacer al aplicar ML a datos de panel:
Elija la división de la muestra según la pregunta de investigación: basada en unidades para problemas transversales, basada en tiempo para pronósticos. La fuga temporal puede ocurrir no sólo a través de observaciones, sino también a través de predictores. Para realizar pronósticos, utilice únicamente predictores rezagados o invariantes en el tiempo. El uso de variables contemporáneas (por ejemplo, utilizar el desempleo en 2014 para predecir los ingresos en 2014) es conceptualmente incorrecto y crea una fuga de datos temporal. Adaptar la validación cruzada a datos de panel. El CV aleatorio k-fold que se encuentra en la mayoría de los paquetes de software listos para usar es inapropiado, ya que mezcla información pasada y futura. En su lugar, utilice ventanas móviles o expandibles para realizar pronósticos, o CV estratificado por unidades/grupos para predicciones transversales. Asegúrese de que el rendimiento fuera de la muestra se pruebe con datos realmente invisibles, no con datos que ya se hayan encontrado durante el entrenamiento.
Aplicación empírica
Para ilustrar estas cuestiones, analizamos un panel equilibrado de 3.058 condados de EE. UU. entre 2000 y 2019, centrándonos exclusivamente en pronósticos secuenciales. Consideramos dos tareas: un problema de regresión (pronosticar el ingreso per cápita) y un problema de clasificación (pronosticar si el ingreso disminuirá en el año siguiente).
Ejecutamos cientos de modelos, variamos estrategias de división, uso de predictores contemporáneos, inclusión de resultados rezagados y algoritmos (Random Forest, XGBoost, Logit y OLS). Este diseño integral nos permite cuantificar cómo las fugas aumentan el rendimiento. La Figura 2 a continuación informa nuestros principales hallazgos.
El panel A de la Figura 2 muestra el desempeño de pronóstico para tareas de clasificación. Las divisiones aleatorias producen una precisión muy alta, pero esto es ilusorio: el modelo ya ha visto datos similares durante el entrenamiento.
El panel B muestra el desempeño de pronóstico para tareas de regresión. Una vez más, las divisiones aleatorias hacen que los modelos se vean mucho mejor de lo que realmente son, mientras que las divisiones correctas basadas en el tiempo muestran una precisión mucho menor, pero realista.
Figura 2 | Fuga temporal en el problema de previsión.
Panel A – Tarea de clasificación
Panel B – Tarea de regresión
En el artículo, también mostramos que la sobreestimación de la precisión del modelo se vuelve significativamente más pronunciada durante los años marcados por cambios en la distribución y rupturas estructurales, como la Gran Recesión, lo que hace que los resultados sean particularmente engañosos para fines de política.
Por qué es importante
La fuga de datos es más que un problema técnico; tiene consecuencias en el mundo real. En las aplicaciones de políticas, un modelo que parece muy preciso durante la validación puede colapsar una vez implementado, lo que lleva a una mala asignación de recursos, crisis perdidas o una focalización equivocada. En el ámbito empresarial, el mismo problema puede traducirse en malas decisiones de inversión, una orientación ineficiente a los clientes o una falsa confianza en las evaluaciones de riesgos. El peligro es especialmente grave cuando los modelos de aprendizaje automático están destinados a servir como sistemas de alerta temprana, donde la confianza equivocada en un rendimiento inflado puede resultar en fallas costosas.
Por el contrario, los modelos diseñados adecuadamente, aunque sean menos precisos en el papel, proporcionan predicciones honestas y confiables que pueden informar significativamente la toma de decisiones.
Llevar
El aprendizaje automático tiene el potencial de transformar la toma de decisiones tanto en políticas como en negocios, pero solo si se aplica correctamente. Los datos de panel ofrecen grandes oportunidades, pero son especialmente vulnerables a la fuga de datos. Para generar información confiable, los profesionales deben alinear su flujo de trabajo de ML con el objetivo de predicción, tener en cuenta estructuras temporales y transversales y utilizar estrategias de validación que eviten evaluaciones demasiado optimistas y una ilusión de alta precisión. Cuando se siguen estos principios, los modelos evitan la trampa del desempeño inflado y, en cambio, brindan orientación que realmente ayuda a los formuladores de políticas a asignar recursos y a las empresas a tomar decisiones estratégicas acertadas. Dada la rápida adopción del aprendizaje automático con datos de panel tanto en el ámbito público como en el privado, abordar estos obstáculos es ahora una prioridad apremiante para la investigación aplicada.
Referencias
A. Cerqua, M. Letta y G. Pinto, “Sobre el (mal) uso del aprendizaje automático con datos de panel”, Boletín de Economía y Estadística de Oxford (2025): 1–13, https://doi.org/10.1111/obes.70019.