En ciencia de datos, nos esforzamos por mejorar el rendimiento poco deseable de nuestro modelo a medida que ajustamos los datos disponibles. Probamos técnicas que van desde cambiar la complejidad del modelo hasta el procesamiento y preprocesamiento de datos. Sin embargo, la mayoría de las veces, se nos recomienda “simplemente” obtener más datos. Además de que es más fácil decirlo que hacerlo, tal vez deberíamos hacer una pausa y cuestionar la sabiduría convencional. En otras palabras,
¿Agregar más datos siempre produce un mejor rendimiento?
En este artículo, pongamos a prueba este dicho utilizando datos reales y una herramienta que construí para dicha investigación. Arrojaremos luz sobre las sutilezas asociadas con la recopilación y expansión de datos, cuestionando la noción de que tales esfuerzos mejoran automáticamente el desempeño y exigiendo una práctica más consciente y estratégica.
¿Qué significa más datos?
Primero definamos qué queremos decir exactamente con “más datos”. En el entorno más general, comúnmente imaginamos que los datos son tabulares. Y cuando se sugiere la idea de adquirir más datos, lo primero que nos viene a la mente es agregar más filas a nuestro marco de datos (es decir, más puntos de datos o muestras).
Sin embargo, un enfoque alternativo sería agregar más columnas (es decir, más atributos o características). El primer enfoque expande los datos verticalmente, mientras que el segundo lo hace horizontalmente.
A continuación consideraremos los puntos en común y peculiaridades de los dos enfoques.
Caso 1: Más muestras
Consideremos el primer caso de agregar más muestras. ¿Agregar más muestras necesariamente mejora el rendimiento del modelo?
En un intento de llegar al fondo del asunto, creé una herramienta alojada como un espacio HuggingFace para abordar esta pregunta. Esta herramienta permite al usuario experimentar con los efectos de cambiar el conjunto de atributos, el tamaño de la muestra y/o la complejidad del modelo al analizar el conjunto de datos UCI Irvine – Predecir la deserción escolar y el éxito académico de los estudiantes. [1] con un árbol de decisión. Si bien tanto la herramienta como el conjunto de datos están destinados a fines educativos, aún podremos obtener información valiosa que se generalice más allá de este entorno básico.
…
Digamos que el decano de la escuela le entrega algunos registros de los estudiantes y le pide que identifique los factores que predicen la deserción estudiantil para abordar el problema. Para empezar, se le proporcionan 1500 puntos de datos. Usted crea un conjunto de prueba oculto de 700 puntos de datos y usa el resto para el entrenamiento. Los datos que se le proporcionan contienen las nacionalidades de los estudiantes y las ocupaciones de los padres, así como el PIB y las tasas de inflación y desempleo.
Sin embargo, los resultados no parecen impresionantes. La puntuación de la F1 es baja. Entonces, naturalmente, le pides a tu decano que mueva algunos hilos para adquirir más registros de estudiantes (tal vez de años anteriores u otras escuelas), lo cual lo hacen durante un par de semanas. Vuelve a ejecutar el experimento cada vez que obtiene un nuevo lote de registros de estudiantes. La sabiduría convencional sugiere que agregar más datos mejora constantemente el proceso de modelado (la puntuación de la Prueba F1 debería aumentar de manera monótona), pero eso no es lo que se ve. El rendimiento fluctúa erráticamente a medida que ingresan más datos. Estás confundido. ¿Por qué más datos afectarían el rendimiento? ¿Por qué la puntuación de la F1 cayó del 46 % al 39 % cuando se añadió uno de los lotes? ¿No debería la relación ser causal?
Bueno, la pregunta es realmente si muestras adicionales necesariamente proporcionan más información. Primero reflexionemos sobre la naturaleza de estas muestras adicionales:
Podrían ser falsos (es decir, un error en la recopilación de datos) Podrían estar sesgados (por ejemplo, sobrerrepresentar un caso especial que no se alinea con la distribución verdadera representada por el conjunto de prueba) El conjunto de prueba en sí puede estar sesgado… Algunos lotes pueden introducir patrones falsos y luego cancelarlos en otros lotes. Los atributos recopilados establecen poca o ninguna correlación o causalidad con el objetivo (es decir, hay variables ocultas que no se tienen en cuenta). Entonces, no importa cuántas muestras agregues, ¡no te llevarán a ninguna parte!
Entonces, sí, agregar más datos es generalmente una buena idea, pero debemos prestar atención a las inconsistencias en los datos (por ejemplo, dos estudiantes de la misma nacionalidad y estatus social pueden terminar en caminos diferentes debido a otros factores). También debemos evaluar cuidadosamente la utilidad de los atributos disponibles (por ejemplo, tal vez el PIB no tenga nada que ver con la tasa de deserción estudiantil).
Algunos pueden argumentar que esto no sería un problema cuando se tiene una gran cantidad de datos reales (después de todo, se trata de un conjunto de datos relativamente pequeño). Ese argumento tiene mérito, pero sólo si los datos están bien homogeneizados y tienen en cuenta las diferentes variabilidades y “grados de libertad” del conjunto de atributos (es decir, el rango de valores que cada atributo puede tomar y las posibles combinaciones de estos valores tal como se ven en el mundo real). Las investigaciones han mostrado casos en los que grandes conjuntos de datos que se consideran estándar de oro muestran sesgos de maneras interesantes y oscuras que no eran fáciles de detectar a primera vista, lo que genera informes engañosos de alta precisión. [2].
Caso 2: Más atributos
Ahora, hablando de atributos, consideremos un escenario alternativo en el que su decano no logra adquirir más registros de estudiantes. Sin embargo, vienen y dicen: “Oye, no pude obtener más registros de estudiantes… pero pude usar algo de SQL para obtener más atributos para tus datos… Estoy seguro de que ahora puedes mejorar tu rendimiento. ¿Verdad?… ¡¿Verdad?!”
Bueno, pongamos eso a prueba. Veamos el siguiente ejemplo donde agregamos progresivamente más atributos, ampliando el perfil de los estudiantes e incluyendo su estado civil, financiero y migratorio. Cada vez que agregamos un atributo, volvemos a entrenar el árbol y evaluamos su desempeño. Como puede ver, si bien algunos incrementos mejoran el rendimiento, otros lo perjudican. Pero de nuevo, ¿por qué?
Al observar más de cerca el conjunto de atributos, encontramos que no todos los atributos contienen información útil. El mundo real es complicado… Algunos atributos (por ejemplo, Género) pueden proporcionar ruido o correlaciones falsas en el conjunto de entrenamiento que no se generalizarán bien en el conjunto de prueba (sobreajuste).
Además, aunque la sabiduría popular dice que a medida que agrega más datos debe aumentar la complejidad del modelo, esta práctica no siempre produce el mejor resultado. A veces, al agregar un atributo, reducir la complejidad del modelo puede ayudar con el sobreajuste (por ejemplo, cuando se introdujo Course en la mezcla).
Conclusión
Al dar un paso atrás y observar el panorama general, vemos que, si bien recopilar más datos es una causa noble, debemos tener cuidado de no asumir automáticamente que el rendimiento mejorará. Hay dos fuerzas en juego aquí: qué tan bien se ajusta el modelo a los datos de entrenamiento y qué tan confiablemente ese ajuste se generaliza y se extiende a datos invisibles.
Resumamos cómo cada tipo de “más datos” influye en estas fuerzas, dependiendo de si los datos agregados son buenos (representativos, consistentes, informativos) o malos (sesgados, ruidosos, inconsistentes):
• El error de prueba suele disminuir. El modelo se vuelve más estable y seguro.
• El error de entrenamiento puede variar debido a ejemplos contradictorios.
• El error de prueba a menudo aumenta.
Más atributos (columnas) • El error de entrenamiento generalmente disminuye (más señal conduce a una representación más rica).
• El error de prueba disminuye a medida que los atributos codifican patrones verdaderos y generalizables.
• El error de entrenamiento suele disminuir (el modelo memoriza patrones ruidosos).
• El error de prueba aumenta debido a correlaciones espurias.
La generalización no se trata sólo de cantidad, sino también de calidad y del nivel adecuado de complejidad del modelo.
Para concluir, la próxima vez que alguien sugiera que debería “simplemente” obtener más datos para mejorar mágicamente la precisión, analice con esa persona las complejidades de dicho plan. Hable sobre las características de los datos adquiridos en términos de naturaleza, tamaño y calidad. Señale la interacción matizada entre los datos y las complejidades del modelo. ¡Esto ayudará a que su esfuerzo valga la pena!
Lecciones para interiorizar:
Siempre que sea posible, no confíe en la palabra de los demás (o la mía). ¡Experimenta tú mismo! Al agregar más puntos de datos para el entrenamiento, pregúntese: ¿Estas muestras representan el fenómeno que está modelando? ¿Están mostrando al modelo casos realistas más interesantes? ¿O son parciales y/o inconsistentes? Al agregar más atributos, pregúntese: ¿Se supone que estos atributos transportan información que mejora nuestra capacidad para hacer mejores predicciones, o es principalmente ruido? En última instancia, realice un ajuste de hiperparámetros y una validación adecuada para eliminar dudas al evaluar qué tan informativos son los nuevos datos de entrenamiento.
¡Pruébalo tú mismo!
Si desea explorar usted mismo la dinámica que se muestra en este artículo, tengo la herramienta interactiva aquí. A medida que experimente ajustando el tamaño de la muestra, la cantidad de atributos y/o la profundidad del modelo, observará el impacto de estos ajustes en el rendimiento del modelo. Esta experimentación enriquece su perspectiva y comprensión de los mecanismos subyacentes a la ciencia y el análisis de datos.
Referencias:
[1] MVMartins, D. Tolledo, J. Machado, LMT Baptista, V.Realinho. (2021) “Predicción temprana del desempeño de los estudiantes en la educación superior: un estudio de caso” Tendencias y aplicaciones en sistemas y tecnologías de la información, vol.1, en la serie Avances en sistemas inteligentes y computación. Saltador. DOI: 10.1007/978-3-030-72657-7_16. Este conjunto de datos tiene una licencia Creative Commons Attribution 4.0 International (CC BY 4.0). Esto permite compartir y adaptar los conjuntos de datos para cualquier propósito, siempre que se otorgue el crédito apropiado.
[2] Z. Liu y K. He, La batalla de una década contra el sesgo de los conjuntos de datos: ¿Ya llegamos a ese punto? (2024), arXiv: https://arxiv.org/abs/2403.08632