Un análisis empírico sobre si los modelos ML cometen más errores al hacer predicciones sobre valores atípicos
ohLos usuarios son individuos que son muy diferentes de la mayoría de la población. Tradicionalmente, entre los profesionales existe cierta desconfianza hacia los valores atípicos, por lo que a menudo se adoptan medidas ad hoc, como eliminarlos del conjunto de datos.
Sin embargo, cuando se trabaja con datos reales, los valores atípicos están en el orden del día. ¡A veces, son incluso más importantes que otras observaciones! Tomemos, por ejemplo, el caso de personas que son atípicas porque son clientes que pagan muy bien: no desea descartarlos; en realidad, probablemente desee tratarlos con especial cuidado.
Un aspecto interesante (y bastante inexplorado) de los valores atípicos es cómo interactúan con los modelos de aprendizaje automático. Mi sensación es que los científicos de datos creen que los valores atípicos perjudican el rendimiento de sus modelos. Pero esta creencia probablemente se base más en una idea preconcebida que en evidencia real.
Así, la pregunta que intentaré responder en este artículo es la siguiente:
¿Es más probable que un modelo de aprendizaje automático cometa errores al hacer predicciones sobre valores atípicos?
Supongamos que tenemos un modelo que ha sido entrenado con estos puntos de datos:
Recibimos nuevos puntos de datos para los cuales el modelo debería hacer predicciones.
Consideremos dos casos:
- el nuevo punto de datos es un valor atípico, es decir, diferente de la mayoría de las observaciones de entrenamiento.
- El nuevo punto de datos es “estándar”, es decir, se encuentra en un área que es bastante “densa” en puntos de entrenamiento.
Nos gustaría entender si, en general, el valor atípico es más difícil de predecir que la observación estándar.