¿Son más difíciles de predecir los valores atípicos?  Un análisis empírico sobre si el ML… |  de Samuele Mazzanti |  febrero de 2024

Un análisis empírico sobre si los modelos ML cometen más errores al hacer predicciones sobre valores atípicos

[Image by Author]

ohLos usuarios son individuos que son muy diferentes de la mayoría de la población. Tradicionalmente, entre los profesionales existe cierta desconfianza hacia los valores atípicos, por lo que a menudo se adoptan medidas ad hoc, como eliminarlos del conjunto de datos.

Sin embargo, cuando se trabaja con datos reales, los valores atípicos están en el orden del día. ¡A veces, son incluso más importantes que otras observaciones! Tomemos, por ejemplo, el caso de personas que son atípicas porque son clientes que pagan muy bien: no desea descartarlos; en realidad, probablemente desee tratarlos con especial cuidado.

Un aspecto interesante (y bastante inexplorado) de los valores atípicos es cómo interactúan con los modelos de aprendizaje automático. Mi sensación es que los científicos de datos creen que los valores atípicos perjudican el rendimiento de sus modelos. Pero esta creencia probablemente se base más en una idea preconcebida que en evidencia real.

Así, la pregunta que intentaré responder en este artículo es la siguiente:

¿Es más probable que un modelo de aprendizaje automático cometa errores al hacer predicciones sobre valores atípicos?

Supongamos que tenemos un modelo que ha sido entrenado con estos puntos de datos:

Distribución de un conjunto de datos de entrenamiento. [Image by Author]

Recibimos nuevos puntos de datos para los cuales el modelo debería hacer predicciones.

Consideremos dos casos:

  1. el nuevo punto de datos es un valor atípico, es decir, diferente de la mayoría de las observaciones de entrenamiento.
  2. El nuevo punto de datos es “estándar”, es decir, se encuentra en un área que es bastante “densa” en puntos de entrenamiento.
Puntos de datos de prueba [Image by Author]

Nos gustaría entender si, en general, el valor atípico es más difícil de predecir que la observación estándar.