¿Son más difíciles de predecir los valores atípicos? Un análisis empírico sobre si el ML… | de Samuele Mazzanti

¿Son más difíciles de predecir los valores atípicos? Un análisis empírico sobre si el ML… | de Samuele Mazzanti | febrero de 2024

Un análisis empírico sobre si los modelos ML cometen más errores al hacer predicciones sobre valores atípicos

ohLos usuarios son individuos que son muy diferentes de la mayoría de la población. Tradicionalmente, entre los profesionales existe cierta desconfianza hacia los valores atípicos, por lo que a menudo se adoptan medidas ad hoc, como eliminarlos del conjunto de datos.

Sin embargo, cuando se trabaja con datos reales, los valores atípicos están en el orden del día. ¡A veces, son incluso más importantes que otras observaciones! Tomemos, por ejemplo, el caso de personas que son atípicas porque son clientes que pagan muy bien: no desea descartarlos; en realidad, probablemente desee tratarlos con especial cuidado.

Un aspecto interesante (y bastante inexplorado) de los valores atípicos es cómo interactúan con los modelos de aprendizaje automático. Mi sensación es que los científicos de datos creen que los valores atípicos perjudican el rendimiento de sus modelos. Pero esta creencia probablemente se base más en una idea preconcebida que en evidencia real.

Así, la pregunta que intentaré responder en este artículo es la siguiente:

¿Es más probable que un modelo de aprendizaje automático cometa errores al hacer predicciones sobre valores atípicos?

Supongamos que tenemos un modelo que ha sido entrenado con estos puntos de datos:

Distribución de un conjunto de datos de entrenamiento. [Image by Author]

Recibimos nuevos puntos de datos para los cuales el modelo debería hacer predicciones.

Consideremos dos casos:

el nuevo punto de datos es un valor atípico, es decir, diferente de la mayoría de las observaciones de entrenamiento.
El nuevo punto de datos es “estándar”, es decir, se encuentra en un área que es bastante “densa” en puntos de entrenamiento.

Puntos de datos de prueba [Image by Author]

Nos gustaría entender si, en general, el valor atípico es más difícil de predecir que la observación estándar.

¿Son más difíciles de predecir los valores atípicos? Un análisis empírico sobre si el ML… | de Samuele Mazzanti | febrero de 2024

ByEquipo de 7 minutos

Un análisis empírico sobre si los modelos ML cometen más errores al hacer predicciones sobre valores atípicos

By Equipo de 7 minutos

Related Post

Cree un canal completo de evaluación y observabilidad de Langfuse para seguimiento, gestión rápida, puntuación y experimentos

NVIDIA AI lanza Gated DeltaNet-2: una capa de atención lineal que desacopla el borrado y la escritura en la regla delta

Microsoft Research lanza Webwright: un marco de agente web nativo de terminal que obtiene una puntuación del 60,1 % en Odysseys, frente al 33,5 % de la base GPT-5.4

You missed

Una garrapata se llevó a nuestro hermoso Leo: Una advertencia para los amantes de los perros en España – El Líder

¿Quién es Caleb Shomo? 5 cosas que debes saber sobre Beartooth Rockstar – Hollywood Life

El universo está lleno de agujeros negros “imposibles”. Ahora los científicos saben por qué

Resumen de la Segunda Enmienda: Virginia prohíbe las “armas de fuego de asalto”