Descubra cómo las visualizaciones, los algoritmos y las estadísticas le ayudan a identificar anomalías en sus tareas de aprendizaje automático.
Imagina una habitación llena de globos de colores, cada uno de los cuales simboliza un punto de datos en un conjunto de datos. Debido a sus diferentes características, los globos flotan a diferentes alturas. Ahora imagina algunas globos llenos de helio que inesperadamente se elevan muy por encima del resto. Así como estos globos excepcionales alteran la uniformidad de la sala, los valores atípicos alteran el patrón en un conjunto de datos.
Volviendo de esta colorida analogía a la pura estadística, valores atípicos se definen como anomalías, o mejor, puntos de datos que se desvían significativamente del resto del conjunto de datos.
Considere un Algoritmo de aprendizaje automático desarrollado para diagnosticar enfermedades basándose en datos de pacientes. En este ejemplo del mundo real, los valores atípicos podrían ser valores extremadamente altos en resultados de laboratorio o parámetros fisiológicos. Si bien su origen puede consistir en diversas razones como errores de recopilación de datos, imprecisiones de medicióno genuino eventos rarossu presencia puede llevar al algoritmo a realizar diagnósticos incorrectos.
Esta es la razón por la que nosotros, los profesionales del aprendizaje automático o la ciencia de datos, siempre debemos tratar los valores atípicos con cuidado.
En esta breve publicación, analizaré varios métodos para identificar y eliminar de manera eficiente los valores atípicos de sus datos.
Uno de ellos es SVMque exploré en esta publicación.
Los valores atípicos son puntos de datos no representativos en un conjunto de datos, o mejor, puntos de datos que se desvían significativamente del resto. A pesar de su definición simple, detectar estas anomalías no siempre es sencillo, pero primero respondamos la siguiente pregunta básica.
¿Por qué queremos detectar valores atípicos en un conjunto de datos?
Existen dos respuestas a esta pregunta. El primera razón para detectar valores atípicos es que estos…