SLa técnica sintética de sobremuestreo de minorías (SMOTE) se usa comúnmente para manejar desequilibrios de clases en conjuntos de datos. Supongamos que hay dos clases y una clase tiene muchas más muestras (clase mayoritaria) que la otra (clase minoritaria). En ese caso, SMOTE generará más muestras sintéticas en la clase minoritaria para que esté a la par con la clase mayoritaria.
En el mundo real, no tendremos conjuntos de datos equilibrados para problemas de clasificación. Tomemos, por ejemplo, un clasificador que predice si un paciente tiene anemia falciforme. Si un paciente tiene niveles anormales de hemoglobina (6 a 11 g/dl), eso es un fuerte predictor de anemia falciforme. Si un paciente tiene niveles de hemoglobina normales (12 mg/dL), entonces ese predictor por sí solo no indica si el paciente tiene anemia de células falciformes.
Sin embargo, alrededor de 100.000 pacientes en EE.UU. son diagnosticados con anemia de células falciformes. Actualmente hay 334,9 millones de ciudadanos estadounidenses. Si tenemos un conjunto de datos de cada ciudadano estadounidense y etiquetamos o no al paciente como falciforme, tenemos el 0,02% de las personas que padecen la enfermedad. Tenemos un desequilibrio de clases importante. Nuestro modelo no puede detectar características significativas para predecir esta anomalía.