La verdad nunca es perfecta. Desde mediciones científicas hasta anotaciones humanas utilizadas para entrenar modelos de aprendizaje profundo, la verdad de tierra siempre tiene cierta cantidad de errores. Imagenet, posiblemente el conjunto de datos de imágenes más mejor curado tiene Errores de 0.3% en anotaciones humanas. Entonces, ¿cómo podemos evaluar modelos predictivos utilizando tales etiquetas erróneas?

En este artículo, exploramos cómo explicar los errores en las etiquetas de datos de prueba y estimamos la precisión «verdadera» de un modelo.

Ejemplo: clasificación de imágenes

Digamos que hay 100 imágenes, cada una que contiene un gato o un perro. Las imágenes están etiquetadas por anotadores humanos que se sabe que tienen una precisión del 96% (Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ). Si entrenamos un clasificador de imagen en algunos de estos datos y encontramos que tiene una precisión del 90% en un conjunto de retención (Aᵐᵒᵈᵉˡ), ¿cuál es la precisión «verdadera» del modelo (Aᵗʳᵘᵉ)? Un par de observaciones primero:

  1. Dentro del 90% de las predicciones de que el modelo se puso «correcto», algunos ejemplos pueden haber sido etiquetados incorrectamente, lo que significa que tanto el modelo como la verdad del suelo están mal. Esto infla artificialmente la precisión medida.
  2. Por el contrario, dentro del 10% de las predicciones «incorrectas», algunas pueden ser casos en los que el modelo es correcto y la etiqueta de la verdad de tierra es incorrecta. Esto desinfla artificialmente la precisión medida.

Dadas estas complicaciones, ¿cuánto puede variar la verdadera precisión?

Rango de precisión verdadera

Verdadera precisión del modelo para errores perfectamente correlacionados y perfectamente no correlacionados de modelo y etiqueta. Figura del autor.

La verdadera precisión de nuestro modelo depende de cómo se correlacionen sus errores con los errores en las etiquetas de la verdad de tierra. Si los errores de nuestro modelo se superponen perfectamente con los errores de verdad de tierra (es decir, el modelo está mal exactamente de la misma manera que los etiquetadores humanos), su verdadera precisión es:

Aᵗʳᵘᵉ = 0.90 – (1–0.96) = 86%

Alternativamente, si nuestro modelo está mal de la manera opuesta como los etiquetadores humanos (correlación negativa perfecta), su verdadera precisión es:

Aᵗʳᵘᵉ = 0.90 + (1–0.96) = 94%

O más generalmente:

Aᵗʳᵘᵉ = aᵐᵒᵈᵉˡ ± (1 – aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)

Es importante tener en cuenta que la verdadera precisión del modelo puede ser tanto más baja como más alta que su precisión informada, dependiendo de la correlación entre los errores del modelo y los errores de verdad de tierra.

Estimación probabilística de la verdadera precisión

En algunos casos, las inexactitudes entre las etiquetas se extienden aleatoriamente entre los ejemplos y no están sesgadas sistemáticamente hacia ciertas etiquetas o regiones del espacio de características. Si las inexactitudes del modelo son independientes de las inexactitudes en las etiquetas, podemos obtener una estimación más precisa de su verdadera precisión.

Cuando medimos Aᵐᵒᵈᵉˡ (90%), contamos casos en los que la predicción del modelo coincide con la etiqueta de la verdad de tierra. Esto puede suceder en dos escenarios:

  1. Tanto el modelo como la verdad terrestre son correctos. Esto sucede con probabilidad Aᵗʳᵘᵉ × Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ.
  2. Tanto el modelo como la verdad terrestre son incorrectas (de la misma manera). Esto sucede con probabilidad (1 – Aᵗʳᵘᵉ) × (1 – Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ).

Bajo independencia, podemos expresar esto como:

Aᵐᵒᵈᵉˡ = aᵗʳᵘᵉ × aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ + (1 – aᵗʳᵘᵉ) × (1 – aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)

Reorganizando los términos, obtenemos:

Aᵗʳᵘᵉ = (aᵐᵒᵈᵉˡ + aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ – 1) / (2 × aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ – 1)

En nuestro ejemplo, eso es igual (0.90 + 0.96–1) / (2 × 0.96–1) = 93.5%, que está dentro del rango de 86% a 94% que derivamos anteriormente.

La paradoja de la independencia

Conectando Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ como 0.96 de nuestro ejemplo, obtenemos

Aᵗʳᵘᵉ = (aᵐᵒᵈᵉˡ – 0.04) / (0.92). Vamos a trazar esto a continuación.

La verdadera precisión en función de la precisión informada del modelo cuando la precisión de la verdad del suelo = 96%. Figura del autor.

Extraño, ¿no? Si suponemos que los errores del modelo no están correlacionados con errores de verdad terrestre, entonces su verdadera precisión Aᵗʳᵘᵉ siempre es más alta que la línea 1: 1 cuando la precisión informada es> 0.5. Esto es cierto incluso si variamos Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ:

La precisión «verdadera» del modelo en función de su precisión reportada y precisión de la verdad del suelo. Figura del autor.

Correlación de error: por qué los modelos a menudo luchan donde los humanos

La suposición de independencia es crucial, pero a menudo no se mantiene en la práctica. Si algunas imágenes de gatos son muy borrosas, o algunos perros pequeños se parecen a los gatos, entonces es probable que se correlacionen tanto la verdad del suelo como los del modelo. Esto hace que Aᵗʳᵘᵉ esté más cerca del límite inferior (aᵐᵒᵈᵉˡ – (1 – aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)) que el límite superior.

En términos más generales, los errores del modelo tienden a correlacionarse con los errores de verdad del suelo cuando:

  1. Tanto los humanos como los modelos luchan con los mismos ejemplos «difíciles» (por ejemplo, imágenes ambiguas, casos de borde)
  2. El modelo ha aprendido los mismos sesgos presentes en el proceso de etiquetado humano.
  3. Ciertas clases o ejemplos son inherentemente ambiguas o desafiantes para cualquier clasificador, humano o máquina
  4. Las etiquetas mismas se generan a partir de otro modelo
  5. Hay demasiadas clases (y, por lo tanto, muchas formas diferentes de estar equivocadas)

Mejores prácticas

La verdadera precisión de un modelo puede diferir significativamente de su precisión medida. Comprender esta diferencia es crucial para una evaluación del modelo adecuada, especialmente en dominios donde obtener la verdad de tierra perfecta es imposible o prohibitivamente costoso.

Al evaluar el rendimiento del modelo con la verdad de tierra imperfecta:

  1. Realizar análisis de errores dirigidos: Examine ejemplos donde el modelo no esté de acuerdo con la verdad terrestre para identificar posibles errores de verdad de tierra.
  2. Considere la correlación entre errores: Si sospecha que la correlación entre los errores de verdad del modelo y tierra, la verdadera precisión es probable que esté más cerca del límite inferior (aᵐᵒᵈᵉˡ – (1 – aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)).
  3. Obtener múltiples anotaciones independientes: Tener múltiples anotadores puede ayudar a estimar la precisión de la verdad del suelo de manera más confiable.

Conclusión

En resumen, aprendimos que:

  1. El rango de posible precisión verdadera depende de la tasa de error en la verdad del suelo
  2. Cuando los errores son independientes, la verdadera precisión a menudo es más alta que la medida de los modelos mejor que la oportunidad aleatoria
  3. En los escenarios del mundo real, los errores rara vez son independientes, y la verdadera precisión probablemente esté más cerca del límite inferior

Por automata