Tutorial de Sklearn: Módulo 2. Tomé el MOOC oficial de sklearn… |  de Yoann Mocquin |  noviembre de 2023

Este segundo módulo se centra en el concepto de puntuaciones de modelos, incluida la puntuación de la prueba y la puntuación del tren. Luego, esas puntuaciones se utilizan para definir el sobreajuste y el desajuste, así como los conceptos de sesgo y varianza.

También veremos cómo inspeccionar el rendimiento del modelo con respecto a su complejidad y la cantidad de muestras de entrada.

Todas las imágenes por autor.

Si no lo entendiste, te recomiendo encarecidamente mi primera publicación de esta serie; será mucho más fácil seguirla:

El primer concepto del que quiero hablar es puntuación del tren y puntuación de la prueba. La puntuación es una forma de expresar numéricamente el desempeño de un modelo.. Para calcular dicho rendimiento, utilizamos una función de puntuación que agrega la “distancia” o “error” entre lo que predijo el modelo y la verdad fundamental. Por ejemplo:

model = LinearRegressor()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
test_score = some_score_function(y_predicted, y_test)

En sklearn, todos los modelos (también llamados estimadores) proporcionan una forma aún más rápida de calcular una puntuación utilizando el modelo:

# the model will computed the predicted y-value from X_test, 
# and compare it to y_test with a score function
test_score = model.score(X_test, y_test)
train_score = model.score(X_train, y_train)

La función de puntuación real del modelo depende del modelo y del tipo de problema para el que está diseñado.. Por ejemplo, un regresor lineal es el coeficiente R² (regresión numérica), mientras que un clasificador de vector de soporte (clasificación) utilizará la precisión, que es básicamente el número de buenas predicciones de clase.