Diez frases ingeniosas de Python para calcular la importancia de las características del modelo

Diez frases ingeniosas de Python para calcular la importancia de las características del modelo
Imagen del editor

Comprender los modelos de aprendizaje automático es un aspecto vital para crear sistemas de IA confiables. La comprensibilidad de tales modelos se basa en dos propiedades básicas: explicabilidad e interpretabilidad. Lo primero se refiere a qué tan bien podemos describir las “entrañas” de un modelo (es decir, cómo funciona y se ve internamente), mientras que lo segundo se refiere a qué tan fácilmente los humanos pueden comprender las relaciones capturadas entre las características de entrada y los resultados previstos. Como podemos ver, la diferencia entre ellos es sutil, pero hay un puente poderoso que los conecta: la importancia de las características.

Este artículo presenta 10 frases ingeniosas simples pero efectivas de Python para calcular la importancia de las características del modelo desde diferentes perspectivas, ayudándolo a comprender no solo cómo se comporta su modelo de aprendizaje automático, sino también por qué hizo las predicciones que hizo.

1. Importancia de las funciones integradas en los modelos basados en árboles de decisión

Los modelos basados en árboles, como bosques aleatorios y conjuntos XGBoost, le permiten obtener fácilmente una lista de ponderaciones de características importantes utilizando un atributo como:

importancias = modelo.feature_importances_

importancias = modelo.características_importancias_

Tenga en cuenta que el modelo debe contener un modelo entrenado a priori. El resultado es una matriz que contiene la importancia de las características, pero si desea una versión más explicativa, este código mejora la línea anterior incorporando los nombres de las características para un conjunto de datos como iris, todo en una sola línea.

print(“Importancias de características:”, lista(zip(iris.feature_names, model.feature_importances_)))

imprimir(“Importancias de las características:”, lista(cremallera(iris.nombres_de_características, modelo.características_importancias_)))

2. Coeficientes en modelos lineales

Los modelos lineales más simples, como la regresión lineal y la regresión logística, también exponen los pesos de las características mediante coeficientes aprendidos. Esta es una forma de obtener el primero de ellos de forma directa y ordenada (elimine el índice posicional para obtener todos los pesos):

importancias = abs(modelo.coef_[0])

importancias = abdominales(modelo.coef_[0])

3. Clasificación de funciones por importancia

De manera similar a la versión mejorada del número 1 anterior, este útil resumen se puede utilizar para clasificar las características por sus valores de importancia en orden descendente: una excelente visión de qué características son los contribuyentes más fuertes o más influyentes a las predicciones del modelo.

características_clasificadas = ordenadas(zip(características, importancias), clave=lambda x: x[1]reverso=Verdadero)

características_clasificadas = ordenado(cremallera(características, importancias), llave=lambda incógnita: incógnita[1], contrarrestar=Verdadero)

4. Importancia de la permutación independiente del modelo

La importancia de la permutación es un enfoque adicional para medir la importancia de una característica, es decir, mezclando sus valores y analizando cómo disminuye una métrica utilizada para medir el rendimiento del modelo (por ejemplo, precisión o error). En consecuencia, esta frase independiente del modelo de scikit-learn se utiliza para medir las caídas de rendimiento como resultado de mezclar aleatoriamente los valores de una característica.

de sklearn.inspection importar permutation_importance resultado = permutation_importance(modelo, X, y).importances_mean

de aprender.inspección importar importancia_permutación

resultado = importancia_permutación(modelo, incógnita, y).importancia_media

5. Pérdida media de precisión en permutaciones de validación cruzada

Este es un resumen eficaz para probar permutaciones en el contexto de procesos de validación cruzada, analizando cómo la combinación aleatoria de cada característica afecta el rendimiento del modelo en K pliegues.

importar numpy como np desde sklearn.model_selection importar cross_val_score importancias = [(cross_val_score(model, X.assign(**{f: np.random.permutation(X[f])}), y).media()) para f en X.columnas]

importar engordado como notario público

de aprender.selección_modelo importar puntuación_cross_val

importancias = [(cross_val_score(model, X.assign(**{f: np.random.permutation(X[f])}), y).significar()) para F en incógnita.columnas]

6. Visualizaciones de importancia de permutación con Eli5

Eli5, una forma abreviada de “Explica como si tuviera 5 (años)”, es, en el contexto del aprendizaje automático de Python, una biblioteca para una explicabilidad muy clara. Proporciona una vista HTML levemente interactiva visualmente de las características importantes, lo que lo hace particularmente útil para portátiles y adecuado tanto para modelos lineales como de árbol entrenados.

importar eli5 eli5.show_weights(modelo, feature_names=características)

importar eli5

eli5.mostrar_pesos(modelo, nombres_de_características=características)

7. Importancia global de la función SHAP

SHAP es una biblioteca popular y poderosa para profundizar en la explicación de la importancia de las características del modelo. Se puede utilizar para calcular los valores SHAP absolutos medios (indicadores de importancia de características en SHAP) para cada característica, todo ello bajo un enfoque de medición teóricamente fundamentado y independiente del modelo.

importar numpy como np importar shap shap_values = shap.TreeExplainer(model).shap_values(X) importancias = np.abs(shap_values).mean(0)

importar engordado como notario público

importar dar forma

valores_forma = dar forma.ÁrbolExplicador(modelo).valores_forma(incógnita)

importancias = notario público.abdominales(valores_forma).significar(0)

8. Gráfico resumido de los valores SHAP

A diferencia de las importancias globales de las características SHAP, el gráfico de resumen proporciona no solo la importancia global de las características en un modelo, sino también sus direcciones, lo que ayuda visualmente a comprender cómo los valores de las características impulsan las predicciones hacia arriba o hacia abajo.

shap.summary_plot(shap_values, X)

dar forma.trama_resumen(valores_forma, incógnita)

Veamos un ejemplo visual del resultado obtenido:

trama-resumen-de-shap

9. Explicaciones de predicción única con SHAP

Un aspecto particularmente atractivo de SHAP es que ayuda a explicar no sólo el comportamiento general del modelo y la importancia de las características, sino también cómo las características influyen específicamente en una sola predicción. En otras palabras, podemos revelar o descomponer una predicción individual, explicando cómo y por qué el modelo arrojó ese resultado específico.

shap.force_plot(shap.TreeExplainer(modelo).valor_esperado, valores_shap[0]X.iloc[0])

dar forma.trama_fuerza(dar forma.ÁrbolExplicador(modelo).valor_esperado, valores_forma[0], incógnita.iloc[0])

10. Importancia de las características independientes del modelo con LIME

LIME es una biblioteca alternativa a SHAP que genera explicaciones sustitutas locales. En lugar de utilizar una u otra, estas dos bibliotecas se complementan bien, lo que ayuda a aproximar mejor la importancia de las características en torno a las predicciones individuales. Este ejemplo lo hace para un modelo de regresión logística previamente entrenado.

de lime.lime_tabular import LimeTabularExplainer exp = LimeTabularExplainer(X.values, feature_names=features).explain_instance(X.iloc[0]modelo.predict_proba)

de cal.lima_tabular importar LimaTabularExplicación

exp. = LimaTabularExplicación(incógnita.valores, nombres_de_características=características).explicar_instancia(incógnita.iloc[0], modelo.predecir_proba)

Concluyendo

Este artículo reveló 10 frases ingeniosas de Python para ayudar a comprender, explicar e interpretar mejor los modelos de aprendizaje automático con un enfoque en la importancia de las características. Comprender cómo funciona tu modelo desde dentro ya no es una misteriosa caja negra con la ayuda de estas herramientas.

Diez frases ingeniosas de Python para calcular la importancia de las características del modelo

ByEquipo de 7 minutos

1. Importancia de las funciones integradas en los modelos basados en árboles de decisión

2. Coeficientes en modelos lineales

3. Clasificación de funciones por importancia

4. Importancia de la permutación independiente del modelo

5. Pérdida media de precisión en permutaciones de validación cruzada

6. Visualizaciones de importancia de permutación con Eli5

7. Importancia global de la función SHAP

8. Gráfico resumido de los valores SHAP

9. Explicaciones de predicción única con SHAP

10. Importancia de las características independientes del modelo con LIME

Concluyendo

By Equipo de 7 minutos

Related Post

Los funcionarios estadounidenses quieren acceso temprano a la IA avanzada y las grandes empresas han estado de acuerdo

Inworld AI lanza Realtime TTS-2: un modelo de voz de circuito cerrado que se adapta a tu forma de hablar realmente

Simplificación del desarrollo de IA generativa con MLflow v3.10 en Amazon SageMaker AI

You missed

Los bebés pueden “captar” los bostezos de su madre en el útero, según un nuevo estudio

Marco Rubio, más despistado que nunca sobre la guerra con Irán

Listos para el despegue turístico « Euro Weekly News

Blog de chismes deportivos n.° 1 en el mundo

ByEquipo de 7 minutos

1. Importancia de las funciones integradas en los modelos basados ​​en árboles de decisión

2. Coeficientes en modelos lineales

3. Clasificación de funciones por importancia

4. Importancia de la permutación independiente del modelo

5. Pérdida media de precisión en permutaciones de validación cruzada

6. Visualizaciones de importancia de permutación con Eli5

7. Importancia global de la función SHAP

8. Gráfico resumido de los valores SHAP

9. Explicaciones de predicción única con SHAP

10. Importancia de las características independientes del modelo con LIME

Concluyendo

By Equipo de 7 minutos

Related Post

You missed

1. Importancia de las funciones integradas en los modelos basados en árboles de decisión