Me gustaría agradecer a todos los que se tomaron el tiempo de leer e interactuar con mi artículo. Su apoyo y comentarios son realmente apreciados.
Puedes reproducir el análisis en mi repositorio de GitHub: Credit Scoring with Python.
No se trata solo de entrenar un algoritmo de aprendizaje automático y evaluar su desempeño con un AUC o un coeficiente de Gini.
Muchos principiantes en el modelado se apresuran a entrenar modelos, omitiendo pasos cruciales que determinan si un modelo es realmente sólido e interpretable. Este entusiasmo, que dura sólo unos minutos (el tiempo suficiente para que las métricas de desempeño aparezcan en la pantalla) a menudo oscurece el trabajo más profundo y riguroso que precede a esta etapa.
En riesgo de crédito, la calidad de un modelo depende en gran medida de las variables que utiliza. Una variable que parece predictiva en un conjunto de datos de entrenamiento puede comportarse de manera inconsistente a lo largo del tiempo o en diferentes poblaciones. Si ignoramos esto, corremos el riesgo de construir un modelo que funcione bien en desarrollo pero falle en producción.
Esto plantea tres preguntas fundamentales. ¿Las variables seleccionadas exhiben un riesgo crediticio constante a lo largo del tiempo? ¿La tendencia de este riesgo se mantiene estable año tras año? ¿La distribución de estas variables sigue siendo comparable entre los conjuntos de datos de entrenamiento, prueba y fuera del período?
– Primero defino los conceptos de monotonicidad y estabilidad en la calificación crediticia.
– Luego aplico estos conceptos a las siete variables seleccionadas en mi post anterior.
– Finalmente, evalúo la estabilidad del conjunto de datos utilizando el Índice de Estabilidad de la Población (PSI) a lo largo de los años y en conjuntos de datos de trenes, de prueba y fuera de tiempo.
Presentando los datos
En mi publicación anterior, presenté un método simple que combina el análisis de relaciones de variables con validación cruzada para seleccionar variables de manera sólida para un modelo de puntuación. Este método es fácil de entender, fácil de implementar y poderoso, especialmente cuando se combina con la regresión logística, que sigue siendo el modelo de referencia en calificación crediticia.
Conservé siete variables después del proceso de selección:
Cinco números [person_income, person_age, person_emp_length, loan_int_rate, and loan_percent_income]
y dos categóricos [person_home_ownership and cb_person_default_on_file].
La pregunta que ahora me hago es si estas variables son realmente relevantes para estimar los parámetros del modelo de puntuación final y cómo puedo interpretar la dirección del riesgo de cada variable.
Definición de monotonicidad y estabilidad
La monotonicidad se refiere al análisis de la dirección del riesgo de una variable preseleccionada. Para una variable continua, responde a la siguiente pregunta: cuando el valor de la variable aumenta o disminuye, ¿el riesgo crediticio aumenta o disminuye en consecuencia?
Por ejemplo, en un contexto corporativo, esperamos que cuando aumentan los ingresos de una empresa, su situación financiera mejore. Por el contrario, cuando sus ingresos disminuyen, su situación financiera se deteriora. Esta es la dirección del riesgo.
La estabilidad va un paso más allá. Responde a la pregunta: ¿se respeta consistentemente esta dirección del riesgo a lo largo de varios años, o observamos inversiones de riesgo? Se produce una inversión de riesgo cuando, a pesar de un aumento de los ingresos, la situación financiera se deteriora, o viceversa. La estabilidad brinda una visión a largo plazo del comportamiento de la variable y respalda la toma de decisiones informada.
En el scoring crediticio estudiamos tanto la monotonicidad de las variables como su estabilidad en el tiempo. También estudiamos la estabilidad de las distribuciones variables entre años consecutivos y entre los conjuntos de datos de tren, prueba y fuera de tiempo.
Monotonicidad y estabilidad de variables.
Este análisis actúa como paso de preselección. Si una variable muestra una inversión de riesgo a lo largo del tiempo, debemos tratarla o eliminarla del modelo. Para las variables continuas, el tratamiento normalmente consiste en discretizar la variable y agregar sus contenedores. Para variables categóricas, podemos combinar directamente ciertas categorías.
Definición de la dirección del riesgo
El primer paso es asignar una dirección de riesgo a cada variable.
Para una variable continua, asignamos un signo “+” si esperamos que un aumento en la variable conduzca a un aumento en el riesgo crediticio. Asignamos un signo “-” si esperamos que un aumento conduzca a una disminución del riesgo crediticio.
Para una variable categórica binaria, asignamos un signo “+” si pasar de la categoría de menor riesgo a la de mayor riesgo aumenta el riesgo. Asignamos un signo “-” si disminuye el riesgo.
Para una variable de múltiples categorías, no asignamos un signo binario. En lugar de ello, clasificamos las categorías de menos a más riesgosas en función de su tasa de incumplimiento empírica. La categoría con la tasa de incumplimiento más baja es la de menor riesgo; el que tiene más alto es el más riesgoso. Luego validamos este ranking con expertos en negocios.
La siguiente tabla resume la dirección esperada del riesgo para cada variable continua estudiada. Un “+” significa que se espera que un aumento en la variable aumente el riesgo crediticio y, por lo tanto, la probabilidad de incumplimiento calculada. Un “-” significa lo contrario.
Hago dos comentarios específicos aquí. Para person_age, la edad es una variable sensible que puede discriminar a las contrapartes. Esperamos que tanto las contrapartes muy jóvenes como las muy antiguas asuman un mayor riesgo, lo que dificulta asignar una dirección única. Por lo tanto, dejamos que los datos revelen el patrón de riesgo. Para person_home_ownership, la variable tiene múltiples categorías, lo que hace igualmente difícil asignar una dirección binaria a priori. Esperamos que la categoría ALQUILER tenga el mayor riesgo, seguida de HIPOTECA, luego PROPIEDAD, y la categoría OTRO capte contrapartes en situaciones de vivienda más ambiguas. Dejamos que los datos confirmen este pedido.
Enfoque práctico
En la práctica, evaluamos la tasa de incumplimiento empírico a lo largo del tiempo para valores definidos de las variables explicativas. Para los valores que definimos como riesgosos, esperamos tasas de incumplimiento más altas. Para los valores que definimos como menos riesgosos, esperamos tasas de incumplimiento más bajas.
Para variables continuas, las discretizamos usando cuantiles. Utilizando terciles (Q1, Q2 y Q3) calculamos la tasa de incumplimiento de cada categoría para cada año. Si una variable tiene un signo “+”, la tasa de mora en el T1 debe ser menor que en el T2, la cual debe ser menor que en el T3, para cada período. Gráficamente, la curva del tercer trimestre se sitúa por encima de la curva del segundo trimestre, que a su vez se sitúa por encima de la curva del primer trimestre.
Para las variables categóricas, calculamos la tasa de incumplimiento de cada categoría para cada período. La curva de la categoría de mayor riesgo debe situarse sistemáticamente por encima de las curvas de todas las demás categorías.
Aplicación: Monotonicidad y Estabilidad de las Siete Variables
Aplicamos este marco a las siete variables preseleccionadas. La distribución de la variable “predeterminada” por año en el conjunto de entrenamiento es la siguiente:
Variables continuas
Discretizamos las variables continuas en terciles en el conjunto de entrenamiento.
Ingreso de las Personas Se respeta la monotonicidad del riesgo en todos los periodos. Las contrapartes con ingresos más bajos muestran las tasas de impago más altas en todos los años. No observamos ninguna inversión de riesgo.
Persona Edad No se respeta la monotonicidad del riesgo. Observamos una inversión de riesgo y el segundo trimestre no está presente en todos los años. Esta variable carece del poder predictivo para diferenciar entre contrapartes buenas y muy buenas. Lo excluyo de más modelos.
Duración del empleo La monotonía del riesgo se respeta globalmente durante todos los años.
Tasa de Interés Se respeta la monotonía del riesgo para todos los años.
Ingresos porcentuales de préstamos La monotonicidad del riesgo se respeta globalmente en todos los años para esta variable.
Variables categóricas
Default Histórico (cb_person_default_on_file) Se respeta la monotonicidad del riesgo. Las contrapartes con un historial de incumplimiento muestran tasas de incumplimiento más altas en todos los períodos. Este resultado es enteramente coherente.
Propiedad de vivienda (person_home_ownership) La monotonicidad del riesgo se respeta a nivel global pero no a nivel anual para 2016, 2017 y 2018.
Ante esta situación tenemos varias opciones. Elijo reagrupar la variable en tres categorías: PROPIA, HIPOTECA y (ALQUILER + OTRO). Tras la reagrupación, la monotonía del riesgo se respeta globalmente.
Resumen
Este análisis de monotonicidad me lleva a excluir la variable persona_edad, cuya estabilidad de riesgo no se respeta. Conservo las seis variables restantes para el siguiente paso.
Estabilidad del conjunto de datos
Ahora estudio la estabilidad de distribuciones variables. El objetivo es garantizar que la distribución de cada variable se mantenga constante a lo largo de los años y entre los conjuntos de datos de tren, prueba y fuera de tiempo.
El índice de estabilidad de la población (PSI)
Utilizamos el PSI (un indicador práctico ampliamente utilizado en la calificación crediticia) para medir los cambios distributivos. Se aplica directamente a variables categóricas. Para variables continuas, primero las discretizamos. En este artículo, utilizo terciles para variables continuas.
Para cada variable, calculamos la proporción de observaciones en cada grupo o categoría para ambos conjuntos de datos. Luego, el PSI compara, bin por bin, las proporciones observadas en el conjunto de datos de referencia versus el conjunto de datos de destino, utilizando la siguiente fórmula logarítmica:
PSI=∑i=1k(pi−qi)⋅ln(piqi)PSI = \sum_{i=1}^{k} (p_i – q_i) \cdot \ln\left(\frac{p_i}{q_i}\right)
Aquí, pᵢ y qᵢ denotan las proporciones en el contenedor i de los conjuntos de datos de referencia y de destino, respectivamente. En este artículo, explico claramente cómo utilizar este indicador. Cuando es inferior al 10%, la variable se considera estable. Cuando está por debajo del 25%, no se observa ningún cambio significativo.
Estabilidad año tras año
Evalúo si la distribución de cada variable ha cambiado de un año al siguiente.
Todas las variables son estables en el tiempo: no se observa ninguna violación del umbral (PSI por debajo del 10%).
Estabilidad del conjunto de datos
Evalúo la estabilidad de las distribuciones de variables en los tres conjuntos de datos, probando tres escenarios:
Entrenar versus probar, entrenar versus fuera de tiempo y probar versus fuera de tiempo.
No se observa ninguna violación del umbral en todos los escenarios, lo que confirma que los factores de riesgo seleccionados son estables entre los conjuntos de estimación y evaluación.
Conclusión
En este artículo, presenté un marco riguroso para estudiar la monotonicidad y la estabilidad en un modelo de puntuación. Mostré cómo asignar una dirección de riesgo a cada variable, cómo validar esta dirección a lo largo de los años y cómo detectar cambios distributivos utilizando el PSI. Este paso, que a menudo se omite en la práctica, es esencial para garantizar que el modelo que construyo no sólo sea eficaz, sino también sólido, interpretable y confiable en el tiempo.
En mi próxima publicación, presentaré la estimación del modelo de puntuación final utilizando las seis variables retenidas.
Créditos de imagen
Todas las imágenes y visualizaciones de este artículo fueron creadas por el autor utilizando Python (pandas, matplotlib, seaborn y plotly) y Excel, a menos que se indique lo contrario.
Referencias
[1] Lorenzo Beretta y Alessandro Santaniello.
Algoritmos de imputación del vecino más cercano: una evaluación crítica.
Biblioteca Nacional de Medicina, 2016.
[2] Consultoría Nexialog.
Traitement des données manquantes dans le milieu bancaire.
Documento de trabajo, 2022.
[3] John T. Hancock y Taghi M. Khoshgoftaar.
Encuesta sobre datos categóricos para redes neuronales.
Revista de Big Data, 7(28), 2020.
[4] Melissa J. Azur, Elizabeth A. Stuart, Constantine Frangakis y Philip J. Leaf.
Imputación múltiple por ecuaciones encadenadas: ¿qué es y cómo funciona?
Revista internacional de métodos de investigación psiquiátrica, 2011.
[5] Majid Sarmad.
Análisis sólido de datos para diseños experimentales factoriales: métodos y software mejorados.
Departamento de Ciencias Matemáticas, Universidad de Durham, Inglaterra, 2006.
[6] Daniel J. Stekhoven y Peter Bühlmann.
MissForest: imputación de valores perdidos no paramétricos para datos de tipo mixto. Bioinformática, 2011.
[7] Supriyanto Wibisono, Anwar y Amin.
Detección de anomalías meteorológicas multivariadas mediante el algoritmo de agrupamiento DBSCAN.
Revista de Física: Serie de conferencias, 2021.
[8] Laborda, J. y Ryoo, S. (2021). Selección de características en un modelo de calificación crediticia. Matemáticas, 9(7), 746.
Datos y licencias
El conjunto de datos utilizado en este artículo tiene la licencia Creative Commons Attribution 4.0 International (CC BY 4.0).
Esta licencia permite a cualquier persona compartir y adaptar el conjunto de datos para cualquier propósito, incluido el uso comercial, siempre que se proporcione la atribución adecuada a la fuente.
Para obtener más detalles, consulte el texto de la licencia oficial: CC0: Dominio público.
Descargo de responsabilidad
Cualquier error o inexactitud restante es responsabilidad del autor. Se aceptan comentarios y correcciones.