Qué hacer cuando su modelo de riesgo crediticio funciona hoy, pero falla seis meses después

tiene un secreto complicado. Las organizaciones implementan modelos que alcanzan una precisión del 98 % en la validación y luego observan cómo se degradan silenciosamente en la producción. El equipo lo llama “derivación de conceptos” y sigue adelante. Pero ¿qué pasa si esto no es un fenómeno misterioso? ¿Y si es una consecuencia predecible de cómo optimizamos?

Comencé a hacer esta pregunta después de ver fallar otro modelo de producción. La respuesta nos llevó a algo inesperado: la geometría que utilizamos para la optimización determina si los modelos se mantienen estables a medida que cambian las distribuciones. No los datos. No los hiperparámetros. El espacio mismo.

Me di cuenta de que el riesgo crediticio es fundamentalmente un problema de clasificación, no de clasificación. No es necesario predecir “predeterminado” o “sin incumplimiento” con una precisión del 98%. Es necesario ordenar a los prestatarios por riesgo: ¿Es el prestatario A más riesgoso que el prestatario B? Si la economía se deteriora, ¿quién incumple primero?

Los enfoques estándar pasan por alto esto por completo. Esto es lo que realmente logran los árboles potenciados por gradiente (XGBoost, la herramienta favorita en este campo) en el conjunto de datos a nivel de préstamos unifamiliares de Freddie Mac (692,640 préstamos entre 1999 y 2023):

Precisión: 98,7 % ← parece impresionante AUC (capacidad de clasificación): 60,7 % ← apenas mejor que el azar 12 meses después: 96,6 % de precisión, pero la clasificación se degrada 36 meses después: 93,2 % de precisión, el AUC es 66,7 % (esencialmente inútil)

XGBoost logra una precisión impresionante pero falla en la tarea real: realizar pedidos de riesgo. Y se degrada como era de esperar.

Ahora compare esto con lo que he desarrollado (presentado en un artículo aceptado en IEEE DSA2025):

AUC inicial: 80,3% 12 meses después: 76,4% 36 meses después: 69,7% 60 meses después: 69,7%

La diferencia: XGBoost pierde 32 puntos AUC en 60 meses. ¿Nuestro enfoque? Solo 10,6 puntos en AUC (área bajo la curva) es lo que nos dirá cómo nuestro algoritmo entrenado predecirá el riesgo en datos invisibles.

¿Por qué sucede esto? Todo se reduce a algo inesperado: la geometría de optimización misma.

Por qué esto es importante (incluso si no estás en finanzas)

No se trata sólo de puntajes crediticios. Cualquier sistema en el que la clasificación importe más que las predicciones exactas se enfrenta a este problema:

Estratificación del riesgo médico: ¿quién necesita atención de urgencia primero? Predicción de pérdida de clientes: ¿en qué clientes deberíamos centrar los esfuerzos de retención? Recomendación de contenido: ¿qué deberíamos mostrar a continuación? Detección de fraude: ¿Qué transacciones merecen una revisión humana? Priorización de la cadena de suministro: ¿Qué disrupciones abordar primero?

Cuando su contexto cambia gradualmente, ¿y quién no? — las métricas de precisión te mienten. Un modelo puede mantener una precisión del 95 % y, al mismo tiempo, alterar por completo el orden de quién tiene realmente mayor riesgo.

Ese no es un problema de degradación del modelo. Ese es un problema de optimización.

Lo que nos enseña la física sobre la estabilidad

Piense en la navegación GPS. Si solo optimiza la “ruta actual más corta”, podría guiar a alguien hacia una carretera que está a punto de cerrarse. Pero si preserva la estructura de cómo fluye el tráfico (las relaciones entre rutas), puede mantener una buena orientación incluso cuando las condiciones cambian. Eso es lo que necesitamos para los modelos de crédito. Pero ¿cómo se preserva la estructura?

La NASA se ha enfrentado exactamente a este problema durante años. Al simular órbitas planetarias durante millones de años, los métodos computacionales estándar hacen que los planetas se desvíen lentamente, no debido a la física, sino debido a errores numéricos acumulados. Mercurio gira gradualmente en espiral hacia el Sol. Júpiter se desplaza hacia afuera. Resolvieron esto con integradores simplécticos: algoritmos que preservan la estructura geométrica del sistema. Las órbitas se mantienen estables porque el método respeta lo que los físicos llaman “volumen del espacio de fase”: mantiene las relaciones entre posiciones y velocidades.

Ahora viene la parte sorprendente: el riesgo crediticio tiene una estructura similar.

La geometría de las clasificaciones

El descenso de gradiente estándar se optimiza en el espacio euclidiano. Encuentra mínimos locales para la distribución de su entrenamiento. Pero la geometría euclidiana no preserva los ordenamientos relativos cuando las distribuciones cambian.

¿Qué hace?

Variedades simplécticas.

En la mecánica hamiltoniana (un formalismo utilizado en física), los sistemas conservadores (sin pérdida de energía) evolucionan en variedades simplécticas: espacios con una estructura de dos formas que preserva el volumen del espacio de fase (teorema de Liouville).

Estándar simpléctico de 2 formas

En este espacio de fases, las transformaciones simplécticas preservan distancias relativas. No posiciones absolutas, sino órdenes. Exactamente lo que necesitamos para clasificar según el cambio de distribución. Cuando se simula un péndulo sin fricción utilizando métodos de integración estándar, la energía se desplaza. El péndulo en la Figura 1 se acelera o desacelera lentamente, no debido a la física, sino a la aproximación numérica. Los integradores simplécticos no tienen este problema porque preservan exactamente la estructura hamiltoniana. El mismo principio se puede aplicar a la optimización de redes neuronales.

Figura 1. El péndulo sin fricción es el ejemplo más básico de mecánica hamiltoniana. El péndulo no tiene fricción con el aire, ya que disiparía energía. El formalismo hamiltoniano en física es aplicable a sistemas conservadores o no disipativos con conservación de energía. La imagen de la izquierda muestra la trayectoria del péndulo en el espacio de fases, representada por la velocidad y el ángulo (imagen central). Imagen del autor.

Las simulaciones de plegamiento de proteínas enfrentan el mismo problema. Estás modelando miles de átomos que interactúan durante microsegundos a milisegundos: miles de millones de pasos de integración. Los integradores estándar acumulan energía: las moléculas se calientan artificialmente, los enlaces que no deberían romperse, la simulación explota.

Figura 2: Equivalencia entre el “Hamiltoniano en sistemas físicos” y su aplicación en espacios de optimización NN. La posición q es equivalente a los parámetros NN θ, y el vector de impulso pis equivale a la diferencia entre estados de parámetros consecutivos. Aunque podemos llamarlo “inspiración física”, se trata de formas simplécticas de geometría diferencial aplicada, el teorema de Liouville y la integración que preserva la estructura. Pero creo que la analogía hamiltoniana tiene más sentido a efectos de divulgación. Imagen del autor.

La implementación: optimización para preservar la estructura

Esto es lo que realmente hice:

Marco hamiltoniano para redes neuronales

Reformulé el entrenamiento de redes neuronales como un sistema hamiltoniano:

Ecuación hamiltoniana para sistemas mecánicos

En los sistemas mecánicos, T(p) es el término de energía cinética y V(q) es la energía potencial. En esta analogía, T (p) representa el costo de cambiar los parámetros del modelo y V (q) representa la función de pérdida del estado actual del modelo.

Optimizador simpléctico de Euler (no Adam/SGD):

En lugar de Adam o SGD para optimizar, utilizo una integración simpléctica:

He utilizado el método simpléctico de Euler para un sistema hamiltoniano con posición q y momento p.

Dónde:

H es el hamiltoniano (función de energía derivada de la pérdida) Δt es el paso de tiempo (análogo a la tasa de aprendizaje) q son los pesos de la red (coordenadas de posición) y p son variables de impulso (coordenadas de velocidad)

Observe que p_{t+1} aparece en ambas actualizaciones. Este acoplamiento es importante: es lo que preserva la estructura simpléctica. Esto no es sólo impulso; es una integración que preserva la estructura.

Pérdida restringida por Hamilton

Además, he creado una pérdida basada en el formalismo hamiltoniano:

Dónde:

L_base(θ) es la pérdida binaria de entropía cruzada R(θ) es el término de regularización (penalización L2 en ponderaciones) y λ es el coeficiente de regularización

El término de regularización penaliza las desviaciones de la conservación de energía, restringiendo la optimización a variedades de baja dimensión en el espacio de parámetros.

Cómo funciona

El mecanismo tiene tres componentes:

Estructura simpléctica → preservación del volumen → exploración de parámetros acotados Restricción hamiltoniana → conservación de energía → dinámica estable a largo plazo Actualizaciones acopladas → preserva la estructura geométrica relevante para la clasificación

Esta estructura está representada en el siguiente algoritmo.

Figura 3: El algoritmo utilizado aplicó tanto la actualización del impulso como la optimización hamiltoniana.

Los resultados: estabilidad temporal 3 veces mejor

Como se explicó, probé este marco utilizando el conjunto de datos a nivel de préstamos unifamiliares de Freddie Mac, el único conjunto de datos crediticios a largo plazo con divisiones temporales adecuadas que abarcan los ciclos económicos.

La lógica nos dice que la precisión tiene que disminuir en los tres conjuntos de datos (de 12 a 60 meses). Las predicciones a largo plazo suelen ser menos precisas que las de corto plazo. Pero lo que vemos es que XGBoost no sigue este patrón (valores AUC de 0,61 a 0,67; esta es la firma de optimización en el espacio incorrecto). Nuestro optimizador simpléctico, a pesar de mostrar menos precisión, lo hace (los valores AUC disminuyen de 0,84 a 0,70). Por ejemplo, ¿qué te garantiza que una predicción para 36 va a ser más realista? ¿La precisión de 0,97 de XGBoost o el valor AUC de 0,77 del enfoque inspirado en Hamilton? XGBoost tiene durante 36 meses un AUC de 0,63 (muy cercano a una predicción aleatoria).

Qué aporta cada componente

En nuestro estudio de ablación, todos los componentes contribuyen, y el impulso en el espacio simpléctico proporciona mayores ganancias. Esto se alinea con el trasfondo teórico: la forma 2 simpléctica se preserva mediante actualizaciones acopladas de posición-momento.

Mesa. Estudio de ablación. NN estándar con optimizador Adam frente a nuestro enfoque (modelo hamiltoniano completo)

Cuándo utilizar este enfoque

Utilice la optimización simpléctica como alternativa a los optimizadores de descenso de gradiente cuando:

La clasificación importa más que la precisión de la clasificación El cambio de distribución es gradual y predecible (ciclos económicos, no cisnes negros) La estabilidad temporal es crítica (riesgo financiero, pronóstico médico a lo largo del tiempo) La recapacitación es costosa (validación regulatoria, gastos generales de aprobación) Puede permitirse entre 2 y 3 veces más tiempo de capacitación para la estabilidad de la producción Tiene <10 000 características (funciona bien hasta ~10 000 dimensiones)

No lo use cuando:

El cambio de distribución es abrupto/impredecible (caídas del mercado, cambios de régimen) Necesita interpretabilidad para el cumplimiento (esto no ayuda con la explicabilidad) Está en dimensiones ultraaltas (>10.000 funciones, el costo se vuelve prohibitivo) Restricciones de capacitación en tiempo real (2 a 3 veces más lento que Adam)

Lo que esto significa realmente para los sistemas de producción

Para organizaciones que implementan modelos de crédito o desafíos similares:

Problema: vuelves a capacitarte trimestralmente. Cada vez, valida los datos reservados, obtiene una precisión superior al 97 %, implementa y observa la degradación del AUC en un plazo de 12 a 18 meses. Culpa a las “condiciones del mercado” y vuelve a capacitarse.

Solución: utilice optimización simpléctica. Acepte una precisión máxima ligeramente inferior (80% frente a 98%) a cambio de una estabilidad temporal 3 veces mejor. Su modelo sigue siendo confiable por más tiempo. Vuelves a entrenar con menos frecuencia. Las explicaciones regulatorias son más simples: “Nuestro modelo mantiene la estabilidad de la clasificación bajo el cambio de distribución”.

Costo: 2 a 3 veces más tiempo de entrenamiento. Para una recapacitación mensual o trimestral, esto es aceptable: está intercambiando horas de computación por meses de estabilidad.

Esto es ingeniería, no magia. Estamos optimizando en un espacio que preserva lo que realmente importa para el problema empresarial.

El panorama más amplio

La degradación del modelo no es inevitable. Es una consecuencia de optimizar en el espacio incorrecto. El descenso de gradiente estándar encuentra soluciones que funcionan para su distribución actual. La optimización simpléctica encuentra soluciones que preservan la estructura: las relaciones entre ejemplos que determinan las clasificaciones. Nuestro enfoque propuesto no resolverá todos los problemas de ML. Pero para el profesional que observa el deterioro de su modelo de producción (para la organización que enfrenta preguntas regulatorias sobre la estabilidad del modelo) es una solución que funciona hoy.

Próximos pasos

El código está disponible: https://towardsdatascience.com/your-credit-risk-model-works-today-it-breaks-in-six-months/

El artículo completo: estará disponible pronto. Contáctame si estás interesado en recibirlo ([email protected])

Preguntas o colaboración: si está trabajando en problemas de clasificación con requisitos de estabilidad temporal, me interesaría conocer su caso de uso.

¡Gracias por leer y compartir!

¿Necesita ayuda para implementar este tipo de sistemas?

Javier Marín
Consultor de IA aplicada | Sistemas de IA de producción + Cumplimiento normativo
[email protected]