La idea errónea del reentrenamiento: por qué la actualización del modelo no siempre es la solución

La frase “Just Vetaling the Model” es engañosamente simple. Se ha convertido en una solución de referencia en operaciones de aprendizaje automático cada vez que las métricas caen o los resultados se vuelven ruidosos. He sido testigo de las tuberías de MLOPS enteras que se vuelven a cablear para volver a entrenar una base semanal, mensual o posterior a los datos, y nunca cuestionando si el reentrenamiento es lo apropiado.

Sin embargo, esto es lo que he experimentado: reentender no es la solución todo el tiempo. Con frecuencia, es simplemente un medio de papel sobre puntos ciegos más fundamentales, supuestos frágiles, mala observabilidad o objetivos desalineados que no se pueden resolver simplemente suministrando más datos al modelo.

El reflejo de reentrenamiento proviene de la confianza fuera de lugar

Los equipos están operacionalizados con frecuencia cuando diseñan sistemas ML escalables. Construye el bucle: recopile nuevos datos, pruebe el rendimiento y la recuperación en caso de una disminución de las métricas. Pero lo que falta es la pausa, o más bien, la capa de diagnóstico que consulta por qué el rendimiento ha disminuido.

Colaboré con un motor de recomendación que se reacunaba todas las semanas, aunque la base de usuarios no era muy dinámica. Inicialmente, esto fue lo que parecía ser una buena higiene, manteniendo los modelos frescos. Sin embargo, comenzamos a ver fluctuaciones de rendimiento. Habiendo rastreado el problema, acabamos de descubrir que estábamos inyectando en el conjunto de capacitación, señales de comportamiento obsoletas o sesgadas: impresiones con sobrepolcadas de usuarios inactivos, hacer clic en artefactos de experimentos de UI o comentarios incompletos de lanzamientos oscuros.

El bucle de reentrenamiento no estaba corrigiendo el sistema; estaba inyectando ruido.

Cuando el reentrenamiento empeora las cosas

Aprendizaje no deseado del ruido temporal

En una de las tuberías de detección de fraude que audité, el reentrenamiento ocurrió en un horario predeterminado: a la medianoche de los domingos. Sin embargo, un fin de semana, se lanzó una campaña de marketing contra los nuevos usuarios. Se comportaron de manera diferente: solicitaron más préstamos, los completaron más rápido y tenían perfiles un poco más riesgosos.

Ese comportamiento fue registrado por el modelo y se reacio. El resultado? Los niveles de detección de fraude se redujeron y los casos falsos positivos aumentaron en la semana siguiente. El modelo había aprendido a pensar en la nueva normalidad como algo sospechoso, y esto estaba bloqueando a los buenos usuarios.

No habíamos construido un método para confirmar si el cambio de rendimiento era estable, representativo o deliberado. El reentrenamiento fue una anomalía a corto plazo que se convirtió en un problema a largo plazo.

Hacer clic en la retroalimentación no es la verdad fundamental

Su objetivo tampoco debe ser defectuoso. En una de las aplicaciones de medios, la calidad se midió por proxy en forma de tasa de clics. Creamos un modelo de optimización de recomendaciones de contenido y volvimos a entrenar cada semana utilizando nuevos registros de clics. Sin embargo, el equipo de productos cambió el diseño, las vistas previas de la autoplaio se hicieron más agresivas, las miniaturas eran más grandes y la gente hizo clic más, incluso cuando no interactuaron.

El bucle de reentrenamiento entendió esto como una mayor relevancia del contenido. Por lo tanto, el modelo se duplicó en esos activos. De hecho, habíamos hecho que fuera fácil hacer clic por error, en lugar de por interés real. Los indicadores de rendimiento se mantuvieron igual, pero la satisfacción del usuario disminuyó, lo que no pudo determinar.

Retraining sobre la fijación de la causa raíz (imagen por autor)

La deprecación de las metadétricas: cuando cambia el suelo debajo del modelo

En algunos casos, no es el modelo, sino los datos que tienen un significado diferente y la reentrenamiento no pueden ayudar.

Esto es lo que ocurrió recientemente en la deprecación de varias de las ideas de página más esenciales métricas de meta en 2024. Métricas como clics, usuarios comprometidos y la tasa de compromiso se desaproban, lo que significa que ya no están actualizadas y compatibles en las herramientas de análisis más críticas.

Este es un problema de análisis frontend al principio. Sin embargo, he colaborado con equipos que no solo usan estas métricas para crear paneles, sino también para crear características en modelos predictivos. Los puntajes de las recomendaciones, la optimización del gasto en anuncios y los motores de clasificación de contenido se basaron en los clics por tipo y la tasa de participación (alcance) como señales de entrenamiento.

Cuando tales métricas dejaron de actualizarse, el reentrenamiento no dio ningún error. Las tuberías estaban funcionando, los modelos se actualizaron. Las señales, sin embargo, ahora estaban muertas; Su distribución fue bloqueada, sus valores no en la misma escala. La basura fue aprendida por modelos, que en silencio decayó sin hacer un espectáculo visible.

Lo que se enfatizó aquí es que el reentrenamiento tiene un significado fijo. Sin embargo, en los sistemas de aprendizaje automático actual, sus características son con frecuencia API dinámicas, por lo que el reentrenamiento puede codificar suposiciones incorrectas cuando evolucionan la semántica aguas arriba.

Entonces, ¿qué deberíamos actualizar en su lugar?

He llegado a creer que en la mayoría de los casos, cuando un modelo falla, el problema raíz se encuentra fuera del modelo.

Lógica de funciones de fijación, no pesos de modelos

Los puntajes de alineación de clics estaban disminuyendo en uno de los sistemas de relevancia de búsqueda, que revisé. Todos apuntaban a Drift: Vuelve al modelo. Sin embargo, un examen más exhaustivo reveló que la tubería de características estaba detrás de la programación, ya que no estaba detectando intentos de consulta más nuevos (por ejemplo, consultas de video cortas relacionadas con el video frente a publicaciones de blog), y la taxonomía de la categorización no estaba actualizada.

El volver a capacitar en la representación defectuosa exacta solo se corrigió el error.

Lo resolvimos reimplementando la lógica de características, al introducir una incrustación de sesión consciente y reemplazando las etiquetas de consulta rancias con grupos de temas inferidos. No había necesidad de volver a entrenarlo; Un modelo que ya estaba en su lugar funcionó sin problemas después de que se solucionó la entrada.

Conciencia del segmento

La otra cosa que generalmente se ignora es la evolución de la cohorte de usuarios. Los comportamientos de los usuarios cambian junto con los productos. El reentrenamiento no tiene que realinear cohortes; Simplemente los promedia. He aprendido que la reclusión de segmentos de usuarios y una redefinición de su universo de modelado pueden ser más efectivos que el reentrenamiento.

Hacia una estrategia de actualización más inteligente

El reentrenamiento debe verse como una herramienta quirúrgica, no como una tarea de mantenimiento. El mejor enfoque es monitorear las brechas de alineación, no solo la pérdida de precisión.

Monitor de KPI posterior a la predicción

Una de las mejores señales en las que confío es KPI posterior a la predicción. Por ejemplo, en un modelo de suscripción de seguros, no observamos solo el modelo AUC; Hicimos un seguimiento de la relación de pérdida de reclamos por banda de riesgo predicha. Cuando el grupo predicho-bajo comenzó a mostrar tasas de reclamos inesperadas, fue un desencadenante inspeccionar la alineación, no en la reubicación sin pensar.

Señales de confianza de modelos

Otra técnica es monitorear la decadencia de confianza. Si los usuarios dejan de confiar en las salidas de un modelo (por ejemplo, los oficiales de préstamos que anulan las predicciones, los editores de contenido evitan los activos sugeridos), esa es una forma de pérdida de señal. Rastreamos las anulaciones manuales como una señal de alerta y lo usamos como la justificación para investigar, y a veces se vuelve a entrenar.

Este reflejo de reentrenamiento no se limita a los sistemas tradicionales de tabla o de eventos. He visto errores similares que se arrastran en las tuberías de LLM, donde las indicaciones rancias o la alineación de retroalimentación deficiente se vuelven a entrenar, en lugar de reevaluar las estrategias de inmediato subyacentes o las señales de interacción del usuario.

Estrategia de reentrenamiento versus alineación: una comparación de sistemas (Imagen por autor)

Conclusión

El requisito es atractivo ya que te hace sentir que estás logrando algo. Los números bajan, vuelves a entrenar y vuelven a subir. Sin embargo, la causa raíz también podría esconderse allí: objetivos desalineados, malentendidos y puntos ciegos de calidad de datos.

El mensaje más profundo es el siguiente: la reentrabinización no es una solución; Es un control de si ha aprendido el problema.

No reinicia el motor de un automóvil cada vez que el tablero parpadea. Escanea lo que está parpadeando y por qué. Del mismo modo, las actualizaciones del modelo deben considerarse y no automáticas. Vuelva a entrenar cuando su objetivo sea diferente, no cuando su distribución sea.

Y lo más importante, tenga en cuenta: un sistema bien mantenido es un sistema donde puede saber qué está roto, no un sistema donde simplemente siga reemplazando las piezas.