Un día, un científico de datos dijo que Ridge Regression era un modelo complicado. Porque vio que la fórmula del entrenamiento es más complicada.
Bueno, este es exactamente el objetivo de mi “Calendario de Adviento” de Machine Learning, aclarar este tipo de complejidad.
Entonces, hablaremos de versiones penalizadas de regresión lineal.
Primero veremos por qué es necesaria la regularización o penalización, y veremos cómo se modifica el modelo. Luego exploraremos diferentes tipos de regularización y sus efectos. También entrenaremos el modelo con regularización y probaremos diferentes hiperparámetros. También haremos una pregunta adicional sobre cómo ponderar los pesos en el término de penalización. (¿confundido? Ya verás)
La regresión lineal y sus “condiciones”
Cuando hablamos de regresión lineal, la gente suele mencionar que deben cumplirse algunas condiciones.
Es posible que haya escuchado declaraciones como:
los residuos deben ser gaussianos (a veces se confunde con que el objetivo sea gaussiano, lo cual es falso) las variables explicativas no deben ser colineales
En la estadística clásica, estas condiciones son necesarias para la inferencia. En el aprendizaje automático, la atención se centra en la predicción, por lo que estos supuestos son menos centrales, pero los problemas subyacentes aún existen.
Aquí veremos un ejemplo de dos características colineales y las haremos completamente iguales.
Y tenemos la relación: y = x1 + x2, y x1 = x2
Sé que si son completamente iguales, podemos hacer: y=2*x1. Pero la idea es decir que pueden ser muy similares y siempre podemos construir un modelo usándolos, ¿verdad?
Entonces ¿cuál es el problema?
Cuando las características son perfectamente colineales, la solución no es única. Aquí hay un ejemplo en la captura de pantalla a continuación.
y = 10000*x1 – 9998*x2
Y podemos notar que la norma de los coeficientes es enorme.
Entonces, la idea es limitar la norma de los coeficientes.
Y después de aplicar la regularización, ¡el modelo conceptual es el mismo!
Así es. Se cambian los parámetros de la regresión lineal. Pero el modelo es el mismo.
Diferentes versiones de regularización
Entonces la idea es combinar el MSE y la norma de los coeficientes.
En lugar de simplemente minimizar el MSE, intentamos minimizar la suma de los dos términos.
¿Qué norma? Podemos hacerlo con la norma L1, L2, o incluso combinarlas.
Hay tres formas clásicas de hacer esto y los nombres de los modelos correspondientes.
Regresión de cresta (penalización L2)
La regresión de cresta añade una penalización a los valores al cuadrado de los coeficientes.
Intuitivamente:
los coeficientes grandes son fuertemente penalizados (debido al cuadrado) los coeficientes son empujados hacia cero pero nunca llegan a ser exactamente cero
Efecto:
todas las características permanecen en el modelo los coeficientes son más suaves y estables muy efectivos contra la colinealidad
Ridge se contrae, pero no selecciona.
Regresión de lazo (penalización L1)
Lasso utiliza una penalización diferente: el valor absoluto de los coeficientes.
Este pequeño cambio tiene una gran consecuencia.
Con lazo:
algunos coeficientes pueden llegar a ser exactamente cero, el modelo ignora automáticamente algunas características
Es por eso que LASSO se llama así, porque significa Operador de selección y contracción mínima absoluta.
Operador: se refiere al operador de regularización agregado a la función de pérdida Mínimo: se deriva de un marco de regresión de mínimos cuadrados Absoluto: utiliza el valor absoluto de los coeficientes (norma L1) Contracción: reduce los coeficientes hacia cero Selección: puede establecer algunos coeficientes exactamente en cero, realizando la selección de características
Matiz importante:
Podemos decir que el modelo todavía tiene el mismo número de coeficientes pero algunos de ellos se fuerzan a cero durante el entrenamiento.
La forma del modelo no cambia, pero Lasso elimina efectivamente las características al llevar los coeficientes a cero.
3. Red Elástica (L1 + L2)
Elastic Net es una combinación de Ridge y Lasso.
Utiliza:
una penalización L1 (como Lasso) y una penalización L2 (como Ridge)
¿Por qué combinarlos?
Porque:
Lasso puede ser inestable cuando las características están altamente correlacionadas. Ridge maneja bien la colinealidad pero no selecciona características.
Elastic Net ofrece un equilibrio entre:
escasez de contracción de estabilidad
Suele ser la opción más práctica en conjuntos de datos reales.
Lo que realmente cambia: modelo, entrenamiento, tuning
Miremos esto desde el punto de vista del aprendizaje automático.
El modelo realmente no cambia.
Para el modelo, para todas las versiones regularizadas, todavía escribimos:
y =ax + b.
Mismo número de coeficientes Misma fórmula de predicción Pero los coeficientes serán diferentes.
Desde cierta perspectiva, Ridge, Lasso y Elastic Net no son modelos diferentes.
El principio de entrenamiento también es el mismo.
Nosotros todavía:
definir una función de pérdida minimizarla calcular gradientes actualizar coeficientes
La única diferencia es:
la función de pérdida ahora incluye un término de penalización
Eso es todo.
Se agregan los hiperparámetros (esta es la verdadera diferencia)
Para la regresión lineal, no tenemos el control de la “complejidad” del modelo.
Regresión lineal estándar: sin hiperparámetro Ridge: un hiperparámetro (lambda) Lazo: un hiperparámetro (lambda) Elastic Net: dos hiperparámetros, uno para la fuerza de regularización general y otro para equilibrar L1 vs L2
Entonces:
La regresión lineal estándar no necesita ajuste. Las regresiones penalizadas sí.
Esta es la razón por la que la regresión lineal estándar a menudo se considera “no realmente aprendizaje automático”, mientras que las versiones regularizadas claramente lo son.
Implementación de gradientes regularizados.
Mantenemos el descenso de gradiente de la regresión MCO como referencia y, para la regresión Ridge, solo tenemos que agregar el término de regularización para el coeficiente.
Usaremos un conjunto de datos simple que generé (el mismo que ya usamos para la regresión lineal).
Podemos ver que los 3 “modelos” difieren en términos de coeficientes. Y el objetivo de este capítulo es implementar el gradiente para todos los modelos y compararlos.
Cresta con pendiente penalizada
Primero, podemos hacerlo para Ridge, y solo tenemos que cambiar el gradiente de a.
Ahora bien, eso no significa que el valor b no cambie, ya que el gradiente de b en cada paso depende también de a.
LASSO con gradiente penalizado
Entonces podemos hacer lo mismo con LASSO.
Y la única diferencia es también el gradiente de a.
Para cada modelo, también podemos calcular el MSE y el MSE regularizado. Es bastante satisfactorio ver cómo disminuyen a lo largo de las iteraciones.
Comparación de los coeficientes.
Ahora podemos visualizar el coeficiente a para los tres modelos. Para ver las diferencias, ingresamos lambdas muy grandes.
Impacto de lambda
Para valores grandes de lambda, veremos que el coeficiente a se vuelve pequeño.
Y si lambda LASSO se vuelve extremadamente grande, entonces teóricamente obtenemos el valor de 0 para a. Numéricamente tenemos que mejorar el descenso de gradiente.
¿Regresión logística regularizada?
Ayer vimos la regresión logística y una pregunta que podemos hacernos es si también se puede regularizar. En caso afirmativo, ¿cómo se llaman?
La respuesta es, por supuesto, sí, la regresión logística se puede regularizar.
Se aplica exactamente la misma idea.
La regresión logística también puede ser:
L1 penalizado L2 penalizado Red Elástica penalizada
No existen nombres especiales como “Regresión logística de Ridge” de uso común.
¿Por qué?
Porque el concepto ya no es nuevo.
En la práctica, bibliotecas como scikit-learn simplemente te permiten especificar:
la función de pérdida el tipo de penalización la fuerza de regularización
El nombre importaba cuando la idea era nueva.
Ahora, la regularización es sólo una opción estándar.
Otras preguntas que podemos hacer:
¿La regularización es siempre útil? ¿Cómo afecta la escala de las características al rendimiento de la regresión lineal regularizada?
Conclusión
Ridge y Lasso no cambian el modelo lineal en sí, cambian la forma en que se aprenden los coeficientes. Al agregar una penalización, la regularización favorece soluciones estables y significativas, especialmente cuando las características están correlacionadas. Ver este proceso paso a paso en Excel deja claro que estos métodos no son más complejos, solo más controlados.