Día 13 del “Calendario de Adviento” de aprendizaje automático: LASSO y regresión de crestas en Excel

Un día, un científico de datos dijo que Ridge Regression era un modelo complicado. Porque vio que la fórmula del entrenamiento es más complicada.

Bueno, este es exactamente el objetivo de mi “Calendario de Adviento” de Machine Learning, aclarar este tipo de complejidad.

Entonces, hablaremos de versiones penalizadas de regresión lineal.

Primero veremos por qué es necesaria la regularización o penalización, y veremos cómo se modifica el modelo. Luego exploraremos diferentes tipos de regularización y sus efectos. También entrenaremos el modelo con regularización y probaremos diferentes hiperparámetros. También haremos una pregunta adicional sobre cómo ponderar los pesos en el término de penalización. (¿confundido? Ya verás)

La regresión lineal y sus “condiciones”

Cuando hablamos de regresión lineal, la gente suele mencionar que deben cumplirse algunas condiciones.

Es posible que haya escuchado declaraciones como:

los residuos deben ser gaussianos (a veces se confunde con que el objetivo sea gaussiano, lo cual es falso) las variables explicativas no deben ser colineales

En la estadística clásica, estas condiciones son necesarias para la inferencia. En el aprendizaje automático, la atención se centra en la predicción, por lo que estos supuestos son menos centrales, pero los problemas subyacentes aún existen.

Aquí veremos un ejemplo de dos características colineales y las haremos completamente iguales.

Y tenemos la relación: y = x1 + x2, y x1 = x2

Sé que si son completamente iguales, podemos hacer: y=2*x1. Pero la idea es decir que pueden ser muy similares y siempre podemos construir un modelo usándolos, ¿verdad?

Entonces ¿cuál es el problema?

Cuando las características son perfectamente colineales, la solución no es única. Aquí hay un ejemplo en la captura de pantalla a continuación.

y = 10000*x1 – 9998*x2

Ridge and Lasso en Excel: todas las imágenes del autor

Y podemos notar que la norma de los coeficientes es enorme.

Entonces, la idea es limitar la norma de los coeficientes.

Y después de aplicar la regularización, ¡el modelo conceptual es el mismo!

Así es. Se cambian los parámetros de la regresión lineal. Pero el modelo es el mismo.

Diferentes versiones de regularización

Entonces la idea es combinar el MSE y la norma de los coeficientes.

En lugar de simplemente minimizar el MSE, intentamos minimizar la suma de los dos términos.

¿Qué norma? Podemos hacerlo con la norma L1, L2, o incluso combinarlas.

Hay tres formas clásicas de hacer esto y los nombres de los modelos correspondientes.

Regresión de cresta (penalización L2)

La regresión de cresta añade una penalización a los valores al cuadrado de los coeficientes.

Intuitivamente:

los coeficientes grandes son fuertemente penalizados (debido al cuadrado) los coeficientes son empujados hacia cero pero nunca llegan a ser exactamente cero

Efecto:

todas las características permanecen en el modelo los coeficientes son más suaves y estables muy efectivos contra la colinealidad

Ridge se contrae, pero no selecciona.

Regresión de crestas en Excel: todas las imágenes por autor

Regresión de lazo (penalización L1)

Lasso utiliza una penalización diferente: el valor absoluto de los coeficientes.

Este pequeño cambio tiene una gran consecuencia.

Con lazo:

algunos coeficientes pueden llegar a ser exactamente cero, el modelo ignora automáticamente algunas características

Es por eso que LASSO se llama así, porque significa Operador de selección y contracción mínima absoluta.

Operador: se refiere al operador de regularización agregado a la función de pérdida Mínimo: se deriva de un marco de regresión de mínimos cuadrados Absoluto: utiliza el valor absoluto de los coeficientes (norma L1) Contracción: reduce los coeficientes hacia cero Selección: puede establecer algunos coeficientes exactamente en cero, realizando la selección de características

Matiz importante:

Podemos decir que el modelo todavía tiene el mismo número de coeficientes pero algunos de ellos se fuerzan a cero durante el entrenamiento.

La forma del modelo no cambia, pero Lasso elimina efectivamente las características al llevar los coeficientes a cero.

Lazo en Excel – Todas las imágenes por autor

3. Red Elástica (L1 + L2)

Elastic Net es una combinación de Ridge y Lasso.

Utiliza:

una penalización L1 (como Lasso) y una penalización L2 (como Ridge)

¿Por qué combinarlos?

Porque:

Lasso puede ser inestable cuando las características están altamente correlacionadas. Ridge maneja bien la colinealidad pero no selecciona características.

Elastic Net ofrece un equilibrio entre:

escasez de contracción de estabilidad

Suele ser la opción más práctica en conjuntos de datos reales.

Lo que realmente cambia: modelo, entrenamiento, tuning

Miremos esto desde el punto de vista del aprendizaje automático.

El modelo realmente no cambia.

Para el modelo, para todas las versiones regularizadas, todavía escribimos:

y =ax + b.

Mismo número de coeficientes Misma fórmula de predicción Pero los coeficientes serán diferentes.

Desde cierta perspectiva, Ridge, Lasso y Elastic Net no son modelos diferentes.

El principio de entrenamiento también es el mismo.

Nosotros todavía:

definir una función de pérdida minimizarla calcular gradientes actualizar coeficientes

La única diferencia es:

la función de pérdida ahora incluye un término de penalización

Eso es todo.

Se agregan los hiperparámetros (esta es la verdadera diferencia)

Para la regresión lineal, no tenemos el control de la “complejidad” del modelo.

Regresión lineal estándar: sin hiperparámetro Ridge: un hiperparámetro (lambda) Lazo: un hiperparámetro (lambda) Elastic Net: dos hiperparámetros, uno para la fuerza de regularización general y otro para equilibrar L1 vs L2

Entonces:

La regresión lineal estándar no necesita ajuste. Las regresiones penalizadas sí.

Esta es la razón por la que la regresión lineal estándar a menudo se considera “no realmente aprendizaje automático”, mientras que las versiones regularizadas claramente lo son.

Implementación de gradientes regularizados.

Mantenemos el descenso de gradiente de la regresión MCO como referencia y, para la regresión Ridge, solo tenemos que agregar el término de regularización para el coeficiente.

Usaremos un conjunto de datos simple que generé (el mismo que ya usamos para la regresión lineal).

Podemos ver que los 3 “modelos” difieren en términos de coeficientes. Y el objetivo de este capítulo es implementar el gradiente para todos los modelos y compararlos.

Regresión del lazo de cresta en Excel: todas las imágenes por autor

Cresta con pendiente penalizada

Primero, podemos hacerlo para Ridge, y solo tenemos que cambiar el gradiente de a.

Ahora bien, eso no significa que el valor b no cambie, ya que el gradiente de b en cada paso depende también de a.

Regresión del lazo de cresta en Excel: todas las imágenes por autor

LASSO con gradiente penalizado

Entonces podemos hacer lo mismo con LASSO.

Y la única diferencia es también el gradiente de a.

Para cada modelo, también podemos calcular el MSE y el MSE regularizado. Es bastante satisfactorio ver cómo disminuyen a lo largo de las iteraciones.

Regresión del lazo de cresta en Excel: todas las imágenes por autor

Comparación de los coeficientes.

Ahora podemos visualizar el coeficiente a para los tres modelos. Para ver las diferencias, ingresamos lambdas muy grandes.

Regresión del lazo de cresta en Excel: todas las imágenes por autor

Impacto de lambda

Para valores grandes de lambda, veremos que el coeficiente a se vuelve pequeño.

Y si lambda LASSO se vuelve extremadamente grande, entonces teóricamente obtenemos el valor de 0 para a. Numéricamente tenemos que mejorar el descenso de gradiente.

Regresión del lazo de cresta en Excel: todas las imágenes por autor

¿Regresión logística regularizada?

Ayer vimos la regresión logística y una pregunta que podemos hacernos es si también se puede regularizar. En caso afirmativo, ¿cómo se llaman?

La respuesta es, por supuesto, sí, la regresión logística se puede regularizar.

Se aplica exactamente la misma idea.

La regresión logística también puede ser:

L1 penalizado L2 penalizado Red Elástica penalizada

No existen nombres especiales como “Regresión logística de Ridge” de uso común.

¿Por qué?

Porque el concepto ya no es nuevo.

En la práctica, bibliotecas como scikit-learn simplemente te permiten especificar:

la función de pérdida el tipo de penalización la fuerza de regularización

El nombre importaba cuando la idea era nueva.
Ahora, la regularización es sólo una opción estándar.

Otras preguntas que podemos hacer:

¿La regularización es siempre útil? ¿Cómo afecta la escala de las características al rendimiento de la regresión lineal regularizada?

Conclusión

Ridge y Lasso no cambian el modelo lineal en sí, cambian la forma en que se aprenden los coeficientes. Al agregar una penalización, la regularización favorece soluciones estables y significativas, especialmente cuando las características están correlacionadas. Ver este proceso paso a paso en Excel deja claro que estos métodos no son más complejos, solo más controlados.