deberías leer esto
Como alguien que hizo un Licenciatura en Matemáticas Primero me presentaron a L¹ y L² como una medida de Distancia… Ahora parece ser una medida de error, ¿dónde nos hemos ido mal? Pero bromea a un lado, parece haber esta idea errónea de que L₁ y L₂ Sirva la misma función, y aunque eso a veces puede ser cierto, cada norma da forma a sus modelos de maneras drásticamente diferentes.
En este artículo viajaremos desde puntos llanos en una línea hasta L∞deteniéndome para ver por qué L¹ y L² materia, cómo difieren y donde el Norma L∞ aparece en AI.
Nuestra agenda:
- Cuándo usar la pérdida de Light versus L²
- Cómo la regularización de L¹ y L² tira de un modelo hacia la escasez o la contracción lisa
- Por qué la diferencia algebraica más desdibuje las imágenes ganadoras, o las deja afiladas
- Cómo generalizar la distancia al espacio Lᵖ y lo que representa la norma L∞
Una breve nota sobre la abstracción matemática
Es posible que haya tenido una conversación (quizás una confusa) donde el término abstracción matemática Apareció, y es posible que hayas dejado esa conversación sintiéndose un poco más confundida sobre lo que realmente están haciendo los matemáticos. La abstracción se refiere a la extracción de patrones y propiedades subyacentes de un concepto para generalizarlo para que tenga una aplicación más amplia. Esto puede parecer realmente complicado, pero eche un vistazo a este ejemplo trivial:
Un punto en 1-D es x = x₁; en 2-D: x = (x₁, x₂); en Triunfo: x = (x₁, x₂, x₃). Ahora no sé sobre ti, pero no puedo visualizar 42 dimensiones, pero el mismo patrón me dice que un punto en 42 dimensiones sería x = (x₁, …, x₄₂).
Esto puede parecer trivial, pero este concepto de abstracción es clave para llegar a L∞, donde, en lugar de un punto, abstractamos la distancia. De ahora en adelante, trabajemos con x = (x₁, x₂, x₃, …, xₙ), También conocido por su título formal: incógnita∈ℝⁿ. Y cualquier vector es V = x – y = (x₁ – y₁, x₂ – y₂,…, xₙ – yₙ).
Las normas “normales”: L1 y L2
El para llevar es simple pero poderoso: debido a que las normas L¹ y L² se comportan de manera diferente en algunas maneras cruciales, puede combinarlas en un objetivo para hacer malabarismos con dos objetivos competitivos. En regularizaciónlos términos L¹ y L² dentro de la función de pérdida ayudan a lograr el mejor lugar en el espectro de varianza de sesgo, produciendo un modelo que es preciso y generalizable. En Gansel Pérdica de píxeles L. se combina con pérdida adversa Entonces, el generador hace imágenes que (i) se ven realistas y (ii) coinciden con la salida prevista. Pequeñas distinciones entre las dos pérdidas explican por qué Lazo realiza la selección de funciones y por qué intercambiar L² por L² en un GaN a menudo produce imágenes borrosas.
Lella vs. L² Pérdida: similitudes y diferencias
- Si sus datos pueden contener muchos valores atípicos o ruido de cola pesadanormalmente alcanza L¹.
- Si más le importa el error al cuadrado general y tiene datos razonablemente limpios, L² está bien, y más fácil de optimizar porque es suave.
Debido a que MAE trata cada error proporcionalmente, los modelos entrenados con Light se sientan más cerca del mediana Observación, que es exactamente por qué la pérdida de L¹ mantiene los detalles de la textura en Gans, mientras que la penalización cuadrática de MSE empuja el modelo hacia un significar valor que parece manchado.
Ll regularización (lasso)
Optimización y Regularización Tirar en direcciones opuestas: la optimización intenta adaptarse perfectamente al conjunto de entrenamiento, mientras que la regularización sacrifica deliberadamente una pequeña precisión de entrenamiento para ganar generalización. Agregar una penalización Lile 𝛼∥W∥₁ promueve escasez – Muchos coeficientes colapsan hasta cero. Un α más grande significa poda de características más dura, modelos más simples y menos ruido de las entradas irrelevantes. Con elso, obtienes Selección de características incorporadaPorque el término ∥W∥₁ literalmente apaga pequeños pesos, mientras que L² simplemente los encoge.
Regularización de L2 (cresta)
Cambiar el término de regularización a
Y tu tienes Regresión de cresta . Cresta encogidoPesos hacia cero sin generalmente golpear exactamente cero. Eso desalienta a cualquier característica de dominar mientras sigue siendo cada característica en juego, a mano cuando cree todo Las entradas son importantes, pero desea frenar el sobreajuste.
Tanto lasso como la cresta mejoran generalización ; Con elsoS, una vez que un peso llega a cero, el optimizador no siente una razón fuerte para irse, es como pararse en tierra plana, por lo que los ceros naturalmente se “pegan”. O en términos más técnicos simplemente moldean el espacio de coeficiente De manera diferente: la restricción en forma de diamante de Lasso establece las coordenadas de cero, el conjunto esférico de Ridge simplemente las aprieta. No se preocupe si no entendió eso, hay mucha teoría que está más allá del alcance de este artículo, pero si le interesa esta lectura. Lₚ Space debería ayudar.
Pero de vuelta a punto. Observe cómo cuando entrenamos ambos modelos en los mismos datos, Lasso elimina algunas características de entrada estableciendo sus coeficientes exactamente en cero.
from sklearn.datasets import make_regression
from sklearn.linear_model import Lasso, Ridge
X, y = make_regression(n_samples=100, n_features=30, n_informative=5, noise=10)
model = Lasso(alpha=0.1).fit(X, y)
print("Lasso nonzero coeffs:", (model.coef_ != 0).sum())
model = Ridge(alpha=0.1).fit(X, y)
print("Ridge nonzero coeffs:", (model.coef_ != 0).sum())
Observe cómo si aumentamos α a 10 se eliminan muchas más características. Esto puede ser bastante peligroso ya que podríamos deshacernos de los datos informativos.
model = Lasso(alpha=10).fit(X, y)
print("Lasso nonzero coeffs:", (model.coef_ != 0).sum())
model = Ridge(alpha=10).fit(X, y)
print("Ridge nonzero coeffs:", (model.coef_ != 0).sum())
Lella Pérdida en redes adversas generativas (GANS)
Gans Pit 2 Networks uno contra el otro, un Generador GRAMO (el “falsificador”) contra un Discriminado D (el “detective”). Para hacer GRAMO producir convincente y Imágenes fieles, muchos Gans de imagen a imagen usan un pérdida híbrida
dónde
- incógnita– Imagen de entrada (por ejemplo, un boceto)
- Y– Imagen objetivo real (por ejemplo, una foto)
- λ– Equilibrar la perilla entre el realismo y la fidelidad
Intercambiar la pérdida de píxel a L² Y usted cuadras errores de píxeles; Los grandes residuos dominan el objetivo, entonces GRAMOlo juega seguro prediciendo el significar de todas las texturas plausibles: resultado: salidas más suaves y más borrosas. Con L¹ cada error de píxel cuenta lo mismo, así que GRAMOgravita al mediana Parche de textura y mantiene límites afilados.
Por qué importantes pequeñas diferencias son importantes
- En regresión, la torcedura en L¹ Derivado Lazo cero predictores débiles, mientras que Cresta Solo los empuja.
- En visión, la penalización lineal de L¹ mantiene detalles de alta frecuencia que L² Desbogados.
- En ambos casos puedes mezclar L¹ y L²para comerciar robustez, escasezy optimización suave: exactamente el acto de equilibrio en el corazón de los objetivos modernos de aprendizaje automático.
Generalizar la distancia a Lᵖ
Antes de alcanzar L∞necesitamos hablar sobre las cuatro reglas cada norma debe satisfacer:
- No negligatividad– Una distancia no puede ser negativa; Nadie dice “Estoy a –10 m de la piscina”.
- Definición positiva– La distancia es cero solo en el vector cero, donde no ha sucedido desplazamiento
- Homogeneidad absoluta (escalabilidad) – Escalar un vector por α escala su longitud por | α |: si duplica su velocidad, duplica su distancia
- Desigualdad triangular – Un desvío a través de Y nunca es más corto que ir directamente de principio a fin (x + y)
Al comienzo de este artículo, la abstracción matemática que realizamos fue bastante sencilla. Pero ahora, mientras miramos las siguientes normas, puedes ver que estamos haciendo algo similar a un nivel más profundo. Hay un patrón claro: el exponente dentro de la suma aumenta en uno cada vez, y el exponente fuera de la suma también lo hace. También estamos verificando si esta noción de distancia más abstracta aún satisface las propiedades centrales que mencionamos anteriormente. Lo hace. Entonces, lo que hemos hecho es abstraer con éxito el concepto de distancia en el espacio Lᵖ.
como un solo familia de distancias – el Lᵖ Space . Tomando el límite como p → ∞ aprieta a esa familia hasta el camino hasta el Norma L∞ .
La norma l∞
La norma L∞ pasa por muchos nombres Norma supremum, norma máxima, norma uniforme, norma chebyshev pero todos se caracterizan por el siguiente límite:
Al generalizar nuestra norma a P – espacio, en dos líneas de código, podemos escribir una función que calcule la distancia en cualquier norma imaginable. Bastante útil.
def Lp_norm(v, p):
return sum(abs(x)**p for x in v) ** (1/p)
Ahora podemos pensar en cómo nuestra medida de distancia cambia como pag aumenta. Mirando los gráficos a continuación, vemos que nuestra medida para la distancia disminuye y se acerca a un punto muy específico: el valor absoluto más grande en el vector, representado por el línea discontinua en negro.
De hecho, no solo aborda la coordenada absoluta más grande de nuestro vector, sino también
La norma máxima aparece en cualquier momento que necesite un garantía uniforme o El peor control de casos. En términos menos técnicos, si ninguna coordenada individual puede ir más allá de un cierto umbral, se debe usar la norma L∞. Si desea establecer un límite duro en cada coordenada de su vector, entonces esta es también su norma.
Esto no es solo una peculiaridad de la teoría, sino algo bastante útil, y bien aplicado en la gran cantidad de diferentes contextos:
- Error absoluto máximo– Bojar cada predicción para que ninguna se desplace demasiado.
- Escalado de características max-abs– Squashes cada característica en [−1,1][-1,1][−1,1] sin distorsionar dispersión.
- Restricciones de peso de la norma máxima-Mantenga todos los parámetros dentro de una caja alineada por el eje.
- Robustez adversa-Restringir cada perturbación de píxeles a un cubo ε (una bola L∞).
- Chebyshev DistanciaEn K-NN y Búsquedas de la red, la forma más rápida de medir los pasos de “King’s-Move”.
- Problemas de cartera de regresión robusta / Chebyshev-Center– Programas lineales que minimizan el peor residual.
- Tapas de equidad-Limite la mayor violación por grupo, no solo el promedio.
- Pruebas de colisión de caja delimitador-Envuelva objetos en cuadros alineados con eje para verificaciones de superposición rápidas.
Con nuestra noción más abstracta para la distancia, todo tipo de preguntas interesantes llegan al frente. Podemos considerar pagvalor que no son enteros, digamos P = π(Como verá en los gráficos anteriores). También podemos considerar pag∈ (0,1), digamos pag= 0.3, ¿eso todavía encajaría en las 4 reglas que dijimos que cada norma debe obedecer?
Conclusión
Abstruir la idea de la distancia puede sentirse difícil de manejar, incluso teórico innecesariamente, pero destilarla a sus propiedades centrales nos libera para hacer preguntas que de otro modo serían imposibles de enmarcar. Hacerlo revela nuevas normas con usos concretos del mundo real. Es tentador tratar todas las medidas de distancia como intercambiables, pero pequeñas diferencias algebraicas dan a cada norma propiedades distintas que dan forma a los modelos construidos sobre ellos. Desde la compensación de varianza de sesgo en la regresión hasta la elección entre imágenes nítidas o borrosas en Gans, importa cómo mida la distancia.
Vamos a conectarnos LinkedIn!
Seguirme X = Twitter
Codificar Github