Me alegra que hayas planteado esta pregunta. Para ir directo al grano, normalmente evitamos pag valores menores que 1 porque conducen a problemas de optimización no convexos. Permítanme ilustrar esto con una imagen que muestra la forma de las normas Lp para diferentes pag valores. Mire de cerca cuando p=0,5; Notarás que la forma es decididamente no convexa.
Esto se vuelve aún más claro cuando miramos una representación 3D, suponiendo que estamos optimizando tres pesos. En este caso, es evidente que el problema no es convexo, apareciendo numerosos mínimos locales a lo largo de los límites.
La razón por la que normalmente evitamos los problemas no convexos en el aprendizaje automático es su complejidad. Con un problema convexo, se garantiza un mínimo global; esto generalmente hace que sea más fácil de resolver. Por otro lado, los problemas no convexos a menudo vienen con múltiples mínimos locales y pueden ser computacionalmente intensivos e impredecibles. Son exactamente este tipo de desafíos los que pretendemos evitar en ML.
Cuando utilizamos técnicas como los multiplicadores de Lagrange para optimizar una función con ciertas restricciones, Es crucial que estas restricciones sean funciones convexas. Esto asegura que agregarlos al problema original no altere sus propiedades fundamentales, haciéndolo más difícil de resolver. Este aspecto es crítico; de lo contrario, agregar restricciones podría agregar más dificultades al problema original.
Sus preguntas tocan un aspecto interesante del aprendizaje profundo. Si bien no es que prefiramos los problemas no convexos, es más exacto decir que A menudo los encontramos y tenemos que lidiar con ellos en el campo del aprendizaje profundo.. Este es el por qué:
- La naturaleza de los modelos de aprendizaje profundo conduce a una superficie de pérdida no convexa: La mayoría de los modelos de aprendizaje profundo, en particular las redes neuronales con capas ocultas, tienen inherentemente funciones de pérdida no convexas. Esto se debe a las transformaciones complejas y no lineales que ocurren dentro de estos modelos. La combinación de estas no linealidades y la alta dimensionalidad del espacio de parámetros normalmente da como resultado una superficie de pérdida que no es convexa.
- Los mínimos locales ya no son un problema en el aprendizaje profundo: En espacios de alta dimensión, que son típicos del aprendizaje profundo, los mínimos locales no son tan problemáticos como podrían serlo en espacios de menor dimensión. Las investigaciones sugieren que muchos de los mínimos locales en aprendizaje profundo tienen un valor cercano al mínimo global. Además, los puntos silla (puntos donde el gradiente es cero pero no son máximos ni mínimos) son más comunes en tales espacios y representan un desafío mayor.
- Existen técnicas de optimización avanzadas que son más efectivas para tratar con espacios no convexos. Las técnicas de optimización avanzadas, como el descenso de gradiente estocástico (SGD) y sus variantes, han resultado particularmente efectivas para encontrar buenas soluciones en estos espacios no convexos. Si bien es posible que estas soluciones no sean mínimos globales, a menudo son lo suficientemente buenas como para lograr un alto rendimiento en tareas prácticas.
Aunque los modelos de aprendizaje profundo no son convexos, destacan por capturar patrones y relaciones complejos en grandes conjuntos de datos. Además, la investigación sobre funciones no convexas avanza continuamente, mejorando nuestra comprensión. De cara al futuro, tenemos potencial para manejar problemas no convexos de manera más eficiente y con menos preocupaciones.
Recuerde la imagen que discutimos anteriormente que muestra las formas de las normas Lp para varios valores de pag. Como pag aumenta, la forma de la norma Lp evoluciona. Por ejemplo, en pag = 3parece un cuadrado con esquinas redondeadas, y como pag Cuando se acerca al infinito forma un cuadrado perfecto.
En el contexto de nuestro problema de optimización, considere normas más altas como L3 o L4. De manera similar a la regularización L2, donde la función de pérdida y los contornos de restricción se cruzan en bordes redondeados, estas normas más altas alentarían que los pesos se aproximaran a cero, al igual que la regularización L2. (Si esta parte no está clara, no dudes en volver a visitarla Parte 2 para una explicación más detallada.) Con base en esta afirmación, podemos hablar de las dos razones cruciales por las que las normas L3 y L4 no se usan comúnmente:
- Las normas L3 y L4 demuestran efectos similares a los de L2, sin ofrecer nuevas ventajas significativas (hacen que los pesos se acerquen a 0). La regularización L1, por el contrario, pone a cero los pesos e introduce escasez, lo que es útil para la selección de funciones.
- La complejidad computacional es otro aspecto vital. La regularización afecta la complejidad del proceso de optimización. Las normas L3 y L4 son computacionalmente más pesadas que L2, lo que las hace menos factibles para la mayoría de las aplicaciones de aprendizaje automático.
En resumen, si bien las normas L3 y L4 podrían usarse en teoría, no brindan beneficios únicos sobre la regularización L1 o L2, y su ineficiencia computacional las convierte en una opción menos práctica.
Sí, de hecho es posible combinar la regularización L1 y L2, una técnica a menudo denominada regularización Elastic Net. Este enfoque combina las propiedades de la regularización L1 (lazo) y L2 (cresta) y puede ser útil y desafiante.
La regularización de Elastic Net es una combinación lineal de los términos de regularización L1 y L2. Agrega la norma L1 y L2 a la función de pérdida. Entonces tiene dos parámetros para ajustar, lambda1 y lambda2.
Al combinar ambas técnicas de regularización, Elastic Net puede mejorar la capacidad de generalización del modelo, reduciendo el riesgo de sobreajuste de manera más efectiva que usar L1 o L2 solo.
Analicemos sus ventajas:
- Elastic Net proporciona más estabilidad que L1. La regularización L1 puede generar modelos dispersos, lo cual es útil para la selección de funciones. Pero también puede resultar inestable en determinadas situaciones. Por ejemplo, la regularización L1 puede seleccionar características arbitrariamente entre variables altamente correlacionadas (al mismo tiempo que hace que los coeficientes de otras se vuelvan 0). Mientras que Elastic Net puede distribuir los pesos de manera más uniforme entre esas variables.
- L2 puede ser más estable que la regularización L1, pero no fomenta la escasez. Elastic Net tiene como objetivo equilibrar estos dos aspectos, lo que podría conducir a modelos más sólidos.
Sin embargo, La regularización de Elastic Net introduce un hiperparámetro adicional que exige un ajuste meticuloso. Lograr el equilibrio adecuado entre la regularización L1 y L2 y el rendimiento óptimo del modelo implica mayor esfuerzo computacional. Esta complejidad añadida es la razón por la que no se utiliza con frecuencia.