La prueba del aprendizaje en aprendizaje automático/IA |  de Rómulo Pauliv |  mayo, 2024

Este algoritmo se conoce como “Descenso de gradiente” o “Método de descenso más pronunciado”, siendo un método de optimización para encontrar el mínimo de una función donde cada paso se da en la dirección del gradiente negativo. Este método no garantiza que se encontrará el mínimo global de la función, sino un mínimo local.

Las discusiones sobre cómo encontrar el mínimo global podrían desarrollarse en otro artículo, pero aquí hemos demostrado matemáticamente cómo se puede utilizar el gradiente para este propósito.

Ahora, aplicándolo a la función de costos. mi eso depende del norte pesas wtenemos:

Fuente: El Autor. Ec. (14)

Para actualizar todos los elementos de W. Basado en el descenso de gradiente, tenemos:

Fuente: El Autor. Ec. (15)

y para cualquier norteésimo elemento 𝑤 del vector W.tenemos:

Fuente: El Autor. Ec. (dieciséis)

Por lo tanto, tenemos nuestro algoritmo de aprendizaje teórico. Lógicamente esto no se aplica a la hipotética idea del cocinero, sino a numerosos algoritmos de aprendizaje automático que conocemos hoy en día.

Con base en lo visto podemos concluir la demostración y prueba matemática del algoritmo de aprendizaje teórico. Esta estructura se aplica a numerosos métodos de aprendizaje, como AdaGrad, Adam y Stochastic Gradient Descent (SGD).

Este método no garantiza encontrar el norte-valores de peso w donde el función de costo arroja un resultado igual a cero o muy cercano a él. Sin embargo, nos asegura que se encontrará un mínimo local de la función de costos.

Para abordar la cuestión de los mínimos locales, existen varios métodos más sólidos, como SGD y Adam, que se utilizan comúnmente en el aprendizaje profundo.

Sin embargo, comprender la estructura y la prueba matemática del algoritmo de aprendizaje teórico basado en el descenso de gradientes facilitará la comprensión de algoritmos más complejos.

Referencias

Carreira-Perpiñán, MA y Hinton, GE (2005). Sobre el aprendizaje de divergencia contrastiva. En RG Cowell y Z. Ghahramani (Eds.), Inteligencia artificial y estadística, 2005 (págs. 33 a 41). Fort Lauderdale, FL: Sociedad de Estadística e Inteligencia Artificial.

García Cabello, J. Redes Neuronales Matemáticas. Axiomas 2022, 11, 80.

Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh. Un algoritmo de aprendizaje rápido para redes de creencias profundas. Computación neuronal 18, 1527-1554. Instituto de Tecnología de Massachusetts

LeCun, Y., Bottou, L. y Haffner, P. (1998). Aprendizaje basado en gradientes aplicado al reconocimiento de documentos. Actas del IEEE, 86(11), 2278–2324.