En mi artículo anterior, presentamos el perceptrón multicapa (MLP), que es sólo un conjunto de apilados interconectados perceptrones. Le recomiendo encarecidamente que consulte mi publicación anterior si no está familiarizado con el perceptrón y MLP, ya que lo discutiremos bastante en este artículo:
A continuación se muestra un ejemplo de MLP con dos capas ocultas:
Sin embargo, el problema con el MLP es que sólo puede ajustarse a un clasificador lineal. Esto se debe a que los perceptrones individuales tienen una función de paso como su función de activaciónque es lineal:
Entonces, a pesar de que el apilamiento de nuestros perceptrones puede parecer una red neuronal moderna, sigue siendo un clasificador lineal y no muy diferente de la regresión lineal normal.
Otro problema es que no es completamente diferenciable en todo el rango de dominio.
¿Entonces qué hacemos al respecto?
¡Funciones de activación no lineales!
¿Qué es la linealidad?
Expliquemos rápidamente qué significa linealidad para construir algo de contexto. Matemáticamente una función se considera lineal si cumple la siguiente condición:
También hay otra condición:
Pero trabajaremos con la ecuación anterior para esta demostración.
Tomemos este caso muy simple: