Screenshot 2024 05 04 At 12.59.57 Pm.png

Los perceptrones multicapa (MLP), también conocidos como redes neuronales de alimentación directa totalmente conectadas, han sido importantes en el aprendizaje profundo moderno. Debido a la garantía de capacidad expresiva del teorema de aproximación universal, se emplean con frecuencia para aproximar funciones no lineales. Los MLP se utilizan ampliamente; sin embargo, tienen desventajas como un alto consumo de parámetros y una mala interpretabilidad en modelos complejos como los transformadores.

Las redes Kolmogorov-Arnold (KAN), que se inspiran en el teorema de representación de Kolmogorov-Arnold, ofrecen un posible sustituto para abordar estos inconvenientes. Al igual que los MLP, los KAN tienen una topología completamente conectada, pero utilizan un enfoque diferente al colocar funciones de activación que se pueden aprender en los bordes (pesos) en lugar de aprender funciones de activación fijas en los nodos (neuronas). Una función 1D que se puede aprender y parametrizada como spline asume el papel de cada parámetro de peso en un KAN. Como resultado, los KAN eliminan las matrices de peso lineales convencionales y sus nodos agregan señales entrantes sin sufrir transformaciones no lineales.

En comparación con los MLP, los KAN son más eficientes a la hora de producir gráficos computacionales más pequeños, lo que ayuda a contrarrestar su costo computacional potencial. Los datos empíricos, por ejemplo, demuestran que un KAN de 2 capas de ancho 10 puede lograr una mayor precisión (menor error cuadrático medio) y eficiencia de parámetros (menos parámetros) que un MLP de 4 capas de ancho 100.

Cuando se trata de precisión e interpretabilidad, el uso de splines como funciones de activación en KAN tiene varias ventajas sobre los MLP. Cuando se trata de precisión, los KAN más pequeños pueden funcionar tan bien o mejor que los MLP más grandes en tareas como la resolución de ecuaciones diferenciales parciales (PDE) y el ajuste de datos. Tanto teórica como experimentalmente, este beneficio se demuestra, ya que los KAN exhiben leyes de escalamiento más rápidos para las redes neuronales en comparación con los MLP.

Los KAN también funcionan excepcionalmente bien en interpretabilidad, lo cual es esencial para comprender y utilizar modelos de redes neuronales. Debido a que los KAN emplean splines estructurados para expresar funciones de una manera más transparente y comprensible que los MLP, pueden visualizarse intuitivamente. Debido a su interpretabilidad, el modelo y los usuarios humanos pueden colaborar más fácilmente, lo que conduce a mejores conocimientos.

El equipo ha compartido dos ejemplos que muestran cómo los KAN pueden ser herramientas útiles para que los científicos redescubran y comprendan complejas leyes matemáticas y físicas: uno de la física, que es la localización de Anderson, y otro de las matemáticas, que es la teoría de nudos. Los modelos de aprendizaje profundo pueden contribuir de manera más efectiva a la investigación científica cuando los KAN mejoran la comprensión de las representaciones de datos subyacentes y los comportamientos de los modelos.

En conclusión, los KAN presentan un sustituto viable de los MLP, ya que utilizan el teorema de representación de Kolmogorov-Arnold para superar restricciones importantes en la arquitectura de redes neuronales. En comparación con los MLP tradicionales, los KAN exhiben una mayor precisión, cualidades de escalado más rápido y una mayor interpretabilidad debido a su uso de funciones de activación basadas en splines que se pueden aprender en los bordes. Este desarrollo amplía las posibilidades de innovación en aprendizaje profundo y mejora las capacidades de las arquitecturas de redes neuronales actuales.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 41k+ ML


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.