El teorema de Kolmogorov-Arnold revisitado: por qué las funciones de promedio funcionan mejor

Las redes de Kolmogorov-Arnold (KAN) han surgido como una alternativa prometedora a los perceptrones multicapa tradicionales (MLP). Inspiradas en el teorema de representación de Kolmogorov-Arnold, estas redes utilizan neuronas que realizan operaciones de suma simples. Sin embargo, la implementación actual de las KAN plantea algunos desafíos en las aplicaciones prácticas. Actualmente, los investigadores están investigando la posibilidad de identificar funciones multivariadas alternativas para las neuronas KAN que podrían ofrecer una utilidad práctica mejorada en varios puntos de referencia relacionados con las tareas de aprendizaje automático.

Las investigaciones han destacado el potencial de las KAN en varios campos, como la visión artificial, el análisis de series temporales y la búsqueda de arquitecturas cuánticas. Algunos estudios muestran que las KAN pueden superar a las MLP en tareas de ajuste de datos y PDE mientras utilizan menos parámetros. Sin embargo, algunas investigaciones han suscitado inquietudes sobre la robustez de las KAN al ruido y su rendimiento en comparación con las MLP. También se exploran variaciones y mejoras de la arquitectura KAN estándar, como diseños basados ​​en gráficos, KAN convolucionales y KAN basados ​​en transformadores para resolver los problemas. Además, se investigan funciones de activación alternativas como wavelets, funciones de base radial y funciones sinusoidales para mejorar la eficiencia de las KAN. A pesar de estos trabajos, existe la necesidad de realizar más mejoras para mejorar el rendimiento de las KAN.

Un investigador del Centro de Investigación de Sistemas Inteligentes Aplicados de la Universidad de Halmstad, Suecia, ha propuesto un nuevo enfoque para mejorar el rendimiento de las redes de Kolmogorov-Arnold (KAN). Este método tiene como objetivo identificar la función multivariante óptima para las neuronas KAN en varias tareas de clasificación de aprendizaje automático. El uso tradicional de la suma como función a nivel de nodo a menudo no es ideal, especialmente para conjuntos de datos de alta dimensión con múltiples características. Esto puede hacer que las entradas excedan el rango efectivo de las funciones de activación posteriores, lo que genera inestabilidad en el entrenamiento y un rendimiento de generalización reducido. Para resolver este problema, el investigador sugiere utilizar la media en lugar de la suma como función de nodo.

Para evaluar las modificaciones propuestas de KAN, se utilizan 10 conjuntos de datos populares del Repositorio de Base de Datos de Aprendizaje Automático de la UCI, que abarcan múltiples dominios y tamaños variables. Estos conjuntos de datos se dividen en particiones de entrenamiento (60%), validación (20%) y prueba (20%). Se aplica un método de preprocesamiento estandarizado en todos los conjuntos de datos, que incluye codificación de características categóricas, imputación de valores faltantes y aleatorización de instancias. Los modelos se entrenan para 2000 iteraciones utilizando el optimizador Adam con una tasa de aprendizaje de 0,01 y un tamaño de lote de 32. La precisión del modelo en el conjunto de prueba sirve como métrica de evaluación principal. El recuento de parámetros se administra configurando la cuadrícula en 3 y utilizando hiperparámetros predeterminados para los modelos KAN.

Los resultados respaldan la hipótesis de que el uso de la función media en las neuronas KAN es más eficaz que la función suma tradicional. Esta mejora se debe a la capacidad de la media de mantener los valores de entrada dentro del rango óptimo de la función de activación spline, que es [-1.0, +1.0]Las KAN estándar tuvieron dificultades para mantener los valores dentro de este rango en las capas intermedias a medida que aumentaba la cantidad de características. Sin embargo, la adopción de la función media en neuronas conduce a un mejor rendimiento, manteniendo los valores dentro del rango deseado en los conjuntos de datos con 20 o más características. En el caso de los conjuntos de datos con menos características, los valores se mantuvieron dentro del rango más del 99,0 % del tiempo, excepto en el conjunto de datos “abalone”, que tuvo una tasa de adherencia ligeramente inferior del 96,51 %.

En este artículo, un investigador del Centro de Investigación de Sistemas Inteligentes Aplicados de la Universidad de Halmstad, Suecia, ha propuesto un método para mejorar el rendimiento de las KAN. En este artículo se introduce una modificación importante de las KAN al reemplazar la suma tradicional en las neuronas KAN por una función de promediado. Los resultados experimentales muestran que este cambio conduce a procesos de entrenamiento más estables y mantiene las entradas dentro del rango efectivo de activaciones de splines. Este ajuste a la arquitectura KAN resuelve desafíos previos relacionados con el rango de entrada y la estabilidad del entrenamiento. En el futuro, este trabajo ofrece una dirección prometedora para futuras implementaciones de KAN, mejorando potencialmente su rendimiento y aplicabilidad en varias tareas de aprendizaje automático.


Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí



Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.