Screenshot 2024 05 24 At 11.51.55 Pm.png

Los avances en IA han dado lugar a sistemas competentes que toman decisiones poco claras, lo que genera preocupaciones sobre el despliegue de IA no confiable en la vida diaria y la economía. Comprender las redes neuronales es vital para la confianza, las preocupaciones éticas como el sesgo algorítmico y las aplicaciones científicas que requieren validación de modelos. Los perceptrones multicapa (MLP) se utilizan ampliamente pero carecen de interpretabilidad en comparación con las capas de atención. La renovación del modelo tiene como objetivo mejorar la interpretabilidad con componentes especialmente diseñados. Basado en las redes Kolmogorov-Arnold (KAN), ofrece interpretabilidad y precisión mejoradas según el teorema de Kolmogorov-Arnold. Un trabajo reciente extiende los KAN a anchos y profundidades arbitrarios utilizando B-splines, conocidos como Spl-KAN.

Investigadores de la Universidad Estatal de Boise han desarrollado Wav-KAN, una arquitectura de red neuronal que mejora la interpretabilidad y el rendimiento mediante el uso de funciones wavelet dentro del marco KAN. A diferencia de los MLP tradicionales y Spl-KAN, Wav-KAN captura de manera eficiente componentes de datos de alta y baja frecuencia, mejorando la velocidad del entrenamiento, la precisión, la solidez y la eficiencia computacional. Al adaptarse a la estructura de datos, Wav-KAN evita el sobreajuste y mejora el rendimiento. Este trabajo demuestra el potencial de Wav-KAN como una herramienta de red neuronal potente e interpretable con aplicaciones en diversos campos e implementaciones en marcos como PyTorch y TensorFlow.

Wavelets y B-splines son métodos clave para la aproximación de funciones, cada uno con ventajas e inconvenientes únicos en las redes neuronales. Los B-splines ofrecen aproximaciones fluidas y controladas localmente, pero tienen problemas con datos de alta dimensión. Las wavelets, que destacan en el análisis de múltiples resoluciones, manejan datos de alta y baja frecuencia, lo que las hace ideales para la extracción de características y arquitecturas de redes neuronales eficientes. Wav-KAN supera a Spl-KAN y MLP en velocidad, precisión y solidez del entrenamiento mediante el uso de wavelets para capturar la estructura de datos sin sobreajuste. La eficiencia de los parámetros de Wav-KAN y la falta de dependencia de los espacios de la cuadrícula lo hacen superior para tareas complejas, respaldado por la normalización por lotes para mejorar el rendimiento.

Los KAN se inspiran en el teorema de representación de Kolmogorov-Arnold, que establece que cualquier función multivariada se puede descomponer en la suma de funciones univariadas de sumas. En los KAN, en lugar de pesos tradicionales y funciones de activación fijas, cada «peso» es una función que se puede aprender. Esto permite a los KAN transformar entradas a través de funciones adaptables, lo que lleva a una aproximación de funciones más precisa con menos parámetros. Durante el entrenamiento, estas funciones se optimizan para minimizar la función de pérdida, mejorando la precisión y la interpretabilidad del modelo al aprender directamente las relaciones de los datos. Por tanto, los KAN ofrecen una alternativa flexible y eficiente a las redes neuronales tradicionales.

Los experimentos con el modelo KAN en el conjunto de datos MNIST utilizando varias transformaciones wavelet mostraron resultados prometedores. El estudio utilizó 60.000 imágenes de entrenamiento y 10.000 imágenes de prueba, con tipos de ondas que incluyen sombrero mexicano, Morlet, derivada de Gauss (DOG) y Shannon. Wav-KAN y Spl-KAN emplearon normalización por lotes y tenían una estructura de [28*28,32,10] nodos. Los modelos fueron entrenados durante 50 épocas en cinco pruebas. Utilizando el optimizador AdamW y la pérdida de entropía cruzada, los resultados indicaron que las wavelets como DOG y Mexican hat superaron a Spl-KAN al capturar de manera efectiva características esenciales y mantener la robustez contra el ruido, enfatizando el papel crítico de la selección de wavelets.

En conclusión, Wav-KAN, una nueva arquitectura de red neuronal, integra funciones wavelet en KAN para mejorar la interpretabilidad y el rendimiento. Wav-KAN captura patrones de datos complejos utilizando el análisis multiresolución de wavelets de manera más efectiva que los MLP y Spl-KAN tradicionales. Los experimentos muestran que Wav-KAN logra una mayor precisión y velocidades de entrenamiento más rápidas debido a su combinación única de transformadas wavelet y el teorema de representación de Kolmogorov-Arnold. Esta estructura mejora la eficiencia de los parámetros y la interpretabilidad del modelo, lo que convierte a Wav-KAN en una herramienta valiosa para diversas aplicaciones. El trabajo futuro optimizará aún más la arquitectura y ampliará su implementación en marcos de aprendizaje automático como PyTorch y TensorFlow.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.