Las redes neuronales artificiales (RNA) muestran un patrón notable cuando se entrenan con datos naturales, independientemente de la inicialización exacta, el conjunto de datos o el objetivo del entrenamiento; Los modelos entrenados en el mismo dominio de datos convergen en patrones aprendidos similares. Por ejemplo, para diferentes modelos de imágenes, los pesos de las capas iniciales tienden a converger en filtros Gabor y detectores de contraste de color. Muchas de estas características sugieren una representación global que va más allá de los sistemas biológicos y artificiales, y estas características se observan en la corteza visual. Estos hallazgos son prácticos y están bien establecidos en el campo de las máquinas que pueden interpretar la literatura pero carecen de explicaciones teóricas.
Las versiones localizadas de funciones canónicas de base de Fourier 2D son las características universales más observadas en modelos de imágenes, por ejemplo, filtros de Gabor o wavelets. Cuando los modelos de visión se entrenan en tareas como codificación eficiente, clasificación, coherencia temporal y objetivos de predicción del siguiente paso, estas características de Fourier aparecen en las capas iniciales del modelo. Aparte de esto, se han observado características de Fourier no localizadas en redes entrenadas para resolver tareas donde se permite la envoltura cíclica, por ejemplo, aritmética modular, composiciones de grupos más generales o invariancia al grupo de traslaciones cíclicas.
Investigadores de KTH, el Centro Redwood de Neurociencia Teórica y la UC Santa Bárbara introdujeron una explicación matemática para el aumento de las características de Fourier en sistemas de aprendizaje como las redes neuronales. Este aumento se debe a la invariancia posterior del alumno que se vuelve insensible a ciertas transformaciones, por ejemplo, traslación o rotación plana. El equipo ha obtenido garantías teóricas sobre las características de Fourier en estudiantes invariantes que pueden usarse en diferentes modelos de aprendizaje automático. Esta derivación se basa en el concepto de que la invariancia es un sesgo fundamental que puede inyectarse implícitamente y, a veces, explícitamente en los sistemas de aprendizaje debido a las simetrías de los datos naturales.
La transformada de Fourier discreta estándar es un caso especial de transformadas de Fourier más generales en grupos, que se pueden definir reemplazando la base de los armónicos con diferentes representaciones de grupos unitarios. Se forma un conjunto de trabajos teóricos previos para modelos de codificación dispersa, derivando las condiciones bajo las cuales se utilizan combinaciones lineales dispersas para recuperar las bases originales que generan datos con la ayuda de una red. La teoría propuesta cubre diversas situaciones y arquitecturas de redes neuronales que ayudan a sentar las bases para una teoría del aprendizaje de representaciones en sistemas neuronales artificiales y biológicos.
El equipo dio dos teoremas informales en este artículo, el primero establece que si una función paramétrica de cierto tipo es invariante en la variable de entrada a la acción de un grupo finito G, entonces cada componente de sus pesos W coincide con un armónico de G hasta una transformación lineal. El segundo teorema establece que si una función paramétrica es casi invariante con respecto a G según algunos límites funcionales y los pesos son ortonormales, entonces la tabla multiplicativa de G se puede recuperar a partir de W. Además, se implementa un modelo para satisfacer la necesidad del método propuesto. teoría y entrenado a través de diferentes aprendizajes sobre un objetivo que soporte la invariancia y la extracción de la tabla multiplicativa de G a partir de sus pesos.
En conclusión, los investigadores introdujeron una explicación matemática para el aumento de las funciones de Fourier en sistemas de aprendizaje como las redes neuronales. Además, demostraron que si un modelo de aprendizaje automático de un tipo específico es invariante para un grupo finito, entonces sus pesos están estrechamente relacionados con la transformada de Fourier en ese grupo, y la estructura algebraica de un grupo desconocido se puede recuperar a partir de un modelo invariante. . El trabajo futuro incluye el estudio de análogos de la teoría propuesta sobre números reales, que es un área interesante que se alineará más con las prácticas actuales en este campo.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 42k+ ML
Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.