¿Cómo podemos construir sistemas de IA que sigan aprendiendo nueva información a lo largo del tiempo sin olvidar lo que aprendieron antes o volver a capacitarse desde cero? Los investigadores de Google han introducido Nested Learning, un enfoque de aprendizaje automático que trata un modelo como una colección de problemas de optimización anidados más pequeños, en lugar de una única red entrenada por un bucle externo. El objetivo es atacar el olvido catastrófico y hacer avanzar grandes modelos hacia el aprendizaje continuo, más cerca de cómo los cerebros biológicos gestionan la memoria y la adaptación a lo largo del tiempo.
¿Qué es el aprendizaje anidado?
El artículo de investigación de Google ‘Nested Learning, The Illusion of Deep Learning Architectures’ modela una red neuronal compleja como un conjunto de problemas de optimización coherentes, anidados o ejecutándose en paralelo, que se optimizan juntos. Cada problema interno tiene su propio flujo de contexto, la secuencia de entradas, gradientes o estados que observa este componente y su propia frecuencia de actualización.
En lugar de ver el entrenamiento como una pila plana de capas más un optimizador, Nested Learning impone un orden por frecuencia de actualización. Los parámetros que se actualizan a menudo se encuentran en niveles internos, mientras que los parámetros que se actualizan lentamente forman niveles externos. Esta jerarquía define un módulo de aprendizaje neuronal, donde cada nivel comprime su propio flujo de contexto en sus parámetros. El equipo de investigación muestra que esta vista cubre la propagación hacia atrás estándar en un MLP, la atención lineal y los optimizadores comunes, todos como instancias de memoria asociativa.
En este marco, la memoria asociativa es cualquier operador que asigna claves a valores y se entrena con un objetivo interno. El equipo de investigación formaliza la memoria asociativa y luego muestra que la propia retropropagación se puede escribir como una actualización de descenso de gradiente de un solo paso que aprende un mapeo de las entradas a las señales sorpresa locales, el gradiente de la pérdida con respecto a la salida.
Optimizadores profundos como memoria asociativa
Una vez que los optimizadores se tratan como módulos de aprendizaje, Nested Learning sugiere rediseñarlos con objetivos internos más completos. El impulso estándar se puede escribir como una memoria asociativa lineal sobre gradientes pasados, entrenada con un objetivo de similitud de producto escalar. Este objetivo interno produce una regla de actualización similar a la de Hebbian que no modela dependencias entre muestras de datos.
El equipo de investigadores reemplazó este objetivo de similitud con una pérdida de regresión L2 sobre características de gradiente, lo que produce una regla de actualización que gestiona mejor la capacidad de memoria limitada y memoriza mejor las secuencias de gradiente. Luego generalizan la memoria de impulso de un mapa lineal a un MLP y definen el descenso de gradiente de impulso profundo, donde el estado de impulso es producido por una memoria neuronal y puede pasar a través de una función no lineal como Newton Schulz. Esta perspectiva también recupera el optimizador de Muon como un caso especial.
Sistema de memoria continua
En los modelos de secuencia típicos, la atención actúa como memoria de trabajo en la ventana de contexto actual, mientras que los bloques de avance almacenan el conocimiento previo al entrenamiento como memoria a largo plazo que rara vez se actualiza después del entrenamiento. Los investigadores de Nested Learning amplían esta visión binaria a un sistema de memoria continua o CMS.
CMS se define como una cadena de bloques MLP, MLP(f₁) a MLP(fₖ), donde cada bloque tiene su propia frecuencia de actualización y tamaño de fragmento. Para una secuencia de entrada, la salida se obtiene aplicando secuencialmente estos bloques. Los parámetros de cada bloque se actualizan solo cada C^(ℓ) pasos, por lo que cada bloque comprime una escala de tiempo de contexto diferente en sus parámetros. Un transformador estándar con un bloque de avance se recupera como caso especial con k igual a 1.
Esta construcción convierte la memoria a largo plazo en un espectro de niveles a lo largo de la frecuencia, en lugar de una única capa estática de avance. La investigación conecta esto directamente con procesos sinápticos y de consolidación de sistemas en múltiples escalas de tiempo en el cerebro, donde diferentes partes del sistema aprenden a diferentes ritmos mientras comparten una arquitectura común.
HOPE, una arquitectura automodificable construida sobre titanes
Para demostrar que el aprendizaje anidado es práctico, el equipo de investigación diseñó HOPE, un modelo de secuencia autorreferencial que aplica el paradigma a una arquitectura recurrente. HOPE se construye como una variante de Titans, una arquitectura de memoria a largo plazo donde un módulo de memoria neuronal aprende a memorizar eventos sorprendentes en el momento de la prueba y ayuda a que la atención preste atención a tokens pasados hace mucho tiempo.
Titans tiene solo 2 niveles de actualización de parámetros, lo que produce un aprendizaje de primer orden en contexto. HOPE extiende Titans de 2 maneras. En primer lugar, se modifica a sí mismo, puede optimizar su propia memoria a través de un proceso autorreferencial y, en principio, puede soportar niveles ilimitados de aprendizaje en contexto. En segundo lugar, integra bloques del Continuum Memory System para que las actualizaciones de la memoria se produzcan en múltiples frecuencias y se escale a ventanas de contexto más largas.
Comprender los resultados
El equipo de investigación evalúa HOPE y líneas de base sobre modelado del lenguaje y tareas de razonamiento de sentido común en 3 escalas de parámetros, parámetros 340M, 760M y 1.3B. Los puntos de referencia incluyen la perplejidad de Wiki y LMB para el modelado del lenguaje y la precisión de PIQA, HellaSwag, WinoGrande, ARC Easy, ARC Challenge, Social IQa y BoolQ para el razonamiento. La Tabla 1 que se proporciona a continuación informa los resultados de HOPE, Transformer++, RetNet, Gated DeltaNet, TTT, Samba y Titans.
Conclusiones clave
Nested Learning trata un modelo como múltiples problemas de optimización anidados con diferentes frecuencias de actualización, lo que apunta directamente al olvido catastrófico en el aprendizaje continuo. El marco reinterpreta la retropropagación, la atención y los optimizadores como módulos de memoria asociativos que comprimen su propio flujo de contexto, brindando una visión unificada de la arquitectura y la optimización. Los optimizadores profundos en Nested Learning reemplazan la simple similitud de productos escalables con objetivos más completos, como la regresión L2, y utilizan memorias neuronales, lo que conduce a reglas de actualización más expresivas y conscientes del contexto. El sistema de memoria Continuum modela la memoria como un espectro de bloques MLP que se actualizan a diferentes velocidades, creando memoria de corto, mediano y largo alcance en lugar de una capa estática de avance. La arquitectura HOPE, una variante automodificable de Titans construida utilizando principios de aprendizaje anidado, muestra un modelado de lenguaje mejorado, razonamiento de contexto extenso y rendimiento de aprendizaje continuo en comparación con Transformer sólido y líneas de base recurrentes.
Nested Learning es una reformulación útil de las redes profundas como módulos de aprendizaje neuronal que integran arquitectura y optimización en un solo sistema. La introducción de Deep Momentum Gradient Descent, Continuum Memory System y la arquitectura HOPE brinda un camino concreto hacia una memoria asociativa más rica y un mejor aprendizaje continuo. En general, este trabajo convierte el aprendizaje continuo de una ocurrencia tardía en un eje principal de diseño.
Consulte el documento y los detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.