La atención lineal reemplaza el caché KV ilimitado de la atención softmax con un estado recurrente de tamaño fijo. Esto reduce la mezcla de secuencias a tiempo lineal y la decodificación a memoria constante. Lo difícil no es qué olvidar. Se trata de cómo editar una memoria comprimida sin codificar las asociaciones existentes.
NVIDIA ha lanzado Gated DeltaNet-2, una capa de atención lineal que apunta a ese cuello de botella. El modelo desacopla la edición de la memoria activa en dos puertas por canal. Está entrenado con 1,3 mil millones de parámetros en 100 mil millones de tokens FineWeb-Edu. Supera a Mamba-2, Gated DeltaNet, KDA y Mamba-3 en todo el conjunto de pruebas comparativas de investigación.
El problema de la puerta escalar en modelos de regla delta
Una capa de atención lineal recurrente almacena un estado de matriz St y lo lee con la consulta. DeltaNet agrega una edición activa restando el valor actualmente asociado con la clave actual. Utiliza un tamaño de paso escalar βt para controlar cuánto se sobrescribe. Mamba-2 agrega una caída escalar αt dependiente de los datos para el olvido global. Gated DeltaNet combinó ambas operaciones, pero ambas puertas siguieron siendo escalares per cápita.
Kimi Delta Attention (KDA) refina el lado de la decadencia. Reemplaza el escalar αt con un vector de canal. KDA todavía mantiene un único escalar βt para la edición activa. Ese escalar controla dos cosas diferentes a la vez. Decide cuánto contenido antiguo borrar en el lado clave. También decide cuánto contenido nuevo comprometer en cuanto al valor. Estas dos decisiones actúan sobre diferentes ejes del Estado. Vincularlos es una restricción del modelado, no una propiedad de la regla delta.
Regla-2 del Delta cerrado: dos puertas en lugar de una
Gated DeltaNet-2 separa las dos decisiones mediante Gated Delta Rule-2. Introduce una puerta de borrado por canales bt ∈ [0,1]dk en el eje clave. También introduce una puerta de escritura por canal wt ∈ [0,1]dv en el eje de valores. Ambas puertas se producen mediante proyecciones sigmoideas de la representación simbólica. La actualización aplica la decadencia antes de la edición activa.
Escrito de forma compacta, la recurrencia es:
St = (I − kt (bt ⊙ kt)⊤) Dt St−1 + kt (wt ⊙ vt)⊤
Aquí Dt = Diag(αt) es la caída del canal transferida desde KDA. El factor izquierdo de la matriz de borrado permanece kt, preservando la dirección de escritura de la regla delta. El factor correcto se convierte en bt ⊙ kt, lo que hace que la dirección de lectura sea selectiva para el canal. El término de escritura kt zt⊤ usa zt = wt ⊙ vt, lo que hace que la actualización del valor sea selectiva para el canal.
Cuando ambas puertas colapsan al mismo escalar βt, la actualización recupera KDA exactamente. Cuando la caída αt también colapsa a un escalar, recupera Gated DeltaNet. Ambos modelos anteriores se conservan como subespacios vinculados de la nueva actualización.
En la vista de ponderación rápida, la regla 2 del delta cerrado es un paso de gradiente en línea en una pérdida de regresión local. El estado decaído permanece cerca de la memoria, mientras que la edición residual utiliza objetivos de lectura y escritura controlados.
Entrenamiento fragmentado y reconocimiento de puertas hacia atrás
La recurrencia admite una forma WY fragmentada que coincide con la estructura utilizada por KDA. La caída acumulada del canal se absorbe en los dos factores de cada borrado de rango uno. La actualización por fragmento se convierte en un producto de matrices asimétricas de la forma I − k̄r ēr⊤. La implementación utiliza un tamaño de fragmento C = 64 con núcleos Triton fusionados.
Para el paso hacia atrás, el atajo escalar utilizado por KDA ya no se aplica. El lado de escritura contiene una puerta diagonal diferente sobre los canales de valor. El lado de borrado contiene una puerta diagonal diferente sobre los canales clave. Por tanto, los factores de puerta deben aparecer dentro de los productos escalares que acumulan gradientes. El artículo deriva explícitamente este producto jacobiano vectorial con reconocimiento de puerta. En las GPU Hopper, el núcleo inverso WY fusionado está restringido a dos y cuatro deformaciones para evitar una afirmación de diseño Triton WGMMA.
Diseño de bloques y modelo híbrido.
Gated DeltaNet-2 se utiliza como mezclador de tokens recurrente en un bloque estándar estilo Transformer. Las rutas de consulta y clave utilizan proyección lineal, convolución causal corta, SiLU y normalización L2. La ruta del valor utiliza proyección lineal, convolución corta y SiLU. La desintegración αt, la puerta de borrado bt y la puerta de escritura wt provienen de ramas lineales separadas. La salida recurrente está normalizada en RMS, multiplicada por una puerta de salida SiLU y proyectada hacia atrás.
Una variante híbrida inserta Sliding-Window Attention (SWA) después del mezclador recurrente. Una celda repetida contiene Gated DeltaNet-2, un MLP, SWA y otro MLP. SWA maneja interacciones locales exactas, mientras que el mezclador recurrente comprime historias largas. El híbrido conserva una escala de secuencia lineal con un caché de atención limitado.
Resultados con 1,3 mil millones de parámetros
Todos los modelos tienen 1,3 mil millones de parámetros entrenados en 100 mil millones de tokens FineWeb-Edu. El recuento de parámetros y el tamaño del estado recurrente coinciden en todos los modelos. El estado recurrente contiene 262.144 flotadores por capa por elemento de lote. La duración del entrenamiento es de 4K tokens y los modelos híbridos utilizan una ventana SWA de 2K. La línea base Mamba-3 MIMO utiliza el rango R = 4.
En modelado de lenguaje y razonamiento de sentido común, Gated DeltaNet-2 tiene el mejor promedio en ambos entornos. El modelo recurrente tiene un promedio de 53,11 en LAMBADA y el conjunto de razonamiento. Eso se sitúa por encima de Mamba-3 MIMO en 52,39 y KDA en 52,28. En el entorno híbrido, Gated DeltaNet-2 tiene un promedio de 53,97 frente a Mamba-3 MIMO de 52,72. Dado que el tamaño del estado recurrente coincide, la ganancia apunta a la regla de actualización, no a más memoria.
Las ganancias más claras aparecen en la recuperación de contexto largo de RULER. En el entorno recurrente, S-NIAH-2 en 4K aumenta de 89,0 (KDA) a 93,0. S-NIAH-3 a 2K salta de 63,2 (KDA) a 89,8. MK-NIAH-1 en 4K sube de 28,0 (KDA) a 37,8.
En la recuperación del mundo real (SWDE, SQuAD, FDA, TriviaQA, NQ, DROP), Gated DeltaNet-2 también lidera ambas configuraciones. El promedio recurrente es 29,88 y el promedio híbrido es 42,28.
Explicador visual de Marktechpost
Nvidia · 2026
DeltaNet-2 cerrado
Desacoplamiento de borrado y escritura en atención lineal. Una capa de atención recurrente de regla delta con puertas de escritura y borrado por canales.
PyTorch
granos de tritón
1,3 mil millones de parámetros
100 mil millones de tokens FineWeb-Edu
Paso 01 · La Idea
Dos puertas en lugar de un escalar
La atención lineal comprime una caché KV ilimitada en un estado recurrente de tamaño fijo. Editar esta memoria sin codificar las asociaciones existentes es la parte difícil.
El problema
Los modelos de regla delta anteriores (Gated DeltaNet, KDA) vinculan el borrado de contenido antiguo y la escritura de contenido nuevo en una puerta escalar β_t.
La solución
Divídalo: una puerta de borrado por canales b_t en el eje clave y una puerta de escritura por canales w_t en el eje de valores.
La puerta de borrado selecciona qué coordenadas del lado clave del estado decaído se leen y eliminan. La puerta de escritura selecciona qué coordenadas del lado del valor del nuevo contenido se confirman. La decadencia de canales se hereda de KDA para un olvido global detallado.
Paso 02 · La regla de actualización
La regla 2 del delta cerrado
Con puerta de borrado b_t ∈ [0,1]^{d_k}, escribe puerta w_t ∈ [0,1]^{d_v}, y la caída del canal D_t = Diag(α_t), el estado recurrente evoluciona como:
S_t = (I − k_t (b_t ⊙ k_t)⊤) D_t S_{t−1} + k_t (w_t ⊙ v_t)⊤
Recupera KDA exactamente cuando ambas puertas colapsan en el mismo escalar. Recupera Gated DeltaNet cuando la caída también colapsa a un escalar. Se entrena de manera eficiente a través de una forma WY fragmentada con decadencia de canal absorbida en factores de borrado asimétricos.
Paso 03 · Obtener el código
Clona el repositorio y construye el entorno.
La implementación oficial de PyTorch viene con un Dockerfile, scripts de entrenamiento y las definiciones del modelo lit_gpt.
git clone https://github.com/NVlabs/GatedDeltaNet-2.git cd GatedDeltaNet-2 # construye el entorno a partir del Dockerfile proporcionado docker build -t gdn2. ejecución de la ventana acoplable –gpus all -it —ipc=host -v $PWD:/workspace gdn2
lit_gpt/ código de modelo · scripts/ lanzadores · entrada de entrenamiento pretrain.py · data.py, cache.py datos y caché KV · paper/ arXiv PDF
Paso 04 · Entrenamiento de lanzamiento
Ejecutar pretrain.py
El comando simplificado del archivo README oficial. Reemplace los marcadores de posición con las rutas de su conjunto de datos y el nombre de configuración.
python ../pretrain.py \ –train_data_dir ${TRAIN_DATA} \ –val_data_dir ${VALIDATION_DATA} \ –output_root ${SAVE_DIR} \ –exp_name ${NAME} \ –model_name ${MODEL} \ –train_config ${CONFIG} \ –eval_iters ${EVAL_ITERS} \ –learning_rate ${LR} \ –micro_batch_size ${MICRO_BATCH_SIZE}
Agregue –interactive_job –debug para una sesión de depuración interactiva.
Paso 05 · Receta predeterminada
La configuración FineWeb-Edu 1.3B/100B
Comparado con las líneas base de Mamba-2, Gated DeltaNet, KDA y Mamba-3 con configuraciones de optimizador y tamaño de estado recurrente idénticos.
Optimizador
AdamW · pico LR 4e-4 · caída de peso 0.1 · clip de gradiente 1.0 · programa de coseno · calentamiento de 1B-token.
Lote y secuencia
Lote global de tokens de 0,5 millones · longitud de secuencia 4K · Los modelos híbridos utilizan un tamaño de atención de ventana deslizante de 2K.
Forma del modelo
16 cabezas · d_k = d_v = 128 · estado recurrente por capa 262,144 flotadores, comparados con Mamba-2/3.
Bloque híbrido
Celda repetida: DeltaNet-2 cerrada → MLP → SWA → MLP. El mezclador recurrente comprime historias largas; SWA maneja las interacciones locales.
Paso 06 · Resultados
Números que vale la pena pegar en una comparación
El mejor promedio en modelado de lenguaje y razonamiento de sentido común, con las mayores ganancias en la recuperación de contexto a largo plazo.
Configuración · Métrica KDA Mamba-3 MIMO GDN-2 Promedio recurrente. (LMB + razonamiento) 52,28 52,39 53,11 Promedio híbrido. (LMB + razonamiento) 52,68 52,72 53,97 S-NIAH-3 @2K (recurrente) 63,2 72,4 89,8 MK-NIAH-1 @4K (recurrente) 28,0 18,0 37,8 Recuerdo del mundo real, promedio recurrente. 28,67 28,35 29,88 Retiro del mundo real, promedio híbrido. 40,14 40,11 42,28
Paso 07 · Recursos
Papel, código y cita
Todo lo que necesita para leer, ejecutar y citar Gated DeltaNet-2 en un solo lugar.
@artículo{hatamizadeh2026gdn2, título = {DeltaNet-2 cerrada: desacoplamiento, borrado y escritura con atención lineal}, autor = {Hatamizadeh, Ali y Choi, Yejin y Kautz, Jan}, diario = {preimpresión arXiv}, año = {2026} }
MARKTECHPOST · El centro para la investigación de IA, herramientas de desarrollo y lanzamientos de modelos
Conclusiones clave
Gated DeltaNet-2 divide el escalar βt en una puerta de borrado por canal bt (eje clave) y una puerta de escritura por canal wt (eje de valor). La actualización recupera KDA cuando ambas puertas colapsan en un escalar, y Gated DeltaNet cuando la caída también colapsa. El entrenamiento se mantiene paralelo a través de una forma WY fragmentada, con la decadencia del canal absorbida en factores de borrado asimétricos y una puerta consciente fusionada hacia atrás en Triton. Con 1,3 mil millones de parámetros en 100 mil millones de FineWeb-Edu con tamaño de estado coincidente, tiene el mejor promedio sobre Mamba-2, Gated DeltaNet, KDA y Mamba-3 tanto en configuraciones recurrentes como híbridas. Las mayores ganancias se producen en la recuperación de contexto largo de RULER: S-NIAH-3 en 2K aumenta 63,2 → 89,8 y MK-NIAH-1 en 4K aumenta 28,0 → 37,8 sobre KDA (recurrente).
Consulte el documento y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros