NVIDIA AI lanza Gated DeltaNet-2: una capa de atención lineal que desacopla el borrado y la escritura en la regla delta

ByEquipo de 7 minutos

May 24, 2026 #atención, #Borrado, #capa, #Delta, #DeltaNet2, #desacopla, #escritura, #Gated, #lanza, #lineal, #NVIDIA, #regla, #una

NVIDIA AI lanza Gated DeltaNet-2: una capa de atención lineal que desacopla el borrado y la escritura en la regla delta

La atención lineal reemplaza el caché KV ilimitado de la atención softmax con un estado recurrente de tamaño fijo. Esto reduce la mezcla de secuencias a tiempo lineal y la decodificación a memoria constante. Lo difícil no es qué olvidar. Se trata de cómo editar una memoria comprimida sin codificar las asociaciones existentes.

NVIDIA ha lanzado Gated DeltaNet-2, una capa de atención lineal que apunta a ese cuello de botella. El modelo desacopla la edición de la memoria activa en dos puertas por canal. Está entrenado con 1,3 mil millones de parámetros en 100 mil millones de tokens FineWeb-Edu. Supera a Mamba-2, Gated DeltaNet, KDA y Mamba-3 en todo el conjunto de pruebas comparativas de investigación.

El problema de la puerta escalar en modelos de regla delta

Una capa de atención lineal recurrente almacena un estado de matriz St y lo lee con la consulta. DeltaNet agrega una edición activa restando el valor actualmente asociado con la clave actual. Utiliza un tamaño de paso escalar βt para controlar cuánto se sobrescribe. Mamba-2 agrega una caída escalar αt dependiente de los datos para el olvido global. Gated DeltaNet combinó ambas operaciones, pero ambas puertas siguieron siendo escalares per cápita.

Kimi Delta Attention (KDA) refina el lado de la decadencia. Reemplaza el escalar αt con un vector de canal. KDA todavía mantiene un único escalar βt para la edición activa. Ese escalar controla dos cosas diferentes a la vez. Decide cuánto contenido antiguo borrar en el lado clave. También decide cuánto contenido nuevo comprometer en cuanto al valor. Estas dos decisiones actúan sobre diferentes ejes del Estado. Vincularlos es una restricción del modelado, no una propiedad de la regla delta.

https://github.com/NVlabs/GatedDeltaNet-2/blob/main/paper/GDN2_paper.pdf

Regla-2 del Delta cerrado: dos puertas en lugar de una

Gated DeltaNet-2 separa las dos decisiones mediante Gated Delta Rule-2. Introduce una puerta de borrado por canales bt ∈ [0,1]dk en el eje clave. También introduce una puerta de escritura por canal wt ∈ [0,1]dv en el eje de valores. Ambas puertas se producen mediante proyecciones sigmoideas de la representación simbólica. La actualización aplica la decadencia antes de la edición activa.

Escrito de forma compacta, la recurrencia es:

St = (I − kt (bt ⊙ kt)⊤) Dt St−1 + kt (wt ⊙ vt)⊤

Aquí Dt = Diag(αt) es la caída del canal transferida desde KDA. El factor izquierdo de la matriz de borrado permanece kt, preservando la dirección de escritura de la regla delta. El factor correcto se convierte en bt ⊙ kt, lo que hace que la dirección de lectura sea selectiva para el canal. El término de escritura kt zt⊤ usa zt = wt ⊙ vt, lo que hace que la actualización del valor sea selectiva para el canal.

Cuando ambas puertas colapsan al mismo escalar βt, la actualización recupera KDA exactamente. Cuando la caída αt también colapsa a un escalar, recupera Gated DeltaNet. Ambos modelos anteriores se conservan como subespacios vinculados de la nueva actualización.

En la vista de ponderación rápida, la regla 2 del delta cerrado es un paso de gradiente en línea en una pérdida de regresión local. El estado decaído permanece cerca de la memoria, mientras que la edición residual utiliza objetivos de lectura y escritura controlados.

Entrenamiento fragmentado y reconocimiento de puertas hacia atrás

La recurrencia admite una forma WY fragmentada que coincide con la estructura utilizada por KDA. La caída acumulada del canal se absorbe en los dos factores de cada borrado de rango uno. La actualización por fragmento se convierte en un producto de matrices asimétricas de la forma I − k̄r ēr⊤. La implementación utiliza un tamaño de fragmento C = 64 con núcleos Triton fusionados.

Para el paso hacia atrás, el atajo escalar utilizado por KDA ya no se aplica. El lado de escritura contiene una puerta diagonal diferente sobre los canales de valor. El lado de borrado contiene una puerta diagonal diferente sobre los canales clave. Por tanto, los factores de puerta deben aparecer dentro de los productos escalares que acumulan gradientes. El artículo deriva explícitamente este producto jacobiano vectorial con reconocimiento de puerta. En las GPU Hopper, el núcleo inverso WY fusionado está restringido a dos y cuatro deformaciones para evitar una afirmación de diseño Triton WGMMA.

Diseño de bloques y modelo híbrido.

Gated DeltaNet-2 se utiliza como mezclador de tokens recurrente en un bloque estándar estilo Transformer. Las rutas de consulta y clave utilizan proyección lineal, convolución causal corta, SiLU y normalización L2. La ruta del valor utiliza proyección lineal, convolución corta y SiLU. La desintegración αt, la puerta de borrado bt y la puerta de escritura wt provienen de ramas lineales separadas. La salida recurrente está normalizada en RMS, multiplicada por una puerta de salida SiLU y proyectada hacia atrás.

Una variante híbrida inserta Sliding-Window Attention (SWA) después del mezclador recurrente. Una celda repetida contiene Gated DeltaNet-2, un MLP, SWA y otro MLP. SWA maneja interacciones locales exactas, mientras que el mezclador recurrente comprime historias largas. El híbrido conserva una escala de secuencia lineal con un caché de atención limitado.

Resultados con 1,3 mil millones de parámetros

Todos los modelos tienen 1,3 mil millones de parámetros entrenados en 100 mil millones de tokens FineWeb-Edu. El recuento de parámetros y el tamaño del estado recurrente coinciden en todos los modelos. El estado recurrente contiene 262.144 flotadores por capa por elemento de lote. La duración del entrenamiento es de 4K tokens y los modelos híbridos utilizan una ventana SWA de 2K. La línea base Mamba-3 MIMO utiliza el rango R = 4.

En modelado de lenguaje y razonamiento de sentido común, Gated DeltaNet-2 tiene el mejor promedio en ambos entornos. El modelo recurrente tiene un promedio de 53,11 en LAMBADA y el conjunto de razonamiento. Eso se sitúa por encima de Mamba-3 MIMO en 52,39 y KDA en 52,28. En el entorno híbrido, Gated DeltaNet-2 tiene un promedio de 53,97 frente a Mamba-3 MIMO de 52,72. Dado que el tamaño del estado recurrente coincide, la ganancia apunta a la regla de actualización, no a más memoria.

Las ganancias más claras aparecen en la recuperación de contexto largo de RULER. En el entorno recurrente, S-NIAH-2 en 4K aumenta de 89,0 (KDA) a 93,0. S-NIAH-3 a 2K salta de 63,2 (KDA) a 89,8. MK-NIAH-1 en 4K sube de 28,0 (KDA) a 37,8.

En la recuperación del mundo real (SWDE, SQuAD, FDA, TriviaQA, NQ, DROP), Gated DeltaNet-2 también lidera ambas configuraciones. El promedio recurrente es 29,88 y el promedio híbrido es 42,28.

Explicador visual de Marktechpost

Nvidia · 2026

DeltaNet-2 cerrado

Desacoplamiento de borrado y escritura en atención lineal. Una capa de atención recurrente de regla delta con puertas de escritura y borrado por canales.

PyTorch
granos de tritón
1,3 mil millones de parámetros
100 mil millones de tokens FineWeb-Edu

Paso 01 · La Idea

Dos puertas en lugar de un escalar

La atención lineal comprime una caché KV ilimitada en un estado recurrente de tamaño fijo. Editar esta memoria sin codificar las asociaciones existentes es la parte difícil.

El problema

Los modelos de regla delta anteriores (Gated DeltaNet, KDA) vinculan el borrado de contenido antiguo y la escritura de contenido nuevo en una puerta escalar β_t.

La solución

Divídalo: una puerta de borrado por canales b_t en el eje clave y una puerta de escritura por canales w_t en el eje de valores.

La puerta de borrado selecciona qué coordenadas del lado clave del estado decaído se leen y eliminan. La puerta de escritura selecciona qué coordenadas del lado del valor del nuevo contenido se confirman. La decadencia de canales se hereda de KDA para un olvido global detallado.

Paso 02 · La regla de actualización

La regla 2 del delta cerrado

Con puerta de borrado b_t ∈ [0,1]^{d_k}, escribe puerta w_t ∈ [0,1]^{d_v}, y la caída del canal D_t = Diag(α_t), el estado recurrente evoluciona como:

S_t = (I − k_t (b_t ⊙ k_t)⊤) D_t S_{t−1} + k_t (w_t ⊙ v_t)⊤

Recupera KDA exactamente cuando ambas puertas colapsan en el mismo escalar. Recupera Gated DeltaNet cuando la caída también colapsa a un escalar. Se entrena de manera eficiente a través de una forma WY fragmentada con decadencia de canal absorbida en factores de borrado asimétricos.

Paso 03 · Obtener el código

Clona el repositorio y construye el entorno.

La implementación oficial de PyTorch viene con un Dockerfile, scripts de entrenamiento y las definiciones del modelo lit_gpt.

git clone https://github.com/NVlabs/GatedDeltaNet-2.git cd GatedDeltaNet-2 # construye el entorno a partir del Dockerfile proporcionado docker build -t gdn2. ejecución de la ventana acoplable –gpus all -it —ipc=host -v $PWD:/workspace gdn2

Diseño de repositorio

lit_gpt/ código de modelo · scripts/ lanzadores · entrada de entrenamiento pretrain.py · data.py, cache.py datos y caché KV · paper/ arXiv PDF

Paso 04 · Entrenamiento de lanzamiento

Ejecutar pretrain.py

El comando simplificado del archivo README oficial. Reemplace los marcadores de posición con las rutas de su conjunto de datos y el nombre de configuración.

python ../pretrain.py \ –train_data_dir ${TRAIN_DATA} \ –val_data_dir ${VALIDATION_DATA} \ –output_root ${SAVE_DIR} \ –exp_name ${NAME} \ –model_name ${MODEL} \ –train_config ${CONFIG} \ –eval_iters ${EVAL_ITERS} \ –learning_rate ${LR} \ –micro_batch_size ${MICRO_BATCH_SIZE}

Consejo profesional

Agregue –interactive_job –debug para una sesión de depuración interactiva.

Paso 05 · Receta predeterminada

La configuración FineWeb-Edu 1.3B/100B

Comparado con las líneas base de Mamba-2, Gated DeltaNet, KDA y Mamba-3 con configuraciones de optimizador y tamaño de estado recurrente idénticos.

Optimizador

AdamW · pico LR 4e-4 · caída de peso 0.1 · clip de gradiente 1.0 · programa de coseno · calentamiento de 1B-token.

Lote y secuencia

Lote global de tokens de 0,5 millones · longitud de secuencia 4K · Los modelos híbridos utilizan un tamaño de atención de ventana deslizante de 2K.

Forma del modelo

16 cabezas · d_k = d_v = 128 · estado recurrente por capa 262,144 flotadores, comparados con Mamba-2/3.

Bloque híbrido

Celda repetida: DeltaNet-2 cerrada → MLP → SWA → MLP. El mezclador recurrente comprime historias largas; SWA maneja las interacciones locales.

Paso 06 · Resultados

Números que vale la pena pegar en una comparación

El mejor promedio en modelado de lenguaje y razonamiento de sentido común, con las mayores ganancias en la recuperación de contexto a largo plazo.

Configuración · Métrica KDA Mamba-3 MIMO GDN-2 Promedio recurrente. (LMB + razonamiento) 52,28 52,39 53,11 Promedio híbrido. (LMB + razonamiento) 52,68 52,72 53,97 S-NIAH-3 @2K (recurrente) 63,2 72,4 89,8 MK-NIAH-1 @4K (recurrente) 28,0 18,0 37,8 Recuerdo del mundo real, promedio recurrente. 28,67 28,35 29,88 Retiro del mundo real, promedio híbrido. 40,14 40,11 42,28

Paso 07 · Recursos

Papel, código y cita

Todo lo que necesita para leer, ejecutar y citar Gated DeltaNet-2 en un solo lugar.

@artículo{hatamizadeh2026gdn2, título = {DeltaNet-2 cerrada: desacoplamiento, borrado y escritura con atención lineal}, autor = {Hatamizadeh, Ali y Choi, Yejin y Kautz, Jan}, diario = {preimpresión arXiv}, año = {2026} }

MARKTECHPOST · El centro para la investigación de IA, herramientas de desarrollo y lanzamientos de modelos

Conclusiones clave

Gated DeltaNet-2 divide el escalar βt en una puerta de borrado por canal bt (eje clave) y una puerta de escritura por canal wt (eje de valor). La actualización recupera KDA cuando ambas puertas colapsan en un escalar, y Gated DeltaNet cuando la caída también colapsa. El entrenamiento se mantiene paralelo a través de una forma WY fragmentada, con la decadencia del canal absorbida en factores de borrado asimétricos y una puerta consciente fusionada hacia atrás en Triton. Con 1,3 mil millones de parámetros en 100 mil millones de FineWeb-Edu con tamaño de estado coincidente, tiene el mejor promedio sobre Mamba-2, Gated DeltaNet, KDA y Mamba-3 tanto en configuraciones recurrentes como híbridas. Las mayores ganancias se producen en la recuperación de contexto largo de RULER: S-NIAH-3 en 2K aumenta 63,2 → 89,8 y MK-NIAH-1 en 4K aumenta 28,0 → 37,8 sobre KDA (recurrente).

Consulte el documento y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

By Equipo de 7 minutos

Inteligencia artificial

NVIDIA lanza Nemotron-Labs-3-Puzzle-75B-A9B: un LLM MoE híbrido comprimido que ofrece un rendimiento de servidor 2,03 veces superior al rendimiento de usuario equivalente[0]Los modelos MoE híbridos grandes como Nemotron-3-Super son precisos pero costosos de mantener. Sus parámetros activos, caché KV y estado de Mamba limitan la cantidad de usuarios que puede contener un nodo a una determinada tasa de token por usuario. El equipo de IA de NVIDIA lanzó Nemotron-Labs-3-Puzzle-75B-A9B, una variante comprimida de Nemotron-3-Super. El modelo principal tiene 120,7 mil millones de parámetros totales y 12,8 mil millones activos. El modelo comprimido tiene 75,3 mil millones de parámetros totales y 9,3 mil millones de parámetros activos. El objetivo de implementación se solucionó antes de que comenzara la búsqueda de arquitectura. El objetivo uno era duplicar el rendimiento del servidor a 100 tokens por segundo por usuario. El objetivo dos eran 8 solicitudes simultáneas de 1 millón de tokens en un solo H100. Tres puntos de control en Hugging Face: BF16, FP8 y NVFP4. TL;DR Los 120,7B/12,8B activos se comprimen a 75,3B/9,3B activos, conservando el diseño híbrido de 88 bloques. El rendimiento total de 8xB200 aumenta de 1,60x a 2,14x con respecto a Super con NVFP4 coincidente y rendimiento de usuario coincidente. La simultaneidad de un solo token H100 de 1 millón va de 1 a 8, impulsada por una caída de peso de 70 GB a 44,5 GB. El rompecabezas iterativo supera al rompecabezas de un solo paso en 0,57 puntos promedio en el mismo objetivo de compresión. Arena-Hard-V2 (-4,2) y SWE-Bench (-2,6) son los costes reales; RULER y AA-LCR apenas se mueven. Nemotron-Labs-3-Puzzle-75B-A9B Nemotron-3-Super es un modelo híbrido Mamba-Transformer MoE. Puzzle-75B-A9B conserva exactamente el diseño del bloque principal. Tiene 88 bloques: 40 Mamba, 40 MoE y 8 bloques de atención. Lo que cambió es la capacidad dentro de esos bloques: CantidadSuperPuzzle-75B-A9BRatioParámetros totales120.7B75.3B62.4%Parámetros activos12.8B9.3B73.1%Tamaño de estado de Mamba SSM1289675%Tamaño intermedio experto enrutado MoE26881280-2688Media 59.9%Expertos enrutados activados por token224-18Media 50%Capacidad experta enrutada activa (relativo)100%8,7%-62,3%Media 30,9% El número de expertos enrutados, el tamaño de expertos compartido y el tamaño latente del MoE no cambian. Las capas de atención quedaron intactas. La razón declarada por la investigación propuesta es que Nemotron-3-Super ya es muy eficiente en cuanto a caché KV. Las capas de Mamba se podaron de manera uniforme, porque los marcos de inferencia no admiten un tamaño de estado SSM diferente por capa. https://arxiv.org/pdf/2607.04371 El resultado no es un profesor uniformemente reducido. La figura anterior muestra la asignación en profundidad. Puzzle conservó la capacidad en capas intermedias y tardías seleccionadas, y cortó con fuerza en otras partes. Punto de referencia y rendimiento La siguiente tabla informa el rendimiento total óptimo de Pareto en un único nodo 8xB200, con decodificación en un solo paso. Escenario (entrada/salida)Piso UTSuper (tok/s)Puzzle-75B-A9B (tok/s)Boost50K / 2K>= 1005,1288,2101.60x50K / 2K>= 1253,7846,4121.69x50K / 2K>= 1502,5324,5231.79x8K / 64K>= 10020,93942,6012.03x8K / 64K>= 12513,07427,9182.14x8K / 64K>= 1508,52218,0472.12x Ambos modelos se entregaron con pesos NVFP4 coincidentes, caché FP8 KV y estado Mamba FP16. Por lo tanto, la brecha refleja compresión, no un cambio en el formato numérico. El régimen 50K/2K con precarga pesada es el que menos gana. El régimen 8K/64K con gran decodificación es el que más gana. En un solo nodo 8xH100 en UT = 100, las ganancias son menores. Son 1,91x en 50K/2K y 1,82x en 8K/64K. Ambos modelos utilizan pesos FP8, caché FP8 KV y estado FP32 Mamba. En un único H100 en un contexto de 1M, la restricción de enlace pasa de la computación a la memoria. Los pesos NVFP4 de Super ocupan alrededor de 70 GB del presupuesto de 80 GB de HBM. Cada solicitud de token de 1 millón agrega aproximadamente 4 GB de caché KV. Por tanto, la concurrencia efectiva es 1. El peso NVFP4 del Puzzle-75B-A9B ocupa alrededor de 44,5 GB. El diseño de atención no cambia, por lo que el costo de KV por solicitud no cambia. La simultaneidad en 1M aumenta a 8. El rendimiento de decodificación agregado en esa simultaneidad es aproximadamente 4 veces el rendimiento de solicitud única de Super. El llenado previo de una solicitud de 990 000 tokens es aproximadamente 1,2 veces más rápido. Cómo funciona el rompecabezas iterativo Puzzle es un marco de búsqueda de arquitectura neuronal descompuesta, implementado aquí como Puzzletron. Define un espacio de búsqueda discreto de implementaciones de capas alternativas. Cada alternativa obtiene una puntuación de calidad. Luego, un programa de enteros mixtos selecciona una alternativa por capa bajo una restricción de implementación. Tres técnicas de poda forman el espacio de búsqueda: Poda de canales intermedios: los canales dentro de cada experto enrutado se clasifican según su contribución a la salida del experto. Todos los expertos dentro de una capa MoE se reducen a un tamaño uniforme para lograr compatibilidad con el kernel. Reducción de top-k: la cantidad de expertos a los que se enruta un token varía según la capa, hasta el k = 22 del padre. Poda de Mamba SSM: el tamaño del estado de SSM cae de 128 a 96 canales. Se mide el resultado del SSM. Bajar 128 canales a 96 acelera el kernel SSM de 1,2x a 1,3x durante la decodificación. Esto se mantiene en tamaños de lote entre 8 y 512. Los canales se clasificaron según su contribución estimada a la producción de la capa Mamba. La estimación promedió más de 67 millones de tokens de datos de validación. El Apéndice A muestra que esto supera la selección aleatoria de canales bajo una poda agresiva. La formulación original asume que los impactos en la calidad del reemplazo son aproximadamente aditivos. Cada bloque candidato se puntúa dentro del padre no modificado. Eso ignora las interacciones de orden superior entre reemplazos. Iterative Puzzle alterna la compresión limitada con una breve recuperación de destilación de conocimientos. Construye una secuencia M0, M1,… MR en lugar de saltar al objetivo. Las puntuaciones se vuelven a calcular con respecto al modelo comprimido actual, no al modelo original. Se utilizaron tres etapas: El Ministerio de Educación pondera el 75% de la capacidad docente, el estado de Mamba SSM el 75%. Curado por 24 mil millones de fichas. El Ministerio de Educación pondera el 60% de la capacidad docente. Curado por 43,2 mil millones de tokens. Se activó el presupuesto de expertos encaminado al 50%, asignado de forma heterogénea. Curado por 52,8 mil millones de tokens. https://arxiv.org/pdf/2607.04371 La tabla anterior compara esto con una línea base de Puzzle de un solo paso en el mismo objetivo. El procedimiento de tres pasos tiene un promedio de 69,05 en diez puntos de referencia, frente a 68,48. Las ganancias aparecen en MMLU-Pro, GPQA, HLE, AA-LCR, LiveCodeBench, SciCode y RULER-256K. IFBench-Instruction cayó 0,2 puntos y IFBench-Prompt cayó 0,5. Recuperación: destilación, RL y verbosidad La destilación de conocimientos se ejecutó con un 30 % de datos de preentrenamiento y un 70 % de datos SFT de Nemotron-3-Nano. Durante la fase de rompecabezas, KD utilizó una secuencia de 32K de longitud. Luego, Recovery entrenó a 128K y escaló a 512K. El presupuesto era de hasta 100 mil millones de tokens, con un lote global de 16 millones de tokens, en Megatron-LM. La capacitación posterior de RL adoptó la Etapa 2 del proceso Nemotron-3-Super RL, centrada en la ingeniería de software. La fase 2.1 realizó una comparación del uso de herramientas en un solo paso. La fase 2.2 pasó a la zona de pruebas RL de extremo a extremo, donde los agentes corren hasta 200 turnos. Ambas fases utilizaron una penalización de KL de 0. El equipo barrió las tasas de aprendizaje y luego promedió los pesos resultantes. https://arxiv.org/pdf/2607.04371 La Figura 4 anterior muestra lo que aportó cada etapa. KD de contexto corto recupera la mayoría de las categorías a más del 97% de Nemotron-3-Super. Luego, KD de contexto largo eleva específicamente los puntos de referencia de entrada larga y de generación larga. El equipo de investigación afirma que el impacto de RL en estos experimentos fue pequeño. La verbosidad es el detalle silencioso. Después de la última iteración de Puzzle, el modelo generó el 132% del recuento de tokens de Super. Eso cayó al 99% después del proceso de recuperación total. Implementación: cuantificación y predicción de tokens múltiples Se produjeron dos recetas de cuantificación posteriores al entrenamiento: FP8 W8A8 apunta a Hopper y NVFP4 W4A4 apunta a Blackwell. Componente Línea base BF16 Punto de control FP8 Punto de control NVFP4 GEMM MoE dispersos y compartidos BF16FP8NVFP4 Mamba GEMM BF16FP8FP8 Mamba Caché SSM FP32FP32FP16 + Caché SRKV FP8FP8FP8 Enrutador FP32FP32FP32 Atención QKV/salida, proyecciones latentes MoE, LM cabezaBF16BF16BF16 Ambas recetas se calibraron en 256 muestras SFT posteriores al entrenamiento. NVFP4 utilizó la calibración máxima, no la búsqueda de sensibilidad AutoQuantize utilizada para Super. El punto de control resultante se cuantifica de forma ligeramente más agresiva y se realiza de manera similar. NVFP4 no es compatible de forma nativa con Hopper. Todavía se utiliza para el objetivo H100 de contexto 1M, porque la capacidad de HBM se vincula allí. Puzzle-75B-A9B hereda un cabezal MTP compartido de Super. Los parámetros se comparten entre los pasos de MTP, por lo que un cabezal se aplica de forma recursiva en la inferencia. La transferencia directa de la cabeza entrenada de Super dio longitudes de aceptación similares. Luego, el equipo de investigación identifica una discrepancia entre el entrenamiento y la inferencia. El entrenamiento MTP forzado por el maestro alimenta la secuencia completa de estados ocultos desplazados. En cambio, la redacción autorregresiva alimenta una combinación de modelos de destino y estados ocultos generados por MTP. Las tasas de aceptación caen en posiciones de draft más profundas. Esto se soluciona mediante una formación continua de la cabeza transferida. En SPEED-Bench con una longitud de calado 7, la longitud media de aceptación aumentó de 3,45 a 4,34. Eso es aproximadamente entre el 25% y el 30%, concentrado en puestos posteriores del draft. A diferencia de Super, el punto de control NVFP4 apenas se degrada: 4,31 frente a 4,34. Dónde ayuda la compresión y dónde duele Benchmark (BF16)SuperPuzzle-75B-A9BDeltaMMLU-Pro83.882.4-1.4AIME25 (sin herramientas)92.289.7-2.5GPQA (sin herramientas)80.578.6-1.9LiveCodeBench82.181.1-1.0SciCode (subtarea)42.340.6-1.7SWE-Bench (OpenHands)59.556.9-2.6Arena-Hard-V272.868.6-4.2AA-LCR56.856.9+0.1REGLA 1M93.992.2-1.7MMLU-ProX79.577.5-2.0 El propio resumen del artículo de investigación es que el seguimiento de instrucciones y las evaluaciones agentes son las que más pierden. Arena-Hard-V2 es el peor de los casos, con -4,2 puntos. RULER se mantiene dentro de aproximadamente 1 a 2 puntos en 256K, 512K y 1M. Tres resultados de BF16 no retroceden. AA-LCR gana 0,1, Scale AI Multi-Challenge empata en 56,6 y TauBench Telecom gana 0,4. NVFP4 cuesta poco además de la compresión. En RULER 1M, el punto de control NVFP4 obtiene una puntuación de 93,2, por encima del 92,2 de BF16. HLE es el costo de NVFP4 más claro, cayendo de 16,5 a 15,7. Los resultados del 8PM se encuentran en el Apéndice E y siguen de cerca al BF16. SWE-Bench no está incluido en el punto de control del 8PM. Casos de uso RAG de contexto ultralargo en una GPU: un servicio de análisis de documentos en un contexto de 1 millón pasa de 1 solicitud simultánea a 8. El rendimiento de decodificación agregado en esa concurrencia es aproximadamente 4 veces mayor. Asistentes de codificación interactivos: en UT >= 100 tok/s en el régimen 8K/64K, un nodo sirve 2,03 veces los tokens. Ajustado por detalle, es decir, 2,16 veces las solicitudes completadas por minuto. Canalizaciones de documentos con gran cantidad de precarga: el régimen de 50.000/2.000 gana solo 1,60 veces. La compresión ayuda menos cuando el procesamiento rápido domina la computación. Bucles SWE agentes: verifique la brecha SWE-Bench de 2,6 puntos con su combinación de tareas. La recuperación de RL apuntó a esta capacidad y solo la restauró parcialmente. Explorador de implementación ‘+esc(r

Jul 9, 2026 Equipo de 7 minutos

Inteligencia artificial

Medición de la estabilidad estructural de modelos econométricos

Jul 9, 2026 Equipo de 7 minutos

Inteligencia artificial

SpaceXAI lanza Grok 4.5, un modelo entrenado por cursor para codificación, tareas de agente y trabajo de conocimiento con una entrada de 2 dólares por millón

Jul 9, 2026 Equipo de 7 minutos

NVIDIA AI lanza Gated DeltaNet-2: una capa de atención lineal que desacopla el borrado y la escritura en la regla delta

ByEquipo de 7 minutos

El problema de la puerta escalar en modelos de regla delta

Regla-2 del Delta cerrado: dos puertas en lugar de una

Entrenamiento fragmentado y reconocimiento de puertas hacia atrás

Diseño de bloques y modelo híbrido.

Resultados con 1,3 mil millones de parámetros

Explicador visual de Marktechpost

DeltaNet-2 cerrado

Dos puertas en lugar de un escalar

El problema

La solución

La regla 2 del delta cerrado

Clona el repositorio y construye el entorno.

Ejecutar pretrain.py

La configuración FineWeb-Edu 1.3B/100B

Optimizador

Lote y secuencia

Forma del modelo

Bloque híbrido

Números que vale la pena pegar en una comparación

Papel, código y cita

Conclusiones clave

By Equipo de 7 minutos

Related Post

Medición de la estabilidad estructural de modelos econométricos

SpaceXAI lanza Grok 4.5, un modelo entrenado por cursor para codificación, tareas de agente y trabajo de conocimiento con una entrada de 2 dólares por millón

You missed

El segundo mayor exportador de diésel del mundo se acaba de quedar sin diésel

Detenidos en Mallorca por robo a mano armada en Palma

Renni Rucci confirma la llegada de su bebé con dulces fotos