DeepSeek AI lanza DeepSeek-V4: la atención escasa comprimida y la atención muy comprimida permiten contextos de un millón de tokens

DeepSeek-AI ha lanzado una versión preliminar de la serie DeepSeek-V4: dos modelos de lenguaje de mezcla de expertos (MoE) creados en torno a un desafío central que hace que las ventanas de contexto de un millón de tokens sean prácticas y asequibles en el momento de la inferencia.

La serie consta de DeepSeek-V4-Pro, con 1,6T de parámetros totales y 49B activados por token, y DeepSeek-V4-Flash, con 284B de parámetros totales y 13B activados por token. Ambos modelos admiten de forma nativa una longitud de contexto de un millón de tokens. DeepSeek-V4-Pro fue entrenado previamente en tokens 33T y DeepSeek-V4-Flash en tokens 32T. Los puntos de control de modelos para las cuatro variantes: DeepSeek-V4-Pro, DeepSeek-V4-Pro-Base, DeepSeek-V4-Flash y DeepSeek-V4-Flash-Base están disponibles públicamente en Hugging Face.

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Desafíos arquitectónicos de un contexto prolongado

El mecanismo de atención básico en un Transformer estándar tiene una complejidad computacional cuadrática con respecto a la longitud de la secuencia, duplicando el contexto aproximadamente cuadriplica el cálculo de atención y la memoria. Con un millón de tokens, esto se vuelve prohibitivo sin una intervención arquitectónica. DeepSeek-V4 aborda esto a través de cuatro innovaciones coordinadas: una arquitectura de atención híbrida, un nuevo diseño de conexión residual, un optimizador diferente y capacitación consciente de la cuantificación del FP4.

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Atención Híbrida: CSA y HCA

La innovación arquitectónica central es un mecanismo híbrido que combina atención dispersa comprimida (CSA) y atención muy comprimida (HCA), entrelazadas en capas de Transformer.

CSA comprime la caché de valor clave (KV) de cada m tokens en una entrada usando un compresor de nivel de token aprendido, luego aplica DeepSeek Sparse Attention (DSA), donde cada token de consulta atiende solo a las k entradas KV comprimidas seleccionadas. Un componente llamado Lightning Indexer maneja una selección escasa calificando consultas contra bloques KV comprimidos. Tanto CSA como HCA incluyen una rama de atención de ventana deslizante que cubre los tokens nwin más recientes para el modelado de dependencia local.

HCA es más agresivo: consolida las entradas KV de cada m′ tokens, donde m′ ≫ m en una única entrada comprimida, y luego aplica una gran atención a esas representaciones. No se necesita ningún paso de selección escaso; la propia relación de compresión reduce el tamaño de la caché KV.

Las ganancias de eficiencia son sustanciales. En la configuración de un millón de tokens, DeepSeek-V4-Pro requiere solo el 27 % de los FLOP de inferencia de un solo token (en FLOP FP8 equivalentes) y el 10 % del tamaño de caché KV de DeepSeek-V3.2. DeepSeek-V4-Flash logra el 10 % de los FLOP de un solo token y el 7 % de la caché KV en relación con DeepSeek-V3.2.

Hiperconexiones restringidas por múltiples (mHC)

DeepSeek-V4 reemplaza las conexiones residuales convencionales con hiperconexiones restringidas por colector (mHC). Las hiperconexiones (HC) generalizan las conexiones residuales al expandir el ancho del flujo residual en un factor de nhc (establecido en 4 en ambos modelos), introduciendo matrices de mapeo de entrada, residual y salida aprendidas. Naive HC sufre de inestabilidad numérica al apilar muchas capas.

mHC resuelve esto restringiendo la matriz de mapeo residual Bl al politopo de Birkhoff, la variedad de matrices doblemente estocásticas donde todas las filas y columnas suman uno y todas las entradas no son negativas. Esto limita la norma espectral del mapeo a 1, evitando la amplificación de la señal tanto en el paso hacia adelante como en la propagación hacia atrás. La restricción se aplica mediante el algoritmo Sinkhorn-Knopp con t_max = 20 iteraciones. Los parámetros de mapeo se generan dinámicamente por entrada para lograr expresividad.

Optimizador de muones y QAT FP4

DeepSeek-V4 adopta el optimizador Muon para la mayoría de sus parámetros. Muon utiliza iteraciones de Newton-Schulz para ortogonalizar aproximadamente la matriz de actualización de gradiente antes de aplicarla como una actualización de peso. La implementación utiliza un programa híbrido de dos etapas: 8 iteraciones con coeficientes (3,4445, −4,7750, 2,0315) para una convergencia rápida, luego 2 iteraciones de estabilización con coeficientes (2, −1,5, 0,5). AdamW se conserva para el módulo de incorporación, el cabezal de predicción, los sesgos estáticos y los factores de activación de los módulos mHC, y todos los pesos de RMSNorm.

Para lograr eficiencia en la implementación, la capacitación consciente de la cuantificación (QAT) del FP4 (MXFP4) se aplica a las ponderaciones de los expertos del MoE y a la ruta de la clave de consulta (QK) en el Lightning Indexer de CSA. Durante la inferencia y la implementación de RL, los pesos reales del FP4 se utilizan directamente en lugar de la cuantificación simulada, lo que reduce el tráfico de memoria y la latencia de muestreo.

Estabilidad del entrenamiento a escala

El entrenamiento de modelos MoE de billones de parámetros introdujo inestabilidades notables. Dos técnicas resultaron eficaces. El enrutamiento anticipado desacopla las actualizaciones de la red troncal y de enrutamiento: los índices de enrutamiento en el paso t se calculan utilizando parámetros históricos θt−Δt, rompiendo el ciclo en el que las decisiones de enrutamiento refuerzan los valores atípicos en las capas MoE. La sujeción SwiGLU restringe el componente lineal de SwiGLU a [−10, 10] y cubre el límite superior del componente de la puerta en 10, suprimiendo directamente las activaciones anómalas. Ambas técnicas se aplicaron durante el entrenamiento de ambos modelos.

Post-Capacitación: Expertos Especialistas y Destilación de Políticas

El proceso posterior a la capacitación reemplaza la etapa RL mixta de DeepSeek-V3.2 con On-Policy Distillation (OPD). Los expertos independientes en el dominio reciben primero capacitación en matemáticas, codificación, tareas de agentes e instrucción a través de un ajuste fino supervisado (SFT) seguido de un aprendizaje por refuerzo mediante la optimización de políticas relativas al grupo (GRPO). Luego, más de diez modelos de docentes destilan un único modelo de estudiante unificado minimizando la divergencia KL inversa entre la distribución de salida del estudiante y de cada maestro en las trayectorias generadas por el propio estudiante, utilizando destilación logit de vocabulario completo para estimaciones de gradiente estables.

El modelo resultante admite tres modos de esfuerzo de razonamiento: No pensar (rápido, sin cadena de pensamiento explícita), Pensar alto (razonamiento deliberado) y Pensar máximo (esfuerzo de razonamiento máximo con un sistema dedicado y penalizaciones de duración reducida durante el entrenamiento de RL).

Resultados de referencia

DeepSeek-V4-Pro-Max alcanza una calificación Codeforces de 3206, por delante de GPT-5.4-xHigh (3168) y Gemini-3.1-Pro-High (3052). En SimpleQA Verified, obtiene una puntuación de 57,9 Pass@1, superando a Claude Opus 4.6 Max (46,2) y GPT-5.4-xHigh (45,3), aunque por detrás de Gemini-3.1-Pro-High (75,6). En SWE-Verified, DeepSeek-V4-Pro-Max logra una resolución del 80,6%, marginalmente detrás de Claude Opus 4.6 Max (80,8%), mientras que Gemini-3.1-Pro-High también obtiene una puntuación del 80,6%.

En pruebas de contexto a largo plazo, DeepSeek-V4-Pro-Max obtiene una puntuación de 83,5 MMR en OpenAI MRCR 1M y una precisión de 62,0 en CorpusQA 1M, superando a Gemini-3.1-Pro-High (76,3 y 53,8 respectivamente), pero detrás de Claude Opus 4.6 Max (92,9 y 71,7) en ambos.

Conclusiones clave

La atención híbrida de CSA y HCA reduce la caché de KV al 10 % de DeepSeek-V3.2 con 1 millón de tokens. Las hiperconexiones restringidas por colector (mHC) reemplazan las conexiones residuales para un entrenamiento de capa profunda más estable. El optimizador Muon reemplaza a AdamW para la mayoría de los parámetros, lo que brinda una convergencia más rápida y estabilidad en el entrenamiento. La capacitación posterior utiliza la destilación basada en políticas de más de 10 expertos en el dominio en lugar de la tradicional RL mixta. DeepSeek-V4-Flash-Base supera a DeepSeek-V3.2-Base a pesar de tener 3 veces menos parámetros activados.

Consulte los pesos del papel y del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros