Los investigadores de DeepSeek presentan DeepSeek-V3.2 y DeepSeek-V3.2-Speciale para cargas de trabajo agentes y razonamiento de contexto prolongado

¿Cómo se obtiene un razonamiento de nivel GPT-5 en cargas de trabajo de contexto real a largo plazo que utilizan herramientas sin prestar atención cuadrática y el costo de GPU que generalmente hace que esos sistemas no sean prácticos? La investigación de DeepSeek presenta DeepSeek-V3.2 y DeepSeek-V3.2-Speciale. Son modelos de razonamiento creados para agentes y apuntan a razonamiento de alta calidad, contexto extenso y flujos de trabajo de agentes, con pesos abiertos y API de producción. Los modelos combinan DeepSeek Sparse Attention (DSA), una pila de aprendizaje de refuerzo GRPO escalada y un protocolo de herramienta nativa del agente, y reportan un rendimiento comparable a GPT 5, con DeepSeek-V3.2-Speciale alcanzando el nivel de razonamiento Gemini 3.0 Pro en pruebas comparativas y competencias públicas.

https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf

Atención escasa con un coste de contexto largo casi lineal

Tanto DeepSeek-V3.2 como DeepSeek-V3.2-Speciale utilizan el transformador DeepSeek-V3 Mixture of Experts con aproximadamente 671 mil millones de parámetros totales y 37 mil millones de parámetros activos por token, heredados de V3.1 Terminus. El único cambio estructural es DeepSeek Sparse Attention, introducido mediante una formación previa continua.

DeepSeek Sparse Attention divide la atención en 2 componentes. Un indexador relámpago ejecuta una pequeña cantidad de cabezales de baja precisión en todos los pares de tokens y produce puntuaciones de relevancia. Un selector detallado mantiene las posiciones de los valores de las k claves superiores por consulta, y la ruta de atención principal ejecuta Multi-Query-Attention y Multi-Head-Latent-Attention en este conjunto disperso.

Esto cambia la complejidad dominante de O(L²) a O(kL), donde L es la longitud de la secuencia y k es el número de tokens seleccionados y es mucho más pequeño que L. Según los puntos de referencia, DeepSeek-V3.2 coincide con la línea de base densa de Terminus en precisión al tiempo que reduce el costo de inferencia de contexto largo en aproximadamente un 50 por ciento, con un rendimiento más rápido y un menor uso de memoria en hardware de clase H800 y en backends vLLM y SGLang.

https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf

Capacitación previa continua para la atención escasa de DeepSeek

DeepSeek Sparse Attention (DSA) se introduce mediante un entrenamiento previo continuo sobre DeepSeek-V3.2 Terminus. En la etapa de calentamiento denso, la atención densa permanece activa, todos los parámetros de la red troncal se congelan y solo el indexador de rayos se entrena con una pérdida de Kullback Leibler para que coincida con la distribución de atención densa en secuencias de contexto de 128K. Esta etapa utiliza una pequeña cantidad de pasos y alrededor de 2 mil millones de tokens, suficientes para que el indexador aprenda puntajes útiles.

En la etapa dispersa, el selector mantiene 2048 entradas de valores-clave por consulta, la columna vertebral se descongela y el modelo continúa entrenándose con aproximadamente 944 mil millones de tokens. Los gradientes para el indexador todavía provienen únicamente de la pérdida de alineación con mucha atención en las posiciones seleccionadas. Este cronograma hace que DeepSeek Sparse Attention (DSA) se comporte como un reemplazo directo de la atención densa con calidad similar y menor costo de contexto a largo plazo.

https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf

GRPO con más del 10 por ciento de cálculo de RL

Además de la arquitectura dispersa, DeepSeek-V3.2 utiliza la optimización de políticas relativas al grupo (GRPO) como principal método de aprendizaje por refuerzo. El equipo de investigación afirma que el cálculo RL del aprendizaje por refuerzo posterior al entrenamiento supera el 10 por ciento del cálculo previo al entrenamiento.

RL está organizado en torno a dominios especializados. El equipo de investigación entrena ejecuciones dedicadas a matemáticas, programación competitiva, razonamiento lógico general, navegación y tareas de agentes y seguridad, luego destila a estos especialistas en la base de parámetros 685B compartida para DeepSeek-V3.2 y DeepSeek-V3.2-Speciale. GRPO se implementa con un estimador KL imparcial, enmascaramiento de secuencia de políticas y mecanismos que mantienen consistentes las máscaras de muestreo y enrutamiento de la Mezcla de Expertos (MoE) entre la capacitación y el muestreo.

https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf

Datos del agente, modo de pensamiento y protocolo de herramienta

El equipo de investigación de DeepSeek crea un gran conjunto de datos de agentes sintéticos generando más de 1800 entornos y más de 85 000 tareas entre agentes de código, agentes de búsqueda, herramientas generales y configuraciones de intérpretes de código. Las tareas están diseñadas para que sean difíciles de resolver y fáciles de verificar, y se utilizan como objetivos de RL junto con codificación real y seguimientos de búsqueda.

En el momento de la inferencia, DeepSeek-V3.2 introduce modos de pensamiento explícito y de no pensamiento. El punto final del razonamiento de búsqueda profunda expone el modo de pensamiento de forma predeterminada, donde el modelo produce una cadena interna de pensamiento antes de la respuesta final. La guía de pensamiento con herramientas describe cómo el contenido de razonamiento se mantiene en las llamadas de herramientas y se borra cuando llega un nuevo mensaje de usuario, y cómo las llamadas de herramientas y los resultados de las herramientas permanecen en el contexto incluso cuando el texto de razonamiento se ajusta al presupuesto.

La plantilla de chat se actualiza en torno a este comportamiento. El repositorio DeepSeek-V3.2 Speciale incluye ayudantes de codificador y decodificador Python en lugar de una plantilla Jinja. Los mensajes pueden llevar un campo de contenido_razonamiento junto con el contenido, controlado por un parámetro de pensamiento. Un rol de desarrollador está reservado para agentes de búsqueda y la API oficial no lo acepta en los flujos de chat generales, lo que protege este canal contra un uso indebido accidental.

https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf

Puntos de referencia, competiciones y artefactos abiertos

En los puntos de referencia de razonamiento y codificación estándar, DeepSeek-V3.2 y especialmente DeepSeek-V3.2 Speciale se consideran comparables a GPT-5 y cercanos a Gemini-3.0 Pro en suites como AIME 2025, HMMT 2025, GPQA y LiveCodeBench, con una rentabilidad mejorada en cargas de trabajo de contexto largo.

Para las competencias formales, el equipo de investigación de DeepSeek afirma que DeepSeek-V3.2 Speciale logra un desempeño de nivel de medalla de oro en la Olimpiada Internacional de Matemáticas 2025, la Olimpiada de Matemáticas de China 2025 y la Olimpiada Internacional de Informática 2025, y un desempeño competitivo de nivel de medalla de oro en las Finales Mundiales de ICPC 2025.

Conclusiones clave

DeepSeek-V3.2 agrega DeepSeek Sparse Attention, que ofrece un costo de atención O(kL) casi lineal y ofrece alrededor de un 50 % menos de costo de API de contexto largo en comparación con los modelos densos de DeepSeek anteriores, manteniendo al mismo tiempo una calidad similar a DeepSeek-V3.1 Terminus. La familia de modelos mantiene la columna vertebral MoE de parámetros 671B con 37B de parámetros activos por token y expone una ventana de contexto completa de 128K en las API de producción, lo que hace que los documentos largos, las cadenas de múltiples pasos y los grandes rastros de herramientas sean prácticos en lugar de una característica exclusiva de laboratorio. La capacitación posterior utiliza la optimización de políticas relativas al grupo (GRPO) con un presupuesto de computación que es más del 10 por ciento de la capacitación previa, enfocado en matemáticas, código, razonamiento general, navegación o cargas de trabajo de agentes y seguridad, junto con especialistas en estilo de concurso cuyos casos se publican para verificación externa. DeepSeek-V3.2 es el primer modelo de la familia DeepSeek que integra el pensamiento directamente en el uso de herramientas, admitiendo modos de herramientas tanto pensantes como no pensantes y un protocolo donde el razonamiento interno persiste en todas las llamadas a herramientas y se restablece solo en los mensajes de nuevos usuarios.

Consulte los pesos del papel y del modelo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.