Deepseek v3.2-Exp reduce los costos de contexto largo con una atención escasa de Deepseek (DSA) mientras mantiene la paridad de referencia

Deepseek lanzó Deepseek-V3.2-Exp, una actualización “intermedia” a V3.1 que agrega Deepseek Sparse Attence (DSA), una ruta de dispersión entrenable dirigida a la eficiencia de contexto a largo plazo. Deepseek también redujo los precios de la API en un 50%+, de acuerdo con las ganancias de eficiencia establecidas.

Deepseek-V3.2-Exex mantiene la pila V3/V3.1 (MOE + MLA) e inserta una ruta de atención de dos etapas: (i) un “indexador” ligero que califica los tokens de contexto; (ii) Atención escasa sobre el subconjunto seleccionado.

https://github.com/deepseek-ai/deepseek-v3.2-exp/blob/main/deepseek_v3_2.pdf

Índice FP8 → Selección de Top-K → Atención del núcleo escaso

Deepseek Spe Sp ya Attence (DSA) divide el camino de atención en dos niveles de cómputo:

(1) Lightning Indexer (FP8, pocas cabezas): para cada token de consulta ℎ 𝑡 ∈ 𝑅 𝑑 H t ∈R D, una función de puntuación liviana calcula logits de índice 𝐼 𝑡, 𝑠 i t, s con tokens precedentes ℎ 𝑠 H s. Utiliza pequeñas cabezas de indexador con una no linealidad RELU para el rendimiento. Debido a que esta etapa se extiende en FP8 y con pocas cabezas, su tiempo de pared y costo de flop son menores en relación con la densa atención.

(2) Selección de token de grano fino (Top-K): el sistema selecciona solo las entradas de valor de tecla Top-K = 2048 para cada consulta y luego realiza atención estándar solo sobre ese subconjunto. Esto cambia el término dominante de 𝑂 (𝐿 2) O (l 2) a 𝑂 (𝐿 𝑘) o (lk) con 𝑘 ≪ 𝐿 𝐿 k≪l, al tiempo que preserva la capacidad de atender tokens arbitrariamente distantes cuando es necesario.

Señal de entrenamiento: el indexador está entrenado para imitar la distribución de atención de la cabeza densa en la cabeza a través de la divergencia KL, primero bajo un calentamiento denso corto (el indexador aprende los objetivos mientras el modelo principal está congelado), luego durante el entrenamiento disperso donde los gradientes para el indexador permanecen separados de la pérdida de lenguaje del modelo principal. El calentamiento usa ~ 2.1b tokens; La etapa dispersa utiliza tokens ~ 943.7b con Top-K = 2048, LR ~ 7.3E-6 para el modelo principal.

Instanciación: DSA se implementa bajo MLA (atención latente de múltiples cabezas) en modo MQA para decodificar, por lo que cada entrada de KV latente se comparte entre los cabezales de consulta, alineándose con el requisito de nivel de núcleo de que las entradas de KV se reutilicen en las consultas para el rendimiento.

https://github.com/deepseek-ai/deepseek-v3.2-exp/blob/main/deepseek_v3_2.pdf

Hablemos de su eficiencia y precisión.

Costos vs. Posición (128K): Deepseek proporciona curvas de costo por millón de token para la pregramación y decodificación en clústeres H800 (precio de referencia $ 2/GPU-hora). Los costos de decodificación caen sustancialmente con DSA; La preventiva también se beneficia a través de una simulación MHA enmascarada en longitudes cortas. Mientras que la cifra exacta del 83% que circula en los mapas de las redes sociales a “~ 6 × decodificación más barata a 128k”, trátala como un buque de profundidad informado hasta que aterriza de replicación de terceros. Paridad de referencia: la tabla liberada muestra MMLU-Pro = 85.0 (sin cambios), pequeño movimiento en GPQA/HLE/HMMT debido a menos tokens de razonamiento y movimiento plano/positivo en tareas de agente/búsqueda (por ejemplo, BrowsECompt 40.1 vs 38.5). Los autores señalan que los espacios cierran cuando se usan puntos de control intermedios que producen recuentos de token comparables. Señales operativas: el soporte del día-0 en SGLANG y VLLM sugiere que los núcleos y los cambios de programador son de producción, no solo de la investigación. Deepseek también hace referencia a Tilelang, DeepGemm (logits indexer) y FlashMLA (núcleos dispersos) para núcleos de código abierto. Precios: Deepseek dice que los precios de la API se redujeron en un 50%+, de acuerdo con los mensajes de tarjetas de modelo sobre eficiencia y cobertura de Reuters/TechCrunch que el lanzamiento se dirige a la economía de inferencia de contexto largo.

Resumen

Deepseek v3.2-Exp muestra que la dispersión entrenable (DSA) puede mantener la paridad de referencia mientras mejora materialmente la economía de contexto largo: los documentos oficiales se comprometen con los recortes de precios de la API del 50%+, con el soporte de tiempo de ejecución del día 0 ya disponible, y los hilos comunitarios reclaman mayores ganancias de tiempo de decodificación a 128k que garantizan una replicación independiente independiente bajo las políticas coincidentes y de cache. La comida para llevar a corto plazo para los equipos es simple: tratar V3.2-Exp como un A/B de RAG y las tuberías de documentos largos donde O (L2) O (L^2) O (L2) La atención domina los costos y valida el rendimiento/calidad de extremo a extremo en su pila.

Preguntas frecuentes

1) ¿Qué es exactamente Deepseek V3.2-Exex?
V3.2-EXP es una actualización experimental e intermedia de V3.1-terminal que introduce una atención escasa (DSA) de profundidad profunda para mejorar la eficiencia de contexto a largo plazo.

2) ¿Es realmente código abierto y bajo qué licencia?
Sí. El repositorio y los pesos del modelo tienen licencia bajo el MIT, según la tarjeta de modelo oficial de abrazadera (sección de licencia).

3) ¿Qué es la atención escasa de Deepseek (DSA) en la práctica?
DSA agrega una etapa de indexación liviana para calificar/seleccionar un pequeño conjunto de tokens relevantes, luego ejecuta la atención solo sobre ese subconjunto, anticipando la “atención escasa de grano fino” e informó las ganancias de eficiencia de entrenamiento/inferencia de largo contexto mientras mantiene la calidad de la salida a la par con V3.1.

Echa un vistazo a la página de Github y la tarjeta de modelo de Face. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial

Deepseek v3.2-Exp reduce los costos de contexto largo con una atención escasa de Deepseek (DSA) mientras mantiene la paridad de referencia

ByEquipo de 7 minutos

Índice FP8 → Selección de Top-K → Atención del núcleo escaso

Hablemos de su eficiencia y precisión.

Resumen

Preguntas frecuentes

By Equipo de 7 minutos

Related Post

GLiGuard de código abierto de Fastino Labs: un modelo de moderación de seguridad de parámetros de 300 millones que iguala o supera la precisión de los modelos entre 23 y 90 veces su tamaño

Google DeepMind presenta un puntero de mouse con inteligencia artificial impulsado por Gemini que captura el contexto visual y semántico alrededor del cursor

Conozca AntAngelMed: un modelo de lenguaje médico de código abierto con parámetros 103B construido sobre una arquitectura MoE con relación de activación de 1/32

You missed

¿Recuerdas los libros ‘Elige tu propia aventura’? Ahora hay una magnífica versión de novela gráfica dirigida a ‘Space and Beyond’ (exclusivo)

JD Vance se compara con un niño abandonado en un trastornado evento en la Casa Blanca

Blog de chismes deportivos n.° 1 en el mundo

La odontología más antigua conocida no fue realizada por nuestra especie: ScienceAlert