DeepSeek lanza DSpark, un marco de decodificación especulativo que acelera la generación por usuario de DeepSeek-V4 entre un 60 % y un 85 % con respecto a MTP-1

DeepSeek lanzó DSpark, un marco de decodificación especulativo, con puntos de control de código abierto y código de entrenamiento. Es una optimización del servicio, no un modelo nuevo. Los puntos de control DeepSeek-V4-Pro-DSpark y DeepSeek-V4-Flash-DSpark reutilizan los pesos V4 existentes, con un módulo de borrador adjunto.

El equipo de investigación de DeepSeek también abrió DeepSpec, una base de código con licencia del MIT para capacitar y evaluar redactores de decodificación especulativa. El trabajo se centra en un problema: una inferencia más rápida de modelos grandes en servicios de producción ocupados.

TL;DR

DSpark combina una columna vertebral de borrador paralelo con una pequeña cabeza secuencial para reducir la degradación de los sufijos. Un cabezal de confianza y un programador consciente de la carga verifican más tokens cuando las GPU están inactivas y menos cuando están ocupadas. Sin conexión, la longitud aceptada aumenta entre un 26% y un 31% con respecto a Eagle3 y entre un 16% y un 18% con respecto a DFlash. En producción en DeepSeek-V4, la generación por usuario se ejecuta entre un 60% y un 85% más rápido que la línea base MTP-1. La salida no produce pérdidas y los puntos de control más el código de entrenamiento de DeepSpec son de código abierto.

¿Qué es DSpark?

La decodificación especulativa divide la generación en dos roles. Un pequeño borrador de modelo propone un bloque de tokens. Luego, el modelo objetivo completo verifica ese bloque en un pase hacia adelante.

El muestreo de rechazo acepta el prefijo válido más largo y agrega un token de bonificación. Debido a que la regla preserva exactamente la distribución objetivo, no hay pérdida de calidad. DSpark mantiene esta garantía. Cambia la forma en que se redactan los tokens y cuántos se verifican.

La matemática de latencia que optimiza

La latencia por token sigue una ecuación del artículo: L = (Tdraft + Tverify) / τ. Aquí τ es la cantidad de tokens aceptados por ciclo. La aceleración proviene únicamente de tres palancas.

Puedes redactar más rápido, reduciendo Tdraft. Puedes redactar mejor, elevando τ. O puede realizar una verificación más inteligente y reducir el desperdicio de Tverify. DSpark tira de las tres palancas a la vez.

Cómo funciona: generación semiautoregresiva

Los redactores anteriores obligaron a llegar a un acuerdo. Los redactores autorregresivos como Eagle3 condicionan cada ficha a las anteriores. Eso da una gran aceptación, pero el costo de redacción aumenta con el tamaño del bloque.

Los dibujantes paralelos como DFlash producen el bloque completo en una sola pasada. La redacción sigue siendo barata, pero cada posición ignora a sus vecinas. El resultado es una “colisión multimodal” y una rápida caída de la aceptación a lo largo del sufijo.

DSpark divide la redacción en dos etapas. Una columna vertebral paralela pesada, DFlash en su configuración, produce logits base para cada posición. Luego, un encabezado secuencial liviano agrega un sesgo dependiente del prefijo antes de muestrear cada token.

La cabeza secuencial predeterminada es una cabeza de Markov. Solo mira el token inmediatamente anterior. Una factorización de rango bajo (rango 256) lo mantiene barato, incluso con vocabularios extensos.

Una vez que se coloca una muestra de “de”, la cabeza aumenta el “rumbo” y suprime el “problema”. Un cabezal RNN opcional rastrea el prefijo del bloque completo. Añade sólo ganancias marginales, por lo que los barcos de cabeza de Markov son los predeterminados.

La recompensa aparece posición por posición. DSpark hereda la alta precisión del primer token de la red troncal paralela. Luego, el cabezal secuencial mantiene la aceptación estable en lo profundo del bloque.

El entrenamiento congela el modelo de destino y reutiliza su cabezal de incrustación y salida. Una pérdida por variación total es el término clave. Minimizar esa distancia maximiza directamente la tasa de aceptación del borrador.

Cómo funciona: verificación programada de confianza

Más fichas de draft no siempre significan más velocidad. La verificación de los tokens que serán rechazados desperdicia la capacidad del lote bajo una carga pesada. DSpark agrega dos partes para solucionar este problema.

Un jefe de confianza genera una puntuación para cada posición del draft. La puntuación estima la probabilidad de que el token sobreviva a la verificación, dados los predecesores aceptados. Está supervisado por la tasa de aceptación analítica por paso.

La confianza neuronal pura suele ser un exceso de confianza. Por eso, el equipo de investigación aplica el escalado de temperatura secuencial, un paso de calibración post hoc. Reduce el error de calibración esperado del 3 al 8 % hasta aproximadamente el 1 %.

Luego, un programador de prefijos compatible con el hardware establece la duración de la verificación por solicitud. Utiliza una curva de rendimiento perfilada, SPS(B), medida una vez al inicio. Cuando las GPU están inactivas, verifica más tokens. Cuando las GPU están ocupadas, verifica menos.

El programador utiliza una regla de detención anticipada para no sufrir pérdidas. La sección del apéndice ofrece un contraejemplo que muestra por qué una búsqueda global ingenua filtraría información.

Métrica

Las pruebas sin conexión cubren matemáticas, código y chat diario. Los objetivos incluyen Qwen3-4B, 8B, 14B y Gemma4-12B. DSpark supera ambas líneas de base en longitud aceptada en todos los dominios.

Frente a Eagle3, la longitud macropromedio aceptada aumenta un 30,9%, 26,7% y 30,0% en los tres tamaños de Qwen3. Contra DFlash, las ganancias son del 16,3%, 18,4% y 18,3%. Un DSpark de 2 capas incluso supera a un DFlash de 5 capas.

El cabezal secuencial añade poco coste. Escalar la longitud del borrador de 4 a 16 agrega solo entre un 0,2% y un 1,3% de latencia por ronda. A cambio, la longitud aceptada mejora hasta un 30%.

Los resultados de producción provienen de DeepSeek-V4-Flash y V4-Pro con tráfico en vivo. La línea de base es MTP-1, la configuración anterior de un solo token. Con un rendimiento equivalente, la velocidad por usuario aumenta entre un 60% y un 85% en Flash y entre un 57% y un 78% en Pro. La configuración enviada es DSpark-5, un bloque de draft de cinco fichas con la cabeza de Markov.

DrafterEstilo de dibujoCosto del bloqueAceptación de sufijoLongitud de verificaciónEagle3AutoregresivoCrece con el tamaño del bloqueAlto, estableFijoDFlashParaleloCasiconstanteDecae rápidamenteFijo (bloque completo)MTP-1Un solo token (MTP)Bajo: estático 2 tokensDSparkParalelo + cabeza secuencialCasi constanteAlto, estableDinámico, con reconocimiento de carga

Casos de uso con ejemplos

Las cargas de trabajo estructuradas se benefician al máximo de una verificación más prolongada. En la generación de código, la aceptación es naturalmente alta. El programador puede verificar prefijos largos con poco desperdicio, por lo que los agentes de codificación transmiten la salida más rápido.

El chat abierto se comporta de manera diferente. Un barrido del umbral de confianza elevó la aceptación del chat del 45,7% al 95,7%. El encabezado de confianza señala tokens de sufijo inciertos para que puedan eliminarse.

El razonamiento matemático se sitúa entre los dos. Su aceptación aumentó del 76,9% al 92,5% en el mismo barrido. Las trazas largas paso a paso se benefician de una aceptación constante de bloques profundos.

El servicio de alta concurrencia es el caso principal. Con una carga moderada, el programador ejecuta aproximadamente entre 4 y 6 tokens verificados por solicitud. A medida que aumenta la simultaneidad, se recorta ese presupuesto para proteger el rendimiento.

Pruébalo

DeepSpec se ejecuta en tres etapas: preparación de datos, capacitación y luego evaluación. Una configuración selecciona el algoritmo y el modelo de destino. La evaluación compara un borrador de punto de control capacitado en nueve conjuntos de datos.

# Instalar dependencias python -m pip install -r requisitos.txt # Entrenar un borrador de DSpark contra un objetivo Qwen3-4B. # El algoritmo y el objetivo son elegidos por la configuración, por ejemplo # config/dspark/dspark_qwen3_4b.py bash scripts/train/train.sh # Evalúe el borrador entrenado en los 9 conjuntos de datos de referencia. # Establecer en la configuración de evaluación: # target_name_or_path = Qwen/Qwen3-4B # draft_name_or_path = ~/checkpoints/deepspec/dspark_block8_qwen3_4b/step_latest bash scripts/eval/eval.sh

Las configuraciones predeterminadas suponen un nodo con 8 GPU. Reduzca CUDA_VISIBLE_DEVICES por menos. Tenga en cuenta que la caché de destino puede ser grande, cerca de 38 TB para la configuración Qwen3-4B.

Para los puntos de control de producción, el módulo de borrador se conecta a las pesas V4 existentes. Las tarjetas Hugging Face incluyen un ejemplo de inferencia mínima en la carpeta de inferencia. No es necesario volver a entrenar el modelo de destino.

La demostración interactiva a continuación muestra el mecanismo. Elija un redactor, un dominio y un nivel de carga de GPU. Observe cómo cambian el bloque de borrador, las puntuaciones de confianza y el presupuesto de verificación del programador en tiempo real. Las cifras son ilustrativas y se basan en el comportamiento informado en el artículo.

Consulte el peso del papel, GitHub y el modelo en HF. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ml y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros