¿Qué es Deepseek-V3.1 y por qué todos hablan de eso?

La startup de IA china Veterano lanzamientos Deepseek-v3.1es el último modelo de idioma insignia. Se basa en la arquitectura de Deepseek-v3agregando mejoras significativas al razonamiento, uso de herramientas y rendimiento de codificación. En particular, los modelos de Deepseek han ganado rápidamente una reputación de entrega de Operai y rendimiento de nivel antrópico a una fracción del costo.

Arquitectura y capacidades de modelos

  • Modo de pensamiento híbrido: Deepseek-v3.1 admite ambos pensamiento (razonamiento de la cadena de pensamiento, más deliberativo) y que no piensa (Dirección, transmisión de conciencia) Generación, conmutable a través de la plantilla de chat. Esta es una desviación de versiones anteriores y ofrece flexibilidad para variados casos de uso.
  • Soporte de herramienta y agente: El modelo ha sido optimizado para llamadas de herramientas y tareas de agente (por ejemplo, usando API, ejecución de código, búsqueda). Las llamadas de herramientas utilizan un formato estructurado, y el modelo admite agentes de código personalizados y agentes de búsqueda, con plantillas detalladas proporcionadas en el repositorio.
  • Escala masiva, activación eficiente: El modelo se jacta Parámetros totales de 671Bcon 37b activado por token-a Mezcla de expertos (MOE) Diseño que reduce los costos de inferencia mientras mantiene la capacidad. El Ventana de contexto es 128k tokensmucho más grande que la mayoría de los competidores.
  • Extensión de contexto larga: Deepseek-v3.1 usa un Extensión de contexto largo de dos fases acercarse. La primera fase (32k) fue entrenada en Tokens 630b (10x más que V3), y el segundo (128k) en Tokens 209b (3.3x más que V3). El modelo está entrenado con Microescalia FP8 para aritmética eficiente en hardware de próxima generación.
  • Plantilla de chat: La plantilla admite conversaciones múltiples con tokens explícitos para indicaciones del sistema, consultas de usuarios y respuestas de asistente. El pensamiento y que no piensa Los modos se activan por <think> y </think> Tokens en la secuencia rápida.

Puntos de referencia de rendimiento

Deepseek-v3.1 es evaluado en una amplia gama de puntos de referencia (Consulte la tabla a continuación), incluyendo conocimiento general, codificación, matemáticas, uso de herramientas y tareas de agente. Aquí hay aspectos destacados:

Métrico V3.1 no V3.1-pensamiento Competidor
MMLU-REDUX (EM) 91.8 93.7 93.4 (R1-0528)
Mmlu-pro (em) 83.7 84.8 85.0 (R1-0528)
GPQA-Diamond (pase@1) 74.9 80.1 81.0 (R1-0528)
LivecodeBench (pase@1) 56.4 74.8 73.3 (R1-0528)
Aimé 2025 (pase@1) 49.8 88.4 87.5 (R1-0528)
Swe-Bench (modo de agente) 54.5 30.5 (R1-0528)

El modo de pensamiento coincide o excede constantemente las versiones anteriores de última generación, especialmente en codificación y matemáticas. El modo no pensativo es más rápido pero ligeramente menos preciso, lo que lo hace ideal para aplicaciones sensibles a la latencia.

Integración de agentes de herramienta y código

  • Llamadas de herramientas: Las invocaciones de herramientas estructuradas son compatibles en el modo no pensativo, lo que permite flujos de trabajo scriptables con API y servicios externos.
  • Agentes de código: Los desarrolladores pueden crear agentes de código personalizados siguiendo las plantillas de trayectoria proporcionadas, que detallan el protocolo de interacción para la generación de código, la ejecución y la depuración. Deepseek-V3.1 puede usar herramientas de búsqueda externas para información actualizada, una característica crítica para las aplicaciones de investigación empresarial, finanzas y técnicas.

Despliegue

  • Open Source, Licencia MIT: Todos los pesos y código del modelo son disponible libremente en la cara abrazada y modeloscope bajo el Licencia de MITalentar tanto la investigación como el uso comercial.
  • Inferencia local: La estructura del modelo es compatible con Deepseek-V3, y se proporcionan instrucciones detalladas para la implementación local. Ejecutar requiere importantes recursos de GPU debido a la escala del modelo, pero el ecosistema abierto y las herramientas comunitarias reducen las barreras para la adopción.

Resumen

Deepseek-V3.1 representa un hito en la democratización de la IA avanzada, lo que demuestra que los modelos de lenguaje de código abierto, rentable y altamente capaz. Su mezcla de razonamiento escalable, Integración de herramientasy rendimiento excepcional En las tareas de codificación y matemáticas lo posiciona como una opción práctica tanto para la investigación como para el desarrollo de IA aplicada.


Mira el Modelo en la cara abrazada. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.