StepFun lanza el paso 3.7 Flash: un modelo de lenguaje de visión MoE de 198 mil millones para agentes de codificación y flujos de trabajo de búsqueda

StepFun lanzó hoy Step 3.7 Flash, un modelo multimodal de mezcla de expertos dirigido a casos de uso agentes. Agrega entrada de visión nativa y confiabilidad mejorada en el uso de herramientas con respecto al Paso 3.5 Flash.

¿Qué es el paso 3.7 Flash?

Paso 3.7 Flash es un modelo de lenguaje-visión de mezcla de expertos (MoE) disperso de parámetros 198B. Combina una columna vertebral de lenguaje de 196B de parámetros con un codificador de visión (ViT) de 1,8B de parámetros para la comprensión nativa de imágenes.

El modelo activa aproximadamente 11 mil millones de parámetros por token durante la inferencia. En las arquitecturas MoE, sólo un subconjunto de subredes “expertas” se activa por paso directo, no toda la red. Esto mantiene el cálculo de inferencia más cerca de un modelo denso de 11B y al mismo tiempo mantiene un presupuesto total de parámetros de 198B.

Especificaciones clave:

SpecValueParámetros totales198B (196B de lenguaje + 1,8B de ViT)Parámetros activos por token~11BVentana de contexto256k tokensRendimientoHasta 400 tokens/segNiveles de razonamientoBajo, medio, altoLicenciaApache 2.0

Notas de arquitectura

El codificador de visión se ejecuta como un módulo ViT de 1,8 B independiente. Inyecta representaciones de imágenes en el contexto de la columna vertebral del lenguaje. Paso 3.5 Flash no tenía soporte multimodal; Esta es una nueva incorporación en 3.7.

Tres profundidades de razonamiento seleccionables (baja, media y alta) permiten a los desarrolladores intercambiar latencia por profundidad de razonamiento. Lo bajo es más rápido y barato; alto aplica más cálculo por respuesta.

Rendimiento de codificación agente

En SWE-Bench Pro, el Paso 3.7 Flash obtiene una puntuación del 56,26%, frente al 51,3% del Paso 3.5 Flash, una ganancia de aproximadamente 5 puntos porcentuales. En Terminal-Bench 2.1, obtiene una puntuación del 59,55%, frente al 53,37%.

En SWE-MTLG (un punto de referencia de codificación multitarea de larga generación), obtiene una puntuación del 72,42%.

Consistencia cruzada en el Step-SWE-Bench interno de StepFun:

ScaffoldStep 3.7 FlashStep 3.5 FlashHermes Agent67.5%60.0%OpenClaw67.0%47.0%KiloCode67.5%59.0%RooCode64.5%43.0%Claude Code71.5%73.0%OpenCode64.5%57.0%

Paso 3.5 Flash osciló entre 43% y 73% en todos los arneses. Paso 3.7 Flash oscila entre 64,5% y 71,5%. En producción, los agentes de codificación a menudo se ejecutan dentro de andamios heterogéneos, cada uno con sus propias convenciones de indicaciones y esquemas de herramientas. Una variación más estrecha por arnés significa un comportamiento más predecible en diferentes configuraciones.

Modo asesor

Paso 3.7 Flash admite el Modo Asesor, la implementación de StepFun de la estrategia de asesor descrita por Anthropic. El modelo ejecuta el bucle agente de extremo a extremo (llamadas a herramientas, lectura de resultados, iteración) y escala a un modelo de asesor más grande solo en puntos de inflexión específicos, como la planificación o la recuperación de fallas repetidas. La mayor parte de la ejecución queda a cargo del ejecutor.

Con el Modo Asesor habilitado en SWE-Bench Verified, StepFun informa que el Paso 3.7 Flash alcanza el 97% del rendimiento de codificación de Claude Opus 4.6 a aproximadamente una novena parte del costo por tarea ($0,19 frente a $1,76 por tarea). Estas son las cifras internas de StepFun.

Capacidades multimodales

Paso 3.7 Flash admite dos vías de herramientas visuales:

Herramienta de búsqueda visual: para tareas de reconocimiento en las que el conocimiento paramétrico del modelo es insuficiente (entidades de cola larga, conceptos surgidos recientemente), invoca una herramienta de búsqueda visual para recuperar y verificar. En SimpleVQA (con Búsqueda), obtiene una puntuación del 79,16%, comparable al GPT 5.5 (79,11%) y superior al Kimi K2.6 (78,24%) y al GLM 5V Turbo (78,20%).

Herramienta Python: para tareas visuales detalladas (imágenes de alta resolución, sondeo visual, análisis de cuadros delimitadores), utiliza una interfaz de código para recortar, hacer zoom y dibujar píxeles o cuadros delimitadores. En V (una puntuación autoevaluada con Python), obtiene una puntuación del 95,29%. En HR-Bench 4K y HR-Bench 8K, obtiene una puntuación de 89,13% y 86,34% respectivamente.

StepFun observa un comportamiento observado durante las pruebas: el modelo combinó herramientas visuales con herramientas no visuales sin haber sido entrenado explícitamente para hacerlo. Por ejemplo, después de generar el código de interfaz, utilizó la GUI para representar e inspeccionar el resultado antes de iterar. StepFun describe esto como el uso de una herramienta de composición emergente.

En Android Daily (finalización de tareas de interfaz de usuario de teléfono de largo horizonte), el Paso 3.7 Flash obtiene una puntuación del 61,87 %, por delante de Kimi K2.6 (53,36 %) y GLM 5V Turbo (51,68 %). Gemini 3 Flash (63,21%) lidera este punto de referencia.

Puntos de referencia de búsqueda e investigación

StepFun centró el diseño de búsqueda de este modelo en la planificación, el filtrado de evidencia y la síntesis, integrando la búsqueda como parte del ciclo de razonamiento en lugar de un complemento separado.

BenchmarkStep 3.7 FlashComparación notableHLE con Tools (acc)47,20%DeepSeek V4 Flash: 45,10%BrowseComp (acc)75,82%Claude Opus 4.7: 79,30%DeepSearchQA (F1)92,82%Kimi K2.6: 92,50%ResearchRubrics (puntuación)71,68%GPT 5,5: 61,50%

Nota: La puntuación de HLE con herramientas de 47,20 % se compara con la puntuación de solo texto del Paso 3.5 Flash de 35,68 %. Paso 3.5 Flash no admitía la evaluación aumentada con herramientas en HLE.

Puntos de referencia generales del agente

BenchmarkStep 3.7 FlashDescripciónToolathlon49.51%Coordinación de múltiples herramientasClawEval-1.167.07%Ejecución diaria autónoma de tareas en entornos realistasPIBval (44 ocupaciones)45.8%Ejecución de tareas profesionales generalesTau2-bench Telecom>98%En diferentes niveles de dificultad de razonamiento

En ClawEval-1.1, Step 3.7 Flash (67,07%) supera a DeepSeek V4 Flash (57,80%) y DeepSeek V4 Pro (59,80%) entre los modelos comparados.

Rendimiento en contexto largo

En AA-LCR (un punto de referencia de recuperación de contexto largo, avg@16/acc), Step 3.7 Flash obtiene una puntuación del 63,94 %. Esto es comparable a DeepSeek V4 Flash (63,70%) y DeepSeek V4 Pro (66,30%).

Precios

Tipo de tokenPrecioEntrada (fallo de caché)$0,20/M de tokensEntrada (acierto de caché)$0,04/M de tokensSalida$1,15/M de tokens

Explicador visual de Marktechpost

Diapositiva 1 de 8: Descripción general

¿Qué es el paso 3.7 Flash?

Paso 3.7 Flash es un modelo de lenguaje visual de mezcla de expertos (MoE) de StepFun. Combina una columna vertebral de lenguaje de 196B de parámetros con un codificador Vision Transformer (ViT) de 1,8B de parámetros para la comprensión nativa de imágenes.

En un modelo MoE, sólo se activa un subconjunto de subredes “expertas” por token, no toda la red. Esto mantiene el cálculo de inferencia cerca de un modelo denso de 11B y al mismo tiempo mantiene un total de 198B de parámetros.

Ventana de contexto

256k fichas

Niveles de razonamiento

Bajo / Medio / Alto

Diapositiva 2 de 8 — Arquitectura

Notas de arquitectura

El codificador ViT 1.8B se ejecuta como un módulo separado e inyecta representaciones de imágenes en el contexto de la columna vertebral del lenguaje. Paso 3.5 Flash era sólo texto; El soporte multimodal nativo es nuevo en 3.7.

Tres profundidades de razonamiento seleccionables permiten a los desarrolladores equilibrar la velocidad y el costo:

Bajo: el más rápido y el más barato. Apto para terminaciones sencillas. Medio: coste equilibrado y profundidad de razonamiento. Alto: más cálculo por respuesta. Lo mejor para tareas complejas de agentes.

El enrutamiento MoE significa que usted paga por ~11 mil millones de parámetros activos en la inferencia, no 198 mil millones. Esta es la principal compensación de eficiencia en los modelos de nivel Flash.

Diapositiva 3 de 8: Codificación agente

Rendimiento de codificación agente

El paso 3.7 Flash obtiene una puntuación del 56,26 % en SWE-Bench Pro (frente al 51,3 % en 3.5 Flash) y del 59,55 % en Terminal-Bench 2.1 (frente al 53,37 %). En SWE-MTLG obtiene una puntuación del 72,42%.

Puntuaciones por arnés en el Step-SWE-Bench interno de StepFun:

Scaffold3.7 Flash3.5 Flash Hermes Agent67.5%60.0% OpenClaw67.0%47.0% KiloCode67.5%59.0% RooCode64.5%43.0% Claude Code71.5%73.0% OpenCode64.5%57.0%

3.5 Flash osciló entre 43% y 73% en todos los arneses. 3.7 Flash reduce esa cifra a entre 64,5 y 71,5 %, lo que es más predecible en estructuras heterogéneas.

Diapositiva 4 de 8: Modo Asesor

Modo asesor

Paso 3.7 Flash admite el Modo Asesor, la implementación de StepFun de la estrategia de asesor descrita por Anthropic. El modelo ejecuta el ciclo agente completo (llamada a herramientas, lectura de resultados, iteración) y escala a un modelo de asesor más grande solo en puntos de inflexión específicos.

Se intensifica durante la planificación o la recuperación de fallas repetidas. La mayor parte de la ejecución permanece en el costo del ejecutor (Flash). El modelo de asesor grande se consulta con moderación.

Resultados verificados por SWE-Bench con el modo Asesor (cifras internas de StepFun):

Paso 3.7 Flash + Asesor

Puntuación del 76,3%

Claude Opus 4.6

Puntuación del 78,7%

Costo de Claude Opus 4.6

$1.76

Diapositiva 5 de 8: Multimodal

Capacidades multimodales

Paso 3.7 Flash admite dos vías de herramientas visuales:

Herramienta de búsqueda visual: se invoca para el reconocimiento de entidades de cola larga o conceptos surgidos recientemente donde el conocimiento paramétrico es insuficiente. SimpleVQA (Búsqueda): 79,16% Herramienta Python: interfaz de código para operaciones de recorte, zoom y cuadros delimitadores/píxeles en imágenes de alta resolución. V* (Python): 95,29% | HR-Bench 4K: 89,13% | HR-Bench 8K: 86,34%

Android Daily (tareas de interfaz de usuario de teléfono de largo horizonte): Paso 3.7 Flash obtiene una puntuación del 61,87 %, por delante de Kimi K2.6 (53,36 %) y GLM 5V Turbo (51,68 %). Gemini 3 Flash lidera con un 63,21%.

StepFun informa el uso de herramientas de composición emergentes durante las pruebas: el modelo combinó herramientas visuales y no visuales sin capacitación explícita para hacerlo.

Diapositiva 6 de 8: Búsqueda e investigación

Puntos de referencia de búsqueda e investigación

La búsqueda se integra en el circuito de razonamiento del modelo en lugar de tratarse como un complemento externo. StepFun centró la capacitación en planificación de búsqueda, filtrado de evidencia y síntesis.

Benchmark3.7 FlashComparison HLE con. Herramientas (acc)47,20%DeepSeek V4 Flash: 45,10% BrowseComp (acc)75,82%Claude Opus 4.7: 79,30% DeepSearchQA (F1)92,82%Kimi K2.6: 92,50% ResearchRubrics71,68%GPT 5.5: 61,50%

Comparación HLE: Paso 3.5 Flash obtuvo una puntuación del 35,68 % solo con texto. Paso 3.7 Flash obtiene una puntuación del 47,20% con acceso a herramientas; no son manzanas con manzanas.

Diapositiva 7 de 8: Implementación

Precios, implementación y ecosistema

Tipo de tokenPrecio Entrada (fallo de caché)$0,20/M tokens Entrada (acierto de caché)$0,04/M tokens Salida$1,15/M tokens

Disponible en:

Plataforma StepFun
enrutador abierto
NIM de NVIDIA
DeepInfra (pronto)
IA de fuegos artificiales (pronto)
Modal (pronto)

Backends de inferencia: vLLM, SGLang, Hugging Face Transformers (requiere v5.0+), llama.cpp

Formatos de cuantificación: BF16, FP8, NVFP4, GGUF

Mínimo local: 120 GB de memoria unificada/VRAM

Diapositiva 8 de 8: Conclusiones clave

Conclusiones clave

Modelo MoE disperso de 198 mil millones con ~11 mil millones de parámetros activos por token y una ventana de contexto de 256 k Soporte multimodal nativo (imágenes, GUI, documentos): paso 3.5 Flash era solo texto El modo Asesor obtiene una puntuación del 76,3 % en SWE-Bench verificado a $ 0,19/tarea frente a Claude Opus 4.6 a $ 1,76 La variación de codificación cruzada se redujo de 43 a 73 % (3,5) a 64,5–71,5 % (3,7) Lanzamiento de Apache 2.0 con pesos BF16, FP8, NVFP4 y GGUF en Hugging Face

Arneses compatibles:

Código Claude
Kilocódigo
Agente Hermes
garra abierta

Conclusiones clave

Paso 3.7 Flash es un modelo MoE disperso de 198B con 11B de parámetros activos y una ventana de contexto de 256k. El soporte multimodal nativo (imágenes, GUI, documentos) es nuevo: el paso 3.5 Flash era solo texto. El modo Asesor alcanza el 97% del rendimiento SWE-Bench Verified de Claude Opus 4.6 a $0,19 por tarea frente a $1,76. La varianza de la codificación cruzada se redujo de un rango de 43 a 73 % (3,5 Flash) a 64,5 a 71,5 % (3,7 Flash). Lanzado bajo Apache 2.0 con pesos BF16, FP8, NVFP4 y GGUF en Hugging Face.

Dónde (inferencias) ejecutar el paso 3.7 Flash

Dónde ejecutarlo

Paso 3.7 Flash: proveedores de inferencia y acceso

Modelo de lenguaje de visión MoE de 198 mil millones de StepFun en API alojadas y pesos abiertos.

API alojada · Disponible ahora

Pesos abiertos · Apache 2.0

Consulte los pesos del modelo, el repositorio y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros