StepFun lanzó hoy Step 3.7 Flash, un modelo multimodal de mezcla de expertos dirigido a casos de uso agentes. Agrega entrada de visión nativa y confiabilidad mejorada en el uso de herramientas con respecto al Paso 3.5 Flash.
¿Qué es el paso 3.7 Flash?
Paso 3.7 Flash es un modelo de lenguaje-visión de mezcla de expertos (MoE) disperso de parámetros 198B. Combina una columna vertebral de lenguaje de 196B de parámetros con un codificador de visión (ViT) de 1,8B de parámetros para la comprensión nativa de imágenes.
El modelo activa aproximadamente 11 mil millones de parámetros por token durante la inferencia. En las arquitecturas MoE, sólo un subconjunto de subredes “expertas” se activa por paso directo, no toda la red. Esto mantiene el cálculo de inferencia más cerca de un modelo denso de 11B y al mismo tiempo mantiene un presupuesto total de parámetros de 198B.
Especificaciones clave:
Notas de arquitectura
El codificador de visión se ejecuta como un módulo ViT de 1,8 B independiente. Inyecta representaciones de imágenes en el contexto de la columna vertebral del lenguaje. Paso 3.5 Flash no tenía soporte multimodal; Esta es una nueva incorporación en 3.7.
Tres profundidades de razonamiento seleccionables (baja, media y alta) permiten a los desarrolladores intercambiar latencia por profundidad de razonamiento. Lo bajo es más rápido y barato; alto aplica más cálculo por respuesta.
Rendimiento de codificación agente
En SWE-Bench Pro, el Paso 3.7 Flash obtiene una puntuación del 56,26%, frente al 51,3% del Paso 3.5 Flash, una ganancia de aproximadamente 5 puntos porcentuales. En Terminal-Bench 2.1, obtiene una puntuación del 59,55%, frente al 53,37%.
En SWE-MTLG (un punto de referencia de codificación multitarea de larga generación), obtiene una puntuación del 72,42%.
Consistencia cruzada en el Step-SWE-Bench interno de StepFun:
Paso 3.5 Flash osciló entre 43% y 73% en todos los arneses. Paso 3.7 Flash oscila entre 64,5% y 71,5%. En producción, los agentes de codificación a menudo se ejecutan dentro de andamios heterogéneos, cada uno con sus propias convenciones de indicaciones y esquemas de herramientas. Una variación más estrecha por arnés significa un comportamiento más predecible en diferentes configuraciones.
Modo asesor
Paso 3.7 Flash admite el Modo Asesor, la implementación de StepFun de la estrategia de asesor descrita por Anthropic. El modelo ejecuta el bucle agente de extremo a extremo (llamadas a herramientas, lectura de resultados, iteración) y escala a un modelo de asesor más grande solo en puntos de inflexión específicos, como la planificación o la recuperación de fallas repetidas. La mayor parte de la ejecución queda a cargo del ejecutor.
Con el Modo Asesor habilitado en SWE-Bench Verified, StepFun informa que el Paso 3.7 Flash alcanza el 97% del rendimiento de codificación de Claude Opus 4.6 a aproximadamente una novena parte del costo por tarea ($0,19 frente a $1,76 por tarea). Estas son las cifras internas de StepFun.
Capacidades multimodales
Paso 3.7 Flash admite dos vías de herramientas visuales:
Herramienta de búsqueda visual: para tareas de reconocimiento en las que el conocimiento paramétrico del modelo es insuficiente (entidades de cola larga, conceptos surgidos recientemente), invoca una herramienta de búsqueda visual para recuperar y verificar. En SimpleVQA (con Búsqueda), obtiene una puntuación del 79,16%, comparable al GPT 5.5 (79,11%) y superior al Kimi K2.6 (78,24%) y al GLM 5V Turbo (78,20%).
Herramienta Python: para tareas visuales detalladas (imágenes de alta resolución, sondeo visual, análisis de cuadros delimitadores), utiliza una interfaz de código para recortar, hacer zoom y dibujar píxeles o cuadros delimitadores. En V (una puntuación autoevaluada con Python), obtiene una puntuación del 95,29%. En HR-Bench 4K y HR-Bench 8K, obtiene una puntuación de 89,13% y 86,34% respectivamente.
StepFun observa un comportamiento observado durante las pruebas: el modelo combinó herramientas visuales con herramientas no visuales sin haber sido entrenado explícitamente para hacerlo. Por ejemplo, después de generar el código de interfaz, utilizó la GUI para representar e inspeccionar el resultado antes de iterar. StepFun describe esto como el uso de una herramienta de composición emergente.
En Android Daily (finalización de tareas de interfaz de usuario de teléfono de largo horizonte), el Paso 3.7 Flash obtiene una puntuación del 61,87 %, por delante de Kimi K2.6 (53,36 %) y GLM 5V Turbo (51,68 %). Gemini 3 Flash (63,21%) lidera este punto de referencia.
Puntos de referencia de búsqueda e investigación
StepFun centró el diseño de búsqueda de este modelo en la planificación, el filtrado de evidencia y la síntesis, integrando la búsqueda como parte del ciclo de razonamiento en lugar de un complemento separado.
Nota: La puntuación de HLE con herramientas de 47,20 % se compara con la puntuación de solo texto del Paso 3.5 Flash de 35,68 %. Paso 3.5 Flash no admitía la evaluación aumentada con herramientas en HLE.
Puntos de referencia generales del agente
En ClawEval-1.1, Step 3.7 Flash (67,07%) supera a DeepSeek V4 Flash (57,80%) y DeepSeek V4 Pro (59,80%) entre los modelos comparados.
Rendimiento en contexto largo
En AA-LCR (un punto de referencia de recuperación de contexto largo, avg@16/acc), Step 3.7 Flash obtiene una puntuación del 63,94 %. Esto es comparable a DeepSeek V4 Flash (63,70%) y DeepSeek V4 Pro (66,30%).
Precios
Explicador visual de Marktechpost
Conclusiones clave
Paso 3.7 Flash es un modelo MoE disperso de 198B con 11B de parámetros activos y una ventana de contexto de 256k. El soporte multimodal nativo (imágenes, GUI, documentos) es nuevo: el paso 3.5 Flash era solo texto. El modo Asesor alcanza el 97% del rendimiento SWE-Bench Verified de Claude Opus 4.6 a $0,19 por tarea frente a $1,76. La varianza de la codificación cruzada se redujo de un rango de 43 a 73 % (3,5 Flash) a 64,5 a 71,5 % (3,7 Flash). Lanzado bajo Apache 2.0 con pesos BF16, FP8, NVFP4 y GGUF en Hugging Face.
Dónde (inferencias) ejecutar el paso 3.7 Flash
Dónde ejecutarlo
Paso 3.7 Flash: proveedores de inferencia y acceso
Modelo de lenguaje de visión MoE de 198 mil millones de StepFun en API alojadas y pesos abiertos.
API alojada · Disponible ahora
Pesos abiertos · Apache 2.0
Consulte los pesos del modelo, el repositorio y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros