StepFun AI presenta Step-DeepResearch: un modelo de agente de investigación profunda rentable creado en torno a capacidades atómicas

StepFun ha presentado Step-DeepResearch, un agente de investigación profunda de extremo a extremo con parámetros 32B que tiene como objetivo convertir la búsqueda web en flujos de trabajo de investigación reales con razonamiento a largo plazo, uso de herramientas e informes estructurados. El modelo se basa en Qwen2.5 32B-Base y está capacitado para actuar como un agente único que planifica, explora fuentes, verifica evidencia y escribe informes con citas, manteniendo bajo el costo de inferencia.

De la búsqueda a la investigación profunda

La mayoría de los agentes web existentes están optimizados para puntos de referencia de respuesta a preguntas de múltiples saltos. Intentan hacer coincidir las respuestas reales de las preguntas breves. Esto está más cerca de una recuperación selectiva que de una investigación real. Las tareas de investigación profunda son diferentes. Implican el reconocimiento de intenciones latentes, la toma de decisiones a largo plazo, el uso de herramientas en múltiples turnos, el razonamiento estructurado y la verificación de fuentes cruzadas en condiciones de incertidumbre.

Step-DeepResearch reformula esto como una toma de decisiones secuencial sobre un conjunto compacto de capacidades atómicas. El equipo de investigación define 4 capacidades atómicas, planificación y descomposición de tareas, búsqueda de información profunda, reflexión y verificación, y generación de informes profesionales. En lugar de orquestar muchos agentes externos, el sistema internaliza este bucle en un modelo único que decide la siguiente acción en cada paso.

Síntesis de datos sobre capacidades atómicas

Para enseñar estas capacidades atómicas, el equipo de investigación crea canales de datos separados para cada habilidad. Para la planificación, parten de informes técnicos de alta calidad, trabajos de encuesta y documentos de análisis financiero. Realizan ingeniería inversa de planes de investigación realistas y árboles de tareas a partir de títulos, resúmenes y estructuras, y luego generan trayectorias que siguen estos planes. Esto expone el modelo a estructuras de proyectos de largo plazo, no sólo a plantillas de preguntas cortas.

Para una búsqueda profunda de información, construyen consultas basadas en gráficos sobre gráficos de conocimiento como Wikidata5m y CN-DBpedia. Muestran subgrafos, los amplían mediante la búsqueda y sintetizan preguntas que requieren un razonamiento de múltiples saltos entre entidades y documentos. Un canal separado utiliza un índice de hipervínculo estilo Wiki para forzar la recuperación de documentos cruzados y la combinación de evidencia. Las preguntas fáciles que un modelo sólido ya puede resolver con una estrategia simple de estilo ReAct se filtran, por lo que la capacitación se centra en problemas de búsqueda difíciles.

Los datos de reflexión y verificación se generan a través de bucles de autocorrección y rastros docentes de múltiples agentes. Los agentes docentes extraen afirmaciones, planifican verificaciones, verifican hechos, replanifican si aparecen inconsistencias y solo entonces redactan informes. Las trayectorias resultantes se limpian y se utilizan como supervisión para un único agente estudiante. La generación de informes se entrena en 2 fases, la mitad del entrenamiento para el estilo y la profundidad del dominio utilizando pares de informes de consulta, luego se supervisa el ajuste con restricciones estrictas de formato y coherencia del plan.

Entrenamiento progresivo en Qwen2.5-32B-Base

El proceso de capacitación tiene 3 etapas: capacitación intermedia agente, ajuste supervisado y aprendizaje de refuerzo. En la etapa 1 del entrenamiento intermedio, el equipo inyecta capacidades atómicas sin herramientas, utilizando una longitud de contexto de hasta 32 000 tokens. Los datos cubren lectura activa, rastros de razonamiento sintético, resumen y reflexión. El equipo de investigación muestra ganancias constantes en SimpleQA, TriviaQA y FRAMES a medida que el entrenamiento aumenta hasta aproximadamente 150 mil millones de tokens, con las mayores ganancias en FRAMES, que enfatiza el razonamiento estructurado.

En la etapa 2, el contexto se extiende a 128.000 tokens y se introducen llamadas explícitas a herramientas. El modelo aprende tareas como respuesta a preguntas basadas en URL, búsqueda web profunda, resúmenes de documentos extensos y razonamiento de diálogos extensos. Esta etapa alinea el modelo con escenarios de investigación reales donde la búsqueda, la navegación y el análisis deben combinarse en una sola trayectoria.

Durante el ajuste fino supervisado, las cuatro capacidades atómicas se componen en búsqueda profunda completa y rastros de investigación profunda. La limpieza de datos mantiene trayectorias correctas y cortas en términos de pasos y llamadas a herramientas. El canal inyecta errores controlados en las herramientas seguidos de correcciones para mejorar la solidez y aplica formatos de citas para que los informes se mantengan basados ​​en las fuentes recuperadas.

Luego, el aprendizaje por refuerzo optimiza el agente en un entorno de herramientas real. El equipo de investigación crea tareas y listas de verificación mediante síntesis inversa y entrena un juez de rúbricas estilo lista de verificación para calificar informes según dimensiones detalladas. El diseño de recompensa convierte etiquetas de rúbricas ternarias en recompensas binarias asimétricas que capturan tanto objetivos positivos como violaciones. La política se entrena con PPO y un crítico erudito, utilizando una estimación de ventaja generalizada con un descuento cercano a cero para que las trayectorias largas no se trunquen.

Arquitectura de ReAct de agente único y pila de búsqueda

En el momento de la inferencia, Step-DeepResearch se ejecuta como un único agente de estilo ReAct que alterna pensamiento, llamadas a herramientas y observaciones hasta que decide generar un informe. El conjunto de herramientas incluye búsqueda web por lotes, un administrador de tareas pendientes, comandos de shell y operaciones de archivos. La ejecución se ejecuta en un entorno limitado con persistencia de terminal a través de tmux. Un navegador orientado a la percepción reduce las capturas de páginas redundantes mediante el uso de una distancia de hash perceptual. Las herramientas para el análisis de documentos, la transcripción de audio y el análisis de imágenes admiten entradas multimodales.

La adquisición de información utiliza 2 recursos relacionados. El equipo de StepFun afirma que su API de búsqueda se basa en más de 20 millones de artículos de alta calidad y 600 índices premium. Luego, el equipo de investigación describe una estrategia de indexación de autoridades seleccionada que aísla más de 600 dominios confiables, incluidos sitios gubernamentales, académicos e institucionales. La recuperación opera a nivel de párrafo y utiliza una clasificación consciente de la autoridad, de modo que se prefieren los dominios de alta confianza cuando la relevancia es similar.

Las herramientas de archivos admiten la edición basada en parches, por lo que el agente solo puede actualizar las secciones modificadas de un informe. Un esquema de almacenamiento con reconocimiento de resúmenes escribe los resultados completos de las herramientas en archivos locales e inyecta solo resúmenes compactos en el contexto. Esto actúa como memoria externa y evita el desbordamiento de contexto para proyectos largos.

Evaluación, Costo y Acceso

Para medir el comportamiento de investigación profunda, el equipo presenta ADR-Bench, un punto de referencia chino con 110 tareas abiertas en 9 dominios. 70 tareas cubren dominios generales como educación, ciencia e ingeniería y vida social, evaluadas mediante comparaciones de expertos lado a lado. 40 tareas en finanzas y derecho se califican con rúbricas explícitas que siguen restricciones de atomicidad y verificabilidad.

En las rúbricas de investigación de IA a escala, Step-DeepResearch alcanza un 61,42 por ciento de cumplimiento de la rúbrica, lo que es comparable a OpenAI-DeepResearch y Gemini-DeepResearch, y claramente por delante de múltiples líneas de base abiertas y patentadas. En ADR-Bench, las calificaciones de Elo basadas en expertos muestran que el modelo 32B supera a los modelos abiertos más grandes como MiniMax-M2, GLM-4.6 y DeepSeek-V3.2, y es competitivo con sistemas como Kimi-Researcher y MiniMax-Agent-Pro.

Conclusiones clave

Diseño de capacidad atómica de agente único: Step-DeepResearch es un agente único de parámetros 32B construido sobre Qwen2.-32B-Base, internaliza 4 capacidades atómicas, planificación, búsqueda de información profunda, reflexión y verificación, y generación de informes profesionales, en lugar de depender de muchos agentes externos. Síntesis de datos específicos para cada habilidad: el equipo de investigación crea canales de datos separados para la planificación, la búsqueda profunda de información, la reflexión y la redacción de informes, utilizando planes de ingeniería inversa a partir de informes reales, consultas basadas en gráficos a través de Wikidata5m y CN-DBpedia, seguimientos de maestros de múltiples agentes y datos de formato de informes estrictos. Capacitación en tres etapas con contexto largo y RL: la capacitación utiliza capacitación intermedia, ajuste fino supervisado y aprendizaje de refuerzo, con capacitación intermedia de hasta 150 mil millones de tokens en contexto de 32k y luego de 128k, SFT compone trayectorias de investigación profundas y completas, y RL basado en PPO con un juez de rúbricas optimiza los informes comparándolos con listas de verificación detalladas. Arquitectura ReAct con búsqueda seleccionada y memoria externa: en el momento de la inferencia, el modelo ejecuta un bucle ReAct que llama a herramientas para búsqueda web por lotes, operaciones de tareas pendientes, shell y archivos, utiliza una API de búsqueda basada en más de 20 millones de artículos y 600 índices premium junto con más de 600 dominios confiables, y se basa en la edición de parches y el almacenamiento con reconocimiento de resúmenes para actuar como memoria externa. Calidad competitiva con menor costo: en las rúbricas de investigación de IA a escala, el modelo alcanza un cumplimiento de la rúbrica del 61,42 por ciento y es competitivo con OpenAI-DeepResearch y Gemini-DeepResearch, en ADR Bench logra una tasa de victoria o empate del 67,1 por ciento frente a líneas de base sólidas.

Consulte el documento y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.