Alibaba libera Tongyi DeepResearch: A 30b-Parameter Open-Source Agentic LLM optimizado para la investigación de Horizon Long-Horizon

El laboratorio tongyi de Alibaba tiene un código abierto Tongyi-Deepresearch-30b-A3Bun modelo de lenguaje grande especializado en agente construido para el horizonte largo y la búsqueda de información profunda con herramientas web. El modelo utiliza un diseño de mezcla de expertos (MOE) con ~ 30.5B Parámetros totales y ~ 3–3.3b activo por tokenhabilitando un alto rendimiento al tiempo que preserva un fuerte rendimiento de razonamiento. Se dirige a los flujos de trabajo de investigación de múltiples vueltas (búsqueda de búsqueda, navegación, extracción, verificación cruzada y sintetización de evidencia) bajo el uso de herramientas de estilo React y un modo de escala de tiempo de prueba más pesado. El lanzamiento incluye pesos (Apache-2.0), scripts de inferencia y utilidades de evaluación.

Lo que muestran los puntos de referencia?

Tongyi DeepResearch Reports Resultados de vanguardia en suites de búsqueda de agente Se utiliza con frecuencia para probar agentes de “investigación profunda”:

  • El último examen de la humanidad (HLE): 32.9,
  • BROWSECOMP: 43.4 (En) y 46.7 (Zh),
  • xbench-DeepSearch: 75,
    con resultados sólidos adicionales en WebWalkerqa, Gaia, Frames y SimpleQA. El equipo encuentra el sistema como a la par con los agentes de investigación profundos al estilo Openai y “superan sistemáticamente el rendimiento de los agentes de propiedad y código abierto existentes en estas tareas.
https://github.com/alibaba-nlp/deepresearch?tab=readme-ov-file

Perfil de arquitectura e inferencia

  • RUTING MOE (LINEAGO QWEN3-MOE) con ≈30.5b total / ≈3.3b parámetros activosdando el sobre de costo de un pequeño modelo denso mientras retiene la capacidad especialista.
  • Longitud del contexto: 128k tokensAdecuado para largas sesiones de navegación y síntesis iterativa de herramientas y síntesis iterativa.
  • Modos de inferencia dual:
    • Reaccionar (nativo) para la evaluación directa del razonamiento intrínseco y el uso de la herramienta,
    • Modo “pesado” de IterResearch Para la escala del tiempo de prueba con síntesis/reconstrucción de contexto múltiple estructurada para reducir la acumulación de ruido.

Tubería de entrenamiento: datos sintéticos + RL en política

Tongyi DeepResearch está entrenado de extremo a extremo como un agenteno solo un chat LLM, utilizando un motor de datos completamente automatizado y escalable:

  • Precrendimiento continuo de agente (CPT): Trayectorias sintéticas a gran escala construidas a partir de corpus curados, rastros de herramientas históricas y conocimiento estructurado con gráficos para enseñar recuperación, navegación y fusión de múltiples fuentes.
  • Agente Sft Cold-start: trayectorias en Reaccionar y IterResearch Formatos para planificación y uso de herramientas consistentes en esquemas.
  • En la política RL con Optimización de políticas relativas del grupo (GRPO), Gradientes de política a nivel de token, Estimación de ventaja de dejar una sola vezy filtrado de muestra negativa para estabilizar el aprendizaje en entornos web no estacionarios.

Papel en los flujos de trabajo de documentos y de investigación web

Las tareas de investigación profunda enfatizan cuatro capacidades: (1) planificación de horizonte largo, (2) recuperación iterativa y verificación entre fuentes, (3) seguimiento de evidencia con bajas tasas de alucinación y (4) síntesis bajo grandes contextos. El IterResearch El despliegue reestructura el contexto cada “ronda”, reteniendo solo artefactos esenciales para mitigar la hinchazón de contexto y la propagación de errores, mientras que el Reaccionar La línea de base demuestra que los comportamientos se aprenden en lugar de un avance rápido. Los puntajes informados en HLE y BROWSECOMP sugieren una mejor robustez en consultas multi-saltos mediadas por herramientas, donde los agentes anteriores a menudo se ajustan demasiado a los patrones o saturados a bajas profundidades.

Características clave de Tongyi DeepResearch-30b-A3B

  1. Eficiencia de MOE a escala: ~ 30.5B Parámetros totales con ~ 3.0–3.3b activados por token (linaje QWEN3-MOE), lo que permite el costo de inferencia de modelos pequeños con capacidad de modelo grande.
  2. Ventana de contexto de 128k: Llegados de larga duración con acumulación de evidencia para la investigación web de múltiples pasos.
  3. Paradigmas de inferencia dual: nativo Reaccionar para la evaluación intrínseca de uso de herramientas y IterResearch “pesado” (Escala de tiempo de prueba) para una síntesis de ronda múltiple más profunda.
  4. Motor de datos de agente automatizado: Síntesis totalmente automatizada Potación de la capacitación continua del agente (CPT), ajuste fino (SFT) supervisado (SFT) y RL.
  5. RL en política con Grpo: Agrupe la optimización de políticas relativas con gradientes de políticas a nivel de token, estimación de ventaja de licencia y un filtrado selectivo de muestras negativas para la estabilidad.
  6. Informó SOTA en suites de investigación profunda: HLE 32.9, BROWSECOMP 43.4 (EN) / 46.7 (ZH), XBENCH-DEEPSEARCH 75; Resultados sólidos en WebWalkerqa/Gaia/Frames/SimpleQa.

Resumen

Tongyi DeepResearch-30b-A3b Empaquetes una arquitectura MOE (~ 30b en total, ~ 3b activa), contexto 128k, despliegue de doble reacción/IterResearch y una tubería de datos agente automatizada + tubería GRPO RL en una pila de fuente abierta reproducible. Para los equipos que construyen agentes de investigación de Horizon Long, ofrece un equilibrio práctico de costo y capacidad de inferencia con un fuerte rendimiento informado en puntos de referencia de investigación profunda

WS donde la precisión y la confiabilidad son críticos.


Mira el Modelos en la cara abrazada, Página de Github y Detalle técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.