Qwen presenta Qwen3.7-Max: un modelo de agente de razonamiento con una ventana de contexto de 1 millón de tokens

La mayoría de los modelos de IA actuales no están diseñados para una ejecución autónoma sostenida de varios pasos. Tareas como ejecutar cientos de modificaciones iterativas de código o encadenar llamadas a herramientas durante horas sin intervención humana requieren un tipo diferente de arquitectura de modelo y enfoque de capacitación.

El equipo Qwen de Alibaba anunció formalmente Qwen3.7-Max en la Cumbre de la Nube de Alibaba 2026 el 20 de mayo. Sin embargo, dos versiones preliminares de la serie Qwen3.7 aparecieron silenciosamente en la tabla de clasificación de Arena AI sin comunicado de prensa ni anuncio oficial de API.

Dos modelos de vista previa lanzados simultáneamente

Alibaba presentó una vista previa de dos modelos simultáneamente: Qwen3.7-Max-Preview y Qwen3.7-Plus-Preview. Ocuparon el puesto 13 a nivel mundial en capacidades de texto y el 16 en capacidades de visión, respectivamente, según LM Arena.

En Text Arena, Qwen3.7-Max-Preview ocupó el puesto 13 en general, colocando a Alibaba como el laboratorio n.º 6 en texto. En Vision Arena, Qwen3.7-Plus-Preview ocupó el puesto 16 en general, colocando a Alibaba como el laboratorio número 5 en visión. La clasificación del modelo y la clasificación del laboratorio son figuras separadas.

Qwen3.7-Plus-Preview se describe como una vista previa de la versión equilibrada de alto rendimiento, que se centra en el razonamiento y la expresión lógica, y su cadena de herramientas se abrirá gradualmente en el futuro. Maneja visión y entradas multimodales. Qwen3.7-Max es el modelo insignia de razonamiento de sólo texto. Este artículo cubre Qwen3.7-Max, ya que es el modelo que Alibaba anunció formalmente con acceso API.

¿Para qué está diseñado Qwen3.7-Max?

El equipo de Alibaba Qwen describió Qwen3.7-Max como su modelo de agente más avanzado y completo hasta la fecha. El modelo es patentado y de peso cerrado. Es capaz de manejar la codificación y la depuración, la automatización del flujo de trabajo de oficina y tareas de largo plazo que abarcan cientos o incluso miles de pasos.

Modo de pensamiento extendido

Qwen3.7-Max es un modelo de razonamiento. El modelo genera primero una cadena de pensamiento: una secuencia interna de pasos en la que planifica, verifica su trabajo y corrige el rumbo antes de comprometerse con una respuesta final. En interfaces como Qwen Chat, esto aparece como un modo de ‘Pensamiento’ que puede activar para ver el rastro de razonamiento del modelo.

Los modelos de razonamiento producen significativamente más tokens de salida que las terminaciones estándar. Cuando Artificial Analysis realizó su evaluación del Índice de Inteligencia, Qwen3.7-Max generó alrededor de 97 millones de tokens, en comparación con un promedio de 24 millones para los modelos en ese punto de referencia. Para tareas cortas o simples, esta sobrecarga agrega latencia sin mejorar la calidad de la salida. Para la planificación de varios pasos, la refactorización de código o largas cadenas de agentes, el modo de pensamiento extendido es donde se aplica la fortaleza del modelo.

Ventana de contexto

El modelo presenta una ventana de contexto de token de 1 millón, en comparación con los 256 K de Qwen3.6 Max Preview. Solo admite entrada y salida de texto. El precio aún no ha sido anunciado. Qwen3.6 Max Preview tenía un precio de 1,30 dólares/7,80 dólares por millón de tokens de entrada/salida en Alibaba Cloud.

Una ventana de contexto de un millón de tokens puede contener un repositorio de código completo de tamaño mediano o una gran pila de documentos en una sola solicitud. Los modelos suelen razonar de forma menos fiable a medida que se llena la ventana de contexto. Las pruebas independientes de contexto prolongado para Qwen3.7-Max aún no están disponibles.

Resultados de referencia

Qwen3.7-Max obtuvo una puntuación de 56,6 en el Índice de Inteligencia de Análisis Artificial, ubicándose en quinto lugar en general. Eso representa una ganancia de 4,8 puntos sobre su predecesor Qwen3.6 Max Preview (51,8) y lo sitúa por delante del Gemini 3.5 Flash de Google (55,3). GPT-5.5 (60,2), Claude Opus 4.7 (57,3) y Gemini 3.1 Pro Preview (57,2) siguen liderando la clasificación general.

El Intelligence Index v4.0 agrega diez evaluaciones, incluidas GDPval-AA, Terminal-Bench Hard, SciCode, AA-Omniscience, Humanity’s Last Exam y GPQA Diamond.

https://qwen.ai/blog?id=qwen3.7

" data-large-file="https://www.marktechpost.com/wp-content/uploads/2026/05/Screenshot-2026-05-21-at-3.32.30-PM-1024x580.png" fifu-data-src="https://i2.wp.com/www.marktechpost.com/wp-content/uploads/2026/05/Screenshot-2026-05-21-at-3.32.30-PM.png?ssl=1" alt="" class="wp-image-80027 lazyload" style="width:772px;height:auto"/>
https://qwen.ai/blog?id=qwen3.7

La mejora con respecto a Qwen3.6 Max Preview no es uniforme. La mayoría de las ganancias del Índice se concentran en el razonamiento científico, la capacidad de agencia y la codificación. CritPt aumentó 9,7 puntos porcentuales (de 3,7% a 13,4%), Humanity’s Last Exam saltó 9,2 puntos (de 28,9% a 38,1%) y Terminal-Bench Hard subió 6,9 puntos (de 43,9% a 50,8%). GDPval-AA sumó 42 puntos Elo (de 1504 a 1546). Las puntuaciones en otros puntos de referencia son en gran medida planas en comparación con Qwen3.6 Max Preview.

Un resultado del Índice requiere una lectura cuidadosa. En AA-Omniscience, la precisión bruta de Qwen3.7-Max en realidad cayó 7,6 puntos porcentuales (del 37,7% al 30,1%), mientras que su tasa de alucinaciones cayó 21,3 puntos (del 44,2% al 22,9%). El modelo elige decir “No sé” con más frecuencia en lugar de recordar más hechos. Su tasa de intentos cayó del 67,3% al 48,0%, la más baja entre los modelos de frontera en la comparación. El punto de referencia AA-Omniscience premia las respuestas correctas y penaliza las alucinaciones, pero no penaliza la negativa a responder. Para los casos de uso que dependen de un amplio recuerdo de los hechos, esta es una limitación significativa que debe probarse con su carga de trabajo.

En Text Arena, Qwen3.7-Max-Preview ocupó el puesto 13 en general con una puntuación Elo de 1475. Las clasificaciones de categorías incluyen el puesto 7 en Matemáticas, el 9 en Preguntas de expertos, el 9 en Software y TI y el 10 en Codificación.

Todos los números de referencia son preliminares. El modelo tiene un modo de “Vista previa”, lo que indica que Alibaba lo considera una versión temprana.

Rendimiento agente: prueba interna

En una prueba interna de Alibaba en una nueva plataforma de chip, el modelo realizó de forma autónoma más de 1.000 llamadas a herramientas y modificaciones iterativas de código para optimizar un núcleo clave. Alibaba afirmó que el proceso mejoró la velocidad de inferencia aproximadamente 10 veces en comparación con la versión anterior.

Explicador visual de Marktechpost

Descripción general Inicio rápido Acceso a la API Modo de pensamiento Limitaciones del uso agente

Diapositiva 1 de 6

¿Qué es Qwen3.7-Max?

Un modelo de razonamiento patentado por Alibaba, diseñado para tareas de agentes a largo plazo, generación de código y automatización de varios pasos.

Ventana de contexto

1 millón de tokens: suficiente para albergar un repositorio de código completo de tamaño mediano en una sola solicitud.

Modelo de razonamiento

Utiliza cadena de pensamiento (modo de pensamiento extendido) antes de producir una respuesta final.

Entrada/Salida

Envía mensajes de texto, envía mensajes de texto. No se admite la entrada de imágenes en este modelo.

Cadena API

Usar qwen3.7-max al llamar a través de Alibaba Cloud Model Studio.

API compatible con Apache
OpenAI y especificaciones antrópicas
Vista previa: aún no hay pesas abiertas

Diapositiva 2 de 6

Inicio rápido: interfaz de chat

La forma más rápida de probar Qwen3.7-Max sin necesidad de clave API ni configuración.

1

Ir al chat de Qwen

Navegar a chat.qwen.ai y crea una cuenta gratuita.

2

Selecciona el modelo

En el menú desplegable del selector de modelo, elija Qwen3.7-Max. Puede aparecer como Vista previa de Qwen3.7-Max durante el período de vista previa.

3

Habilitar el modo de pensamiento

Active el modo de pensamiento en la interfaz de chat. Esto activa el razonamiento en cadena de pensamiento y muestra el rastro del razonamiento interno del modelo antes de la respuesta final.

4

Envía tu mensaje

Escriba su consulta. Para obtener mejores resultados en tareas complejas, sea específico acerca de los pasos, las restricciones y el formato de salida esperado.

💡

Utilice las indicaciones más difíciles del mundo real al realizar la prueba. Los problemas matemáticos de varios pasos, las solicitudes de refactorización complejas y las preguntas ambiguas de los expertos revelan más sobre la calidad del modelo que simples indicaciones.

Diapositiva 3 de 6

Acceso API

Qwen3.7-Max es compatible con las especificaciones OpenAI y Anthropic API. Puede conectarlo a tuberías existentes con cambios mínimos.

Llamada Python compatible con OpenAI

desde openai importar Cliente OpenAI = OpenAI( api_key=”YOUR_DASHSCOPE_API_KEY”, base_url=”https://dashscope-intl.aliyuncs.com/compatible-mode/v1″ ) respuesta = client.chat.completions.create( model=”qwen3.7-max”, mensajes=[
{“role”: “system”, “content”: “You are a helpful assistant.”},
{“role”: “user”, “content”: “Explain chain-of-thought reasoning.”}
]
) imprimir(respuesta.opciones[0].mensaje.contenido)

ℹ️

Obtenga su clave API de Estudio de modelo de nube de Alibaba (DashScope). La URL base para acceso internacional es dashscope-intl.aliyuncs.com.

⚠️

Aún no se ha anunciado el precio de Qwen3.7-Max. Como referencia, Qwen3.6 Max Preview tenía un precio de $1,30/$7,80 por millón de tokens de entrada/salida.

Diapositiva 4 de 6

Comprender el modo de pensamiento

El modo de pensamiento es la capa de razonamiento de la cadena de pensamiento del modelo. Determina cómo el modelo aborda un problema antes de generar una respuesta.

Cuando usarlo

Refactorización de código de varios pasos, pruebas matemáticas complejas, largas cadenas de tareas de agentes y problemas ambiguos que requieren planificación paso a paso.

Cuando saltearlo

Reescrituras breves, clasificaciones simples, búsquedas rápidas o tareas en las que es necesario minimizar la latencia y el costo del token.

API: habilite el pensamiento a través de extra_body

respuesta = client.chat.completions.create( model=”qwen3.7-max”, mensajes=[{“role”:”user”,”content”:”Your prompt here”}]extra_body={“enable_thinking”: Verdadero} )

💡

Qwen3.7-Max generó ~97 millones de tokens en los puntos de referencia de Análisis Artificial, frente a un promedio de 24 millones para modelos comparables. Cada token de pensamiento aumenta la latencia y el costo: utilice el modo de pensamiento de forma selectiva.

Diapositiva 5 de 6

Tareas agentes y de largo horizonte

Qwen3.7-Max está diseñado para ejecutar ciclos de tareas largos y autónomos. En las pruebas internas de Alibaba, ejecutó más de 1000 llamadas a herramientas y mantuvo la ejecución autónoma durante hasta 35 horas.

1

Definir las herramientas claramente

Pasar definiciones de herramientas en el estándar OpenAI herramientas parámetro. El modelo admite la llamada a funciones y la invocación iterativa de herramientas de forma nativa.

2

Utilice la ventana contextual de 1M intencionalmente

Pase el historial completo de tareas, los resultados de herramientas anteriores y el estado del código en contexto. Recorte agresivamente cuando no sea necesario el contexto completo: se factura cada token.

3

Apunte a la respuesta final en afirmaciones.

El resultado del razonamiento es más largo y variable que una finalización estándar. Al redactar exámenes, confíe en la respuesta final, no en la redacción exacta del rastro del pensamiento.

4

Buenos casos de uso

Optimización del kernel, bucles de depuración de código, automatización del flujo de trabajo de oficina y canales de datos de varios pasos con verificación iterativa.

⚠️

Las cifras de llamadas de herramientas de 35 horas y más de 1000 provienen únicamente de pruebas internas de Alibaba. No existe ninguna verificación independiente para estas afirmaciones específicas.

Diapositiva 6 de 6

Limitaciones conocidas

Comprender estas limitaciones antes de la integración le ahorrará tiempo de depuración y le ayudará a establecer las expectativas correctas.

Sin entrada de imagen

Qwen3.7-Max es solo texto. Para tareas multimodales, utilice Qwen3.7-Plus-Preview, que admite entrada de visión.

Abstención AA-Omniciencia

En el punto de referencia AA-Omniscience, la tasa de intentos del modelo cayó del 67,3% al 48,0%. Se abstiene más y alucina menos, pero su recuerdo de los hechos en bruto también disminuyó. Pruebe cuidadosamente las tareas de recuperación de conocimientos.

Estado de vista previa

El modelo actualmente lleva el sufijo — Vista previa. Las puntuaciones de referencia, el comportamiento y los precios pueden cambiar antes del lanzamiento estable. No hay ninguna versión abierta disponible a partir de mayo de 2026.

Fiabilidad a largo plazo

Una ventana de contexto de token de 1 millón es un límite, no una garantía. Las pruebas independientes de contexto prolongado para Qwen3.7-Max aún no están disponibles. Valide la calidad de recuperación en su carga de trabajo específica.

ℹ️

Para obtener las últimas actualizaciones de modelos, consulte el blog oficial de Qwen en qwen.ai/blog y documentos de Alibaba Cloud Model Studio.

Conclusiones clave:

Alibaba lanzó dos modelos de vista previa de Qwen3.7: Max (texto/razonamiento) y Plus (multimodal). Qwen3.7-Max obtuvo una puntuación de 56,6 en el Índice de Inteligencia de Análisis Artificial, ocupando el puesto número 5 en general, una ganancia de 4,8 puntos sobre Qwen3.6 Max Preview. La ventana contextual de 1 millón de tokens duplica el límite de 256 KB de Qwen3.6 Max Preview; Solo texto, sin entrada de imagen. En AA-Omniscience, la precisión bruta disminuyó mientras que la abstención aumentó; vale la pena probarlo para casos de uso de recuperación de conocimientos. El modelo soportó más de 1000 llamadas a herramientas y una ejecución autónoma de 35 horas únicamente en las pruebas internas de Alibaba; Aún no hay verificación independiente.

Consulta los detalles técnicos. y documentos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros