La mayoría de los modelos de IA actuales no están diseñados para una ejecución autónoma sostenida de varios pasos. Tareas como ejecutar cientos de modificaciones iterativas de código o encadenar llamadas a herramientas durante horas sin intervención humana requieren un tipo diferente de arquitectura de modelo y enfoque de capacitación.
El equipo Qwen de Alibaba anunció formalmente Qwen3.7-Max en la Cumbre de la Nube de Alibaba 2026 el 20 de mayo. Sin embargo, dos versiones preliminares de la serie Qwen3.7 aparecieron silenciosamente en la tabla de clasificación de Arena AI sin comunicado de prensa ni anuncio oficial de API.
Dos modelos de vista previa lanzados simultáneamente
Alibaba presentó una vista previa de dos modelos simultáneamente: Qwen3.7-Max-Preview y Qwen3.7-Plus-Preview. Ocuparon el puesto 13 a nivel mundial en capacidades de texto y el 16 en capacidades de visión, respectivamente, según LM Arena.
En Text Arena, Qwen3.7-Max-Preview ocupó el puesto 13 en general, colocando a Alibaba como el laboratorio n.º 6 en texto. En Vision Arena, Qwen3.7-Plus-Preview ocupó el puesto 16 en general, colocando a Alibaba como el laboratorio número 5 en visión. La clasificación del modelo y la clasificación del laboratorio son figuras separadas.
Qwen3.7-Plus-Preview se describe como una vista previa de la versión equilibrada de alto rendimiento, que se centra en el razonamiento y la expresión lógica, y su cadena de herramientas se abrirá gradualmente en el futuro. Maneja visión y entradas multimodales. Qwen3.7-Max es el modelo insignia de razonamiento de sólo texto. Este artículo cubre Qwen3.7-Max, ya que es el modelo que Alibaba anunció formalmente con acceso API.
¿Para qué está diseñado Qwen3.7-Max?
El equipo de Alibaba Qwen describió Qwen3.7-Max como su modelo de agente más avanzado y completo hasta la fecha. El modelo es patentado y de peso cerrado. Es capaz de manejar la codificación y la depuración, la automatización del flujo de trabajo de oficina y tareas de largo plazo que abarcan cientos o incluso miles de pasos.
Modo de pensamiento extendido
Qwen3.7-Max es un modelo de razonamiento. El modelo genera primero una cadena de pensamiento: una secuencia interna de pasos en la que planifica, verifica su trabajo y corrige el rumbo antes de comprometerse con una respuesta final. En interfaces como Qwen Chat, esto aparece como un modo de ‘Pensamiento’ que puede activar para ver el rastro de razonamiento del modelo.
Los modelos de razonamiento producen significativamente más tokens de salida que las terminaciones estándar. Cuando Artificial Analysis realizó su evaluación del Índice de Inteligencia, Qwen3.7-Max generó alrededor de 97 millones de tokens, en comparación con un promedio de 24 millones para los modelos en ese punto de referencia. Para tareas cortas o simples, esta sobrecarga agrega latencia sin mejorar la calidad de la salida. Para la planificación de varios pasos, la refactorización de código o largas cadenas de agentes, el modo de pensamiento extendido es donde se aplica la fortaleza del modelo.
Ventana de contexto
El modelo presenta una ventana de contexto de token de 1 millón, en comparación con los 256 K de Qwen3.6 Max Preview. Solo admite entrada y salida de texto. El precio aún no ha sido anunciado. Qwen3.6 Max Preview tenía un precio de 1,30 dólares/7,80 dólares por millón de tokens de entrada/salida en Alibaba Cloud.
Una ventana de contexto de un millón de tokens puede contener un repositorio de código completo de tamaño mediano o una gran pila de documentos en una sola solicitud. Los modelos suelen razonar de forma menos fiable a medida que se llena la ventana de contexto. Las pruebas independientes de contexto prolongado para Qwen3.7-Max aún no están disponibles.
Resultados de referencia
Qwen3.7-Max obtuvo una puntuación de 56,6 en el Índice de Inteligencia de Análisis Artificial, ubicándose en quinto lugar en general. Eso representa una ganancia de 4,8 puntos sobre su predecesor Qwen3.6 Max Preview (51,8) y lo sitúa por delante del Gemini 3.5 Flash de Google (55,3). GPT-5.5 (60,2), Claude Opus 4.7 (57,3) y Gemini 3.1 Pro Preview (57,2) siguen liderando la clasificación general.
El Intelligence Index v4.0 agrega diez evaluaciones, incluidas GDPval-AA, Terminal-Bench Hard, SciCode, AA-Omniscience, Humanity’s Last Exam y GPQA Diamond.
La mejora con respecto a Qwen3.6 Max Preview no es uniforme. La mayoría de las ganancias del Índice se concentran en el razonamiento científico, la capacidad de agencia y la codificación. CritPt aumentó 9,7 puntos porcentuales (de 3,7% a 13,4%), Humanity’s Last Exam saltó 9,2 puntos (de 28,9% a 38,1%) y Terminal-Bench Hard subió 6,9 puntos (de 43,9% a 50,8%). GDPval-AA sumó 42 puntos Elo (de 1504 a 1546). Las puntuaciones en otros puntos de referencia son en gran medida planas en comparación con Qwen3.6 Max Preview.
Un resultado del Índice requiere una lectura cuidadosa. En AA-Omniscience, la precisión bruta de Qwen3.7-Max en realidad cayó 7,6 puntos porcentuales (del 37,7% al 30,1%), mientras que su tasa de alucinaciones cayó 21,3 puntos (del 44,2% al 22,9%). El modelo elige decir “No sé” con más frecuencia en lugar de recordar más hechos. Su tasa de intentos cayó del 67,3% al 48,0%, la más baja entre los modelos de frontera en la comparación. El punto de referencia AA-Omniscience premia las respuestas correctas y penaliza las alucinaciones, pero no penaliza la negativa a responder. Para los casos de uso que dependen de un amplio recuerdo de los hechos, esta es una limitación significativa que debe probarse con su carga de trabajo.
En Text Arena, Qwen3.7-Max-Preview ocupó el puesto 13 en general con una puntuación Elo de 1475. Las clasificaciones de categorías incluyen el puesto 7 en Matemáticas, el 9 en Preguntas de expertos, el 9 en Software y TI y el 10 en Codificación.
Todos los números de referencia son preliminares. El modelo tiene un modo de “Vista previa”, lo que indica que Alibaba lo considera una versión temprana.
Rendimiento agente: prueba interna
En una prueba interna de Alibaba en una nueva plataforma de chip, el modelo realizó de forma autónoma más de 1.000 llamadas a herramientas y modificaciones iterativas de código para optimizar un núcleo clave. Alibaba afirmó que el proceso mejoró la velocidad de inferencia aproximadamente 10 veces en comparación con la versión anterior.
Explicador visual de Marktechpost
Descripción general Inicio rápido Acceso a la API Modo de pensamiento Limitaciones del uso agente
Conclusiones clave:
Alibaba lanzó dos modelos de vista previa de Qwen3.7: Max (texto/razonamiento) y Plus (multimodal). Qwen3.7-Max obtuvo una puntuación de 56,6 en el Índice de Inteligencia de Análisis Artificial, ocupando el puesto número 5 en general, una ganancia de 4,8 puntos sobre Qwen3.6 Max Preview. La ventana contextual de 1 millón de tokens duplica el límite de 256 KB de Qwen3.6 Max Preview; Solo texto, sin entrada de imagen. En AA-Omniscience, la precisión bruta disminuyó mientras que la abstención aumentó; vale la pena probarlo para casos de uso de recuperación de conocimientos. El modelo soportó más de 1000 llamadas a herramientas y una ejecución autónoma de 35 horas únicamente en las pruebas internas de Alibaba; Aún no hay verificación independiente.
Consulta los detalles técnicos. y documentos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros