El equipo Qwen de Alibaba lanza Qwen3.7-Plus, agregando visión, razonamiento profundo, invocación de herramientas e iteración autónoma en la plataforma Bailian

El equipo Qwen de Alibaba lanzó Qwen3.7-Plus. El modelo ya está disponible a través de la plataforma Bailian de Alibaba Cloud. Bailian es la consola a la que acceden los usuarios internacionales como Model Studio. Ofrece servicios API a desarrolladores externos. El lanzamiento sigue a la presentación por parte de Alibaba en mayo de la generación Qwen3.7.

Qwen3.7-Plus

Qwen3.7-Plus es un modelo de lenguaje grande multimodal. El modelo comprende imágenes y vídeos, además de indicaciones escritas. Su hermano, Qwen3.7-Max, es de sólo texto.

Esto es comprensión visual, no generación. La modelo lee imágenes y videos; no los crea. El trabajo de generación de imágenes y videos de Alibaba se ubica en familias de modelos separadas.

El equipo de Alibaba describe el lanzamiento como un paso en la tecnología de agentes híbridos multimodales. Un agente es un modelo que planifica y actúa en todos los pasos. Basándose en la comprensión de imágenes y vídeos, Qwen3.7-Plus añade cinco capacidades. Se trata de razonamiento profundo, autoprogramación, invocación de herramientas, verificación y prueba e iteración autónoma.

La autoprogramación significa que el modelo escribe y revisa su propio código. La invocación de herramientas significa que llama a funciones externas o API. Verificación y prueba significa que ejecuta salidas y verifica resultados. La iteración autónoma significa que se repite hasta que se realiza la tarea. Juntos, describen un modelo creado para actuar, no sólo responder.

El caso de la visión

Qwen3.7-Plus es la mitad multimodal de la familia 3.7. Su vista previa ya mostró resultados de visión mensurables. En Vision Arena, Qwen3.7-Plus-Preview ocupó el puesto 16 en general. Eso colocó a Alibaba como el laboratorio número 5 en visión. La clasificación del modelo y la clasificación del laboratorio son figuras separadas.

Vision Arena es una tabla de clasificación neutral dirigida por LM Arena. Los usuarios votan sobre respuestas que comprenden imágenes en enfrentamientos a ciegas. El resultado número 16 se ubica detrás de los mejores laboratorios de EE. UU., pero dentro del campo. Para trabajos con muchas imágenes, esta es la señal que importa. Piense en OCR a escala, lectura de gráficos o análisis de fotogramas de vídeo.

El hermano Max de solo texto ancla el razonamiento de la generación. Max obtuvo una puntuación de 56,6 en el Índice de Inteligencia de Análisis Artificial. Esa fue la posición más alta para un modelo chino en el momento del lanzamiento.

https://qwen.ai/blog?id=qwen3.7-plus

El bucle agenteco

El claro cambio en Qwen3.7 es su enfoque agente. El equipo de Alibaba está posicionando los modelos para tareas de larga duración. Bailian, la plataforma anfitriona, añade dos piezas relevantes.

El primero es un mecanismo Agentic RL (aprendizaje por refuerzo). La plataforma utiliza comentarios de ejecución del mundo real para perfeccionar la precisión del modelo a lo largo del tiempo. El segundo es un conjunto de barandillas de seguridad integradas. Estos mantienen las herramientas autónomas dentro de límites operativos preestablecidos. Ese detalle es importante cuando un agente ejecuta comandos o edita archivos.

Explicador visual de Marktechpost

Modelos de IA · Guía de campo
1/7

Alibaba Qwen · junio 2, 2026

Un modelo de lenguaje grande multimodal con comprensión de imágenes y videos, razonamiento profundo y características de agencia. Disponible a través de API en la plataforma Bailian de Alibaba Cloud, a la que se accede internacionalmente como Model Studio.

Usa las flechas o desliza para explorar →

01 · Qué es

Un modelo de lenguaje grande multimodal

Multimodal — lee imágenes y videos, además de ingresar texto.
Comprensión visual, no generación. — lee los medios, no los crea.
El hermano multimodal del Qwen3.7-Max de solo texto. Alibaba la describe como tecnología de agentes híbridos multimodales.

02 · Capacidades

Cinco habilidades más allá de la vista

razonamiento profundo — resuelve los problemas paso a paso.
Autoprogramación – escribe y revisa su propio código.
Invocación de herramienta – llama a funciones externas o API.
Verificación y pruebas — ejecuta salidas y verifica resultados.
iteración autónoma – bucles hasta que se realiza la tarea.

03 · Puntos de referencia de visión

¿Dónde se encuentra en la visión?

La vista previa ocupó el puesto 16 en general en Vision Arena (LM Arena). Eso colocó a Alibaba como el laboratorio número 5 en visión. La clasificación del modelo y la clasificación del laboratorio son cifras independientes. Relevante para OCR, lectura de gráficos y análisis de fotogramas de vídeo.

Como referencia, el hermano Max de solo texto obtuvo una puntuación de 56,6 en el Índice de Inteligencia de Análisis Artificial, el modelo chino más alto en el momento del lanzamiento.

04 · El bucle agente

Diseñado para tareas de larga duración

Bailian agrega un mecanismo Agentic RL (aprendizaje por refuerzo). Utiliza comentarios de ejecución del mundo real para perfeccionar la precisión. Las barandillas de seguridad integradas mantienen las herramientas autónomas dentro de sus límites. Eso importa cuando un agente ejecuta comandos o edita archivos.

05 · Confirmados vs no confirmados

Lo que sabemos hoy

Confirmado

Comprensión de imágenes y videos Conjunto de funciones de Agentic Acceso a la API Bailian Propietario, solo API

Aún no publicado

Hoja de precios públicos Tamaño de la ventana de contexto Límites de tokens de salida Pesos abiertos

06 · Por qué es importante

La lectura practica

Un backend de agente con capacidad de visión a través de una API. Se adapta a cargas de trabajo que combinan imágenes, vídeos y uso de herramientas. Un rango en la tabla de clasificación es una promesa, no una garantía. Valide la exactitud de sus propios datos antes de comprometerse.


Investigación de IA, noticias y señales para desarrolladores para ingenieros y científicos de datos. Lea más en marktechpost.com.

Conclusiones clave

Alibaba lanzó Qwen3.7-Plus, un modelo multimodal ahora disponible vía API en su plataforma Bailian (Model Studio). Entiende las imágenes y los vídeos como entradas (comprensión, no generación) y añade funciones de agencia. Las capacidades incluyen razonamiento profundo, autoprogramación, invocación de herramientas, verificación y prueba e iteración autónoma. Su vista previa ocupó el puesto 16 en Vision Arena, lo que convierte a Alibaba en el laboratorio número 5 en visión.

Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.