El ex líder de Qwen explica en qué se equivocó el pensamiento híbrido y por qué ahora respalda a los agentes

Junyang Lin fue el líder técnico del proyecto Qwen de Alibaba. Anunció que dimitiría el 3 de marzo de 2026. Ahora se incluye como investigador independiente en su sitio personal.

En una charla titulada ‘Qwen: Hacia un modelo/agente generalista’, recorre a la familia Qwen. Termina en una sola línea: “Modelos de formación -> agentes de formación”. Posteriormente amplió esa línea a un puesto detallado como investigador independiente. Este artículo lee la charla y la publicación detallada juntas.

Lo que realmente cubre la charla de Lin

La charla es un recorrido por la familia de modelos Qwen, no un solo lanzamiento. Se mueve a través de QwQ-32B, Qwen2.5-Max, Qwen3, Qwen2.5-VL y Qwen2.5-Omni. Cada parada muestra gráficos de referencia frente a sus contemporáneos. Las líneas base nombradas incluyen DeepSeek-R1, Grok 3 Beta, Gemini 2.5 Pro y la serie o de OpenAI.

La parada Qwen3 es la que tiene más detalles. Lin destaca los modos de pensamiento híbridos: un modo de pensamiento para el razonamiento paso a paso y un modo de no pensamiento para respuestas casi instantáneas. Agrega presupuestos de pensamiento dinámico, para que las personas que llaman puedan limitar cuánto razona el modelo. Qwen3 amplió el soporte multilingüe de 29 a 119 idiomas y dialectos.

La presentación enumera muchos tipos y tamaños de modelos, desde parámetros de 0,6B a 235B. También enumera formatos cuantificados, incluidos GGUF, GPTQ, AWQ y MLX, todos bajo Apache 2.0. A continuación se presentan dos demostraciones: una demostración de Web Dev y una demostración de Deep Research. La diapositiva final “Trabajo futuro” apunta a los agentes. Enumera más capacitación previa, RL con retroalimentación del entorno, contexto más extenso y más modalidades. La última mención clave es la de “modelos de formación -> agentes de formación”.

Arquitectura Qwen3, como se muestra en la charla

La charla incluye las tablas de arquitectura Qwen3, que se reproducen a continuación.

ModeloCapasCabezales (Q/KV)Incrustación de corbatas / Expertos (Total/Act.)ContextQwen3-0.6B2816 / 8Tie: Sí32KQwen3-1.7B2816 / 8Tie: Sí32KQwen3-4B3632 / 8Tie: Sí32KQwen3-8B3632 / 8Tie: No128KQwen3-14B4040 / 8Tie: No128KQwen3-32B6464 / 8Tie: No128KQwen3-30B-A3B4832 / 4Expertos: 128 / 8128KQwen3-235B-A22B9464 / 4Expertos: 128 / 8128K

Los modelos pequeños y densos unen incorporaciones de entrada y salida y utilizan un contexto de 32K. Los modelos más densos y MoE eliminan la vinculación y amplían el contexto a 128K. Los dos modelos del MoE activan a 8 de 128 expertos por token.

Pensamiento híbrido y por qué es difícil fusionarse

Lin presenta el pensamiento híbrido como una característica limpia. La publicación explica por qué fue difícil de construir. Lin escribe que el modo de pensar y el modo de instrucción van en direcciones opuestas.

Un modelo de instrucción sólido se ve recompensado por su franqueza, brevedad y baja latencia. Un modelo de pensamiento fuerte es recompensado por gastar más fichas en problemas difíciles. Fusione los dos descuidadamente y ambos se degradarán. La conducta de pensamiento se hincha y la conducta de instrucción se vuelve menos nítida.

Qwen3 intentó fusionarse con un proceso posterior a la capacitación de cuatro etapas. Ese proceso incluyó un arranque en frío de CoT prolongado, un RL de razonamiento y un paso de “fusión del modo de pensamiento”. Más adelante, en 2025, la línea 2507 envió variantes separadas de Instruct y Thinking. Lin plantea esto como un problema de datos más que como un problema de modelo.

Anthropic tomó el camino opuesto y Lin lo considera un correctivo útil. Claude 3.7 Sonnet se lanzó como un modelo híbrido con un presupuesto de pensamiento establecido por el usuario. Claude 4 dejó que el razonamiento se intercalara con el uso de herramientas, destinadas a la codificación y a tareas de larga duración. Su punto: un rastreo de razonamiento más largo no hace que un modelo sea más inteligente. El pensamiento debe estar determinado por la carga de trabajo objetivo, no por el punto de referencia.

Explicador interactivo

Del pensamiento “razonable” al pensamiento “agencial”

Lin traza una línea entre dos épocas. El primero fue el razonamiento, definido por o1 y DeepSeek-R1. Enseñó al campo que la RL necesita recompensas deterministas y verificables, por lo que las matemáticas, el código y la lógica se volvieron centrales. También convirtió la RL en un problema sistémico de implementación y verificación a gran escala.

La próxima era, en su planteamiento, es el pensamiento agente: pensar para actuar. Un agente formula planes, decide cuándo actuar, utiliza herramientas, lee los comentarios del entorno y los revisa. Se define por una interacción de circuito cerrado con el mundo, no por un largo monólogo interno.

Lin enumera lo que el pensamiento agente debe manejar y que el razonamiento puro puede evitar:

Decidir cuándo dejar de pensar y tomar una acción. Elegir qué herramienta invocar y en qué orden. Incorporar observaciones ruidosas o parciales del entorno. Revisar planes después de fallas. Mantener la coherencia a lo largo de muchos turnos y muchas llamadas de herramientas.

El objetivo de optimización cambia con la época. La siguiente tabla resume el contraste que dibuja Lin.

DimensiónPensamiento de razonamientoPensamiento agencialJuzgado porCalidad de la deliberación interna antes de una respuestaSi el progreso se sostiene mientras se actúaSeñal de recompensaRespuestas verificables (matemáticas, código, lógica)Éxito de la tarea en un entorno interactivoObjeto principal de la capacitaciónEl modeloEl modelo más su entorno (el arnés)Cuello de botella de infraestructuraLanzamientos, verificación, actualizaciones de políticas establesServidores de herramientas, entornos de prueba, desacoplamiento tren-servicioModo de falla principalRazonamiento detallado y de bajo valor tracesReward hacking a través del acceso a herramientas y fugas de entorno

Casos de uso, con ejemplos

La distinción cambia la forma de construir:

Agentes de codificación: un modelo de razonamiento emite un parche desde un seguimiento de pila. Un sistema agente ejecuta el arnés de prueba, lee el error real, lo revisa y lo vuelve a ejecutar hasta que la suite pasa. Pensar aquí debería ayudar con la navegación del código base, la recuperación de errores y la orquestación de herramientas. Investigación profunda: un modelo de razonamiento escribe una respuesta larga de memoria. Un sistema agente divide la pregunta en subconsultas, llama a la búsqueda, descarta fuentes débiles y devuelve citas fundamentadas. La demostración de Deep Research de Qwen se encuentra en esta categoría. Orquestación multiagente: Lin espera que la “ingeniería de aprovechamiento” importe más. Un orquestador planifica y encamina el trabajo. Subagentes especializados ejecutan tareas más específicas y ayudan a controlar la contaminación del contexto.

Un gancho concreto: Alternancia de pensamiento Qwen3

El pensamiento híbrido se expone directamente en el código. La bandera enable_thinking cambia de modo en la plantilla de chat.

de transformadores importe AutoModelForCausalLM, AutoTokenizer nombre = “Qwen/Qwen3-8B” tok = AutoTokenizer.from_pretrained(nombre) modelo = AutoModelForCausalLM.from_pretrained( nombre, torch_dtype=”auto”, dispositivo_map=”auto” ) mensajes = [{“role”: “user”, “content”: “Refactor this function and explain the change.”}]

# enable_thinking=True -> modo de pensamiento paso a paso # enable_thinking=False -> modo casi instantáneo, sin pensamiento text = tok.apply_chat_template( mensajes, tokenize=False, add_generación_prompt=True, enable_thinking=True, ) inputs = tok(text, return_tensors=”pt”).to(model.device) # Muestreo recomendado por Qwen para salir del modo de pensamiento = model.generate( **entradas, max_new_tokens=2048, temperatura=0.6, top_p=0.95, top_k=20,)

enable_thinking=True es el valor predeterminado y la salida envuelve el razonamiento en un bloque…. Qwen3 también acepta interruptores suaves. Agregar /think o /no_think a un turno de usuario invierte el modo por mensaje. Ese control por turno es en el que se basan los presupuestos de pensamiento dinámico.

Por qué la infraestructura Agentic RL es más difícil

El punto central de ingeniería de la presentación es la infraestructura. En el razonamiento de RL, los lanzamientos son en su mayoría trayectorias autónomas con evaluadores limpios. En la RL agente, la política reside dentro de un conjunto de servidores de herramientas, navegadores, terminales y entornos sandbox.

Ese arnés impone un nuevo requisito: la formación y la inferencia deben estar claramente disociadas. Sin él, el rendimiento de la implementación colapsa. Un agente de codificación que espera la ejecución de una prueba en vivo detiene la inferencia y priva del entrenamiento. La utilización de GPU cae muy por debajo de lo que logra el razonamiento RL.

Lin también replantea con qué obsesionarse. En la era SFT, los equipos optimizaron la diversidad de datos. En la era de los agentes, sostiene que los equipos deberían optimizar la calidad del entorno: estabilidad, realismo, cobertura y resistencia a la explotación. Él menciona la piratería de recompensas como el problema más difícil, porque el acceso a las herramientas amplía la superficie de ataque para una optimización espuria.

Conclusiones clave

Junyang Lin dejó Qwen el 3 de marzo de 2026 y ahora publica como investigador independiente. Su charla termina con una tesis: el campo está pasando de modelos de formación a agentes de formación. El pensamiento agente se juzga por la acción sostenida en un entorno, no por la deliberación interna. Agentic RL necesita infraestructura de servicio de trenes desacoplada y entornos de alta calidad, no solo recompensas verificables. La piratería de recompensas es el riesgo central una vez que los modelos obtienen acceso real a las herramientas.

Fuentes:

Fuente primaria: la charla

Fuente principal: blog de Junyang Lin

“Del pensamiento ‘razonante’ al pensamiento ‘agentico’”: https://justinlin610.github.io/blog/from-reasoning-to-agentic-thinking/ Su página de inicio (estado de investigador independiente): https://justinlin610.github.io/

Detalles técnicos de Qwen3 (arquitectura, 119 idiomas, pensamiento híbrido)

Informe técnico de Qwen3 (arXiv:2505.09388): https://arxiv.org/abs/2505.09388 · HTML: https://arxiv.org/html/2505.09388v1

Verificación de código (enable_thinking, /think /no_think, muestreo)

Inicio rápido de Qwen docs: https://qwen.readthedocs.io/en/latest/getting_started/quickstart.html Tarjeta modelo Qwen3-8B: https://huggingface.co/Qwen/Qwen3-8B Tarjeta modelo Qwen3-32B: https://huggingface.co/Qwen/Qwen3-32B

Datos de salida (citados en el artículo)

TechCrunch: https://techcrunch.com/2026/03/03/alibabas-qwen-tech-lead-steps-down-after-major-ai-push/ Bloomberg: https://www.bloomberg.com/news/articles/2026-03-04/alibaba-qwen-head-who-warned-of-openai-gap-steps-down VentureBeat: https://venturebeat.com/technology/did-alibaba-just-kneecap-its-powerful-qwen-ai-team-key-figures-depart-in

Respaldo de la cobertura de salida/contexto (se utiliza para verificación cruzada, no todos se citan en línea)

RecodeChinaAI (traducción de LatePost): https://www.recodechinaai.com/p/alibabas-qwen-lead-just-stepped-down Simon Willison: https://simonwillison.net/2026/Mar/4/qwen/ Geopolitechs: https://www.geopolitechs.org/p/inside-the-stepping-down-of-qwens OfficeChai: https://officechai.com/ai/alibaba-qwens-tech-lead-junyang-lin-steps-down/ MLQ News: https://mlq.ai/news/key-researcher-steps-down-from-alibabas-qwen-ai-project/ GenAI Assembling (análisis de ensayo, utilizado para localizar primero el ensayo): https://genaiassembling.substack.com/p/what-junyang-lin-saw

Dos publicaciones X

https://x.com/h100envy/status/2068987470960623783 https://x.com/h100envy/status/2073433806254624930

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.