VibeThinker-3B: un modelo de razonamiento denso 3B construido sobre Qwen2.5-Coder-3B con el canal de postentrenamiento de espectro a señal

Si bien los avances recientes en el razonamiento de la IA han sido impulsados en gran medida por una escala masiva, incorporando miles de millones de parámetros para cruzar umbrales cognitivos complejos, VibeThinker-3B está trazando un camino completamente diferente.

Creado por investigadores de Sina Weibo Inc (China), este modelo de 3 mil millones de parámetros demuestra que la eficiencia puede superar con creces su categoría de peso. Lanzado bajo una licencia MIT de código abierto, VibeThinker-3B iguala el rendimiento de modelos cientos de veces su tamaño en tareas verificables como matemáticas, codificación y disciplinas STEM.

¿Qué es VibeThinker-3B?

VibeThinker-3B es un modelo compacto y denso construido sobre la base Qwen2.5-Coder-3B. Está post-entrenado, no pre-entrenado desde cero. Además, el equipo de investigación aplica ajuste fino supervisado, aprendizaje por refuerzo y autodestilación.

El marco de capacitación continúa el principio de espectro a señal (SSP) del anterior VibeThinker-1.5B. SFT (Ajuste fino supervisado) construye un amplio espacio de rutas de razonamiento válidas, el ‘Espectro’. Luego, RL amplifica las rutas correctas, la ‘Señal’.

El modelo se centra en una tarea: el razonamiento en el que un verificador puede confirmar la respuesta. El equipo de investigación recomienda modelos generales más amplios para tareas de conocimiento de dominio abierto. VibeThinker-3B es un especialista por diseño.

Funciona con pilas estándar. Los pesos del modelo requieren transformadores>=4.54.0. Para una inferencia más rápida, recomienda vLLM==0.10.1 o SGLang>=0.4.9.post6. El peso del BF16 es de aproximadamente 6 GB, lo suficientemente pequeño para una sola GPU.

https://arxiv.org/pdf/2606.16140v1

Punto de referencia

En AIME26, VibeThinker-3B obtiene una puntuación de 94,3. Según el artículo de investigación, esto es comparable a DeepSeek V3.2 (671B) y Kimi K2.5 (1T).

En LiveCodeBench v6, alcanza 80.2 Pass@1. En OJBench, otro punto de referencia de código, obtiene una puntuación de 38,6, por debajo de los modelos más grandes. En HMMT25 obtiene una puntuación de 89,3 y en BruMO25 alcanza un 93,8. En IMO-AnswerBench, un conjunto de 400 problemas de nivel IMO, obtiene una puntuación de 76,4.

La siguiente tabla lo compara con modelos de razonamiento mucho más amplios. La fila ‘+CLR’ utiliza escala de tiempo de prueba. Significa Evaluación de confiabilidad a nivel de reclamo

ModelParamsAIME26HMMT25IMO-AnsLCBv6GPQA-DVibeThinker-3B3B94.389.376.480.270.2VibeThinker-3B +CLR3B97.195.480.6—72.9GPT-OSS (alto)120B93.290.075.681.980.1DeepSeek V3.2671B94.290.278.380.882.4GLM-5744B95.897.982.585.586.0Kimi K2.51T93.395.481.885.087.6

Fuente: Informe técnico de VibeThinker-3B, Tabla 2. GPQA-D es GPQA-Diamond.

El patrón es consistente. En matemáticas y código verificables, el modelo 3B se ubica cerca del grupo superior. En GPQA-Diamond, un punto de referencia con mucho conocimiento, la brecha con los modelos grandes sigue siendo visible.

El equipo de investigación también realizó una prueba de codificación fuera de distribución. Utilizó concursos semanales y quincenales recientes de LeetCode, del 25 de abril al 31 de mayo de 2026. El modelo aprobó 123 de 128 envíos de Python en el primer intento. Esa es una tasa de aceptación del 96,1% en problemas invisibles.

Dentro del canal espectro-a-señal

El proceso posterior a la capacitación se desarrolla en cuatro etapas. Cada uno apunta a una debilidad diferente de los pequeños modelos de razonamiento.

Primero viene la SFT de dos etapas basada en el plan de estudios. La etapa 1 cubre matemáticas, código, STEM, diálogo e instrucción en términos generales. La etapa 2 cambia a muestras más duras y de horizonte más largo, filtradas por la longitud y dificultad del razonamiento. La destilación que explora la diversidad preserva múltiples rutas de solución válidas a través de ambas etapas.

En segundo lugar viene Reasoning RL multidominio. El equipo de investigación reutiliza la optimización de políticas guiada por MaxEnt (MGPO). Los pesos de MGPO aparecen cerca del límite de capacidad actual del modelo, donde coexisten implementaciones correctas e incorrectas. La capacitación se ejecuta de manera secuencial en Matemáticas, Código y STEM.

Un detalle notable: VibeThinker-3B abandona la expansión progresiva del contexto. El equipo de investigación descubrió que el calentamiento con alto truncamiento perjudicaba el razonamiento prolongado a esta escala. Por lo tanto, RL utiliza una única ventana de contexto largo de 64 K en todo momento.

Math RL agrega una etapa Long2Short. Redistribuye la recompensa entre trayectorias correctas por longitud. Las respuestas correctas más cortas obtienen una recompensa mayor, las más largas, menor, y la media del grupo no cambia. El objetivo es menos tokens redundantes sin perder precisión.

En tercer lugar, la autodestilación fuera de línea fusiona los puntos de control de RL nuevamente en un modelo de estudiante. Cuarto, Instruct RL mejora el cumplimiento de las instrucciones. Esa etapa explica los puntajes de 93,4 IFEval y 74,5 IFBench. Ambos muestran que el ajuste del razonamiento no rompió la controlabilidad.

CLR: escalado en el momento de la prueba, no recuento de parámetros

La evaluación de confiabilidad a nivel de reclamo (CLR) es el método de escalamiento en el momento de la prueba del informe. Se ejecuta en tareas de respuesta verificable y no agrega parámetros.

El procedimiento tiene dos pasos. El modelo primero genera K = 32 trayectorias por problema. De cada uno, extrae M = 5 afirmaciones relevantes para la decisión más una respuesta final.

El modelo actúa entonces como su propio verificador. Valida o falsifica cada afirmación, produciendo veredictos binarios. CLR los asigna a una puntuación de confiabilidad de trayectoria no lineal, donde una afirmación débil reduce drásticamente el peso.

Las respuestas se agrupan por equivalencia y gana la respuesta con mayor ponderación de confiabilidad. El flujo completo se ejecuta 8 veces y se informa el Pass@1 promediado. CLR eleva AIME26 a 97,1 y BruMO25 a 99,2.

La demostración interactiva a continuación le permite invertir las reclamaciones y ver cómo colapsa la puntuación. También le permite cambiar los puntos de referencia y compararlos con modelos más grandes.

‘+rmp+’

VibeThinker-3B: un modelo de razonamiento denso 3B construido sobre Qwen2.5-Coder-3B con el canal de postentrenamiento de espectro a señal

ByEquipo de 7 minutos

¿Qué es VibeThinker-3B?

Punto de referencia

Dentro del canal espectro-a-señal

CLR: escalado en el momento de la prueba, no recuento de parámetros

By Equipo de 7 minutos

Related Post

NVIDIA AI presenta SpatialClaw: un agente sin capacitación que trata el código como la interfaz de acción para el razonamiento espacial

Una mejor manera de modelar el comportamiento de las aleaciones metálicas | Noticias del MIT

Intenté programar mi canalización ETL. Esto es lo que no esperaba.

You missed

¿Qué métodos de refrigeración del Mundial protegen realmente a los jugadores del calor extremo?

El expresidente del Gobierno admite la amistad con el empresario Manuel Aarón Fajardo, su “lugarteniente” en Venezuela

La caída de 50 millones de dólares del campeón de Wimbledon

El hijo de Queen y ClarenceNYC aturde a Kai Cenat