Si bien los avances recientes en el razonamiento de la IA han sido impulsados en gran medida por una escala masiva, incorporando miles de millones de parámetros para cruzar umbrales cognitivos complejos, VibeThinker-3B está trazando un camino completamente diferente.
Creado por investigadores de Sina Weibo Inc (China), este modelo de 3 mil millones de parámetros demuestra que la eficiencia puede superar con creces su categoría de peso. Lanzado bajo una licencia MIT de código abierto, VibeThinker-3B iguala el rendimiento de modelos cientos de veces su tamaño en tareas verificables como matemáticas, codificación y disciplinas STEM.
¿Qué es VibeThinker-3B?
VibeThinker-3B es un modelo compacto y denso construido sobre la base Qwen2.5-Coder-3B. Está post-entrenado, no pre-entrenado desde cero. Además, el equipo de investigación aplica ajuste fino supervisado, aprendizaje por refuerzo y autodestilación.
El marco de capacitación continúa el principio de espectro a señal (SSP) del anterior VibeThinker-1.5B. SFT (Ajuste fino supervisado) construye un amplio espacio de rutas de razonamiento válidas, el ‘Espectro’. Luego, RL amplifica las rutas correctas, la ‘Señal’.
El modelo se centra en una tarea: el razonamiento en el que un verificador puede confirmar la respuesta. El equipo de investigación recomienda modelos generales más amplios para tareas de conocimiento de dominio abierto. VibeThinker-3B es un especialista por diseño.
Funciona con pilas estándar. Los pesos del modelo requieren transformadores>=4.54.0. Para una inferencia más rápida, recomienda vLLM==0.10.1 o SGLang>=0.4.9.post6. El peso del BF16 es de aproximadamente 6 GB, lo suficientemente pequeño para una sola GPU.
Punto de referencia
En AIME26, VibeThinker-3B obtiene una puntuación de 94,3. Según el artículo de investigación, esto es comparable a DeepSeek V3.2 (671B) y Kimi K2.5 (1T).
En LiveCodeBench v6, alcanza 80.2 Pass@1. En OJBench, otro punto de referencia de código, obtiene una puntuación de 38,6, por debajo de los modelos más grandes. En HMMT25 obtiene una puntuación de 89,3 y en BruMO25 alcanza un 93,8. En IMO-AnswerBench, un conjunto de 400 problemas de nivel IMO, obtiene una puntuación de 76,4.
La siguiente tabla lo compara con modelos de razonamiento mucho más amplios. La fila ‘+CLR’ utiliza escala de tiempo de prueba. Significa Evaluación de confiabilidad a nivel de reclamo
El patrón es consistente. En matemáticas y código verificables, el modelo 3B se ubica cerca del grupo superior. En GPQA-Diamond, un punto de referencia con mucho conocimiento, la brecha con los modelos grandes sigue siendo visible.
El equipo de investigación también realizó una prueba de codificación fuera de distribución. Utilizó concursos semanales y quincenales recientes de LeetCode, del 25 de abril al 31 de mayo de 2026. El modelo aprobó 123 de 128 envíos de Python en el primer intento. Esa es una tasa de aceptación del 96,1% en problemas invisibles.
Dentro del canal espectro-a-señal
El proceso posterior a la capacitación se desarrolla en cuatro etapas. Cada uno apunta a una debilidad diferente de los pequeños modelos de razonamiento.
Primero viene la SFT de dos etapas basada en el plan de estudios. La etapa 1 cubre matemáticas, código, STEM, diálogo e instrucción en términos generales. La etapa 2 cambia a muestras más duras y de horizonte más largo, filtradas por la longitud y dificultad del razonamiento. La destilación que explora la diversidad preserva múltiples rutas de solución válidas a través de ambas etapas.
En segundo lugar viene Reasoning RL multidominio. El equipo de investigación reutiliza la optimización de políticas guiada por MaxEnt (MGPO). Los pesos de MGPO aparecen cerca del límite de capacidad actual del modelo, donde coexisten implementaciones correctas e incorrectas. La capacitación se ejecuta de manera secuencial en Matemáticas, Código y STEM.
Un detalle notable: VibeThinker-3B abandona la expansión progresiva del contexto. El equipo de investigación descubrió que el calentamiento con alto truncamiento perjudicaba el razonamiento prolongado a esta escala. Por lo tanto, RL utiliza una única ventana de contexto largo de 64 K en todo momento.
Math RL agrega una etapa Long2Short. Redistribuye la recompensa entre trayectorias correctas por longitud. Las respuestas correctas más cortas obtienen una recompensa mayor, las más largas, menor, y la media del grupo no cambia. El objetivo es menos tokens redundantes sin perder precisión.
En tercer lugar, la autodestilación fuera de línea fusiona los puntos de control de RL nuevamente en un modelo de estudiante. Cuarto, Instruct RL mejora el cumplimiento de las instrucciones. Esa etapa explica los puntajes de 93,4 IFEval y 74,5 IFBench. Ambos muestran que el ajuste del razonamiento no rompió la controlabilidad.
CLR: escalado en el momento de la prueba, no recuento de parámetros
La evaluación de confiabilidad a nivel de reclamo (CLR) es el método de escalamiento en el momento de la prueba del informe. Se ejecuta en tareas de respuesta verificable y no agrega parámetros.
El procedimiento tiene dos pasos. El modelo primero genera K = 32 trayectorias por problema. De cada uno, extrae M = 5 afirmaciones relevantes para la decisión más una respuesta final.
El modelo actúa entonces como su propio verificador. Valida o falsifica cada afirmación, produciendo veredictos binarios. CLR los asigna a una puntuación de confiabilidad de trayectoria no lineal, donde una afirmación débil reduce drásticamente el peso.
Las respuestas se agrupan por equivalencia y gana la respuesta con mayor ponderación de confiabilidad. El flujo completo se ejecuta 8 veces y se informa el Pass@1 promediado. CLR eleva AIME26 a 97,1 y BruMO25 a 99,2.
La demostración interactiva a continuación le permite invertir las reclamaciones y ver cómo colapsa la puntuación. También le permite cambiar los puntos de referencia y compararlos con modelos más grandes.