¿Puede un modelo de razonamiento abierto totalmente soberano igualar los sistemas más avanzados cuando cada parte de su proceso de capacitación es transparente? Investigadores de la Universidad de Inteligencia Artificial Mohamed bin Zayed (MBZUAI) lanzan K2 Think V2, un modelo de razonamiento totalmente soberano diseñado para probar hasta qué punto los canales abiertos y totalmente documentados pueden impulsar el razonamiento a largo plazo en matemáticas, código y ciencia cuando toda la pila es abierta y reproducible. K2 Think V2 toma el modelo base K2 V2 Instruct de 70 mil millones de parámetros y aplica un enfoque de aprendizaje por refuerzo cuidadosamente diseñado para convertirlo en un modelo de razonamiento de alta precisión que permanece completamente abierto tanto en pesos como en datos.
Del modelo base K2 V2 al especialista en razonamiento
K2 V2 es un transformador de decodificador denso con 80 capas, tamaño oculto 8192 y 64 cabezales de atención con atención de consultas agrupadas e incrustaciones de posición giratoria. Está entrenado en alrededor de 12 billones de tokens extraídos del corpus TxT360 y conjuntos de datos relacionados que cubren texto web, matemáticas, código, datos multilingües y literatura científica.
La formación se desarrolla en tres fases. El entrenamiento previo se ejecuta con una longitud de contexto de 8192 tokens sobre datos naturales para establecer un conocimiento general sólido. Luego, el entrenamiento intermedio extiende el contexto hasta 512 mil tokens utilizando TxT360 Midas, que combina documentos largos, rastros de pensamiento sintético y diversos comportamientos de razonamiento mientras mantiene cuidadosamente al menos un 30 por ciento de datos de contexto breves en cada etapa. Finalmente, el ajuste fino supervisado, llamado TxT360 3efforts, inyecta señales de seguimiento de instrucciones y razonamiento estructurado.
El punto importante es que K2 V2 no es un modelo base genérico. Está explícitamente optimizado para la coherencia del contexto a largo plazo y la exposición a comportamientos de razonamiento durante la mitad del entrenamiento. Eso lo convierte en una base natural para una etapa posterior a la capacitación que se centra únicamente en la calidad del razonamiento, que es exactamente lo que hace K2 Think V2.
RLVR totalmente soberano en el conjunto de datos GURU
K2 Think V2 se entrena con una receta RLVR estilo GRPO además de K2 V2 Instruct. El equipo utiliza el conjunto de datos Guru, versión 1.5, que se centra en preguntas de matemáticas, código y STEM. Guru se deriva de fuentes con licencia autorizada, se amplía en cobertura STEM y se descontamina según puntos de referencia de evaluación clave antes de su uso. Esto es importante para un reclamo soberano, porque tanto los datos del modelo base como los datos del RL son seleccionados y documentados por el mismo instituto.
La configuración de GRPO elimina las pérdidas auxiliares de entropía y KL habituales y utiliza un recorte asimétrico del ratio de política con el recorte alto establecido en 0,28. La capacitación se ejecuta completamente según la política con una temperatura de 1,2 para aumentar la diversidad de implementación, un tamaño de lote global de 256 y sin micro lotes. Esto evita correcciones de políticas que se sabe que introducen inestabilidad en GRPO como la capacitación.
El propio RLVR se ejecuta en dos etapas. En la primera etapa, la longitud de la respuesta tiene un límite de 32.000 tokens y el modelo se entrena durante unos 200 pasos. En la segunda etapa, la longitud máxima de respuesta aumenta a 64 000 tokens y el entrenamiento continúa durante aproximadamente 50 pasos con los mismos hiperparámetros. Este programa explota específicamente la capacidad de contexto largo heredada de K2 V2 para que el modelo pueda practicar la cadena completa de trayectorias de pensamiento en lugar de soluciones cortas.
Perfil de referencia
K2 Think V2 apunta a puntos de referencia de razonamiento en lugar de puntos de referencia puramente de conocimiento. En AIME 2025 alcanza el pase en 1 de 90,42. En HMMT 2025 obtiene una puntuación de 84,79. En GPQA Diamond, un difícil punto de referencia científico a nivel de posgrado, alcanza 72,98. En SciCode registra 33,00 y en Humanity’s Last Exam alcanza 9,5 según la configuración de referencia.
Estas puntuaciones se informan como promedios de 16 ejecuciones y son directamente comparables sólo dentro del mismo protocolo de evaluación. El equipo de MBZUAI también destaca mejoras en IFBench y en la suite de evaluación de Análisis Artificial, con ganancias particulares en la tasa de alucinaciones y razonamiento de contexto largo en comparación con la versión anterior de K2 Think.
Seguridad y apertura
El equipo de investigación informa un análisis de estilo Safety 4 que agrega cuatro superficies de seguridad. El contenido y la seguridad pública, la veracidad y confiabilidad, y la alineación social alcanzan niveles de riesgo promedio macro en el rango bajo. Los riesgos de datos e infraestructura siguen siendo mayores y están marcados como críticos, lo que refleja preocupaciones sobre el manejo de información personal sensible en lugar de un comportamiento modelo únicamente. El equipo afirma que K2 Think V2 todavía comparte las limitaciones genéricas de los modelos de lenguaje grandes a pesar de estas mitigaciones. En el índice de apertura de Artificial Analysis, K2 Think V2 se sitúa en la frontera junto con K2 V2 y Olmo-3.
Conclusiones clave
K2 Think V2 es un modelo de razonamiento 70B totalmente soberano: construido sobre K2 V2 Instruct, con pesos abiertos, recetas de datos abiertos, registros de entrenamiento detallados y un proceso de RL completo publicado a través de Reasoning360. El modelo base está optimizado para contexto largo y razonamiento antes de RL: K2 V2 es un transformador decodificador denso entrenado en alrededor de 12T tokens, con entrenamiento medio que extiende la longitud del contexto a 512K tokens y SFT supervisado de ‘3 esfuerzos’ dirigido al razonamiento estructurado. El razonamiento se alinea utilizando RLVR basado en GRPO en el conjunto de datos de Guru: la capacitación utiliza una configuración de GRPO de política de dos etapas en Guru v1.5, con recorte asimétrico, temperatura de 1,2 y límites de respuesta de 32 000 tokens y luego de 64 000 para aprender una larga cadena de soluciones de pensamiento. Resultados competitivos en puntos de referencia de razonamiento estricto: K2 Think V2 reporta un sólido aprobado con puntajes de 1, como 90,42 en AIME 2025, 84,79 en HMMT 2025 y 72,98 en GPQA Diamond, lo que lo posiciona como un modelo de razonamiento abierto de alta precisión para matemáticas, código y ciencia.
Consulte el papel, el peso del modelo, el repositorio y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Max es un analista de inteligencia artificial en MarkTechPost, con sede en Silicon Valley, que da forma activamente al futuro de la tecnología. Enseña robótica en Brainvyne, combate el spam con ComplyEmail y aprovecha la IA a diario para traducir avances tecnológicos complejos en conocimientos claros y comprensibles.