Moonshot AI lanza Kimi K2 Thinking: un impresionante modelo de pensamiento que puede ejecutar hasta 200-300 llamadas de herramientas secuenciales sin interferencia humana

¿Cómo diseñamos sistemas de IA que puedan planificar, razonar y actuar sobre largas secuencias de decisiones sin una guía humana constante? Moonshot AI ha lanzado Kimi K2 Thinking, un modelo de agente pensante de código abierto que expone el flujo de razonamiento completo de la arquitectura Kimi K2 Mixture of Experts. Se dirige a cargas de trabajo que necesitan un razonamiento profundo, un uso de herramientas a largo plazo y un comportamiento estable de los agentes en muchos pasos.

https://moonshotai.github.io/Kimi-K2/thinking.html

¿Qué está pensando Kimi K2?

Kimi K2 Thinking se describe como la versión más reciente y más capaz del modelo de pensamiento de código abierto de Moonshot. Está construido como un agente pensante que razona paso a paso e invoca herramientas dinámicamente durante la inferencia. El modelo está diseñado para intercalar cadenas de pensamiento con llamadas a funciones para que pueda leer, pensar, llamar a una herramienta, pensar de nuevo y repetir cientos de pasos.

El modelo establece un nuevo estado del arte en Humanity’s Last Exam y BrowseComp, al tiempo que mantiene un comportamiento coherente en aproximadamente 200 a 300 llamadas secuenciales a herramientas sin interferencia humana.

Al mismo tiempo, K2 Thinking se lanza como un modelo de pesos abiertos con una ventana de contexto de token de 256K e inferencia INT4 nativa, que reduce la latencia y el uso de memoria de la GPU al tiempo que preserva el rendimiento de referencia.

K2 Thinking ya está disponible en kimi.com en modo chat y se puede acceder a él a través de la API de la plataforma Moonshot, con un modo agente dedicado planeado para exponer el comportamiento de uso de la herramienta completa.

Arquitectura, diseño MoE y duración del contexto.

Kimi K2 Thinking hereda el diseño Kimi K2 Mixture of Experts. El modelo utiliza una arquitectura MoE con 1T de parámetros totales y 32B de parámetros activados por token. Tiene 61 capas, incluida 1 capa densa, 384 expertos con 8 expertos seleccionados por token, 1 experto compartido, 64 cabezas de atención y una dimensión de atención oculta de 7168. La dimensión oculta de MoE es 2048 por experto.

El tamaño del vocabulario es de 160 000 tokens y la longitud del contexto es de 256 000. El mecanismo de atención es Atención latente de múltiples cabezas y la función de activación es SwiGLU.

Pruebe la escala del tiempo y el pensamiento a largo plazo

Kimi K2 Thinking está optimizado explícitamente para escalar el tiempo de prueba. El modelo está entrenado para ampliar la longitud de su razonamiento y la profundidad de su uso de herramientas cuando se enfrenta a tareas más difíciles, en lugar de depender de una cadena de pensamiento corta y fija.

https://moonshotai.github.io/Kimi-K2/thinking.html

En el último examen de la humanidad en la configuración sin herramientas, K2 Thinking obtiene una puntuación de 23,9. Con herramientas, la puntuación sube a 44,9 y en la configuración más pesada llega a 51,0. En AIME25 con Python, informa 99.1 y en HMMT25 con Python informa 95.1. En IMO AnswerBench obtiene una puntuación de 78,6 y en GPQA una puntuación de 84,5.

El protocolo de prueba limita los presupuestos de tokens a 96K para HLE, AIME25, HMMT25 y GPQA. Utiliza 128.000 tokens de pensamiento para IMO AnswerBench, LiveCodeBench y OJ Bench, y 32.000 tokens de finalización para escritura de formato largo. En HLE, el límite máximo de pasos es 120 con un presupuesto de razonamiento de 48 000 por paso. En las tareas de búsqueda de agentes, el límite es de 300 pasos con un presupuesto de razonamiento de 24 000 por paso.

Puntos de referencia en búsqueda y codificación agentes

En tareas de búsqueda agente con herramientas, K2 Thinking reporta 60.2 en BrowseComp, 62.3 en BrowseComp ZH, 56.3 en Seal 0, 47.4 en FinSearchComp T3 y 87.0 en Frames.

En los puntos de referencia de conocimiento general, informa 84,6 en MMLU Pro, 94,4 en MMLU Redux, 73,8 en escritura de formato largo y 58,0 en HealthBench.

Para la codificación, K2 Thinking logra 71,3 en el banco SWE verificado con herramientas, 61,1 en el banco SWE multilingüe con herramientas, 41,9 en el banco Multi SWE con herramientas, 44,8 en SciCode, 83,1 en LiveCodeBenchV6, 48,7 en OJ Bench en la configuración C plus plus y 47,1 en Terminal Bench con herramientas simuladas.

El equipo de Moonshot también define un modo pesado que ejecuta ocho trayectorias en paralelo y luego las agrega para producir una respuesta final. Esto se utiliza en algunos puntos de referencia de razonamiento para obtener precisión adicional del mismo modelo base.

Cuantización e implementación nativa de INT4

K2 Thinking está entrenado como un modelo INT4 nativo. El equipo de investigación aplica Quantization Aware Training durante la etapa posterior al entrenamiento y utiliza cuantificación de solo peso INT4 en los componentes MoE. Esto admite la inferencia INT4 con una mejora de velocidad de aproximadamente 2 veces la generación en modo de baja latencia mientras se mantiene un rendimiento de última generación. Todas las puntuaciones de referencia informadas se obtienen con precisión INT4.

Los puntos de control se guardan en formato de tensores comprimidos y se pueden descomprimir en formatos de mayor precisión, como FP8 o BF16, utilizando las herramientas oficiales de tensores comprimidos. Los motores de inferencia recomendados incluyen vLLM, SGLang y KTransformers.

Conclusiones clave

Kimi K2 Thinking es un agente de pensamiento de peso abierto que extiende la arquitectura Kimi K2 Mixture of Experts con razonamiento explícito de largo horizonte y uso de herramientas, no solo respuestas cortas de estilo chat. El modelo utiliza un diseño MoE de un billón de parámetros con aproximadamente decenas de miles de millones de parámetros activos por token, una ventana de contexto de 256K y está entrenado como un modelo INT4 nativo con Quantization Aware Training, que proporciona una inferencia aproximadamente 2 veces más rápida y mantiene estable el rendimiento de referencia. K2 Thinking está optimizado para escalar el tiempo de prueba, puede llevar a cabo cientos de llamadas secuenciales a herramientas en una sola tarea y se evalúa con grandes presupuestos de tokens de pensamiento y estrictos límites de pasos, lo cual es importante cuando se intenta reproducir su razonamiento y resultados agentes. En los puntos de referencia públicos, lidera o es competitivo en tareas de razonamiento, búsqueda de agentes y codificación, como HLE con herramientas, BrowseComp y SWE bench Verified con herramientas, lo que demuestra que la variante orientada al pensamiento ofrece ganancias claras sobre el modelo K2 básico sin pensamiento.

Kimi K2 Thinking es una fuerte señal de que el escalamiento del tiempo de prueba es ahora un objetivo de diseño de primera clase para los modelos de razonamiento de código abierto. Moonshot AI no solo expone un sistema de mezcla de expertos de parámetros 1T con 32B de parámetros activos y una ventana de contexto de 256K, sino que lo hace con cuantificación INT4 nativa, capacitación consciente de la cuantificación y orquestación de herramientas que se ejecuta durante cientos de pasos en configuraciones similares a las de producción. En general, Kimi K2 Thinking muestra que los agentes de razonamiento de peso abierto con planificación a largo plazo y uso de herramientas se están convirtiendo en una infraestructura práctica, no solo en demostraciones de investigación.

Consulte los pesos del modelo y los detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.