Moonshot AI lanza Kimi K2.6 con codificación de horizonte largo, enjambre de agentes ampliado a 300 subagentes y 4000 pasos coordinados

Moonshot AI, el laboratorio chino de IA detrás del asistente Kimi, hoy tiene Kimi K2.6 de código abierto: un modelo agente multimodal nativo que amplía los límites de lo que un sistema de IA puede hacer cuando se le deja funcionar de forma autónoma en problemas de ingeniería de software. El lanzamiento apunta a escenarios de implementación prácticos: agentes de codificación de larga duración, generación de front-end a partir de lenguaje natural, enjambres masivos de agentes paralelos que coordinan cientos de subagentes especializados simultáneamente y un nuevo ecosistema abierto donde humanos y agentes de cualquier dispositivo colaboran en la misma tarea. El modelo ya está disponible en Kimi.com, la aplicación Kimi, la API y la CLI de Kimi Code. Los pesos se publican en Hugging Face bajo una licencia MIT modificada.

¿Qué tipo de modelo es este, técnicamente?

Kimi K2.6 es un modelo de mezcla de expertos (MoE), una arquitectura que se ha vuelto cada vez más dominante a escala de frontera. En lugar de activar todos los parámetros de un modelo para cada token que procesa, un modelo MoE enruta cada token a un pequeño subconjunto de “expertos” especializados. Esto le permite construir un modelo muy grande mientras mantiene manejable el cálculo de inferencia.

Kimi K2.6 tiene 1 billón de parámetros totales, pero solo se activan 32 mil millones por token. Tiene 384 expertos en total, con 8 seleccionados por token, más 1 experto compartido que siempre está activo. El modelo tiene 61 capas (incluida una capa densa), utiliza una dimensión de atención oculta de 7168, una dimensión oculta de MoE de 2048 por experto y 64 cabezas de atención.

Más allá del texto, K2.6 es un modelo multimodal nativo, lo que significa que la visión está integrada arquitectónicamente, no atornillada. Utiliza un codificador de visión MoonViT con parámetros de 400M y admite entrada de imagen y video de forma nativa. Otros detalles arquitectónicos: utiliza atención latente de cabezas múltiples (MLA) como mecanismo de atención, SwiGLU como función de activación, un tamaño de vocabulario de 160 000 tokens y una longitud de contexto de 256 000 tokens.

Para la implementación, se recomienda ejecutar K2.6 en vLLM, SGLang o KTransformers. Comparte la misma arquitectura que Kimi K2.5, por lo que las configuraciones de implementación existentes se pueden reutilizar directamente. La versión requerida de los transformadores es >=4.57.1, <5.0.0.

Los titulares de la codificación a largo plazo

La métrica que probablemente recibirá la mayor atención de los equipos de desarrollo es SWE-Bench Pro, un punto de referencia que prueba si un modelo puede resolver problemas de GitHub del mundo real en repositorios de software profesionales.

Kimi K2.6 obtiene una puntuación de 58,6 en SWE-Bench Pro, en comparación con 57,7 de GPT-5.4 (xhigh), 53,4 de Claude Opus 4.6 (esfuerzo máximo), 54,2 de Gemini 3.1 Pro (pensamiento alto) y 50,7 de Kimi K2.5. En SWE-Bench Verified obtiene una puntuación de 80,2, situándose dentro de un grupo reducido de modelos de primer nivel.

En Terminal-Bench 2.0 que utiliza el marco del agente Terminus-2, K2.6 alcanza 66,7, en comparación con 65,4 para GPT-5.4 y Claude Opus 4.6, y 68,5 para Gemini 3.1 Pro. En LiveCodeBench (v6), obtiene una puntuación de 89,6 frente a 88,8 de Claude Opus 4.6.

Quizás el número más sorprendente para las cargas de trabajo de agentes es Humanity’s Last Exam (HLE-Full) con herramientas: K2.6 obtiene una puntuación de 54,0, liderando todos los modelos en la comparación, incluidos GPT-5.4 (52,1), Claude Opus 4.6 (53,0) y Gemini 3.1 Pro (51,4). HLE se considera ampliamente uno de los puntos de referencia de conocimiento más difíciles, y la variante con herramientas prueba específicamente qué tan bien un modelo puede aprovechar los recursos externos de forma autónoma. Internamente, Moonshot evalúa las ganancias de codificación a largo plazo utilizando su Kimi Code Bench, un punto de referencia interno que cubre tareas diversas y complicadas de un extremo a otro en idiomas y dominios, donde K2.6 demuestra mejoras significativas con respecto a K2.5.

https://www.kimi.com/blog/kimi-k2-6

Cómo se ven realmente 13 horas de codificación autónoma

Dos estudios de casos de ingeniería en el comunicado documentan lo que significa en la práctica “codificación de largo horizonte”.

En el primero, Kimi K2.6 descargó e implementó con éxito el modelo Qwen3.5-0.8B localmente en una Mac, luego implementó y optimizó la inferencia del modelo en Zig, un lenguaje de programación altamente especializado, demostrando una generalización fuera de distribución excepcional. A través de más de 4000 llamadas a herramientas, más de 12 horas de ejecución continua y 14 iteraciones, K2.6 mejoró el rendimiento de aproximadamente 15 a aproximadamente 193 tokens/seg y, en última instancia, logró velocidades aproximadamente un 20 % más rápidas que LM Studio.

En el segundo, Kimi K2.6 revisó de forma autónoma Exchange-Core, un motor de emparejamiento financiero de código abierto de 8 años de antigüedad. Durante una ejecución de 13 horas, el modelo recorrió 12 estrategias de optimización, iniciando más de 1000 llamadas a herramientas para modificar con precisión más de 4000 líneas de código. Actuando como arquitecto de sistemas experto, K2.6 analizó la CPU y los gráficos de llama de asignación para identificar cuellos de botella ocultos y reconfiguró la topología del subproceso central de 4ME+2RE a 2ME+1RE, obteniendo un salto de rendimiento medio del 185 % (de 0,43 a 1,24 MT/s) y una ganancia de rendimiento del 133 % (de 1,23 a 2,86 MT/s).

Enjambres de agentes: escalamiento horizontal, no solo vertical

Una de las capacidades arquitectónicamente más interesantes de K2.6 es su Agent Swarm, un enfoque para paralelizar tareas complejas entre muchos subagentes especializados, en lugar de depender de una única cadena de razonamiento más profunda.

La arquitectura escala horizontalmente a 300 subagentes que ejecutan 4000 pasos coordinados simultáneamente, una expansión sustancial de los 100 subagentes y 1500 pasos de K2.5. El enjambre descompone dinámicamente las tareas en subtareas heterogéneas (combinando búsqueda web amplia con investigación profunda, análisis de documentos a gran escala con redacción de formato largo y generación de contenido multiformato en paralelo) y luego ofrece resultados consolidados que incluyen documentos, sitios web, diapositivas y hojas de cálculo dentro de una única ejecución autónoma. El enjambre también introduce una capacidad de Habilidades concreta: puede convertir cualquier PDF, hoja de cálculo, diapositiva o documento de Word de alta calidad en una Habilidad reutilizable. K2.6 captura y mantiene el ADN estructural y estilístico del documento, permitiéndole reproducir la misma calidad y formato en tareas futuras; considérelo como enseñar al enjambre con el ejemplo en lugar de con indicaciones.

Las demostraciones concretas incluyen: una ejecución de 100 subagentes que comparó un único CV cargado con 100 roles relevantes en California y entregó 100 currículums totalmente personalizados; otro que identificó 30 tiendas minoristas en Los Ángeles sin sitios web de Google Maps y generó páginas de destino para cada una; y uno que convirtió un trabajo de astrofísica en una habilidad académica reutilizable y luego produjo un trabajo de investigación de 40 páginas y 7000 palabras junto con un conjunto de datos estructurados con más de 20 000 entradas y 14 gráficos de grado astronómico.

En la prueba comparativa de BrowseComp en modo Agent Swarm, K2.6 obtiene una puntuación de 86,3 en comparación con 78,4 de Kimi K2.5. En DeepSearchQA (puntuación f1), K2.6 obtiene una puntuación de 92,5 frente a 78,6 de GPT-5.4.

Traiga a sus propios agentes: grupos de garras

Más allá de la propia infraestructura de enjambre de Moonshot, K2.6 presenta Claw Groups como una vista previa de la investigación: una nueva característica que abre la arquitectura de enjambre de agentes a un ecosistema externo y heterogéneo.

El principio clave de diseño: múltiples agentes y humanos operan como colaboradores genuinos en un espacio operativo compartido. Los usuarios pueden incorporar agentes desde cualquier dispositivo, ejecutando cualquier modelo, cada uno con sus propios conjuntos de herramientas especializados, habilidades y contextos de memoria persistente, ya sea implementados en computadoras portátiles locales, dispositivos móviles o instancias en la nube. En el centro de este enjambre, K2.6 sirve como un coordinador adaptativo: relaciona dinámicamente tareas con agentes en función de sus perfiles de habilidades específicas y herramientas disponibles, detecta cuando un agente encuentra fallas o se estanca, reasigna automáticamente la tarea o regenera subtareas y administra el ciclo de vida completo de los entregables desde el inicio hasta la validación y la finalización.

Moonshot ha estado utilizando Claw Groups internamente para ejecutar su propia producción de contenido y campañas de lanzamiento, con agentes especializados que incluyen Demo Makers, Benchmark Makers, Social Media Agents y Video Makers trabajando en paralelo, con K2.6 coordinando el proceso. Para los desarrolladores que piensan en arquitecturas de orquestación de múltiples agentes, vale la pena analizar esto: representa un cambio de “la IA hace tareas por usted” a “la IA coordina un equipo de agentes heterogéneos, algunos de los cuales usted creó, en su nombre”.

Agentes Proactivos: 5 Días de Operación Autónoma

K2.6 demuestra un sólido rendimiento en agentes proactivos y persistentes como OpenClaw y Hermes, que operan en múltiples aplicaciones con ejecución continua las 24 horas del día, los 7 días de la semana. Estos flujos de trabajo requieren que la IA administre proactivamente los cronogramas, ejecute código y orqueste operaciones multiplataforma sin supervisión humana.

El propio equipo de infraestructura de RL de Moonshot utilizó un agente respaldado por K2.6 que operó de forma autónoma durante 5 días, gestionando el monitoreo, la respuesta a incidentes y las operaciones del sistema, demostrando un contexto persistente, manejo de tareas multiproceso y ejecución de ciclo completo desde la alerta hasta la resolución.

El rendimiento en este régimen se mide mediante un Claw Bench interno, un conjunto de evaluaciones que abarca cinco dominios: tareas de codificación, integración del ecosistema de mensajería instantánea, investigación y análisis de información, gestión de tareas programadas y utilización de la memoria. En los cinco, K2.6 supera significativamente a K2.5 en tasas de finalización de tareas y precisión de invocación de herramientas, particularmente en flujos de trabajo que requieren una operación autónoma sostenida sin supervisión humana.

Dos modos operativos: pensante e instantáneo

Para los desarrolladores que se integran a través de API, K2.6 expone dos modos de inferencia que son importantes para las compensaciones entre latencia y calidad:

El modo de pensamiento activa el razonamiento de la cadena de pensamiento completa: el modelo razona un problema antes de producir una respuesta final. Esto se recomienda para tareas complejas de codificación y agentes, con una temperatura recomendada de 1,0. También hay un modo de preservación del pensamiento, que conserva el contenido completo del razonamiento en interacciones de varios turnos y mejora el rendimiento en escenarios de agentes de codificación (desactivado de forma predeterminada, pero que vale la pena habilitar cuando se crean agentes que necesitan mantener un estado de razonamiento coherente en muchos pasos).

El modo instantáneo desactiva el razonamiento extendido para respuestas de menor latencia. Para usar el modo instantáneo a través de la API oficial, pase {‘thinking’: {‘type’: ‘disabled’}} en extra_body. Para implementaciones de vLLM o SGLang, pase {‘chat_template_kwargs’: {“thinking”: False}} en su lugar, con una temperatura recomendada de 0,6 y un máximo de 0,95.

Conclusiones clave

Kimi K2.6 es un modelo MoE multimodal nativo de 1 billón de parámetros con solo 32 mil millones de parámetros activados por token, lanzado completamente de código abierto bajo una licencia MIT modificada. K2.6 lidera todos los modelos fronterizos en HLE-Full con herramientas (54.0), superando a GPT-5.4 (52.1), Claude Opus 4.6 (53.0) y Gemini 3.1 Pro (51.4) en uno de los puntos de referencia agentes más difíciles de IA. En pruebas del mundo real, K2.6 revisó de forma autónoma un motor de emparejamiento financiero de 8 años durante 13 horas, logrando un salto de rendimiento medio del 185 % y una ganancia de rendimiento del 133 %. La arquitectura Agent Swarm se escala a 300 subagentes que ejecutan 4000 pasos coordinados simultáneamente y puede convertir cualquier PDF, hoja de cálculo o diapositiva en una habilidad reutilizable que preserva el ADN estructural y estilístico. Claw Groups, presentado como una vista previa de la investigación, permite que humanos y agentes desde cualquier dispositivo que ejecute cualquier modelo colaboren en un enjambre compartido, con K2.6 sirviendo como un coordinador adaptativo que asigna tareas dinámicamente, detecta fallas y administra ciclos de vida de entrega completos.

Consulte los pesos de los modelos, el acceso a la API y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Moonshot AI lanza Kimi K2.6 con codificación de horizonte largo, enjambre de agentes ampliado a 300 subagentes y 4000 pasos coordinados

ByEquipo de 7 minutos

¿Qué tipo de modelo es este, técnicamente?

Los titulares de la codificación a largo plazo

Cómo se ven realmente 13 horas de codificación autónoma

Enjambres de agentes: escalamiento horizontal, no solo vertical

Traiga a sus propios agentes: grupos de garras

Agentes Proactivos: 5 Días de Operación Autónoma

Dos modos operativos: pensante e instantáneo

Conclusiones clave

By Equipo de 7 minutos

Related Post

La apuesta del LLM | Hacia la ciencia de datos

¿Qué significa el valor p?

Una implementación de codificación para construir un canal de análisis de seguridad y detección de tipos de archivos impulsado por IA con Magika y OpenAI

You missed

Cómo un circuito de retroalimentación climática impulsa el calentamiento galopante

La principal plataforma de segunda mano de China, “Zhuanzhuan”, aterriza en Hong Kong mientras OASES anuncia el sexto lote de empresas estratégicas

Se modifica la regla V16 y aumentan las multas en España « Euro Weekly News

Se muestra foto policial D4vd, será acusada: Celeste Rivas Hernández