Moonshot AI lanza Kimi K2.5: un modelo de inteligencia de agente visual de código abierto con ejecución nativa de enjambre

Moonshot AI ha lanzado Kimi K2.5 como un modelo de inteligencia de agente visual de código abierto. Combina una gran columna vertebral de lenguaje Mixture of Experts, un codificador de visión nativo y un sistema paralelo de múltiples agentes llamado Agent Swarm. El modelo se centra en la codificación, el razonamiento multimodal y la investigación en la web profunda con sólidos resultados comparativos en suites de codificación, visión y agencia.

Arquitectura modelo y entrenamiento

Kimi K2.5 es un modelo de mezcla de expertos con 1T de parámetros totales y alrededor de 32B de parámetros activados por token. La red tiene 61 capas. Utiliza 384 expertos, con 8 expertos seleccionados por token más 1 experto compartido. El tamaño de atención oculta es 7168 y hay 64 cabezas de atención.

El modelo utiliza atención MLA y la función de activación SwiGLU. El tamaño del vocabulario del tokenizador es 160K. La longitud máxima del contexto durante el entrenamiento y la inferencia es de 256 000 tokens. Esto admite rastreos de herramientas extensos, documentos extensos y flujos de trabajo de investigación de varios pasos.

La visión es manejada por un codificador MoonViT con aproximadamente 400M de parámetros. Los tokens visuales se entrenan junto con tokens de texto en una única columna vertebral multimodal. Kimi K2.5 se obtiene mediante un entrenamiento previo continuo con aproximadamente 15T tokens de visión mixta y datos de texto sobre la base Kimi K2. Esta capacitación multimodal nativa es importante porque el modelo aprende la estructura conjunta de imágenes, documentos y lenguaje desde el principio.

Los puntos de control publicados admiten pilas de inferencia estándar como vLLM, SGLang y KTransformers con transformadores versión 4.57.1 ​​o posterior. Están disponibles variantes INT4 cuantificadas, reutilizando el método de Kimi K2 Thinking. Esto permite la implementación en GPU básicas con presupuestos de memoria más bajos.

Codificación y capacidades multimodales

Kimi K2.5 se posiciona como un sólido modelo de codificación de código abierto, especialmente cuando la generación de código depende del contexto visual. El modelo puede leer maquetas de UI, diseñar capturas de pantalla o incluso videos, y luego emitir código de interfaz estructurado con diseño, estilo y lógica de interacción.

Moonshot muestra ejemplos en los que el modelo lee una imagen de rompecabezas, razona sobre el camino más corto y luego escribe código que produce una solución visualizada. Esto demuestra un razonamiento intermodal, donde el modelo combina comprensión de imágenes, planificación algorítmica y síntesis de código en un solo flujo.

Debido a que K2.5 tiene una ventana de contexto de 256K, puede mantener largos historiales de especificaciones en contexto. Un flujo de trabajo práctico para los desarrolladores es combinar recursos de diseño, documentos de productos y código existente en un solo mensaje. Luego, el modelo puede refactorizar o ampliar el código base manteniendo las restricciones visuales alineadas con el diseño original.

https://www.kimi.com/blog/kimi-k2-5.html?

Aprendizaje reforzado por enjambre de agentes y agentes paralelos

Una característica clave de Kimi K2.5 es Agent Swarm. Este es un sistema multiagente entrenado con Parallel Agent Reinforcement Learning, PARL. En esta configuración, un agente orquestador descompone un objetivo complejo en muchas subtareas. Luego activa subagentes específicos de dominio para que trabajen en paralelo.

El equipo de Kimi informa que K2.5 puede administrar hasta 100 subagentes dentro de una tarea. Admite hasta 1500 pasos coordinados o llamadas de herramientas en una sola ejecución. Este paralelismo proporciona una finalización aproximadamente 4,5 veces más rápida en comparación con una canalización de un solo agente en tareas de búsqueda amplias.

PARL introduce una métrica llamada Pasos Críticos. El sistema recompensa las políticas que reducen la cantidad de pasos en serie necesarios para resolver la tarea. Esto desalienta la planificación secuencial ingenua y empuja al agente a dividir el trabajo en ramas paralelas sin dejar de mantener la coherencia.

Un ejemplo del equipo de Kimi es un flujo de trabajo de investigación en el que el sistema necesita descubrir muchos creadores especializados. El orquestador utiliza Agent Swarm para generar una gran cantidad de agentes investigadores. Cada agente explora diferentes regiones de la web y el sistema fusiona los resultados en una tabla estructurada.

https://www.kimi.com/blog/kimi-k2-5.html?

Rendimiento de referencia

En los puntos de referencia agentes, Kimi K2.5 reporta cifras sólidas. En HLE Full con herramientas la puntuación es 50,2. En BrowseComp con gestión de contexto, la puntuación es 74,9. En el modo Agent Swarm, la puntuación de BrowseComp aumenta aún más hasta 78,4 y las métricas de WideSearch también mejoran. El equipo de Kimi compara estos valores con GPT 5.2, Claude 4.5, Gemini 3 Pro y DeepSeek V3, y K2.5 muestra las puntuaciones más altas entre los modelos enumerados en estas suites agentes específicas.

En las pruebas de visión y vídeo, K2.5 también obtiene puntuaciones altas. MMMU Pro es 78,5 y VideoMMMU es 86,6. El modelo funciona bien en OmniDocBench, OCRBench, WorldVQA y otras tareas de comprensión de escenas y documentos. Estos resultados indican que el codificador MoonViT y el entrenamiento en contexto prolongado son efectivos para problemas multimodales del mundo real, como la lectura de documentos complejos y el razonamiento en videos.

https://www.kimi.com/blog/kimi-k2-5.html?

Para los puntos de referencia de codificación, enumera SWE Bench Verified en 76,8, SWE Bench Pro en 50,7, SWE Bench Multilingual en 73,0, Terminal Bench 2.0 en 50,8 y LiveCodeBench v6 en 85,0. Estos números colocan a K2.5 entre los modelos de codificación de código abierto más sólidos que se informan actualmente sobre estas tareas.

En pruebas comparativas de lenguaje de contexto largo, K2.5 alcanza 61,0 en LongBench V2 y 70,0 en AA LCR en la configuración de evaluación estándar. En cuanto a los puntos de referencia de razonamiento, logra puntuaciones altas en AIME 2025, HMMT 2025 de febrero, GPQA Diamond y MMLU Pro cuando se utiliza en modo de pensamiento.

Conclusiones clave

Mezcla de expertos a escala de billones: Kimi K2.5 utiliza una arquitectura de mezcla de expertos con 1T de parámetros totales y alrededor de 32 mil millones de parámetros activos por token, 61 capas, 384 expertos y una longitud de contexto de 256 KB, optimizada para flujos de trabajo multimodales largos y con muchas herramientas. Entrenamiento multimodal nativo con MoonViT: el modelo integra un codificador de visión MoonViT de aproximadamente 400 millones de parámetros y está entrenado en aproximadamente 15 T de tokens de texto y visión mixtos, por lo que las imágenes, los documentos y el lenguaje se manejan en una única columna vertebral unificada. Parallel Agent Swarm con PARL: Agent Swarm, entrenado con Parallel Agent Reinforcement Learning, puede coordinar hasta 100 subagentes y alrededor de 1500 llamadas de herramientas por tarea, lo que brinda una ejecución aproximadamente 4,5 veces más rápida en comparación con un solo agente en tareas de investigación amplias. Sólidos resultados de referencia en codificación, visión y agentes: K2.5 reporta 76,8 en SWE Bench Verified, 78,5 en MMMU Pro, 86,6 en VideoMMMU, 50,2 en HLE Full con herramientas y 74,9 en BrowseComp, igualando o superando los modelos cerrados listados en varias suites de agentes y multimodales.

Consulta los detalles técnicos y el peso del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.