Cohere lanza Command A+: un modelo MoE disperso de 218 B para flujos de trabajo agentes que se ejecuta en tan solo dos GPU H100

Cohere acaba de lanzar Command A+, como un modelo de código abierto dirigido a flujos de trabajo agentes empresariales. Disponible bajo una licencia de Apache 2.0, Command A+ es un modelo de combinación de expertos (MoE) creado para tareas agentes de alto rendimiento con una sobrecarga informática mínima. El modelo está optimizado para razonamiento, flujos de trabajo agentes, RAG, procesamiento de documentos multilingües y multimodales. Unifica capacidades de cuatro modelos anteriores (Comando A, Comando A Razonamiento, Comando A Visión y Comando A Traducir) en un único modelo escalable.

Arquitectura

Command A+ es un transformador Sparse Mixture-of-Experts solo para decodificador con 218B de parámetros totales y 25B de parámetros activos. Tiene 128 expertos, de los cuales 8 están activos por token, y se aplica un único experto compartido a todos los tokens. En un modelo MoE, cada token se enruta solo a través de un subconjunto de subredes expertas en lugar del conjunto de parámetros completo, manteniendo el cálculo activo en una escala de parámetros de 25B en el momento de la inferencia.

Las capas de atención intercalan capas de atención de ventana deslizante con incrustaciones posicionales rotacionales y capas de atención global sin incrustaciones posicionales en una proporción de 3:1. La escasa capa MoE se entrena de manera totalmente sin caídas y utiliza un enrutador de elección de token, con un sigmoide normalizado sobre los k logits expertos principales por token.

Las modalidades de entrada son texto, imágenes y uso de herramientas. Las modalidades de salida son texto, razonamiento y uso de herramientas. El modelo admite una longitud de contexto de entrada de 128 K y una longitud máxima de generación de 64 K.

Requisitos de hardware y cuantificación

Hay tres variantes de cuantificación disponibles con requisitos mínimos de GPU: BF16 (16 bits) requiere 4 GPU B200 u 8 × H100; FP8 (8 bits) requiere 2 GPU B200 o 4 × H100; W4A4 (4 bits) se ejecuta en una sola GPU B200 o 2 × H100. Las tres cuantificaciones muestran diferencias insignificantes en la calidad de referencia. Cohere recomienda W4A4 para la mayoría de las implementaciones.

Metodología de cuantificación W4A4

Cohere aplica la cuantificación NVFP4 W4A4, pesos de 4 bits y activaciones con escalado de dos niveles, únicamente a los expertos del MoE. La ruta de atención, incluidas las proyecciones Q/K/V/O, la caché KV y el cálculo de la atención, se mantiene con total precisión.

Para cerrar las brechas de calidad residuales, Cohere utiliza la destilación consciente de la cuantificación (QAD) en la fase posterior al entrenamiento: el modelo de estudiante cuantificado se entrena para que coincida con la distribución de salida del maestro de precisión total, utilizando operadores de cuantificación falsos en el paso hacia adelante y estimadores directos en el paso hacia atrás.

https://cohere.com/blog/command-a-plus

Rendimiento frente a modelos anteriores Command A

En τ²-Bench Telecom, las puntuaciones mejoraron del 37 % al 85 % con respecto a Command A Reasoning, y el rendimiento de la codificación agentic dura de Terminal-Bench alcanzó el 25 % desde el 3 %.

En las evaluaciones internas de la plataforma North, todas calificadas utilizando técnicas de LLM como juez, la precisión de la respuesta agente a preguntas mejoró en un 20 % con respecto al razonamiento del Comando A. Agentic QA mide qué tan bien el modelo responde a las preguntas empresariales utilizando sistemas de archivos en la nube conectados a MCP. La calidad del análisis de la hoja de cálculo mejoró en un 32 %, y la calidad del uso de la memoria (que mide qué tan bien un agente aprovecha la información de una sesión anterior para responder preguntas en una sesión posterior) obtuvo un puntaje del 54 % con el Comando A+ en comparación con el 39 % con el Razonamiento del Comando A.

Command A+ es el primer modelo de razonamiento multimodal de Cohere. Logró un 63% en MMMU Pro y un 75,1% en MMMU, en comparación con el 65,3% de Command A Vision en este último. Las puntuaciones de MathVista mejoraron del 73,5 % al 80,6 % y el razonamiento de CharXiv mejoró del 46,9 % al 52,7 %.

Command A+ amplía la cobertura multilingüe de 23 a 48 idiomas, con avances en traducción automática y razonamiento multilingüe.

Command A+ obtuvo una puntuación de 37 en el Índice de Inteligencia de Análisis Artificial, superando a otros modelos abiertos líderes.

Velocidad y latencia

Con los mismos niveles de cuantificación y simultaneidad, Command A+ ofrece tokens de salida por segundo (TOPS) hasta un 63 % más altos y reduce el tiempo hasta el primer token (TTFT) hasta un 17 % en comparación con Command A Reasoning. La cuantización W4A4 aporta un aumento adicional del 47% en la velocidad y una reducción del 13% en la latencia. La decodificación especulativa, optimizada específicamente para la arquitectura MoE, ofrece una velocidad de inferencia adicional de 1,5 a 1,6 veces tanto para entradas de texto como multimodales.

Tokenizador

Command A+ es el primer modelo que utiliza el último tokenizador de Cohere, lo que reduce la cantidad de tokens necesarios para generar la misma respuesta. La eficiencia de la tokenización mejoró en un 20% para el árabe, un 16% para el coreano y un 18% para el japonés.

Empezando

El modelo es compatible con vLLM y Transformers. El uso de herramientas se maneja a través de plantillas de chat en Transformers usando un esquema JSON para las descripciones de las herramientas. Cuando el razonamiento está habilitado, el modelo genera rastros de pensamiento entre las etiquetas <|START_THINKING|> y <|END_THINKING|> antes de producir una respuesta final.

La variante W4A4 requiere vLLM ≥0.21.0 y cohere_melody>=0.9.0 para un análisis de respuesta preciso. Cohere recomienda los siguientes parámetros de muestreo: temperatura = 0,9, top_p = 0,95 y repetición_penalidad = 1,04.

Conclusiones clave

Command A+ tiene 218 B en total/25 B de parámetros activos en una arquitectura Sparse MoE, lanzada bajo Apache 2.0. W4A4 aplica la cuantificación NVFP4 a los expertos del MoE solo con entrenamiento posterior de QAD, ejecutándose en 2 × H100. τ²-Bench Telecom mejoró del 37% al 85%; Terminal-Bench Hard del 3 % al 25 % frente al razonamiento del comando A. TOPS aumentó hasta un 63 % y TTFT se redujo hasta un 17 % en comparación con Command A Reasoning en la cuantización coincidente. Command A+ es el primer modelo de razonamiento multimodal de Cohere, que amplía el soporte de idiomas de 23 a 48 idiomas.

Consulte los pesos del modelo y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

Cohere lanza Command A+: un modelo MoE disperso de 218 B para flujos de trabajo agentes que se ejecuta en tan solo dos GPU H100

ByEquipo de 7 minutos

Arquitectura

Requisitos de hardware y cuantificación

Metodología de cuantificación W4A4

Rendimiento frente a modelos anteriores Command A

Velocidad y latencia

Tokenizador

Empezando

Conclusiones clave

By Equipo de 7 minutos

Related Post

Construya transformadores de profundidad recurrente con OpenMythos para MLA, GQA, MoE disperso y razonamiento a escala de bucle

Microsoft lanza Fara1.5: una familia de agentes de navegador para uso informático (4B/9B/27B) que superan el uso de ordenadores OpenAI Operador y Gemini 2.5 en Online-Mind2Web

Qwen presenta Qwen3.7-Max: un modelo de agente de razonamiento con una ventana de contexto de 1 millón de tokens

You missed

Una oreja humana de tamaño natural, impresa en un frasco de gel en dos minutos

El espejo inteligente que necesita conocer – Hollywood Life

SpaceX lanza Starship V3, el cohete más alto y poderoso jamás creado

La demanda por difamación presentada por la novia del director del FBI Kash Patel por acusaciones de que era espía israelí puede seguir adelante