Arcee AI lanza Trinity Large Thinking: un modelo de razonamiento abierto Apache 2.0 para agentes y uso de herramientas a largo plazo

El panorama de la inteligencia artificial de código abierto ha pasado de modelos puramente generativos a sistemas capaces de realizar un razonamiento complejo de varios pasos. Si bien los modelos propietarios de ‘razonamiento’ han dominado la conversación, Arcee AI ha lanzado Trinity Large Thinking.

Esta versión es un modelo de razonamiento abierto distribuido bajo la licencia Apache 2.0, lo que lo posiciona como una alternativa transparente para los desarrolladores que crean agentes autónomos. A diferencia de los modelos optimizados únicamente para chat conversacional, Trinity Large Thinking está desarrollado específicamente para agentes con horizontes a largo plazo, llamadas de herramientas de múltiples turnos y mantenimiento de la coherencia del contexto en flujos de trabajo extendidos.

Arquitectura: MoE escaso a escala de frontera

Trinity Large Thinking es la iteración orientada al razonamiento de la serie Trinity Large de Arcee. Técnicamente, es un modelo escaso de Mezcla de Expertos (MoE) con 400 mil millones de parámetros totales. Sin embargo, su arquitectura está diseñada para lograr una inferencia eficiente; activa solo 13 mil millones de parámetros por token utilizando una estrategia de enrutamiento experto 4 de 256.

Esta escasez proporciona la densidad de conocimiento mundial de un modelo masivo sin la latencia prohibitiva típica de las arquitecturas densas de 400B. Las innovaciones técnicas clave en la familia Trinity Large incluyen:

SMEBU (Actualizaciones de sesgo de expertos de impulso suave): una nueva estrategia de equilibrio de carga de MoE que evita el colapso experto y garantiza una utilización más uniforme de las vías especializadas del modelo. Optimizador de Muon: Arcee utilizó el optimizador de Muon durante el entrenamiento de la fase previa al entrenamiento de 17 billones de tokens, lo que permite un mayor capital y eficiencia de muestra en comparación con las implementaciones estándar de AdamW. Mecanismo de atención: el modelo presenta atención local y global entrelazada junto con atención cerrada para mejorar su capacidad para comprender y recordar detalles dentro de contextos amplios.

Razonamiento

Un diferenciador central de Trinity Large Thinking es su comportamiento durante la fase de inferencia. El equipo de Arcee en sus documentos afirma que el modelo utiliza un proceso de “pensamiento” antes de entregar su respuesta final. Este razonamiento interno permite al modelo planificar tareas de varios pasos y verificar su lógica antes de generar una respuesta.

Rendimiento: agentes, herramientas y contexto

Trinity Large Thinking está optimizado para la era “Agentic”. En lugar de competir únicamente en trivialidades de conocimiento general, su desempeño se mide por su confiabilidad en entornos de software complejos.

https://pinchbench.com/

Puntos de referencia y clasificaciones

El modelo ha demostrado un sólido rendimiento en PinchBench, un punto de referencia diseñado para evaluar la capacidad del modelo en entornos relevantes para agentes autónomos. Actualmente, Trinity Large Thinking ocupa el puesto número 2 en PinchBench, solo detrás de Claude Opus-4.6.

Especificaciones técnicas

Ventana de contexto: el modelo admite una ventana de contexto de 262,144 tokens (como se enumera en OpenRouter), lo que lo hace capaz de procesar conjuntos de datos masivos o largos historiales de conversación para bucles agentes. Confiabilidad de múltiples giros: la capacitación se centró en gran medida en el uso de herramientas de múltiples giros y resultados estructurados, lo que garantiza que el modelo pueda llamar a API y extraer parámetros con alta precisión durante muchos giros.

Conclusiones clave

Arquitectura MoE dispersa de alta eficiencia: Trinity Large Thinking es un modelo disperso de mezcla de expertos (MoE) de parámetros 400B. Utiliza una estrategia de enrutamiento 4 de 256, activando solo 13 mil millones de parámetros por token durante la inferencia para proporcionar inteligencia a escala de frontera con la velocidad y el rendimiento de un modelo mucho más pequeño. Optimizado para flujos de trabajo agentes: a diferencia de los modelos de chat estándar, esta versión está diseñada específicamente para tareas de largo horizonte, llamadas de herramientas de múltiples turnos y alta precisión en el seguimiento de instrucciones. Actualmente ocupa el puesto número 2 en PinchBench, un punto de referencia para las capacidades de agentes autónomos, solo detrás de Claude 3.5 Opus. Ventana de contexto ampliada: el modelo admite una ventana de contexto amplia de 262 144 tokens (en OpenRouter). Esto le permite mantener la coherencia entre documentos técnicos masivos, bases de código complejas y cadenas de razonamiento extendidas de varios pasos sin perder de vista las instrucciones iniciales. Propiedad True Open: Distribuido bajo la licencia Apache 2.0, Trinity Large Thinking ofrece pesos ‘True Open’ disponibles en Hugging Face. Esto permite a las empresas auditar, ajustar y alojar el modelo dentro de su propia infraestructura, garantizando la soberanía de los datos y el cumplimiento normativo. Estabilidad de entrenamiento avanzada: para lograr un rendimiento de vanguardia con una alta eficiencia de capital, Arcee empleó el optimizador Muon y una técnica patentada de equilibrio de carga llamada SMEBU (Soft-clamped Momentum Expert Bias Updates), que garantiza una utilización experta estable y evita la degradación del rendimiento durante tareas de razonamiento complejas.

Consulta los detalles técnicos y el peso del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Arcee AI lanza Trinity Large Thinking: un modelo de razonamiento abierto Apache 2.0 para agentes y uso de herramientas a largo plazo

ByEquipo de 7 minutos

Arquitectura: MoE escaso a escala de frontera

Razonamiento

Rendimiento: agentes, herramientas y contexto

Puntos de referencia y clasificaciones

Especificaciones técnicas

Conclusiones clave

By Equipo de 7 minutos

Related Post

Cómo ajustar LFM2 usando QLoRA y DPO: un tutorial completo de codificación paso a paso en Google Colab

El código es barato. El criterio de ingeniería es ahora el recurso escaso

Cómo Baz mejoró la precisión de la revisión del código del agente de IA utilizando Amazon Bedrock AgentCore

You missed

Un microbio intestinal común puede ayudar a prevenir la recuperación de peso, según un estudio: ScienceAlert

La Corte Suprema revoca la supremacía del tribunal inferior en Alabama

Cómo la extrema derecha española lucha por definir qué es ser español

Blog de chismes deportivos n.° 1 en el mundo