DeepReinforce lanza Ornith-1.0: una familia de modelos de codificación de código abierto que aprende sus propios andamios de RL




DeepReinforce ha lanzado Ornith-1.0, una familia de modelos de código abierto creada para codificación agente. La gama abarca cuatro tamaños, desde un modelo denso 9B hasta un buque insignia 397B con una mezcla de expertos. Cada punto de control se envía bajo la licencia del MIT en Hugging Face. Los modelos se entrenan posteriormente sobre Gemma 4 y Qwen 3.5 previamente entrenados.

La mayoría de los agentes codificadores combinan un modelo con un arnés fijo diseñado por humanos. Ornith-1.0, en cambio, aprende a escribir su propia cuenta. El equipo de investigación de DeepReinforce informa resultados de última generación entre modelos abiertos de tamaño comparable.

TL;DR

Ornith-1.0 se envía en tamaños 9B, 31B, 35B-MoE y 397B-MoE según el MIT, construido sobre Gemma 4 y Qwen 3.5. El modelo aprende su propio andamio durante RL, optimizando conjuntamente el arnés y la solución. Ornith-1.0-397B supera a Claude Opus 4.7 en ambos puntos de referencia principales, pero no a Opus 4.8 o al GLM-5.2-744B más grande. Tres capas (límite de confianza fijo, monitor determinista, juez LLM congelado) protegen contra la piratería de recompensas.

¿Qué es Ornith-1.0?

Ornith-1.0 es un conjunto de modelos de razonamiento optimizados para agentes codificadores. Las variantes son 9B Dense, 31B Dense, 35B MoE y 397B MoE. El modelo 35B es una combinación de expertos y activa aproximadamente 3B parámetros por token. Las compilaciones de FP8 y GGUF también se publican para un servicio local más rápido.

Cada modelo es un modelo de razonamiento. Las respuestas se abren con un bloque antes de la respuesta final. Las recetas de servicio habilitan un analizador de razonamiento, de modo que el seguimiento regresa en un campo de contenido_razonamiento separado. Los modelos también emiten llamadas a herramientas bien formadas para bucles de agentes.

La implementación es sencilla. El modelo 9B tiene aproximadamente 19 GB en bf16 y funciona con una única GPU de 80 GB. Las recetas de servicio están dirigidas a vLLM, SGLang y Transformers. Cada modelo expone un punto final compatible con OpenAI. Por lo tanto, los marcos de agentes estándar funcionan sin cambios de código.

Explicador interactivo