El equipo de investigación de Nous lanza Hermes 4: Una familia de modelos de IA de peso abierto con razonamiento híbrido

Nous investigación ha lanzado Hermes 4una familia de modelos de peso abierto (tamaños de parámetros 14B, 70B y 405B basado en puntos de control LLAMA 3.1) que logra el rendimiento a nivel fronterizo a través de técnicas puras posteriores a la capacitación. Hermes 4 presenta razonamiento híbrido – Los modelos pueden alternar entre las respuestas estándar y el razonamiento explícito utilizando <think>...</think> Etiquetas Cuando los problemas complejos requieren una deliberación más profunda.

Lo que hace que Hermes 4 sea particularmente significativo es su logro del rendimiento de vanguardia entre los modelos de peso abierto, al tiempo que mantiene la transparencia completa y la filosofía de alineación neutral, lo que demuestra que las capacidades de razonamiento sofisticadas se pueden desarrollar completamente a través de metodologías de código abierto.

DataForge: generación de datos sintéticos basados ​​en gráficos

Dataforce es el componente principal detrás de la estructura central de Hermes 4. Pero que es Dataforce? Dataforce es un sistema revolucionario de generación de datos sintético basado en gráficos que transforma la forma en que se crean los datos de capacitación. A diferencia de los enfoques de curación tradicionales, DataForge opera a través de un Gráfico acíclico dirigido (DAG) donde cada nodo implementa un PDDL (lenguaje de definición de dominio de planificación) Interfaz de acción.

Cada nodo especifica preacondiciones, poscondiciones y transformaciones, facilitando la creación automática de tuberías de datos complejas. Mediante el uso de datos de semillas previas al entrenamiento de DCLM y FineWeb, el sistema puede transformar un artículo de Wikipedia en una canción de RAP y luego generar pares de respuesta de instrucción basadas en esa transformación.

Este enfoque genera aproximadamente 5 millones de muestras por un total de 19 mil millones de tokenscon muestras de razonamiento que tienen un token intencionalmente pesado, promediando cinco veces más fichas que las contrapartes no razonables para acomodar el pensamiento de hasta 16,000 tokens de largo.

https://arxiv.org/pdf/2508.18255

Muestreo de rechazo a escala sin precedentes

Hermes 4 usa AtroposEntorno de aprendizaje de refuerzo de código abierto de Nous Research para implementar el muestreo de rechazo en aproximadamente 1,000 verificadores diferentes específicos de tareas. Esta infraestructura de verificación masiva se filtra para trayectorias de razonamiento de alta calidad en diversos dominios.

Los entornos de verificación clave incluyen Entrenamiento de formato de respuesta (Recompensando el formato correcto en más de 150 formatos de salida), Instrucción siguiente (Utilizando tareas de RLVR-IliBeval con restricciones complejas), Adherencia al esquema (para la generación JSON con modelos pydantic), y Uso de la herramienta capacitación para comportamiento de agente.

El proceso de muestreo de rechazo crea un gran corpus de trayectorias de razonamiento verificadas, con múltiples rutas de solución únicas al mismo resultado verificado. Este enfoque asegura que el modelo aprenda patrones de razonamiento robustos en lugar de memorizar plantillas de solución específicas.

Control de longitud: Resolver una generación demasiado larga

Una de las contribuciones más innovadoras de Hermes 4 aborda la Problema de razonamiento demasiado largo – Donde los modelos de razonamiento generan cadenas de pensamiento excesivamente largas sin terminación. El equipo de investigación descubrió que su modelo de 14b alcanzó la máxima longitud del contexto 60% del tiempo en LivecodeBench cuando está en modo de razonamiento.

Su solución súper efectiva implica un segundo modelos supervisados ​​de enseñanza de la etapa de ajuste fino para dejar de razonar exactamente 30,000 tokens:

  1. Generar trazas de razonamiento de la política actual
  2. Insertar </think> tokens con exactamente 30,000 tokens
  3. Entrenar solo en la decisión de terminación, no en la cadena de razonamiento
  4. Aplicar actualizaciones de gradiente únicamente a </think> y <eos> tokens

Este enfoque logra resultados notables: 78.4% de reducción en generación demasiado larga en aime’24, 65.3% en aime’25, y 79.8% en LivecodeBench, con solo 4.7% a 12.7% de costo de precisión relativa. Al centrar las señales de aprendizaje por completo en la decisión de terminación, el método evita los riesgos del colapso del modelo mientras enseña el “comportamiento de conteo” efectivo.

https://hermes4.nousresearch.com/
https://hermes4.nousresearch.com/

Rendimiento de referencia y alineación neutral

Hermes 4 demuestra actuación de última generación Entre los modelos de peso abierto. El modelo 405b logra 96.3% en Math-500 (modo de razonamiento), 81.9% en aime’24, 78.1% en aime’25, 70.5% en GPQA Diamond, y 61.3% en LivecodeBench.

Particularmente notable es su rendimiento en Rechazologrando 57.1% En el modo de razonamiento: la puntuación más alta entre los modelos evaluados, superando significativamente GPT-4O (17.67%) y Claude Sonnet 4 (17%). Esto demuestra la voluntad del modelo para comprometerse con temas controvertidos al tiempo que mantiene los límites apropiados, reflejando la filosofía de alineación neutral de Nous Research.

https://arxiv.org/pdf/2508.18255

Arquitectura y capacitación técnica

Hermes 4 El entrenamiento aprovecha un modificado Antorchtitano al otro lado de 192 NVIDIA B200 GPU. El sistema maneja la distribución de longitud de muestra altamente heterogénea a través de un embalaje eficiente (logrando> 99.9% de eficiencia por lotes), atención flexible y un enmascaramiento de pérdidas sofisticada donde solo los tokens de rol asistente contribuyen a la pérdida de entropía cruzada.

La capacitación sigue un cronograma de tarifas de aprendizaje de coseno con 300 pasos de calentamiento y 9,000 pasos totales con 16,384 longitud de contexto de token con un tamaño de lote global de 384 muestras, combinando paralelismo de datos, paralelismo tensor y paralelismo de datos totalmente fragmentados.

Resumen

Hermes 4 marca un avance significativo en el desarrollo de IA de código abierto, lo que demuestra que las capacidades de razonamiento de nivel fronterizo se pueden lograr a través de metodologías transparentes y reproducibles sin depender de datos de capacitación patentados o procesos de desarrollo cerrados. Al combinar la generación innovadora de datos sintéticos basados ​​en gráficos, el muestreo de rechazo en masa a escala y los mecanismos de control de longitud elegantes, Nous Research ha creado modelos que no solo coinciden con el rendimiento de los sistemas propietarios líderes, sino que también mantienen la alineación neutral y la apeuabilidad que los convierten en herramientas genuinamente útiles en lugar de asistentes restrictivos en lugar de asistentes restrictivos


Mira el Papel, Detalle técnico, Modelo en la cara abrazada y Charlar. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.