Conozca Harness-1: un subagente de recuperación 20B capacitado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado en gpt-oss-20b

La mayoría de los agentes de búsqueda están capacitados como políticas sobre una transcripción cada vez mayor. El modelo decide cómo buscar. También debe recordar lo que vio, qué pruebas son importantes y qué afirmaciones comprobó. Un equipo de investigadores de la Universidad de Illinois Urbana-Champaign, UC Berkeley y Chroma sostiene que esto es pedir demasiado. El aprendizaje por refuerzo acaba optimizando al mismo tiempo tanto las decisiones de búsqueda como la contabilidad rutinaria.

Su respuesta es Harness-1, un subagente de recuperación 20B construido sobre gpt-oss-20b. Fue entrenado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado. El arnés sostiene la contabilidad. La política mantiene las decisiones semánticas. Los pesos y el código del arnés se publican públicamente.

https://arxiv.org/pdf/2606.02373

¿Qué es realmente el arnés-1?

Harness-1 produce un conjunto clasificado de documentos para un modelo de respuesta posterior. No responde preguntas por sí mismo. Se ejecuta dentro de un arnés de máquina de estados centrado en una MEMORIA DE TRABAJO por episodio.

Cada vuelta funciona como un bucle. El arnés presenta un estado de búsqueda compacto junto con acciones recientes. El modelo emite una acción estructurada. El arnés lo ejecuta, actualiza el estado y presenta la siguiente observación.

El arnés con estado: lo que sale de la política

El equipo de investigación llama a su principio descarga cognitiva con estado. La política decide qué buscar, seleccionar y verificar, y cuándo detenerlo. El arnés mantiene el estado recuperable en torno a esas decisiones.

Ese estado incluye varias piezas. Un grupo de candidatos contiene documentos comprimidos y deduplicados. El resultado final es un conjunto seleccionado con etiquetas de importancia, con un límite de 30 documentos. Las etiquetas toman cuatro valores: muy_alto, alto, regular o bajo. Un almacén de texto completo mantiene cada fragmento recuperado fuera del mensaje.

Un gráfico de evidencia agrega estructura. Un extractor de expresiones regulares escanea cada fragmento en busca de nombres propios, años y fechas. Luego, el arnés genera entidades frecuentes, documentos puente y singletons. Los documentos puente contienen dos o más entidades frecuentes. Los singleton aparecen en un documento y sugieren pistas de seguimiento.

La política funciona a través de ocho herramientas. Estos son fan_out_search, search_corpus, grep_corpus, read_document, review_docs, curate, verificar y end_search. Los resultados de la búsqueda se comprimen con la oración BM25, manteniendo las cuatro oraciones principales. La deduplicación de dos niveles elimina las repeticiones por ID de fragmento y huella digital de contenido.

Una opción de diseño aborda los arranques en frío. La primera búsqueda exitosa genera automáticamente el conjunto seleccionado con ocho resultados reclasificados con importancia justa. Luego, la política promueve documentos sólidos y elimina los débiles. Esto convierte la tarea de construir desde cero en refinamiento.

El equipo de investigación menciona tres requisitos para un arnés entrenable. Estos son la curación iniciada, la representación compacta de estados derivados y los incentivos para preservar la diversidad. Harness-1 implementa los tres.

Cómo se entrena

El entrenamiento se divide en la misma línea que el arnés. El ajuste fino supervisado le enseña al modelo a operar la interfaz. El aprendizaje por refuerzo mejora las decisiones de búsqueda sobre el estado mantenido.

Un solo profesor, GPT-5.4, corre en vivo dentro del arnés completo. Después del filtrado, quedan 899 trayectorias para SFT. El modelo utiliza LoRA en el rango 32 durante tres épocas. El punto de control del paso 550 inicializa RL.

RL utiliza CISPO dentro de la póliza con un límite de 40 turnos y una recompensa solo para terminal. Se entrena solo en consultas de la SEC. Los grupos con recompensas idénticas se eliminan del gradiente. El entrenamiento se realizó con Tinker.

La recompensa separa el descubrimiento de la selección. También agrega una ventaja de diversidad de herramientas. Sin ese bono, el agente cae en una búsqueda repetida. El recuerdo seleccionado luego se estabiliza cerca de 0,53. Con el bono, la diversidad se estabiliza y el recuerdo alcanza alrededor de 0,60.

El caso de referencia

Harness-1 se evaluó en ocho puntos de referencia que abarcan web, finanzas, patentes y control de calidad de múltiples saltos. La métrica principal es la recuperación seleccionada: cobertura de documentos relevantes en el conjunto final. El recuerdo de trayectoria cuenta la evidencia encontrada en cualquier parte del episodio.

Tipo de modeloRetiro promedio curadoRetiro promedio de trayectoriaArnés-1 (20B)Abierto pequeño0.7300.807Tongyi DeepResearch 30BOabierto pequeño0.6160.673Context-1 (20B)Abrido pequeño0.6030.756Search-R1 (32B)Abierto pequeño0.2890.289GPT-OSS-20BAbierto pequeño0.2620.590Qwen3 (32B)Abierto pequeño0.2160.446Opus-4.6Frontier0.7640.794GPT-5.4Frontier0.7090.752Sonnet-4.6Frontier0.6880.725Kimi-K2.5Frontier0.6470.794GPT-OSS-120BFrontier0.4960.769
Promedios de ocho puntos de referencia, de la Figura 1 del documento. Los modelos Frontier funcionan como perros perdigueros de disparo cero bajo el arnés Context-1.

Harness-1 alcanza un retiro curado promedio de 0,730. Esto supera al siguiente subagente abierto, Tongyi DeepResearch 30B, por 11,4 puntos. Entre los buscadores de fronteras evaluados, sólo Opus-4.6 obtiene una puntuación más alta en promedio.

El patrón de transferencia es la señal más clara del mecanismo. SFT utilizó cuatro familias de referencia; RL usó solo SEC. En esas tareas de la familia fuente, Harness-1 ganó 7,9 puntos sobre la línea de base abierta más cercana. En cuatro puntos de referencia rezagados, ganó 17,0 puntos. Esto supone una ganancia 2,2 veces mayor en tareas más alejadas de los datos de entrenamiento.

Las ablaciones respaldan la afirmación del arnés. La desactivación de todos los mecanismos de arnés reduce la recuperación en un 12,2 por ciento en relación con BrowseComp+. La política entrenada sigue buscando pero no puede clasificar lo que ve.

https://arxiv.org/pdf/2606.02373

Casos de uso

El método apunta a la recuperación de evidencia donde los documentos respaldan una respuesta. Varios flujos de trabajo se ajustan a esta forma.

Uno es la revisión de la literatura y las patentes. El gráfico de evidencia y el conjunto seleccionado ayudan a organizar muchas fuentes. Otro es el análisis de archivos financieros. El estudio de caso de la SEC recupera una fecha exacta de transición ejecutiva en múltiples 8-K.

Un tercero es la verificación de datos de múltiples saltos. Las herramientas fan_out_search y verificar resuelven entidades ambiguas antes de comprometerse. Un cuarto es RAG modular. El conjunto seleccionado alimenta un generador congelado y los conjuntos mejores producen una mayor precisión en las respuestas.

Fortalezas y debilidades

Fortalezas

El promedio de recuperación curado más alto entre los modelos abiertos probados, y solo detrás de Opus-4.6 en general. Se afianza en los puntos de referencia existentes, lo que sugiere operaciones de búsqueda generales de dominio. Capacitado en 4352 elementos únicos, muchos menos que varias líneas de base. Punto de control abierto y código de aprovechamiento, disponible con tiempos de ejecución comunes.

Debilidades

El gráfico de evidencia utiliza extracción de expresiones regulares, no vinculación completa de entidades. La herramienta de verificación es un proxy LLM que puede cometer errores en afirmaciones ambiguas. La compresión Sentence-BM25 puede eliminar el contexto vinculado a la estructura del discurso. El equipo de investigación informa estimaciones puntuales sin intervalos de confianza completos.

Conclusiones clave

Harness-1 es un agente de búsqueda 20B que traslada la contabilidad de búsqueda al entorno, dejando las decisiones semánticas a la política. Alcanza un recuerdo curado promedio de 0,730 en ocho puntos de referencia, superando al siguiente subagente abierto por 11,4 puntos. Entre los buscadores evaluados, sólo Opus-4.6 obtiene una puntuación más alta en promedio de recuerdo curado. Las ganancias son mayores en los puntos de referencia mantenidos (+17,0 frente a +7,9 puntos), lo que sugiere que las operaciones de búsqueda aprendidas se transfieren. Los pesos y el código del arnés son públicos y se pueden consultar a través de vLLM, SGLang o Transformers.

Explicador visual de Marktechpost

Agentes de búsqueda con estado
1 / 7

Guía de investigación

Arnés-1: un agente de búsqueda 20B con un arnés con estado

Un subagente de recuperación capacitado con aprendizaje por refuerzo dentro de un arnés de búsqueda que lleva la contabilidad.

20B · base gpt-oss-20b
UIUC · UC Berkeley · Croma
arXiv:2606.02373
Pesos abiertos y código

La idea central

Dividir el trabajo entre política y aprovechamiento

La mayoría de los agentes de búsqueda agrupan las decisiones de búsqueda y la contabilidad de rutina en una transcripción cada vez mayor. El arnés-1 separa a los dos. El artículo llama a esto descarga cognitiva con estado.

La política decide

Qué buscar Qué documentos conservar Qué afirmaciones verificar Cuándo detenerse

El arnés mantiene

Grupo de candidatos Evidencia curada Registros de verificación Presupuesto contextual

Dentro del arnés

Memoria de trabajo del lado del entorno

grupo de candidatos — documentos comprimidos y deduplicados
Conjunto curado — etiquetado de importancia, con un límite de 30 (muy alto / alto / regular / bajo)
Gráfico de evidencia — entidades, puentes y singletons mediante extracción de expresiones regulares
Caché de verificación — reclamo de documento para veredicto de sí/no
Tienda de texto completo – cada fragmento recuperado se mantiene fuera del mensaje
Compresión — frase-BM25 mantiene las cuatro primeras frases

Acciones de política

Ocho herramientas editan el estado

La primera búsqueda exitosa auto-sembra el conjunto seleccionado con ocho documentos reclasificados con importancia justa. Luego, la política promueve documentos sólidos y elimina los débiles.

Capacitación

SFT para operar la interfaz, RL para buscar

SFT: Profesor GPT-5.4 dentro del arnés · 899 trayectorias · LoRA rango 32 · punto de control paso-550

RL: CISPO dentro de la política · Solo consultas de la SEC · Límite de 40 turnos · Recompensa terminal · Capacitado en Tinker

Escala de datos: 4352 elementos de capacitación únicos (899 SFT + 3453 RL)

Tres requisitos de capacidad de capacitación: curación iniciada en caliente, representación compacta de estados derivados e incentivos para preservar la diversidad.

Resultados

Lo que muestran los números

0.730
recuerdo curado promedio
en ocho puntos de referencia

+11,4 puntos sobre el próximo subagente abierto, Tongyi DeepResearch 30B

Entre los buscadores evaluados, sólo Opus-4.6 obtiene una puntuación más alta en promedio

Transferencia: +17,0 en los retenidos frente a +7,9 en la familia de origen (brecha de 2,2 veces)

Ablación: retirar todos los mecanismos del arnés reduce el retiro del mercado 12,2% relativo

Empezar

Ejecútelo usted mismo

Servir: vLLM, SGLang o Transformers

Punto de control: pat-jj/harness-1 (Cara abrazada, parámetros 21B, BF16)

Código: github.com/pat-jj/harness-1

Papel: arXiv:2606.02373

Harness-1 devuelve un conjunto seleccionado de documentos para un modelo de respuesta posterior. No responde preguntas por sí mismo.

Consulte el documento, los pesos de los modelos y el repositorio de GitHub. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros