La mayoría de los agentes de búsqueda están capacitados como políticas sobre una transcripción cada vez mayor. El modelo decide cómo buscar. También debe recordar lo que vio, qué pruebas son importantes y qué afirmaciones comprobó. Un equipo de investigadores de la Universidad de Illinois Urbana-Champaign, UC Berkeley y Chroma sostiene que esto es pedir demasiado. El aprendizaje por refuerzo acaba optimizando al mismo tiempo tanto las decisiones de búsqueda como la contabilidad rutinaria.
Su respuesta es Harness-1, un subagente de recuperación 20B construido sobre gpt-oss-20b. Fue entrenado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado. El arnés sostiene la contabilidad. La política mantiene las decisiones semánticas. Los pesos y el código del arnés se publican públicamente.
¿Qué es realmente el arnés-1?
Harness-1 produce un conjunto clasificado de documentos para un modelo de respuesta posterior. No responde preguntas por sí mismo. Se ejecuta dentro de un arnés de máquina de estados centrado en una MEMORIA DE TRABAJO por episodio.
Cada vuelta funciona como un bucle. El arnés presenta un estado de búsqueda compacto junto con acciones recientes. El modelo emite una acción estructurada. El arnés lo ejecuta, actualiza el estado y presenta la siguiente observación.
El arnés con estado: lo que sale de la política
El equipo de investigación llama a su principio descarga cognitiva con estado. La política decide qué buscar, seleccionar y verificar, y cuándo detenerlo. El arnés mantiene el estado recuperable en torno a esas decisiones.
Ese estado incluye varias piezas. Un grupo de candidatos contiene documentos comprimidos y deduplicados. El resultado final es un conjunto seleccionado con etiquetas de importancia, con un límite de 30 documentos. Las etiquetas toman cuatro valores: muy_alto, alto, regular o bajo. Un almacén de texto completo mantiene cada fragmento recuperado fuera del mensaje.
Un gráfico de evidencia agrega estructura. Un extractor de expresiones regulares escanea cada fragmento en busca de nombres propios, años y fechas. Luego, el arnés genera entidades frecuentes, documentos puente y singletons. Los documentos puente contienen dos o más entidades frecuentes. Los singleton aparecen en un documento y sugieren pistas de seguimiento.
La política funciona a través de ocho herramientas. Estos son fan_out_search, search_corpus, grep_corpus, read_document, review_docs, curate, verificar y end_search. Los resultados de la búsqueda se comprimen con la oración BM25, manteniendo las cuatro oraciones principales. La deduplicación de dos niveles elimina las repeticiones por ID de fragmento y huella digital de contenido.
Una opción de diseño aborda los arranques en frío. La primera búsqueda exitosa genera automáticamente el conjunto seleccionado con ocho resultados reclasificados con importancia justa. Luego, la política promueve documentos sólidos y elimina los débiles. Esto convierte la tarea de construir desde cero en refinamiento.
El equipo de investigación menciona tres requisitos para un arnés entrenable. Estos son la curación iniciada, la representación compacta de estados derivados y los incentivos para preservar la diversidad. Harness-1 implementa los tres.
Cómo se entrena
El entrenamiento se divide en la misma línea que el arnés. El ajuste fino supervisado le enseña al modelo a operar la interfaz. El aprendizaje por refuerzo mejora las decisiones de búsqueda sobre el estado mantenido.
Un solo profesor, GPT-5.4, corre en vivo dentro del arnés completo. Después del filtrado, quedan 899 trayectorias para SFT. El modelo utiliza LoRA en el rango 32 durante tres épocas. El punto de control del paso 550 inicializa RL.
RL utiliza CISPO dentro de la póliza con un límite de 40 turnos y una recompensa solo para terminal. Se entrena solo en consultas de la SEC. Los grupos con recompensas idénticas se eliminan del gradiente. El entrenamiento se realizó con Tinker.
La recompensa separa el descubrimiento de la selección. También agrega una ventaja de diversidad de herramientas. Sin ese bono, el agente cae en una búsqueda repetida. El recuerdo seleccionado luego se estabiliza cerca de 0,53. Con el bono, la diversidad se estabiliza y el recuerdo alcanza alrededor de 0,60.
El caso de referencia
Harness-1 se evaluó en ocho puntos de referencia que abarcan web, finanzas, patentes y control de calidad de múltiples saltos. La métrica principal es la recuperación seleccionada: cobertura de documentos relevantes en el conjunto final. El recuerdo de trayectoria cuenta la evidencia encontrada en cualquier parte del episodio.
Harness-1 alcanza un retiro curado promedio de 0,730. Esto supera al siguiente subagente abierto, Tongyi DeepResearch 30B, por 11,4 puntos. Entre los buscadores de fronteras evaluados, sólo Opus-4.6 obtiene una puntuación más alta en promedio.
El patrón de transferencia es la señal más clara del mecanismo. SFT utilizó cuatro familias de referencia; RL usó solo SEC. En esas tareas de la familia fuente, Harness-1 ganó 7,9 puntos sobre la línea de base abierta más cercana. En cuatro puntos de referencia rezagados, ganó 17,0 puntos. Esto supone una ganancia 2,2 veces mayor en tareas más alejadas de los datos de entrenamiento.
Las ablaciones respaldan la afirmación del arnés. La desactivación de todos los mecanismos de arnés reduce la recuperación en un 12,2 por ciento en relación con BrowseComp+. La política entrenada sigue buscando pero no puede clasificar lo que ve.
Casos de uso
El método apunta a la recuperación de evidencia donde los documentos respaldan una respuesta. Varios flujos de trabajo se ajustan a esta forma.
Uno es la revisión de la literatura y las patentes. El gráfico de evidencia y el conjunto seleccionado ayudan a organizar muchas fuentes. Otro es el análisis de archivos financieros. El estudio de caso de la SEC recupera una fecha exacta de transición ejecutiva en múltiples 8-K.
Un tercero es la verificación de datos de múltiples saltos. Las herramientas fan_out_search y verificar resuelven entidades ambiguas antes de comprometerse. Un cuarto es RAG modular. El conjunto seleccionado alimenta un generador congelado y los conjuntos mejores producen una mayor precisión en las respuestas.
Fortalezas y debilidades
Fortalezas
El promedio de recuperación curado más alto entre los modelos abiertos probados, y solo detrás de Opus-4.6 en general. Se afianza en los puntos de referencia existentes, lo que sugiere operaciones de búsqueda generales de dominio. Capacitado en 4352 elementos únicos, muchos menos que varias líneas de base. Punto de control abierto y código de aprovechamiento, disponible con tiempos de ejecución comunes.
Debilidades
El gráfico de evidencia utiliza extracción de expresiones regulares, no vinculación completa de entidades. La herramienta de verificación es un proxy LLM que puede cometer errores en afirmaciones ambiguas. La compresión Sentence-BM25 puede eliminar el contexto vinculado a la estructura del discurso. El equipo de investigación informa estimaciones puntuales sin intervalos de confianza completos.
Conclusiones clave
Harness-1 es un agente de búsqueda 20B que traslada la contabilidad de búsqueda al entorno, dejando las decisiones semánticas a la política. Alcanza un recuerdo curado promedio de 0,730 en ocho puntos de referencia, superando al siguiente subagente abierto por 11,4 puntos. Entre los buscadores evaluados, sólo Opus-4.6 obtiene una puntuación más alta en promedio de recuerdo curado. Las ganancias son mayores en los puntos de referencia mantenidos (+17,0 frente a +7,9 puntos), lo que sugiere que las operaciones de búsqueda aprendidas se transfieren. Los pesos y el código del arnés son públicos y se pueden consultar a través de vLLM, SGLang o Transformers.
Explicador visual de Marktechpost
Agentes de búsqueda con estado
1 / 7
Consulte el documento, los pesos de los modelos y el repositorio de GitHub. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros