PokeeResearch-7B: un agente de investigación profunda Open 7B capacitado con aprendizaje reforzado a partir de comentarios de IA (RLAIF) y un sólido andamio de razonamiento

Pokee AI tiene PokeeResearch-7B de código abierto, un agente de investigación profunda de parámetros 7B que ejecuta ciclos de investigación completos, descompone una consulta, emite llamadas de búsqueda y lectura, verifica las respuestas de los candidatos y luego sintetiza múltiples hilos de investigación en una respuesta final.

El agente ejecuta un ciclo de investigación y verificación. En la investigación, recurre a herramientas externas para la búsqueda en la web y la lectura de páginas o propone una respuesta provisional. En la verificación, compara la respuesta con la evidencia recuperada y acepta o reinicia la investigación. Esta estructura reduce las trayectorias frágiles y detecta errores obvios antes de la finalización. El equipo de investigación formaliza este ciclo y agrega una etapa de síntesis en el momento de la prueba que fusiona varios hilos de investigación independientes.

Receta de entrenamiento, RLAIF con RLOO

PokeeResearch-7B se ajusta desde Qwen2.5-7B-Instruct utilizando un aprendizaje por refuerzo sin anotaciones a partir de retroalimentación de IA, llamado RLAIF, con el algoritmo REINFORCE Leave-One-Out, llamado RLOO. La recompensa tiene como objetivo la corrección semántica, la fidelidad de las citas y el cumplimiento de las instrucciones, no la superposición de tokens. La tarjeta Hugging Face del modelo enumera un tamaño de lote 64, 8 hilos de investigación por mensaje durante RL, tasa de aprendizaje 3e-6, 140 pasos, contexto 32,768 tokens, precisión bf16 y un punto de control cercano a 13 GB. El equipo de investigación enfatiza que RLOO proporciona un gradiente imparcial en políticas y lo contrasta con la familia PPO que es aproximadamente política y sesgada.

https://arxiv.org/pdf/2510.15862

Estructura de razonamiento y síntesis de hilos de investigación.

El andamio incluye tres mecanismos. Autocorrección, el agente detecta llamadas a herramientas con formato incorrecto y lo reintenta. Autoverificación, el agente inspecciona su propia respuesta comparándola con la evidencia. Síntesis de hilos de investigación, el agente ejecuta varios hilos independientes por pregunta, los resume y luego sintetiza una respuesta final. El equipo de investigación informa que la síntesis mejora la precisión en puntos de referencia difíciles.

Protocolo de evaluación

El equipo de investigación evalúa preguntas de solo texto de 10 puntos de referencia: NQ, TriviaQA, PopQA, HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle, GAIA, BrowseComp y Humanity’s Last Exam. Muestran 125 preguntas por conjunto de datos, excepto GAIA con 103, para un total de 1228 preguntas. Para cada pregunta, ejecutan 4 hilos de investigación, luego calculan la precisión media, media en 4, utilizando Gemini-2.5-Flash-lite para juzgar la exactitud. Los turnos máximos de interacción se establecen en 100.

https://github.com/Pokee-AI/PokeeResearchOSS

Resultados a escala 7B

PokeeResearch-7B informa la mejor media con precisión de 4 entre 7B agentes de investigación profunda en los 10 conjuntos de datos. En HLE, el modelo reporta 15,2 sin RTS y 17,6 con RTS. En GAIA, el modelo reporta 36,9 sin RTS y 41,3 con RTS. En BrowseComp, el modelo informa 5.4 sin RTS y 8.4 con RTS. En los siete puntos de referencia de control de calidad, Bamboogle, 2WikiMultiHopQA, TriviaQA, NQ, PopQA, Musique, HotpotQA, el modelo mejora con respecto a las líneas de base recientes de 7B. Las ganancias de RTS son mayores en HLE, GAIA y BrowseComp, y menores en los conjuntos de control de calidad.

Conclusiones clave

Capacitación: PokeeResearch-7B afina Qwen2.5-7B-Instruct con RLAIF usando el estimador RLOO, optimizando las recompensas por la precisión de los hechos, la fidelidad de las citas y el cumplimiento de las instrucciones, sin superposición de tokens. Andamio: el agente ejecuta un ciclo de investigación y verificación con Research Threads Synthesis, ejecuta múltiples subprocesos independientes y luego sintetiza la evidencia para obtener una respuesta final. Protocolo de evaluación: los puntos de referencia abarcan 10 conjuntos de datos con 125 preguntas cada uno, excepto GAIA con 103, 4 subprocesos por pregunta, precisión media de 4 juzgada por Gemini-2.5-Flash-lite, con un límite de 100 vueltas. Resultados y publicación: PokeeResearch-7B presenta lo último en agentes de investigación profunda de 7B, por ejemplo HLE 17.6 con RTS, GAIA 41.3 con RTS, BrowseComp 8.4 con RTS, y se publica bajo Apache-2.0 con código y pesos públicos.

PokeeResearch-7B es un paso útil para agentes prácticos de investigación profunda. Alinea la capacitación con RLAIF utilizando RLOO, por lo que el objetivo apunta a la corrección semántica, la fidelidad de las citas y el cumplimiento de las instrucciones. La plataforma de razonamiento incluye autoverificación y síntesis de hilos de investigación, que mejora los puntos de referencia difíciles. La evaluación utiliza una media de 4 con Gemini 2.5 Flash lite como juez, en 10 conjuntos de datos. El lanzamiento incluye código y pesos de Apache 2.0 con una pila de herramientas clara que utiliza Serper y Jina. La configuración se ejecuta en un único A100 de 80 GB y se escala.

Consulte el artículo, el modelo en HF y el repositorio de GitHub. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.

PokeeResearch-7B: un agente de investigación profunda Open 7B capacitado con aprendizaje reforzado a partir de comentarios de IA (RLAIF) y un sólido andamio de razonamiento

ByEquipo de 7 minutos

Receta de entrenamiento, RLAIF con RLOO

Estructura de razonamiento y síntesis de hilos de investigación.

Protocolo de evaluación

Resultados a escala 7B

Conclusiones clave

By Equipo de 7 minutos

Related Post

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

Más allá de las indicaciones: uso de las habilidades de los agentes en ciencia de datos

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT

You missed

INFERNO EN EL CORAZÓN DE TORREVIEJA: LOS RESIDENTES HUYEN MIENTRAS LAS LLAMAS Arrasan UN BLOQUE DE VIVIENDAS – The Leader

Video captura a mujer atacándola en McDonald’s

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

‘Olas altas que se mueven a cámara lenta’: así es como se pueden comportar los océanos aceitosos en Titán, la luna gigante de Saturno