Los investigadores de CMU presentan PPP y UserVille para capacitar agentes LLM proactivos y personalizados

La mayoría de los agentes de LLM están sintonizados para maximizar el éxito de la tarea. Resuelven problemas de GitHub o responden consultas de investigación profunda, pero no razonan cuidadosamente sobre cuándo hacer preguntas al usuario o cómo respetar las diferentes preferencias de interacción. ¿Cómo podemos diseñar agentes LLM que sepan cuándo hacer mejores preguntas y adaptar su comportamiento a cada usuario individual?

Un equipo de investigadores de la CMU de la Universidad Carnegie Mellon y OpenHands formaliza estos comportamientos faltantes como 3 objetivos conjuntos, productividad, proactividad y personalización, y los optimiza con un marco de aprendizaje de refuerzo multiobjetivo llamado PPP dentro de un nuevo entorno llamado UserVille.

La Figura 1 muestra que GPT 5 logra una gran productividad en SWE-Bench y BrowseComp Plus, pero sus puntuaciones de proactividad y personalización son mucho más bajas cuando las indicaciones son vagas. (https://arxiv.org/pdf/2511.02208)

Del éxito de la tarea a agentes conscientes de la interacción

El equipo de investigación define:

Productividad como calidad de finalización de tareas, por ejemplo F1 en localización de funciones verificadas por SWE-Bench o coincidencia exacta en BrowseComp-Plus. Proactividad como hacer preguntas aclaratorias esenciales cuando la pregunta inicial es vaga y evitando consultas innecesarias. Personalización siguiendo las preferencias de interacción específicas del usuario, como brevedad, formato o idioma.

UserVille, un entorno interactivo con simuladores con reconocimiento de preferencias

UserVille convierte los puntos de referencia de agentes existentes en un entorno RL centrado en la interacción poblado por simuladores de usuarios basados ​​en LLM.

Tiene 3 etapas:

Vaguenización de indicaciones: las indicaciones de tareas precisas se reescriben en indicaciones vagas que mantienen la misma intención pero eliminan detalles. Esto crea una asimetría de información: el simulador todavía observa el aviso preciso, el agente solo ve la versión vaga. Simulación de usuario consciente de preferencias: cada simulador de usuario está parametrizado por una preferencia de un grupo de 20 tipos. Las preferencias cubren brevedad, número de preguntas por turno, formato de respuesta, tiempo, limitaciones de idioma o requisitos como preguntas con formato JSON. En el entrenamiento se utilizan doce preferencias y se reservan ocho preferencias para las pruebas de generalización. Evaluación centrada en el usuario: después de la tarea, el simulador etiqueta cada pregunta como esfuerzo bajo, esfuerzo medio o esfuerzo alto en función de si puede responder utilizando el mensaje preciso y de lo difícil que es responder. La puntuación de proactividad es 1 si la sesión general requiere poco esfuerzo; de lo contrario, 0. La puntuación de personalización es 1 si el agente sigue la preferencia; de lo contrario, 0, promediada sobre las sesiones en las que el agente hizo al menos 1 pregunta.

UserVille tiene instancias en 2 dominios, ingeniería de software con SWE-Gym para entrenamiento y SWE-Bench Verified y SWE-Bench Full para evaluación, e investigación profunda con BrowseComp-Plus y una herramienta de búsqueda y open_page.

https://arxiv.org/pdf/2511.02208

PPP, RL multiobjetivo para agentes productivos, proactivos y personalizados

Los agentes se implementan como una herramienta de estilo ReAct utilizando políticas basadas en Seed-OSS-36B-Instruct. Pueden llamar a herramientas de dominio y a una herramienta Ask_user que consulta el simulador de usuario.

PPP define una recompensa a nivel de trayectoria

R = RProd​ + RProact​ + RPers​.

La recompensa de productividad RProd​ es la métrica de la tarea, F1 en SWE-Func-Loc o coincidencia exacta en BrowseComp-Plus. Recompensa por proactividad RProact agrega una bonificación de +0,05 si todas las preguntas de la sesión son de bajo esfuerzo y aplica penalizaciones de −0,1 por cada pregunta de esfuerzo medio y −0,5 por cada pregunta de alto esfuerzo. La recompensa de personalización para los RPers agrega +0,05 cuando el agente sigue la preferencia y agrega penalizaciones no positivas definidas por la regla específica de preferencia para cada infracción.

La capacitación utiliza un algoritmo RL basado en GRPO con la estrategia Clip Higher y la pérdida de gradiente de política a nivel de token de DAPO, y solo optimiza los tokens generados por LLM. El entorno de formación se implementa con Verl. Seed-OSS-36B-Instruct está entrenado para 200 pasos con un tamaño de lote 64 y un tamaño de grupo 8. Las longitudes máximas de salida son 32k tokens para SWE-Func-Loc, 65k para SWE-Full y 41k para investigación profunda. GPT 5 Nano se utiliza como simulador de usuario. Los andamios de SWE se basan en OpenHands y la investigación profunda utiliza una herramienta de búsqueda y una herramienta de página abierta con Qwen3-Embed-8B como recuperador.

https://arxiv.org/pdf/2511.02208

Resultados experimentales

La tabla 2 (imagen de abajo) evalúa la productividad, la proactividad y la personalización en SWE-Bench Verified Func-Loc y BrowseComp-Plus, utilizando indicaciones vagas y con un promedio de más de 20 preferencias.

https://arxiv.org/pdf/2511.02208

Para el modelo base Seed-OSS-36B-Instruct:

en SWE-Func-Loc, productividad 38,59, proactividad 43,70, personalización 69,07 en BrowseComp-Plus, productividad 18,20, proactividad 37,60, personalización 64,76.

Luego del entrenamiento PPP RL, el modelo PPP alcanza:

en SWE-Func-Loc, productividad 56,26, proactividad 75,55, personalización 89,26 en BrowseComp-Plus, productividad 26,63, proactividad 47,69, personalización 76,85.

La ganancia promedio en las 3 dimensiones y ambos conjuntos de datos es de 16,72 puntos en relación con Seed-OSS-36B-Instruct y PPP también supera a GPT 5 y otras líneas de base de la serie GPT en la métrica combinada.

La interacción es crucial para indicaciones vagas. En SWE-Func-Loc, F1 con indicaciones precisas y sin interacción es 64,50. Con indicaciones vagas y sin interacción, baja a 44.11. Agregar interacción sin RL no recupera esta brecha. Con el entrenamiento y la interacción de PPP, la F1 bajo indicaciones vagas mejora en 21,66 puntos.

PPP también cambia el comportamiento de interacción. La proporción de solicitudes en SWE-Func-Loc aumenta del 50 por ciento al 100 por ciento con indicaciones vagas y del 51 por ciento al 85 por ciento con una investigación profunda, aunque permanece baja para indicaciones precisas. El número de preguntas por sesión aumenta al principio de la capacitación, luego se estabiliza con una alta proporción de preguntas de bajo esfuerzo y muy pocas preguntas de alto esfuerzo.

Conclusiones clave

PPP enmarca la capacitación de agentes como un problema de RL multiobjetivo que optimiza conjuntamente la productividad, la proactividad y la personalización, en lugar de centrarse únicamente en el éxito de la tarea. UserVille crea versiones vagas de los puntos de referencia existentes y las combina con simuladores de usuario que reconocen las preferencias, que imponen 20 preferencias de interacción distintas y etiquetan los niveles de esfuerzo del usuario. La recompensa total combina la métrica de la tarea, el esfuerzo del usuario y el cumplimiento de las preferencias, utilizando bonificaciones para preguntas de bajo esfuerzo y penalizaciones por esfuerzo medio y alto o violaciones de preferencias, implementadas con un algoritmo RL basado en GRPO. En SWE Bench Func Loc y BrowseComp Plus con indicaciones vagas, Seed OSS 36B entrenado por PPP mejora significativamente las 3 métricas sobre el modelo base y sobre las líneas base de GPT 5, con una ganancia promedio de aproximadamente 16,72 puntos en todas las dimensiones y conjuntos de datos. Los agentes de PPP generalizan a preferencias invisibles, simuladores alternativos y tareas más difíciles como SWE Bench Full, y aprenden a hacer menos preguntas pero más específicas y de bajo esfuerzo, especialmente cuando las indicaciones son vagas.

PPP y UserVille marcan un paso importante hacia los agentes LLM conscientes de la interacción, ya que codifican explícitamente la productividad, la proactividad y la personalización en el diseño de recompensa, utilizan simuladores de usuario conscientes de las preferencias que aplican 20 preferencias de interacción y aplican GRPO con optimización de nivel de token estilo DAPO dentro de los andamios Verl y OpenHands. Las mejoras en SWE Bench Func Loc, SWE Bench Full y BrowseComp Plus muestran que el modelado de interacción es ahora una capacidad central, no una característica auxiliar.

Consulte el documento y el repositorio. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.