Salesforce AI presenta a CRMARENA-Pro: el primer punto de referencia de múltiples vueltas y de grado empresarial para los agentes de LLM

Los agentes de IA impulsados ​​por LLMS muestran una gran promesa para manejar tareas comerciales complejas, especialmente en áreas como la gestión de relaciones con el cliente (CRM). Sin embargo, evaluar su efectividad del mundo real es un desafío debido a la falta de datos comerciales realistas disponibles públicamente. Los puntos de referencia existentes a menudo se centran en interacciones simples y de una vuelta o aplicaciones estrechas, como el servicio al cliente, la falta de dominios más amplios, incluidas las ventas, los procesos CPQ y las operaciones B2B. Tampoco logran probar qué tan bien los agentes administran información confidencial. Estas limitaciones hacen que sea difícil comprender completamente cómo los agentes de LLM se desempeñan en la amplia gama de escenarios comerciales y estilos de comunicación del mundo real.

Los puntos de referencia anteriores se han centrado en gran medida en las tareas de servicio al cliente en escenarios B2C, con vista a las operaciones comerciales clave, como los procesos de ventas y CPQ, así como los desafíos únicos de las interacciones B2B, incluidos los ciclos de ventas más largos. Además, muchos puntos de referencia carecen de realismo, a menudo ignorando el diálogo múltiple o omitiendo la validación experta de tareas y entornos. Otra brecha crítica es la ausencia de evaluación de confidencialidad, vital en los entornos del lugar de trabajo donde los agentes de IA se involucran habitualmente con los datos confidenciales de negocios y clientes. Sin evaluar la conciencia de los datos, estos puntos de referencia no abordan serias preocupaciones prácticas, como la privacidad, el riesgo legal y la confianza.

Los investigadores de Salesforce AI Research han introducido CRMARENA-Pro, un punto de referencia diseñado para evaluar de manera realista agentes de LLM como Gemini 2.5 Pro en entornos comerciales profesionales. Cuenta con tareas validadas para expertos en servicio al cliente, ventas y CPQ, que abarca contextos B2B y B2C. El punto de referencia prueba las conversaciones de múltiples vueltas y evalúa la conciencia de confidencialidad. Los resultados muestran que incluso los modelos de alto rendimiento, como Gemini 2.5 Pro, solo logran alrededor del 58% de precisión en tareas de vuelta única, con un rendimiento que disminuye al 35% en la configuración de múltiples vueltas. La ejecución del flujo de trabajo es una excepción, donde Gemini 2.5 Pro supera el 83%, pero el manejo de la confidencialidad sigue siendo un desafío importante en todos los modelos evaluados.

CRMARENA-Pro es un nuevo punto de referencia creado para probar rigurosamente los agentes de LLM en entornos comerciales realistas, incluidos el servicio al cliente, las ventas y los escenarios de CPQ. Construido utilizando datos empresariales sintéticos pero estructuralmente precisos generados con GPT-4 y basados ​​en esquemas de Salesforce, el punto de referencia simula entornos comerciales a través de organizaciones de Senboxed Salesforce. Cuenta con 19 tareas agrupadas bajo cuatro habilidades clave: consulta de bases de datos, razonamiento textual, ejecución del flujo de trabajo y cumplimiento de la política. CRMarena-Pro también incluye conversaciones de múltiples vueltas con usuarios simulados y pruebas la conciencia de confidencialidad. Las evaluaciones de expertos confirmaron el realismo de los datos y el entorno, asegurando un plazo confiable para el rendimiento del agente LLM.

La evaluación comparó los principales agentes de LLM en 19 tareas comerciales, centrándose en la finalización de la tarea y la conciencia de la confidencialidad. Las métricas variaban según el tipo de tarea: la coincidencia exacta para salidas estructuradas y la puntuación F1 para respuestas generativas. Un juez de LLM con sede en GPT-4O evaluó si los modelos se negaron adecuadamente a compartir información confidencial. Modelos como Gemini-2.5-Pro ​​y O1, con un razonamiento avanzado, versiones más ligeras o no de condición, especialmente en tareas complejas. Si bien el rendimiento fue similar en la configuración B2B y B2C, las tendencias matizadas surgieron en función de la fuerza del modelo. Las indicaciones de la confidencialidad mejoraron las tasas de rechazo mejoradas, pero a veces reducen la precisión de la tarea, destacando una compensación entre privacidad y rendimiento.

En conclusión, CRMarena-Pro es un nuevo punto de referencia diseñado para probar qué tan bien los agentes de LLM manejan tareas comerciales del mundo real en la gestión de la relación con los clientes. Incluye 19 tareas revisadas por expertos en escenarios B2B y B2C, que cubren las ventas, el servicio y las operaciones de precios. Mientras que los principales agentes se desempeñaron decentemente en tareas de un solo cambio (aproximadamente 58% de éxito), su rendimiento cayó bruscamente a alrededor del 35% en conversaciones de giro múltiple. La ejecución del flujo de trabajo fue el área más fácil, pero la mayoría de las otras habilidades resultó desafiante. La conciencia de la confidencialidad fue baja y mejoró la provocación de la precisión de la tarea a menudo reducida. Estos hallazgos revelan una clara brecha entre las capacidades de los LLM y las necesidades de las empresas.


Mira el Papel, Página de Github, Página de la cara abrazada y Blog técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto.

🆕 ¿Sabías? MarktechPost es la plataforma de medios AI de más rápido crecimiento, remunerada por más de 1 millón de lectores mensuales. Reserve una llamada de estrategia para discutir los objetivos de su campaña. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.