1md5t1midndxgomt Sogd2q.png

El equipo de ciencia de datos de P&F enfrenta un desafío: deben sopesar la opinión de cada experto por igual, pero no pueden satisfacer a todos. En lugar de centrarse en opiniones subjetivas de expertos, deciden evaluar el chatbot en función de preguntas históricas de los clientes. Ahora los expertos no necesitan plantear preguntas para probar el chatbot, lo que acerca la evaluación a las condiciones del mundo real. Después de todo, la razón inicial para involucrar a expertos fue su mejor comprensión de las preguntas reales de los clientes en comparación con el equipo de ciencia de datos de P&F.

Resulta que las preguntas más frecuentes de P&F están relacionadas con las instrucciones técnicas de los clips. Los clientes de P&F desean conocer las especificaciones técnicas detalladas de los clips. P&F tiene miles de tipos diferentes de clips y el servicio de atención al cliente tarda mucho en responder las preguntas.

Al comprender el desarrollo basado en pruebas, el equipo de ciencia de datos crea un conjunto de datos a partir del historial de conversaciones, incluido el pregunta del cliente y respuesta de atención al cliente:

Conjunto de datos recopilados del canal de discordia Paperclips & Friends.

Al tener un conjunto de datos de preguntas y respuestas, P&F puede probar y evaluar el rendimiento del chatbot de forma retrospectiva. Crean una nueva columna, «Respuesta del chatbot», y almacenan las respuestas de ejemplo del chatbot a las preguntas.

Conjunto de datos aumentado con respuesta de chatbot propuesta.

Podemos hacer que los expertos y GPT-4 evalúen la calidad de las respuestas del chatbot. El objetivo final es automatizar la evaluación de la precisión del chatbot mediante la utilización de GPT-4. Esto es posible si Los expertos y GPT-4 evalúan las respuestas de manera similar.

Los expertos crean una nueva hoja de Excel con la evaluación de cada experto y el equipo de ciencia de datos agrega la evaluación GPT-4.

Conjunto de datos aumentado con evaluaciones de expertos y GPT-4.

Hay conflictos sobre como diferentes expertos evalúan el mismo chatbot responde. GPT-4 evalúa de manera similar a la votación por mayoría de expertos, lo que indica que podríamos realizar evaluaciones automáticas con GPT-4. Sin embargo, la opinión de cada experto es valiosa y es importante abordar las preferencias de evaluación contradictorias entre los expertos.

P&F organiza un taller con los expertos para crear estándar de oro respuestas al conjunto de datos de preguntas históricas

El conjunto de datos estándar de oro para la evaluación.

y evaluación directrices de mejores prácticasen lo que todos los expertos están de acuerdo.

Evaluación de “pautas de mejores prácticas” para el chatbot según lo definido por los especialistas de atención al cliente.

Con los conocimientos del taller, el equipo de ciencia de datos puede crear un mensaje de evaluación más detallado para el GPT-4 que cubra casos extremos (es decir, «el chatbot no debería solicitar generar tickets de soporte»). Ahora el Los expertos pueden aprovechar el tiempo para mejorar la documentación del clip. y definir las mejores prácticas, en lugar de laboriosas evaluaciones de chatbot.

Al medir el porcentaje de respuestas correctas del chatbot, P&F puede decidir si desea implementar el chatbot en el canal de soporte. Aprueban la precisión e implementan el chatbot.

Finalmente, es hora de guardar todas las respuestas del chatbot y calcular qué tan bien se desempeña el chatbot para resolver consultas de clientes reales. Como el cliente puede responder directamente al chatbot, también es importante registrar la respuesta del cliente para comprender su sentimiento.

El mismo flujo de trabajo de evaluación se puede utilizar para medir el éxito del chatbot de manera objetiva, sin respuestas reales. Pero ahora los clientes reciben la respuesta inicial de un chatbot y no sabemos si les gusta. Deberíamos investigar cómo reaccionan los clientes a las respuestas del chatbot. Podemos detectar automáticamente sentimientos negativos a partir de las respuestas de los clientes y asignar especialistas de atención al cliente para manejar a los clientes enojados.