Asegurar el seguimiento de instrucciones confiables en LLMS sigue siendo un desafío crítico. Esto es particularmente importante en las aplicaciones orientadas al cliente, donde los errores pueden ser costosos. Las técnicas tradicionales de ingeniería rápida no logran ofrecer resultados consistentes. Es necesario un enfoque más estructurado y administrado para mejorar la adherencia a las reglas comerciales al tiempo que mantiene la flexibilidad.
Este artículo explora las innovaciones clave, incluidas las pautas atómicas granulares, la evaluación dinámica y el filtrado de instrucciones y las consultas de razonamiento atento (ARQ), al tiempo que reconoce las limitaciones de implementación y las compensaciones.
El desafío: desempeño inconsistente de IA en el servicio al cliente
Los LLM ya están proporcionando un valor comercial tangible cuando se usan como asistentes para representantes humanos en escenarios de servicio al cliente. Sin embargo, su confiabilidad como agentes autónomos orientados al cliente sigue siendo un desafío.
Los enfoques tradicionales para desarrollar aplicaciones LLM conversacionales a menudo fallan en los casos de uso del mundo real. Los dos enfoques más comunes son:
- Ingeniería rápida iterativa, lo que conduce a un comportamiento inconsistente e impredecible.
- Procesamiento basado en diagrama de flujoque sacrifica la verdadera magia de las interacciones impulsadas por LLM: interacciones dinámicas, de flujo libre, de forma humana.
En aplicaciones de alto riesgo orientadas al cliente, como la banca, incluso los errores menores pueden tener serias consecuencias. Por ejemplo, una llamada API ejecutada incorrectamente (como transferir dinero) puede generar demandas y daños a la reputación. Por el contrario, las interacciones mecánicas que carecen de naturalidad y la relación duelen la confianza y el compromiso del cliente, lo que limita las tasas de contención (casos resueltos sin intervención humana).
Para que los LLM alcancen su máximo potencial como agentes dinámicos y autónomos en casos del mundo real, debemos hacer que sigan las instrucciones específicas del negocio de manera consistente y a escala, al tiempo que mantenemos la flexibilidad de las interacciones naturales y de flujo libre.
Cómo crear un agente de servicio al cliente autónomo confiable con LLMS
Para abordar estas brechas en LLM y enfoques actuales, y lograr un nivel de confiabilidad y control que funcione bien en casos del mundo real, debemos cuestionar los enfoques que fallaron.
Una de las primeras preguntas que tuve cuando comencé a trabajar Parlante (Un marco de código abierto para los agentes de IA orientados al cliente) fue: “Si se encuentra que un agente de IA manejaba un escenario de clientes en particular, ¿cuál sería el proceso óptimo para solucionarlo?” Agregar demandas adicionales a un aviso ya longitudes, como “Así es como debe abordar el escenario X …”, se volvería rápidamente complicado de manejar, y los resultados no fueron consistentes de todos modos. Además de eso, agregar esas instrucciones planteó incondicionalmente un riesgo de alineación ya que los LLM están inherentemente sesgados por su aporte. Por lo tanto, era importante que las instrucciones para el escenario x no se filtrara en otros escenarios que potencialmente requerían un enfoque diferente.
Por lo tanto, nos dimos cuenta de que las instrucciones necesitaban aplicar solo en su contexto previsto. Esto tenía sentido porque, en la vida real, cuando tomamos un comportamiento insatisfactorio en tiempo real en una interacción de servicio al cliente, generalmente sabemos cómo corregirla: podemos especificar lo que necesita mejorar y el contexto en el que deberían aplicarse nuestros comentarios. Por ejemplo, “Sea conciso y al punto cuando se discute los beneficios de plan de primera calidad”, pero “estar dispuesto a explicar nuestra oferta extensamente al compararla con otras soluciones”.
Además de esta contextualización de instrucciones, en la capacitación de un agente altamente capaz que puede manejar muchos casos de uso, claramente necesitaríamos ajustar muchas instrucciones con el tiempo a medida que formamos el comportamiento de nuestro agente con las necesidades y preferencias comerciales. Necesitábamos un enfoque sistemático.
Retrocediendo y repensando, desde los primeros principios, nuestras expectativas ideales de las interacciones modernas basadas en IA y cómo desarrollarlas, esto es lo que entendimos sobre cómo deberían sentirse tales interacciones para los clientes:
- Empático y coherente: Los clientes deben sentirse en buenas manos al usar IA.
- Fluido, como mensajería instantánea (IM): Permitiendo a los clientes cambiar de temas de un lado a otro, expresarse usando múltiples mensajes y preguntar sobre múltiples temas a la vez.
- Personalizado: Debería sentir que el agente de IA sabe que está hablando con tú y comprende tu contexto.
Desde una perspectiva del desarrollador, también nos dimos cuenta de que:
- Elaborar el UX conversacional correcto es un proceso evolutivo. Deberíamos poder modificar con confianza el comportamiento del agente en diferentes contextos, de manera rápida y fácil, sin preocuparnos por romper el comportamiento existente.
- Las instrucciones deben respetarse de manera consistente. Esto es difícil de hacer con los LLM, que son criaturas inherentemente impredecibles. Se requirió una solución innovadora.
- Las decisiones del agente deben ser transparentes. El espectro de posibles problemas relacionados con el lenguaje y el comportamiento natural es demasiado amplio. Resolver problemas en el seguimiento de las instrucciones sin indicaciones claras de cómo un agente interpretó nuestras instrucciones en un escenario determinado sería muy poco práctico en entornos de producción con plazos.
Implementación ParlanObjetivos de diseño de T
Nuestro principal desafío fue cómo controlar y ajustar el comportamiento de un agente de IA al tiempo que garantiza que las instrucciones no se hablen en vano, que el agente de IA las implementa de manera precisa y consistente. Esto condujo a una decisión de diseño estratégico: Directrices atómicas granulares.
1. Directrices atómicas granulares
Las indicaciones complejas a menudo abruman LLM, lo que lleva a resultados incompletos o inconsistentes con respecto a las instrucciones que especifican. Resolvimos esto en Parlante Al abandonar amplias indicaciones para las pautas atómicas autónomas. Cada guía consiste en:
- Condición: Una consulta en idioma natural que determina cuándo debe aplicarse la instrucción (por ejemplo, “el cliente pregunta sobre un reembolso …”)
- Acción: La instrucción específica que debe seguir el LLM (por ejemplo, “confirme los detalles del pedido y ofrezca una descripción general del proceso de reembolso”).
Al segmentar las instrucciones en unidades manejables y centrar sistemáticamente su atención en cada una a la vez, podríamos hacer que la LLM las evalúe y las aplique con mayor precisión.
2. Mecanismo de filtrado y supervisión
Los LLM están altamente influenciados por el contenido de sus indicaciones, incluso si partes de la solicitud no son directamente relevantes para la conversación en cuestión.
En lugar de presentar todas las pautas a la vez, hicimos Parlante Haga un coincidir dinámicamente y aplique solo el conjunto relevante de instrucciones en cada paso de la conversación. Esta coincidencia en tiempo real se puede aprovechar para:
- Reducción de la sobrecarga cognitiva para el LLM: Evitaríamos fugas rápidas y aumentaríamos el enfoque del modelo en las instrucciones correctas, lo que lleva a una mayor consistencia.
- Supervisión: Agregamos un mecanismo para resaltar el impacto de cada guía y hacer cumplir su aplicación, aumentando la conformidad en todos los ámbitos.
- Explicación: Cada evaluación y decisión generada por el sistema incluye una justificación que detalla cómo se interpretaron las pautas y el razonamiento detrás de omitirlas o activarlas en cada punto de la conversación.
- Mejora continua: Al monitorear la efectividad de la guía y la interpretación de los agentes, los desarrolladores podrían refinar fácilmente el comportamiento de su IA con el tiempo. Debido a que las pautas son atómicas y supervisadas, puede realizar fácilmente cambios estructurados sin romper las indicaciones frágiles.
3. Consultas de razonamiento atento (ARQ)
Si bien la “cadena de pensamiento” (cot) mejora el razonamiento, sigue siendo limitado en su capacidad para mantener respuestas consistentes y sensibles al contexto con el tiempo. Parlant presenta Consultas de razonamiento atento (ARQ)— Una técnica que hemos ideado para garantizar que el razonamiento de varios pasos sea efectivo, preciso y predecible, incluso a través de miles de carreras. Puedes encontrar nuestro trabajo de investigación en arqs vs. cot en parlant.io y arxiv.org.
ARQS trabaja dirigiendo la atención de la LLM a las instrucciones de alta prioridad en los puntos clave del proceso de generación de respuesta, haciendo que el LLM atiende esas instrucciones y razone sobre ellas justo antes de que necesite aplicarlas. Descubrimos que “localizar” el razonamiento en torno a la parte de la respuesta donde se debe aplicar una instrucción específica proporcionó una precisión y consistencia significativamente mayor que un proceso de razonamiento preliminar y inespecífico como COT.
Reconociendo limitaciones
Si bien estas innovaciones mejoran el seguimiento de las instrucciones, hay desafíos a considerar:
- Sobrecarga computacional: La implementación de mecanismos de filtrado y razonamiento aumenta el tiempo de procesamiento. Sin embargo, con la mejora de hardware y LLM durante día, vimos esto como una opción de diseño posiblemente controvertida pero estratégica.
- Enfoques alternativos: En algunas aplicaciones de bajo riesgo, como los copilotos de AI de asistencia, los métodos más simples como el ajuste de inmediato o los enfoques basados en el flujo de trabajo a menudo son suficientes.
Por qué la consistencia es crucial para la IA conversacional de grado empresarial
En industrias reguladas, como los servicios financieros, la salud y los servicios legales, incluso la precisión del 99% plantea un riesgo significativo. Un banco que maneja millones de conversaciones mensuales no puede pagar miles de errores potencialmente críticos. Más allá de la precisión, los sistemas de IA deben estar limitados de tal manera que los errores, incluso cuando ocurran, permanecen dentro de los límites estrictos y aceptables.
En respuesta a la demanda de una mayor precisión en tales aplicaciones, los proveedores de soluciones de IA a menudo argumentan que los humanos también cometen errores. Si bien esto es cierto, la diferencia es que, con los empleados humanos, corregirlos suele ser sencillo. Puede preguntarles por qué manejaron una situación como lo hicieron. Puede proporcionar comentarios directos y monitorear sus resultados. Pero confiar en la ingeniería de inmediato de “mejor esfuerzo”, mientras que estar ciego a por qué un agente de IA incluso tomó alguna decisión en primer lugar, es un enfoque que simplemente no escala más allá de las demostraciones básicas.
Es por eso que un mecanismo de retroalimentación estructurado es tan importante. Le permite identificar qué cambios deben realizarse y cómo hacerlos mientras mantiene intacta la funcionalidad existente. Es esta comprensión la que nos puso en el camino correcto con Parlante al principio.
Manejo de millones de interacciones con los clientes con agentes autónomos de IA
Para que las empresas implementen IA a escala, la consistencia y la transparencia no son negociables. Un chatbot financiero que brinda asesoramiento no autorizado, un asistente de atención médica a pacientes equivocados o un agente de comercio electrónico tergiversando productos pueden tener consecuencias graves.
Parlante redefine la alineación de AI al habilitar:
- Eficiencia operativa mejorada: Reducir la intervención humana al tiempo que garantiza las interacciones de IA de alta calidad.
- Alineación de marca consistente: Mantener la coherencia con los valores comerciales.
- Cumplimiento regulatorio: Adherirse a los estándares de la industria y los requisitos legales.
Esta metodología representa un cambio en cómo se aborda la alineación de AI en primer lugar. Utilizando pautas modulares con filtrado inteligente en lugar de indicaciones largas y complejas; Agregar mecanismos explícitos de supervisión y validación para garantizar que las cosas salgan según lo planeado: estas innovaciones marcan un nuevo estándar para lograr la confiabilidad con LLM. A medida que la automatización dirigida por AI continúa expandiéndose en la adopción, garantizar que el seguimiento constante de instrucciones se convertirá en una necesidad aceptada, no un lujo innovador.
Si su empresa busca implementar un servicio al cliente robusto que funcione con IA o cualquier otra aplicación orientada al cliente, debe considerar Parlanteun marco de agente para interacciones AI controladas, explicables y preparadas para la empresa.
Yam Marcovitz es el líder tecnológico de Parlant y CEO en EMCIE. Un experimentado constructor de software con una amplia experiencia en software de misión crítica y arquitectura del sistema, los antecedentes de Yam informan su enfoque distintivo para desarrollar sistemas de IA controlables, predecibles y alineados.