Construir un motor de reconocimiento de intención unificado

Sistemas, comprender la intención del usuario es fundamental, especialmente en el dominio de servicio al cliente donde opero. Sin embargo, en todos los equipos empresariales, el reconocimiento de la intención a menudo ocurre en los silos, cada equipo construye tuberías a medida para diferentes productos, desde la solución de problemas de asistentes hasta chatbots y emitir herramientas de clasificación. Esta redundancia ralentiza la innovación y hace que la escala sea un desafío.

Detectar un patrón en una maraña de sistemas

En todos los flujos de trabajo de IA, observamos un patrón: muchos proyectos, aunque atendiendo diferentes propósitos, implicaron comprender la entrada del usuario y clasificarlos en las etiquetas. Cada proyecto lo abordaba de forma independiente con algunas variaciones. Un sistema podría emparejar FAISS con incrustaciones de minilm y resumen de LLM para temas de tendencia, mientras que otra búsqueda de palabras clave combinadas con modelos semánticos. Aunque efectivos individualmente, estas tuberías compartieron componentes y desafíos subyacentes, lo cual fue una excelente oportunidad para la consolidación.

Los mapeamos y nos dimos cuenta de que todos se redujeron al mismo patrón esencial: limpiar la entrada, convertirla en incrustaciones, buscar ejemplos similares, calificar la similitud y asignar una etiqueta. Una vez que veas eso, se siente obvio: ¿por qué reconstruir la misma fontanería una y otra vez? ¿No sería mejor crear un sistema modular que diferentes equipos podrían configurar para sus propias necesidades sin comenzar desde cero? Esa pregunta nos puso en el camino a lo que ahora llamamos el motor de reconocimiento de intención unificado (UIRE).

Reconociendo eso, vimos una oportunidad. En lugar de dejar que cada equipo construya una solución única, podríamos estandarizar los componentes centrales, cosas como el preprocesamiento, la incrustación y la puntuación de similitud, al tiempo que dejan suficiente flexibilidad para que cada equipo de productos conecte sus propios conjuntos de etiquetas, lógica comercial y umbrales de riesgo. Esa idea se convirtió en la base del marco UIRE.

Un marco modular diseñado para reutilizar

En esencia, UIRE es una tubería configurable compuesta por piezas reutilizables y complementos específicos del proyecto. Los componentes reutilizables se mantienen consistentes: preprocesamiento de texto, modelos de incrustación, búsqueda de vectores y lógica de puntuación. Luego, cada equipo puede agregar sus propios conjuntos de etiquetas, reglas de enrutamiento y parámetros de riesgo además de eso.

Así es como se ve el flujo:

Entrada → Preprocesamiento → Resumen → Incrustación → Búsqueda vectorial → Similitud puntuación → Matriota de etiqueta → Enrutamiento

Organizamos componentes de esta manera:

  • Componentes repetibles: Pasos de preprocesamiento, resumen (si es necesario), incrustación y herramientas de búsqueda de vectores (como Minilm, Sbert, Faiss, Pinecone), Lógica de puntuación de similitud, marcos de ajuste de umbral,.
  • Elementos específicos del proyecto: Etiquetas de intención personalizadas, datos de capacitación, reglas de enrutamiento específicas del negocio, umbrales de confianza ajustados al riesgo y opciones de resumen de LLM opcional.

Aquí hay un visual para representar esto:

El valor de esta configuración se hizo claro casi de inmediato. En un caso, reutilizamos una tubería existente para un nuevo problema de clasificación y lo ponemos en funcionamiento en dos días. Eso generalmente solía llevarnos casi dos semanas cuando construyen desde cero. Tener esa ventaja significaba que podríamos pasar más tiempo mejorando la precisión, identificar casos de borde y experimentar con configuraciones en lugar de cablear la infraestructura.

Aún mejor, este tipo de diseño es, naturalmente, una prueba futura. Si un nuevo proyecto requiere soporte multilingüe, podemos lanzar un modelo como Jina-Embeddings-V3. Si otro equipo de producto quiere clasificar imágenes o audio, el mismo flujo de búsqueda vectorial también funciona allí al cambiar el modelo de incrustación. La columna vertebral permanece igual.

Convertir un marco en un repositorio vivo para el crecimiento continuo

Otra ventaja de un motor unificado es el potencial para construir un repositorio de vida compartido. A medida que los diferentes equipos adoptan el marco, sus personalizaciones, incluidos los nuevos modelos de incrustación, las configuraciones de umbral o las técnicas de preprocesamiento, pueden contribuir a una biblioteca común. Con el tiempo, esta inteligencia colectiva produciría un conjunto de herramientas integral de mejor grado empresarial de las mejores prácticas, acelerando la adopción y la innovación.

Esto elimina una lucha común de “sistemas aislados” que prevalece en muchas empresas. Las buenas ideas permanecen atrapadas en proyectos individuales. Pero con la infraestructura compartida, se vuelve mucho más fácil experimentar, aprender unos de otros y mejorar constantemente el sistema general.

Por qué este enfoque es importante

Para grandes organizaciones con múltiples iniciativas de IA en curso, este tipo de sistema modular ofrece muchas ventajas:

  • Evite el trabajo de ingeniería duplicada y reduzca la sobrecarga de mantenimiento
  • Acelerar la creación de prototipos y la escala ya que los equipos pueden mezclar y igualar los componentes preconstruidos
  • Deje que los equipos se concentren en lo que realmente importa: mejorar la precisión, refinar casos de borde y experiencias de ajuste fino, no reconstruir la infraestructura
  • Haga que sea más sencillo extenderse a nuevos idiomas, dominios comerciales o incluso tipos de datos como imágenes y audio

Esta arquitectura modular se alinea bien con hacia dónde se dirige el diseño del sistema de IA. Investigación de Sung et al. (2023), Puig (2024) y Tang et al. (2023) destaca el valor de las tuberías reutilizables basadas en la incrustación para la clasificación de la intención. Su trabajo muestra que los sistemas basados ​​en flujos de trabajo basados ​​en vectores son más escalables, adaptables y más fáciles de mantener que los clasificadores únicos tradicionales.

Características avanzadas para manejar los escenarios del mundo real

Por supuesto, las conversaciones del mundo real rara vez siguen patrones limpios y de un solo intento. La gente hace preguntas desordenadas, en capas y a veces ambiguas. Ahí es donde este enfoque modular realmente brilla, porque hace que sea más fácil colocar en estrategias de manejo avanzado. Puede construir estas características una vez, y pueden reutilizarse en otros proyectos.

  • Detección múltiple cuando una consulta pregunta varias cosas a la vez
  • Detección fuera del alcance para marcar entradas desconocidas y enrutarlas a una respuesta humana o alternativa
  • Explicabilidad ligera al recuperar ejemplos de los vecinos más cercanos en el espacio vectorial para explicar cómo se tomó una decisión

Características como estos ayudan a los sistemas de IA a mantenerse confiables y reducen la fricción para los usuarios finales, incluso a medida que los productos se expanden a entornos cada vez más impredecibles y de alta varianza.

Pensamientos de cierre

El motor de reconocimiento de intención unificado es menos un producto empaquetado y más una estrategia práctica para escalar inteligentemente IA. Al desarrollar el concepto, reconocimos que los proyectos son únicos, se implementan en diferentes entornos y necesitan diferentes niveles de personalización. Al ofrecer componentes preconstruidos con toneladas de flexibilidad, los equipos pueden moverse más rápido, evitar el trabajo redundante y entregar sistemas más inteligentes y confiables.

En nuestra experiencia, las aplicaciones de esta configuración ofrecieron resultados significativos: tiempos de despliegue más rápidos, menos tiempo perdido en la infraestructura redundante y más oportunidades para centrarse en la precisión y los casos de borde con mucho potencial para futuros avances. A medida que los productos con AI continúan multiplicándose en todas las industrias, marcos como este podrían convertirse en herramientas esenciales para construir sistemas escalables, confiables y flexibles.

Sobre los autores

Shruti Tiwari es gerente de productos de IA en Dell Technologies, donde lidera las iniciativas de IA para mejorar la atención al cliente de la empresa utilizando IA generativa, marcos de agente e IA tradicional. Su trabajo ha aparecido en VentureBeat, CMSWIRE y LED LED Alliance, y ella mentora a los profesionales sobre la construcción de productos de IA escalables y responsables.

Vadiraj Kulkarni es un científico de datos de Dell Technologies, centrado en construir e implementar soluciones de IA multimodales para el servicio al cliente empresarial. Su trabajo abarca la IA generativa, la IA agente y la IA tradicional para mejorar los resultados de apoyo. Su trabajo fue publicado en VentureBeat sobre la aplicación de marcos de agente en aplicaciones multimodales.

Referencias:

  1. Sung, M., Gung, J., Mansimov, E., Pappas, N., Shu, R., Romeo, S., Zhang, Y. y Castelli, V. (2023). Codificadores de intención previos al entrenamiento para la clasificación de intención de cero y pocos disparos. Preimpresión ARXIV ARXIV: 2305.14827. https://arxiv.org/abs/2305.14827
  2. Puig, M. (2024). Dominar la clasificación de la intención con incrustaciones: centroides, redes neuronales y bosques aleatorios. Medio. https://medium.com/@marc.puig/mastering-intent-classification-with-embeddings-34a4f92b63fb
  3. Tang, Y.-C., Wang, W.-Y., Yen, A.-Z. y Peng, W.-C. (2023). RSVP: Detección de intención del cliente a través de la respuesta del agente contrastante y pretruento generativo. preimpresión ARXIV ARXIV: 2310.09773. https://arxiv.org/abs/2310.09773
  4. Jina Ai Gmbh. (2024). Jina-Embeddings-V3 lanzado: un modelo multilingüe de texto multitarea de tareas múltiples. preimpresión ARXIV ARXIV: 2409.10173. https://arxiv.org/abs/2409.10173