Creación de un chatbot multipropósito impulsado por GenAI |  de Ram Vegiraju |  febrero de 2024

Utilice los componentes de inferencia de SageMaker para trabajar con varios LLM de manera eficiente

Imagen de desempaquetar

Los modelos de lenguaje grandes (LLM) son inmensamente poderosos y pueden ayudar a resolver una variedad de tareas de PNL, como respuesta a preguntas, resúmenes, extracción de entidades y más. A medida que los casos de uso de IA generativa continúan expandiéndose, muchas veces las aplicaciones del mundo real requerirán la capacidad de resolver múltiples de estas tareas de PNL. Por ejemplo, si tiene un chatbot con el que los usuarios pueden interactuar, una pregunta común es resumir la conversación con el chatbot. Esto se puede utilizar en muchos entornos, como transcripciones médico-paciente, llamadas/citas telefónicas virtuales y más.

¿Cómo podemos construir algo que resuelva este tipo de problemas? Podríamos tener varios LLM, uno para responder preguntas y el otro para resumir. Otro enfoque sería tomar el mismo LLM y ajustarlo en los diferentes dominios, pero nos centraremos en el primer enfoque para este caso de uso. Sin embargo, con múltiples LLM, existen ciertos desafíos que deben abordarse.

Alojar incluso un modelo singular es computacionalmente costoso y requiere grandes instancias de GPU. En el caso de tener varios LLM, se requerirá un punto final/hardware persistente para ambos. Esto también genera gastos generales al administrar múltiples puntos finales y pagar por la infraestructura para dar servicio a ambos.

Con Componentes de inferencia de SageMaker podemos abordar este problema. Los componentes de inferencia le permiten alojar varios modelos diferentes en un punto final singular. Cada modelo tiene su propio contenedor dedicado y puede asignar una cierta cantidad de hardware y escalar por modelo. Esto nos permite tener ambos modelos detrás de un punto final singular mientras optimizamos el costo y el rendimiento.

Para el artículo de hoy, veremos cómo podemos crear un chatbot multipropósito impulsado por IA generativa que incluya la respuesta a preguntas y el resumen habilitado. Echemos un vistazo rápido a algunas de las herramientas que usaremos aquí:

  • Componentes de inferencia de SageMaker: Para alojar nuestros modelos usaremos Inferencia en tiempo real de SageMaker. Dentro de Inferencia en tiempo real usaremos la función Componentes de inferencia para alojar múltiples modelos mientras asignamos hardware para cada modelo. Si es nuevo en los componentes de inferencia…