Creación de un chatbot multipropósito impulsado por GenAI | de Ram Vegiraju

Utilice los componentes de inferencia de SageMaker para trabajar con varios LLM de manera eficiente

10 minutos de lectura

hace 15 horas

Los modelos de lenguaje grandes (LLM) son inmensamente poderosos y pueden ayudar a resolver una variedad de tareas de PNL, como respuesta a preguntas, resúmenes, extracción de entidades y más. A medida que los casos de uso de IA generativa continúan expandiéndose, muchas veces las aplicaciones del mundo real requerirán la capacidad de resolver múltiples de estas tareas de PNL. Por ejemplo, si tiene un chatbot con el que los usuarios pueden interactuar, una pregunta común es resumir la conversación con el chatbot. Esto se puede utilizar en muchos entornos, como transcripciones médico-paciente, llamadas/citas telefónicas virtuales y más.

¿Cómo podemos construir algo que resuelva este tipo de problemas? Podríamos tener varios LLM, uno para responder preguntas y el otro para resumir. Otro enfoque sería tomar el mismo LLM y ajustarlo en los diferentes dominios, pero nos centraremos en el primer enfoque para este caso de uso. Sin embargo, con múltiples LLM, existen ciertos desafíos que deben abordarse.

Alojar incluso un modelo singular es computacionalmente costoso y requiere grandes instancias de GPU. En el caso de tener varios LLM, se requerirá un punto final/hardware persistente para ambos. Esto también genera gastos generales al administrar múltiples puntos finales y pagar por la infraestructura para dar servicio a ambos.

Con Componentes de inferencia de SageMaker podemos abordar este problema. Los componentes de inferencia le permiten alojar varios modelos diferentes en un punto final singular. Cada modelo tiene su propio contenedor dedicado y puede asignar una cierta cantidad de hardware y escalar por modelo. Esto nos permite tener ambos modelos detrás de un punto final singular mientras optimizamos el costo y el rendimiento.

Para el artículo de hoy, veremos cómo podemos crear un chatbot multipropósito impulsado por IA generativa que incluya la respuesta a preguntas y el resumen habilitado. Echemos un vistazo rápido a algunas de las herramientas que usaremos aquí:

Componentes de inferencia de SageMaker: Para alojar nuestros modelos usaremos Inferencia en tiempo real de SageMaker. Dentro de Inferencia en tiempo real usaremos la función Componentes de inferencia para alojar múltiples modelos mientras asignamos hardware para cada modelo. Si es nuevo en los componentes de inferencia…

Creación de un chatbot multipropósito impulsado por GenAI | de Ram Vegiraju | febrero de 2024

ByEquipo de 7 minutos

Utilice los componentes de inferencia de SageMaker para trabajar con varios LLM de manera eficiente

By Equipo de 7 minutos

Related Post

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

Llevando herramientas de diseño de proteínas impulsadas por IA a biólogos de todo el mundo | Noticias del MIT

Creación de NQS basado en transformadores para sistemas de giro frustrados con NetKet

You missed

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

Qué leer esta semana: Radio Universe que expande la mente de Emma Chapman

El lago Gee toca el borde nevado de la capa de hielo de Barnes: la masa de hielo más antigua de Canadá revelada desde el espacio

TrendAI™ se asocia con Anthropic para ampliar su liderazgo en seguridad de IA