2023 fue el año en el que se produjo el surgimiento de varios modelos de lenguajes grandes (LLM) en el espacio de la IA generativa. Los LLM tienen un poder y un potencial increíbles, pero producirlos ha sido un desafío constante para los usuarios. Un problema especialmente frecuente es ¿qué LLM se debe utilizar? Aún más específicamente, ¿cómo se puede evaluar la precisión de un LLM? Esto es especialmente desafiante cuando hay una gran cantidad de modelos para elegir, diferentes conjuntos de datos para ajuste fino/RAG y una variedad de técnicas rápidas de ingeniería/ajuste para considerar.
Para resolver este problema necesitamos establecer DevOps Mejores prácticas para LLM. Tener un flujo de trabajo o canalización que pueda ayudar a evaluar diferentes modelos, conjuntos de datos e indicaciones. Este campo está empezando a ser conocido como LLMOP/FMOP. Algunos de los parámetros que se pueden considerar en los LLMOP se muestran a continuación, en un flujo (extremadamente) simplificado:
En este artículo, intentaremos abordar este problema mediante la creación de un canal que ajuste, implemente y evalúe una modelo llama 7b. También puede escalar este ejemplo usándolo como plantilla para comparar varios LLM, conjuntos de datos y sugerencias. Para este ejemplo, utilizaremos las siguientes herramientas para crear esta canalización:
- Inicio rápido de SageMaker: SageMaker JumpStart proporciona varios FM/LLM listos para usar tanto para el ajuste como para la implementación. Ambos procesos pueden ser bastante complicados, por lo que JumpStart abstrae los detalles y le permite especificar su conjunto de datos y metadatos del modelo para realizar ajustes e implementación. En este caso seleccionamos Llama 7B y realizamos Ajuste de instrucciones que es compatible desde el primer momento. Para obtener una introducción más profunda al ajuste fino de JumpStart, consulte este Blog y esto Ejemplo de código de llamaque usaremos como referencia.
- SageMaker Aclarar/FMEval: SageMaker Clarify proporciona una herramienta de evaluación del modelo básico a través de la interfaz de usuario de SageMaker Studio y el código abierto. Biblioteca Python FMEVal. La función viene integrada con una variedad de algoritmos diferentes que abarcan diferentes PNL…