El QWEN 2.5 Modelos de lenguaje grande multilingüe (LLMS) son una colección de modelos generativos pre-entrenados y ajustados de instrucción en 0.5b, 1.5b, 3b, 7b, 14b, 32b y 72b (texto en/text o codificar). Los modelos de texto fino QWEN 2.5 están optimizados para casos de uso de diálogo multilingüe y superan a las generaciones anteriores de modelos QWEN, y muchos de los modelos de chat disponibles públicamente basados en puntos de referencia comunes de la industria.
En su núcleo, Qwen 2.5 es un modelo de lenguaje autoregresivo que utiliza una arquitectura de transformador optimizada. La colección Qwen2.5 puede admitir más de 29 idiomas y ha mejorado las habilidades de juego de roles y el establecimiento de condición para los chatbots.
En esta publicación, describimos cómo comenzar a implementar la familia Qwen 2.5 de modelos en una instancia de inferencia utilizando Amazon Elastic Compute Cloud (Amazon EC2) y Amazon Sagemaker Usando el contenedor de inferencia de generación de texto de la cara abrazada (TGI) y la biblioteca de neuronas óptimas de abrazos de abrazo. Las variantes de codificador y matemáticas QWEN2.5 también son compatibles.
Preparación
Abrazar la cara proporciona dos herramientas que se usan con frecuencia al usar AWS Inferentia y AWS Entrenium: Inferencia de generación de texto (TGI) contenedores, que brindan soporte para implementar y servir LLMS, y el Biblioteca de neuronas óptimasque sirve como una interfaz entre la biblioteca Transformers y los aceleradores de inferencia y entrenamiento.
La primera vez que se ejecuta un modelo en Inferentia o Entrenium, compila el modelo para asegurarse de que tenga una versión que funcione de manera óptima en inferentia y chips de entrenamiento. La biblioteca de neuronas óptimas de la cara abrazada junto con el caché de neuronas óptimas suministrará transparentemente un modelo compilado cuando esté disponible. Si está utilizando un modelo diferente con la arquitectura Qwen2.5, es posible que deba compilar el modelo antes de implementar. Para más información, ver Compilar un modelo para inferentia o entrenamiento.
Puede implementar TGI como un contenedor de acopolador en una instancia de inferencia o EC2 de entrenamiento o en Amazon Sagemaker.
Opción 1: Implementar TGI en Amazon EC2 Inf2
En este ejemplo, implementará el instrucciones QWEN2.5-7B en una instancia inf2.xlarge. (Ver Este artículo para obtener instrucciones detalladas sobre cómo implementar una instancia utilizando la cara de abrazo dlami).
Para esta opción, se ssh en la instancia y cree un archivo .env (donde definirá sus constantes y especificará dónde está en caché su modelo) y un archivo llamado Docker-Compose.yaml (donde definirá todos los parámetros del entorno que necesitará implementar su modelo para inferencia). Puede copiar los siguientes archivos para este caso de uso.
- Cree un archivo .env con el siguiente contenido:
- Cree un archivo llamado Docker-Compose.yaml con el siguiente contenido:
- Use Docker Compose para implementar el modelo:
docker compose -f docker-compose.yaml --env-file .env up
- Para confirmar que el modelo se implementó correctamente, envíe un mensaje de prueba al modelo:
- Para confirmar que el modelo puede responder en varios idiomas, intente enviar un aviso en chino:
Opción 2: Implementar TGI en Sagemaker
También puede usar la biblioteca de neuronas óptimas de Hugging Face para implementar rápidamente modelos directamente de Sagemaker utilizando instrucciones en el Hub Model de abrazaderas.
- Desde el centro de tarjetas de modelo Qwen 2.5, elija Desplegarentonces Sagemakery finalmente AWS Inferentia y Entrenium.
- Copie el código de ejemplo en un cuaderno de Sagemaker, luego elija Correr.
- El cuaderno que copió se verá como lo siguiente:
Limpiar
Asegúrese de terminar sus instancias de EC2 y eliminar sus puntos finales de Sagemaker para evitar los costos continuos.
Terminar instancias de EC2 a través del Consola de gestión de AWS.
Terminar un punto final de Sagemaker a través de la consola o con los siguientes comandos:
Conclusión
AWS Trainium y AWS Inferentia ofrecen un alto rendimiento y un bajo costo para implementar modelos QWEN2.5. Estamos emocionados de ver cómo utilizará estos poderosos modelos y nuestra infraestructura de IA especialmente diseñada para crear aplicaciones de IA diferenciadas. Para obtener más información sobre cómo comenzar con las chips AWS AI, vea el Documentación de la neurona de AWS.
Sobre los autores
Jim Burtoft es un arquitecto senior de soluciones de startups en AWS y trabaja directamente con nuevas empresas, así como el equipo de Hugging Face. Jim es un CISSP, parte de la comunidad de campo técnico de AWS AI/ML, parte de la comunidad de ciencias de los datos de Neuron, y trabaja con la comunidad de código abierto para permitir el uso de inferentios y capacitaciones. Jim tiene una licenciatura en matemáticas de la Universidad Carnegie Mellon y una maestría en economía de la Universidad de Virginia.
Miriam Lebowitz es un arquitecto de soluciones centrado en empoderar a las nuevas empresas en la etapa inicial en AWS. Aprovecha su experiencia con AIML para guiar a las empresas para seleccionar e implementar las tecnologías adecuadas para sus objetivos comerciales, estableciéndolos para un crecimiento escalable e innovación en el mundo de inicio competitivo.
Rhia Soni es un arquitecto de soluciones de inicio en AWS. RHIA se especializa en trabajar con nuevas empresas de etapas y ayuda a los clientes a adoptar inferentia y entrenamiento. RHIA también es parte de la comunidad de campo técnico de AWS Analytics y es un experto en materia en BI generativo. RHIA tiene una licenciatura en ciencias de la información de la Universidad de Maryland.
Paul Aiuto es un gerente senior de arquitecto de soluciones centrado en las nuevas empresas en AWS. Paul creó un equipo de arquitectos de soluciones de inicio de AWS que se centran en la adopción de inferentia y entrenamiento. Paul posee una licenciatura en informática de Siena College y tiene múltiples certificaciones de seguridad cibernética.