Cómo ejecutar Qwen 2.5 en AWS AI Chips usando bibliotecas de Facing Face

El QWEN 2.5 Modelos de lenguaje grande multilingüe (LLMS) son una colección de modelos generativos pre-entrenados y ajustados de instrucción en 0.5b, 1.5b, 3b, 7b, 14b, 32b y 72b (texto en/text o codificar). Los modelos de texto fino QWEN 2.5 están optimizados para casos de uso de diálogo multilingüe y superan a las generaciones anteriores de modelos QWEN, y muchos de los modelos de chat disponibles públicamente basados en puntos de referencia comunes de la industria.

En su núcleo, Qwen 2.5 es un modelo de lenguaje autoregresivo que utiliza una arquitectura de transformador optimizada. La colección Qwen2.5 puede admitir más de 29 idiomas y ha mejorado las habilidades de juego de roles y el establecimiento de condición para los chatbots.

En esta publicación, describimos cómo comenzar a implementar la familia Qwen 2.5 de modelos en una instancia de inferencia utilizando Amazon Elastic Compute Cloud (Amazon EC2) y Amazon Sagemaker Usando el contenedor de inferencia de generación de texto de la cara abrazada (TGI) y la biblioteca de neuronas óptimas de abrazos de abrazo. Las variantes de codificador y matemáticas QWEN2.5 también son compatibles.

Preparación

Abrazar la cara proporciona dos herramientas que se usan con frecuencia al usar AWS Inferentia y AWS Entrenium: Inferencia de generación de texto (TGI) contenedores, que brindan soporte para implementar y servir LLMS, y el Biblioteca de neuronas óptimasque sirve como una interfaz entre la biblioteca Transformers y los aceleradores de inferencia y entrenamiento.

La primera vez que se ejecuta un modelo en Inferentia o Entrenium, compila el modelo para asegurarse de que tenga una versión que funcione de manera óptima en inferentia y chips de entrenamiento. La biblioteca de neuronas óptimas de la cara abrazada junto con el caché de neuronas óptimas suministrará transparentemente un modelo compilado cuando esté disponible. Si está utilizando un modelo diferente con la arquitectura Qwen2.5, es posible que deba compilar el modelo antes de implementar. Para más información, ver Compilar un modelo para inferentia o entrenamiento.

Puede implementar TGI como un contenedor de acopolador en una instancia de inferencia o EC2 de entrenamiento o en Amazon Sagemaker.

Opción 1: Implementar TGI en Amazon EC2 Inf2

En este ejemplo, implementará el instrucciones QWEN2.5-7B en una instancia inf2.xlarge. (Ver Este artículo para obtener instrucciones detalladas sobre cómo implementar una instancia utilizando la cara de abrazo dlami).

Para esta opción, se ssh en la instancia y cree un archivo .env (donde definirá sus constantes y especificará dónde está en caché su modelo) y un archivo llamado Docker-Compose.yaml (donde definirá todos los parámetros del entorno que necesitará implementar su modelo para inferencia). Puede copiar los siguientes archivos para este caso de uso.

Cree un archivo .env con el siguiente contenido:

MODEL_ID='Qwen/Qwen2.5-7B-Instruct'
#MODEL_ID='/data/exportedmodel' 
HF_AUTO_CAST_TYPE='bf16' # indicates the auto cast type that was used to compile the model
MAX_BATCH_SIZE=4
MAX_INPUT_TOKENS=4000
MAX_TOTAL_TOKENS=4096

Cree un archivo llamado Docker-Compose.yaml con el siguiente contenido:

version: '3.7'

services:
  tgi-1:
    image: ghcr.io/huggingface/neuronx-tgi:latest
    ports:
      - "8081:8081"
    environment:
      - PORT=8081
      - MODEL_ID=${MODEL_ID}
      - HF_AUTO_CAST_TYPE=${HF_AUTO_CAST_TYPE}
      - HF_NUM_CORES=2
      - MAX_BATCH_SIZE=${MAX_BATCH_SIZE}
      - MAX_INPUT_TOKENS=${MAX_INPUT_TOKENS}
      - MAX_TOTAL_TOKENS=${MAX_TOTAL_TOKENS}
      - MAX_CONCURRENT_REQUESTS=512
      #- HF_TOKEN=${HF_TOKEN} #only needed for gated models
    volumes:
      - $PWD:/data #can be removed if you aren't loading locally
    devices:
      - "/dev/neuron0"

Use Docker Compose para implementar el modelo:

docker compose -f docker-compose.yaml --env-file .env up

Para confirmar que el modelo se implementó correctamente, envíe un mensaje de prueba al modelo:

curl 127.0.0.1:8081/generate \
    -X POST \
    -d '{
  "inputs":"Tell me about AWS.",
  "parameters":{
    "max_new_tokens":60
  }
}' \
    -H 'Content-Type: application/json'

Para confirmar que el modelo puede responder en varios idiomas, intente enviar un aviso en chino:

#"Tell me how to open an AWS account"
curl 127.0.0.1:8081/generate \
    -X POST \
    -d '{
  "inputs":"告诉我如何开设 AWS 账户。", 
  "parameters":{
    "max_new_tokens":60
  }
}' \
    -H 'Content-Type: application/json'

Opción 2: Implementar TGI en Sagemaker

También puede usar la biblioteca de neuronas óptimas de Hugging Face para implementar rápidamente modelos directamente de Sagemaker utilizando instrucciones en el Hub Model de abrazaderas.

Desde el centro de tarjetas de modelo Qwen 2.5, elija Desplegarentonces Sagemakery finalmente AWS Inferentia y Entrenium.

Cómo encontrar el código que necesitará implementar el modelo utilizando AWS Inferentia y Entrenium

Copie el código de ejemplo en un cuaderno de Sagemaker, luego elija Correr.
El cuaderno que copió se verá como lo siguiente:

import json
import sagemaker
import boto3
from sagemaker.huggingface import HuggingFaceModel, get_huggingface_llm_image_uri

try:
    role = sagemaker.get_execution_role()
except ValueError:
    iam = boto3.client("iam")
    role = iam.get_role(RoleName="sagemaker_execution_role")["Role"]["Arn"]

# Hub Model configuration. https://huggingface.co/models
hub = {
    "HF_MODEL_ID": "Qwen/Qwen2.5-7B-Instruct",
    "HF_NUM_CORES": "2",
    "HF_AUTO_CAST_TYPE": "bf16",
    "MAX_BATCH_SIZE": "8",
    "MAX_INPUT_TOKENS": "3686",
    "MAX_TOTAL_TOKENS": "4096",
}


region = boto3.Session().region_name
image_uri = f"763104351884.dkr.ecr.{region}.amazonaws.com/huggingface-pytorch-tgi-inference:2.1.2-optimum0.0.27-neuronx-py310-ubuntu22.04"

# create Hugging Face Model Class
huggingface_model = HuggingFaceModel(
    image_uri=image_uri,
    env=hub,
    role=role,
)

# deploy model to SageMaker Inference
predictor = huggingface_model.deploy(
    initial_instance_count=1,
    instance_type="ml.inf2.xlarge",
    container_startup_health_check_timeout=1800,
    volume_size=512,
)

# send request
predictor.predict(
    {
        "inputs": "What is is the capital of France?",
        "parameters": {
            "do_sample": True,
            "max_new_tokens": 128,
            "temperature": 0.7,
            "top_k": 50,
            "top_p": 0.95,
        }
    }
)

Limpiar

Asegúrese de terminar sus instancias de EC2 y eliminar sus puntos finales de Sagemaker para evitar los costos continuos.

Terminar instancias de EC2 a través del Consola de gestión de AWS.

Terminar un punto final de Sagemaker a través de la consola o con los siguientes comandos:

predictor.delete_model()
predictor.delete_endpoint(delete_endpoint_config=True)

Conclusión

AWS Trainium y AWS Inferentia ofrecen un alto rendimiento y un bajo costo para implementar modelos QWEN2.5. Estamos emocionados de ver cómo utilizará estos poderosos modelos y nuestra infraestructura de IA especialmente diseñada para crear aplicaciones de IA diferenciadas. Para obtener más información sobre cómo comenzar con las chips AWS AI, vea el Documentación de la neurona de AWS.

Sobre los autores

Jim Burtoft es un arquitecto senior de soluciones de startups en AWS y trabaja directamente con nuevas empresas, así como el equipo de Hugging Face. Jim es un CISSP, parte de la comunidad de campo técnico de AWS AI/ML, parte de la comunidad de ciencias de los datos de Neuron, y trabaja con la comunidad de código abierto para permitir el uso de inferentios y capacitaciones. Jim tiene una licenciatura en matemáticas de la Universidad Carnegie Mellon y una maestría en economía de la Universidad de Virginia.

Perfil de Miriam Lebowitz Miriam Lebowitz es un arquitecto de soluciones centrado en empoderar a las nuevas empresas en la etapa inicial en AWS. Aprovecha su experiencia con AIML para guiar a las empresas para seleccionar e implementar las tecnologías adecuadas para sus objetivos comerciales, estableciéndolos para un crecimiento escalable e innovación en el mundo de inicio competitivo.

Rhia Soni es un arquitecto de soluciones de inicio en AWS. RHIA se especializa en trabajar con nuevas empresas de etapas y ayuda a los clientes a adoptar inferentia y entrenamiento. RHIA también es parte de la comunidad de campo técnico de AWS Analytics y es un experto en materia en BI generativo. RHIA tiene una licenciatura en ciencias de la información de la Universidad de Maryland.

Paul Aiuto es un gerente senior de arquitecto de soluciones centrado en las nuevas empresas en AWS. Paul creó un equipo de arquitectos de soluciones de inicio de AWS que se centran en la adopción de inferentia y entrenamiento. Paul posee una licenciatura en informática de Siena College y tiene múltiples certificaciones de seguridad cibernética.

Cómo ejecutar Qwen 2.5 en AWS AI Chips usando bibliotecas de Facing Face

ByEquipo de 7 minutos

Preparación

Opción 1: Implementar TGI en Amazon EC2 Inf2

Opción 2: Implementar TGI en Sagemaker

Limpiar

Conclusión

Sobre los autores

By Equipo de 7 minutos

Related Post

Presentamos Gemma 4 12B

Google lanza Gemini 3.5 Live Translate, un modelo de transmisión de audio de voz a voz que cubre más de 70 idiomas en Meet, Translate y Live API

Las consecuencias de depender de la IA para obtener noticias precisas | Noticias del MIT

You missed

Por qué un resultado detectable de la prueba del VIH puede significar que el virus ya está destruido

Trump se jodió a sí mismo cuando jodió a los votantes latinos

Sueña Torrevieja saluda el ascenso del SC Torrevieja CF y pide una urgente remodelación del Estadio Vicente García – The Leader

Blog de chismes deportivos n.° 1 en el mundo