Cómo alinear modelos de lenguaje grandes con las preferencias humanas mediante la optimización de preferencias directas, QLoRA y Ultra-Feedback

En este tutorial, implementamos un flujo de trabajo de optimización directa de preferencias de un extremo a otro para alinear un modelo de lenguaje grande con las preferencias humanas sin utilizar un modelo de recompensa. Combinamos DPOTrainer de TRL con QLoRA y PEFT para hacer factible la alineación basada en preferencias en una única GPU Colab. Entrenamos directamente en el conjunto de datos binarios UltraFeedback, donde cada mensaje tiene una respuesta elegida y una rechazada, lo que nos permite dar forma al comportamiento y estilo del modelo en lugar de simplemente recordar hechos.

importar sistema operativo importar matemáticas importar aleatorio importar antorcha !pip -q install -U “transformers>=4.45.0” “datasets>=2.19.0” “accelerate>=0.33.0” “trl>=0.27.0” “peft>=0.12.0” “bitsandbytes>=0.43.0” “sentencepiece” “evaluate” SEED = 42 random.seed(SEED) torch.manual_seed(SEED) torch.cuda.manual_seed_all(SEED) MODEL_NAME = os.environ.get(“MODEL_NAME”, “Qwen/Qwen2-0.5B-Instruct”) DATASET_NAME = “HuggingFaceH4/ultrafeedback_binarized” OUTPUT_DIR = “dpo_ultrafeedback_qlora” MAX_TRAIN_SAMPLES = 8000 MAX_EVAL_SAMPLES = 200 MAX_PROMPT_LEN = 512 MAX_COMPLETION_LEN = 256 BETA = 0.1 LR = 2e-4 EPOCHS = 1 PER_DEVICE_BS = 2 GRAD_ACCUM = 8 LOGGING_STEPS = 10 SAVE_STEPS = 200 dispositivo = “cuda” si torch.cuda.is_available() más “cpu” print(“Dispositivo:”, dispositivo, “GPU:”, torch.cuda.get_device_name(0) si dispositivo == “cuda” más “Ninguno”)

Configuramos el entorno de ejecución e instalamos todas las bibliotecas necesarias para DPO, PEFT y capacitación cuantificada. Definimos todos los hiperparámetros globales, límites de conjuntos de datos y configuraciones de optimización en un solo lugar. También inicializamos el generador de números aleatorios y confirmamos la disponibilidad de la GPU para garantizar ejecuciones reproducibles.

desde transformadores importe AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type=”nf4″, bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.bfloat16 si torch.cuda.is_available() y antorcha.cuda.get_device_capability(0)[0] >= 8 else torch.float16, ) tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, use_fast=True) si tokenizer.pad_token es Ninguno: tokenizer.pad_token = tokenizer.eos_token model = AutoModelForCausalLM.from_pretrained( MODEL_NAME, quantization_config=bnb_config, torch_dtype=torch.bfloat16 si torch.cuda.is_available() y torch.cuda.get_device_capability(0)[0] >= 8 más torch.float16, device_map=”auto”, ) model.config.use_cache = False

Cargamos el tokenizador y el modelo de lenguaje base usando cuantificación de 4 bits para minimizar el uso de memoria. Configuramos bitsandbytes para permitir un cálculo eficiente de estilo QLoRA en GPU Colab. Preparamos el modelo para el entrenamiento deshabilitando el uso de caché para evitar incompatibilidades durante la retropropagación.

desde peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=16, lora_alpha=32, lora_dropout=0.05, sesgo=”none”, task_type=”CAUSAL_LM”, target_modules=[“q_proj”, “k_proj”, “v_proj”, “o_proj”, “up_proj”, “down_proj”, “gate_proj”]) modelo = get_peft_model(modelo, lora_config) model.print_trainable_parameters() model.gradient_checkpointing_enable()

Adjuntamos adaptadores LoRA a las capas de atención y proyección de avance del modelo. Restringimos el entrenamiento a un pequeño conjunto de parámetros para que el ajuste sea eficiente y estable. Habilitamos puntos de control de gradiente para reducir aún más el consumo de memoria de la GPU durante el entrenamiento.

desde conjuntos de datos importar load_dataset ds = load_dataset(DATASET_NAME) train_split = “train_prefs” if “train_prefs” in ds else (“train” if “train” in ds else list(ds.keys())[0]) test_split = “test_prefs” si “test_prefs” en ds else (“prueba” si “test” en ds else Ninguno) train_raw = ds[train_split]
prueba_raw = ds[test_split] si test_split no es Ninguno más Ninguno print(“Splits:”, ds.keys()) print(“Usando train split:”, train_split, “size:”, len(train_raw)) si test_raw no es Ninguno: print(“Usando test split:”, test_split, “size:”, len(test_raw)) def _extract_last_user_and_assistant(messages): last_user_idx = Ninguno last_asst_idx = Ninguno para i, m en enumerate(messages): if m.get(“role”) == “user”: last_user_idx = i if m.get(“role”) == “assistant”: last_asst_idx = i si last_user_idx es Ninguno o last_asst_idx es Ninguno: devuelve Ninguno, Ninguno Prompt_messages = mensajes[: last_user_idx + 1]
asistente_texto = mensajes[last_asst_idx].get(“content”, “”) devuelve mensajes_indicación, texto_asistente def format_example(ex): mensajes_elegidos = ex[“chosen”]
mensajes_rechazados = ex[“rejected”]

Prompt_msgs_c, texto_elegido = _extract_last_user_and_assistant(msgs_elegidos) Prompt_msgs_r, texto_rechazado = _extract_last_user_and_assistant(msgs_rechazados) si Prompt_msgs_c es Ninguno o Prompt_msgs_r es Ninguno: devuelve {“prompt”: Ninguno, “elegido”: Ninguno, “rechazado”: Ninguno} aviso_texto = tokenizer.apply_chat_template( aviso_msgs_c, tokenize=False, add_generación_prompt=True ) return { “prompt”: aviso_texto, “elegido”: texto_elegido.strip(), “rechazado”: texto_rechazado.strip(), } train_raw = train_raw.shuffle(seed=SEED) train_raw = train_raw.select(range(min(MAX_TRAIN_SAMPLES, len(train_raw)))) train_ds = train_raw.map(format_example, remove_columns=train_raw.column_names) train_ds = train_ds.filter(lambda x: x[“prompt”] no es Ninguno y len(x[“chosen”]) > 0 y len(x[“rejected”]) > 0) si test_raw no es Ninguno: test_raw = test_raw.shuffle(seed=SEED) test_raw = test_raw.select(range(min(MAX_EVAL_SAMPLES, len(test_raw)))) eval_ds = test_raw.map(format_example, remove_columns=test_raw.column_names) eval_ds = eval_ds.filter(lambda x: x[“prompt”] no es Ninguno y len(x[“chosen”]) > 0 y len(x[“rejected”]) > 0) else: eval_ds = Ninguno print(“Ejemplos de tren:”, len(train_ds), “Ejemplos de evaluación:”, len(eval_ds) si eval_ds no es Ninguno más 0) print(train_ds[0])

Cargamos el conjunto de datos binarios UltraFeedback y seleccionamos dinámicamente las divisiones de tren y prueba adecuadas. Extraemos respuestas solicitadas, elegidas y rechazadas de conversaciones de varios turnos y las formateamos utilizando la plantilla de chat del modelo. Mezclamos, filtramos y submuestreamos los datos para crear conjuntos de datos de capacitación y evaluación limpios y eficientes.

desde trl importar DPOTrainer, DPOConfig use_bf16 = torch.cuda.is_available() y torch.cuda.get_device_capability(0)[0] >= 8 use_fp16 = torch.cuda.is_available() y no use_bf16training_args = DPOConfig(output_dir=OUTPUT_DIR, beta=BETA, per_device_train_batch_size=PER_DEVICE_BS, gradient_accumulation_steps=GRAD_ACCUM, num_train_epochs=EPOCHS, learning_rate=LR, lr_scheduler_type=”coseno”, warmup_ratio=0.05, logging_steps=LOGGING_STEPS, save_steps=SAVE_STEPS, save_total_limit=2, bf16=use_bf16, fp16=use_fp16, optim=”paged_adamw_8bit”, max_length=MAX_PROMPT_LEN + MAX_COMPLETION_LEN, max_prompt_length=MAX_PROMPT_LEN, report_to=”none”, ) entrenador = DPOTrainer( modelo=modelo, args=training_args, Processing_class=tokenizer, train_dataset=train_ds, eval_dataset=eval_ds, ) entrenador.train() entrenador.save_model(OUTPUT_DIR) tokenizer.save_pretrained(OUTPUT_DIR) print(“Guardado en:”, OUTPUT_DIR)

Configuramos el objetivo de formación del DPO con parámetros de optimización y programación cuidadosamente elegidos. Inicializamos DPOTrainer para optimizar directamente los pares de preferencias sin un modelo de recompensa. Entrenamos los adaptadores LoRA y guardamos los artefactos del modelo alineado para su posterior inferencia.

desde peft importar PeftModel desde transformadores importar tubería def generate_text(model_for_gen, Prompt, max_new_tokens=180): model_for_gen.eval() inputs = tokenizer(prompt, return_tensors=”pt”, truncation=True, max_length=MAX_PROMPT_LEN).to(model_for_gen.device) con torch.no_grad(): out = model_for_gen.generate( **entradas, max_new_tokens=max_new_tokens, do_sample=True, temperatura=0.7, top_p=0.95, pad_token_id=tokenizer.eos_token_id,) devuelve tokenizer.decode(salida[0]skip_special_tokens=True) base_model = AutoModelForCausalLM.from_pretrained( MODEL_NAME, quantization_config=bnb_config, torch_dtype=torch.bfloat16 if use_bf16 else torch.float16, device_map=”auto”, ) base_model.config.use_cache = True dpo_model = PeftModel.from_pretrained(base_model, OUTPUT_DIR) dpo_model.config.use_cache = Verdadero sample_pool = eval_ds si eval_ds no es Ninguno y len(eval_ds) > 0 sino train_ds samples = [sample_pool[i] para i en random.sample(range(len(sample_pool)), k=min(3, len(sample_pool)))]para i, ex en enumerate(samples, 1): solicitud = ex[“prompt”]
print(“\n” + “=”*90) print(f”Muestra #{i}”) print(“- Mensaje:\n”, mensaje) base_out = generate_text(base_model, mensaje) dpo_out = generar_text(dpo_model, mensaje) print(“\n- Salida del modelo base:\n”, base_out) print(“\n- Salida DPO (LoRA):\n”, dpo_out) print(“\nListo.”)

Recargamos el modelo base y adjuntamos los adaptadores DPO LoRA entrenados para realizar inferencias. Generamos respuestas tanto del modelo original como del alineado utilizando las mismas indicaciones de comparación. Evaluamos cualitativamente cómo la optimización de preferencias cambia el comportamiento del modelo inspeccionando las salidas una al lado de la otra.

En conclusión, demostramos cómo DPO proporciona una alternativa estable y eficiente a RLHF al optimizar directamente los pares de preferencias con un objetivo simple y bien definido. Demostramos que el ajuste fino eficiente de los parámetros con LoRA y la cuantificación de 4 bits permite la experimentación práctica incluso bajo estrictas restricciones informáticas. Validamos cualitativamente la alineación comparando generaciones antes y después del entrenamiento de DPO, confirmando que el modelo aprende a preferir respuestas de mayor calidad sin dejar de ser liviano y desplegable.

Consulta los CÓDIGOS COMPLETOS aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Cómo alinear modelos de lenguaje grandes con las preferencias humanas mediante la optimización de preferencias directas, QLoRA y Ultra-Feedback

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

OpenClaw lanza aplicaciones de nodo complementario para iOS y Android que conectan un teléfono a una puerta de enlace de agente de IA autohospedada

3 preguntas: más allá de la estética basada en datos | Noticias del MIT

Completé cinco años en consultoría analítica: 5 lecciones que cambiaron mi forma de trabajar

You missed

El capital privado europeo aumenta la financiación de la IA en las últimas etapas

Playasol I celebra las primeras fiestas populares en Mazarrón « Euro Weekly News

Elliot Page comparte foto de abdominales rasgados y video de boxeo

La NASA se prepara para lanzar una misión sin precedentes para salvar un telescopio espacial moribundo