اولین مدل خود را روی Colab رایگان ریزتنظیم کنید: QLoRA در حدود ۴۰ خط

ریزتنظیم یک مدل نیازی به خوشه‌ای پرهزینه ندارد. با QLoRA می‌توان مدلی کوچک را روی یک GPU رایگان و تنها با چند ده خط کد تنظیم کرد.

ریزتنظیم یک مدل زبانی زمانی تنها با خوشه‌های پردازشی پرهزینه ممکن بود. امروز با روشی به نام QLoRA می‌توان یک مدل کوچک را روی همان کارت گرافیک رایگانی که در Colab در دسترس است تنظیم کرد. در این راهنما، کل این مسیر را در حدود چهل خط کد مرور می‌کنیم.

چرا QLoRA این کار را ممکن می‌سازد

ریزتنظیم کامل یک مدل هفت‌میلیاردی به حدود ۱۴۰ گیگابایت حافظه نیاز دارد؛ کاری که مستلزم به‌کارگیری چندین کارت گرافیک در کنار یکدیگر است. روش LoRA این رقم را به حدود ۱۶ گیگابایت کاهش می‌دهد، چرا که به‌جای آموزش کل مدل، تنها چند ماتریس کوچک را آموزش می‌دهد و بدنه اصلی را ثابت نگه می‌دارد. روش QLoRA یک گام فراتر می‌رود: بدنه اصلی مدل را در دقت چهاربیتی فشرده می‌کند و همان ماتریس‌های کوچک را روی آن آموزش می‌دهد. در نتیجه، حافظه موردنیاز برای همان مدل هفت‌میلیاردی به حدود ۶ گیگابایت می‌رسد؛ حجمی که به‌راحتی روی یک کارت گرافیک معمولی و رایگان جا می‌شود. بهای این صرفه‌جویی نیز ناچیز است: سرعت آموزش کمی کاهش می‌یابد و کیفیت اندکی پایین‌تر می‌آید که برای بیشتر کاربردها کاملاً پذیرفتنی است.

مراحل گام‌به‌گام

کل این کار در چند مرحله خلاصه می‌شود: بارگذاری مدل پایه به‌صورت چهاربیتی، افزودن آداپتورهای LoRA، آماده‌سازی یک مجموعه داده کوچک، اعمال چند تنظیم کلیدی، و در نهایت آموزش.

from transformers import (AutoModelForCausalLM, AutoTokenizer,
                          BitsAndBytesConfig, TrainingArguments)
from peft import LoraConfig, get_peft_model
from trl import SFTTrainer
from datasets import load_dataset
import torch

model_name = "your-base-model"

# ۱. بارگذاری مدل پایه به‌صورت چهاربیتی (QLoRA)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)
model = AutoModelForCausalLM.from_pretrained(
    model_name, quantization_config=bnb_config, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

# ۲. افزودن بافت‌های LoRA
lora_config = LoraConfig(
    r=16, lora_alpha=32, target_modules="all-linear",
    lora_dropout=0.05, bias="none", task_type="CAUSAL_LM")
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

# ۳. بارگذاری داده‌ها (داده خودتان را اینجا بگذارید)
dataset = load_dataset("your_dataset", split="train")

# ۴. تنظیمات آموزش
args = TrainingArguments(
    num_train_epochs=1,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=16,
    learning_rate=2e-4,
    lr_scheduler_type="cosine",
    warmup_ratio=0.03,
    fp16=True,
    gradient_checkpointing=True,
    logging_steps=10,
    output_dir="./out")

# ۵. آموزش و ذخیره
trainer = SFTTrainer(model=model, args=args,
                     train_dataset=dataset, max_seq_length=2048)
trainer.train()
model.save_pretrained("./my-lora-adapter")

تنظیمات کلیدی که باید بشناسید

در این کد، چند مقدار بیش از بقیه اهمیت دارند. رتبه (r) ابعاد ماتریس‌های آموزش‌دیده را مشخص می‌کند؛ مقدار r=16 نقطه شروع خوبی برای این کار است. مقدار آلفا (lora_alpha) معمولاً دو برابر رتبه در نظر گرفته می‌شود (یعنی 32). گزینه target_modules=“all-linear” بدین معناست که آداپتورها روی تمامی لایه‌های خطی اعمال شوند؛ رویکردی که امروزه به رویه‌ای متداول تبدیل شده است. نرخ یادگیری 2e-4 برای QLoRA مناسب است. همچنین در خصوص تعداد دوره‌های آموزش محتاط باشید: در بیشتر مواقع یک دوره کافی است و افزایش آن می‌تواند خطر بیش‌برازش را افزایش دهد.

ادغام و استنتاج

پس از آموزش، دو راه پیش رو دارید. می‌توانید آداپتور کوچک خود را که تنها چند ده مگابایت حجم دارد به‌صورت مجزا نگه دارید و در کنار مدل پایه بارگذاری کنید؛ این روش برای زمانی مناسب است که می‌خواهید چندین وظیفه مختلف را مدیریت کنید. همچنین می‌توانید آداپتور را با مدل پایه ادغام کنید تا مدلی یکپارچه با حداکثر سرعت اجرا به دست آید؛ این شیوه برای استقرار نهایی مناسب‌تر است. برای سنجش خروجی نیز کافی است مدل را در حالت ارزیابی قرار دهید، با یک پرامپت نمونه از آن خروجی بگیرید و نتیجه را با مدل پایه مقایسه کنید.

عیب‌یابی و رفع مشکلات رایج

سه مشکل رایج و راه‌حل آن‌ها به این شرح است: اگر با کمبود حافظه مواجه شدید، این مراحل را به ترتیب امتحان کنید: فعال‌سازی gradient checkpointing، کاهش اندازه دسته به یک و جبران آن با انباشت گرادیان، استفاده از حالت چهاربیتی، و در نهایت کوتاه‌تر کردن طول توالی. اگر مقدار خطا کاهش نمی‌یابد، نرخ یادگیری را کمی افزایش دهید و مطمئن شوید که آداپتورها به درستی اعمال شده‌اند. در نهایت، اگر خروجی مدل بی‌معنی شد، معمولاً علت آن بالا بودن بیش از حد نرخ یادگیری یا تعداد زیاد دوره‌های آموزش است. با تنظیم دقیق همین چند پارامتر، تقریباً تمامی مشکلات اولیه برطرف خواهند شد.