Spaces:
Sleeping
Sleeping
File size: 5,703 Bytes
0d17543 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 |
import os
import torch
from datasets import load_dataset
from transformers import (
AutoTokenizer,
AutoModelForCausalLM,
TrainingArguments,
Trainer,
DataCollatorForLanguageModeling
)
from peft import LoraConfig, get_peft_model
import spaces
import time
# Đường dẫn lưu checkpoint
CHECKPOINT_DIR = "./checkpoints"
if not os.path.exists(CHECKPOINT_DIR):
os.makedirs(CHECKPOINT_DIR)
# Tải Dataset
dataset = load_dataset('vntc/wiki-mini-corpus')
# Chia Dataset thành train và validation
split_dataset = dataset['train'].train_test_split(test_size=0.1, seed=42)
train_dataset = split_dataset['train']
validation_dataset = split_dataset['test']
# Tiền Xử Lý Văn Bản
@spaces.GPU(duration=180, queue=False)
def preprocess_function(examples):
passages = [passage.lower().strip() for passage in examples['passage']]
return {'passage': passages}
processed_train = train_dataset.map(preprocess_function, batched=True, remove_columns=['id', 'metadata'])
processed_validation = validation_dataset.map(preprocess_function, batched=True, remove_columns=['id', 'metadata'])
# Tokenization
model_name = "meta-llama/Llama-3.2-3B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
# Đảm bảo tokenizer có pad_token
if tokenizer.pad_token is None:
tokenizer.pad_token = tokenizer.eos_token
@spaces.GPU(duration=180, queue=False)
def tokenize_function(examples):
return tokenizer(
examples['passage'],
padding='max_length',
truncation=True,
max_length=512,
)
tokenized_train = processed_train.map(tokenize_function, batched=True)
tokenized_validation = processed_validation.map(tokenize_function, batched=True)
# Thêm trường 'labels'
@spaces.GPU(duration=180, queue=False)
def add_labels(examples):
examples['labels'] = examples['input_ids'].copy()
return examples
tokenized_train = tokenized_train.map(add_labels, batched=True)
tokenized_validation = tokenized_validation.map(add_labels, batched=True)
# Loại bỏ các cột không cần thiết
tokenized_train = tokenized_train.remove_columns(['passage'])
tokenized_validation = tokenized_validation.remove_columns(['passage'])
# Định dạng dữ liệu cho PyTorch
tokenized_train.set_format('torch')
tokenized_validation.set_format('torch')
# Tạo DatasetDict
final_dataset = {
'train': tokenized_train,
'validation': tokenized_validation
}
# Tải và Cấu Hình Mô Hình với LoRA
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.float16,
load_in_8bit=False
)
lora_config = LoraConfig(
r=8,
lora_alpha=32,
target_modules=["q_proj", "k_proj", "v_proj", "out_proj"],
lora_dropout=0.1,
bias="none",
)
model = get_peft_model(model, lora_config)
print(model)
# Cấu Hình TrainingArguments
training_args = TrainingArguments(
output_dir=CHECKPOINT_DIR,
per_device_train_batch_size=4,
per_device_eval_batch_size=4,
gradient_accumulation_steps=8,
num_train_epochs=3,
learning_rate=3e-4,
weight_decay=0.01,
logging_steps=50, # Giảm số bước logging
evaluation_strategy="steps", # Đánh giá sau mỗi vài bước
eval_steps=100, # Đánh giá sau mỗi 100 bước
save_strategy="steps", # Lưu checkpoint sau mỗi vài bước
save_steps=100, # Lưu checkpoint sau mỗi 100 bước
save_total_limit=5, # Giới hạn số lượng checkpoint lưu trữ
fp16=True,
report_to="none",
load_best_model_at_end=True,
)
# Data Collator
data_collator = DataCollatorForLanguageModeling(
tokenizer=tokenizer,
mlm=False, # Vì bạn đang thực hiện Causal LM
pad_to_multiple_of=8
)
# Tạo Trainer
trainer = Trainer(
model=model,
args=training_args,
train_dataset=final_dataset['train'],
eval_dataset=final_dataset['validation'],
tokenizer=tokenizer,
data_collator=data_collator,
)
# Định Nghĩa Hàm Huấn Luyện với Decorator @spaces.GPU
@spaces.GPU(duration=180, queue=False)
def run_training():
# Kiểm tra nếu có checkpoint
checkpoints = [os.path.join(CHECKPOINT_DIR, d) for d in os.listdir(CHECKPOINT_DIR) if d.startswith('checkpoint')]
if checkpoints:
latest_checkpoint = max(checkpoints, key=os.path.getctime)
print(f"Đang tiếp tục huấn luyện từ checkpoint: {latest_checkpoint}")
trainer.train(resume_from_checkpoint=latest_checkpoint)
else:
trainer.train()
# Lưu checkpoint sau khi huấn luyện
trainer.save_model(CHECKPOINT_DIR)
return "Huấn luyện hoàn tất hoặc đã tiếp tục từ checkpoint."
# Hàm Tự Động Hóa Việc Gọi Lặp Lại `run_training`
@spaces.GPU(duration=180, queue=False)
def continuous_training(max_epochs=3):
current_epoch = 0
while current_epoch < max_epochs:
result = run_training()
print(result)
# Giả định mỗi lần gọi huấn luyện tiến thêm 0.25 epoch (tùy thuộc vào tốc độ huấn luyện)
current_epoch += 0.25
print(f"Đã huấn luyện {current_epoch} / {max_epochs} epochs.")
# Kiểm tra nếu đã đạt số epoch mong muốn
if current_epoch >= max_epochs:
print("Đã hoàn thành quá trình huấn luyện.")
break
# Chờ một khoảng thời gian trước khi gọi lại (tùy thuộc vào yêu cầu của hệ thống)
time.sleep(1) # Thời gian chờ có thể điều chỉnh
# Chạy quá trình huấn luyện liên tục
if __name__ == "__main__":
continuous_training(max_epochs=3)
|