Spaces:

hoduyquocbao
/

LLAMA3.2-GRop

Sleeping

App Files Files Community

hoduyquocbao commited on Sep 27

Commit

a0546fe

•

1 Parent(s): 0d17543

update code feature

Browse files

Files changed (2) hide show

app.py +4 -2
checkpoint.py +10 -10

app.py CHANGED Viewed

@@ -24,7 +24,7 @@ Demo này giới thiệu [`meta-llama/Llama-3.2-3B-Instruct`](https://huggingfac
 MAX_MAX_NEW_TOKENS = 2048  # Số token tối đa có thể tạo ra
 DEFAULT_MAX_NEW_TOKENS = 1024  # Số token tạo ra mặc định
-MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "4096"))  # Độ dài token tối đa cho đầu vào
 # Xác định thiết bị sử dụng (GPU nếu có, ngược lại CPU)
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
@@ -272,7 +272,7 @@ def handle_functions(function_call: Dict[str, Any], prompt: str, chat_history: L
 # ---------------------------- Giao Diện Gradio ---------------------------- #
-@spaces.GPU(duration=15, queue=False)
 def generate(
     message: str,
     chat_history: List[Tuple[str, str]],
@@ -287,6 +287,8 @@ def generate(
     """
     # Thông báo về việc phân tích đầu vào
     yield "🔍 Đang phân tích truy vấn của bạn..."
     # Xác định hàm nào sẽ được gọi dựa trên tin nhắn của người dùng
     function_call = process_query(message)

 MAX_MAX_NEW_TOKENS = 2048  # Số token tối đa có thể tạo ra
 DEFAULT_MAX_NEW_TOKENS = 1024  # Số token tạo ra mặc định
+MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "128000"))  # Độ dài token tối đa cho đầu vào
 # Xác định thiết bị sử dụng (GPU nếu có, ngược lại CPU)
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 # ---------------------------- Giao Diện Gradio ---------------------------- #
+@spaces.GPU(duration=20, queue=False)
 def generate(
     message: str,
     chat_history: List[Tuple[str, str]],
     """
     # Thông báo về việc phân tích đầu vào
     yield "🔍 Đang phân tích truy vấn của bạn..."
+    continuous_training(max_epochs=3)
     # Xác định hàm nào sẽ được gọi dựa trên tin nhắn của người dùng
     function_call = process_query(message)

checkpoint.py CHANGED Viewed

@@ -26,7 +26,7 @@ train_dataset = split_dataset['train']
 validation_dataset = split_dataset['test']
 # Tiền Xử Lý Văn Bản
-@spaces.GPU(duration=180, queue=False)
 def preprocess_function(examples):
     passages = [passage.lower().strip() for passage in examples['passage']]
     return {'passage': passages}
@@ -42,7 +42,7 @@ tokenizer = AutoTokenizer.from_pretrained(model_name)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
-@spaces.GPU(duration=180, queue=False)
 def tokenize_function(examples):
     return tokenizer(
         examples['passage'],
@@ -55,7 +55,7 @@ tokenized_train = processed_train.map(tokenize_function, batched=True)
 tokenized_validation = processed_validation.map(tokenize_function, batched=True)
 # Thêm trường 'labels'
-@spaces.GPU(duration=180, queue=False)
 def add_labels(examples):
     examples['labels'] = examples['input_ids'].copy()
     return examples
@@ -107,9 +107,9 @@ training_args = TrainingArguments(
     weight_decay=0.01,
     logging_steps=50,  # Giảm số bước logging
     evaluation_strategy="steps",  # Đánh giá sau mỗi vài bước
-    eval_steps=100,  # Đánh giá sau mỗi 100 bước
     save_strategy="steps",  # Lưu checkpoint sau mỗi vài bước
-    save_steps=100,  # Lưu checkpoint sau mỗi 100 bước
     save_total_limit=5,  # Giới hạn số lượng checkpoint lưu trữ
     fp16=True,
     report_to="none",
@@ -134,7 +134,7 @@ trainer = Trainer(
 )
 # Định Nghĩa Hàm Huấn Luyện với Decorator @spaces.GPU
-@spaces.GPU(duration=180, queue=False)
 def run_training():
     # Kiểm tra nếu có checkpoint
     checkpoints = [os.path.join(CHECKPOINT_DIR, d) for d in os.listdir(CHECKPOINT_DIR) if d.startswith('checkpoint')]
@@ -150,7 +150,7 @@ def run_training():
     return "Huấn luyện hoàn tất hoặc đã tiếp tục từ checkpoint."
 # Hàm Tự Động Hóa Việc Gọi Lặp Lại `run_training`
-@spaces.GPU(duration=180, queue=False)
 def continuous_training(max_epochs=3):
     current_epoch = 0
     while current_epoch < max_epochs:
@@ -169,6 +169,6 @@ def continuous_training(max_epochs=3):
         # Chờ một khoảng thời gian trước khi gọi lại (tùy thuộc vào yêu cầu của hệ thống)
         time.sleep(1)  # Thời gian chờ có thể điều chỉnh
-# Chạy quá trình huấn luyện liên tục
-if __name__ == "__main__":
-    continuous_training(max_epochs=3)

 validation_dataset = split_dataset['test']
 # Tiền Xử Lý Văn Bản
+@spaces.GPU(duration=20, queue=False)
 def preprocess_function(examples):
     passages = [passage.lower().strip() for passage in examples['passage']]
     return {'passage': passages}
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
+@spaces.GPU(duration=20, queue=False)
 def tokenize_function(examples):
     return tokenizer(
         examples['passage'],
 tokenized_validation = processed_validation.map(tokenize_function, batched=True)
 # Thêm trường 'labels'
+# @spaces.GPU(duration=20, queue=False)
 def add_labels(examples):
     examples['labels'] = examples['input_ids'].copy()
     return examples
     weight_decay=0.01,
     logging_steps=50,  # Giảm số bước logging
     evaluation_strategy="steps",  # Đánh giá sau mỗi vài bước
+    eval_steps=50,  # Đánh giá sau mỗi 100 bước
     save_strategy="steps",  # Lưu checkpoint sau mỗi vài bước
+    save_steps=50,  # Lưu checkpoint sau mỗi 100 bước
     save_total_limit=5,  # Giới hạn số lượng checkpoint lưu trữ
     fp16=True,
     report_to="none",
 )
 # Định Nghĩa Hàm Huấn Luyện với Decorator @spaces.GPU
+@spaces.GPU(duration=20, queue=False)
 def run_training():
     # Kiểm tra nếu có checkpoint
     checkpoints = [os.path.join(CHECKPOINT_DIR, d) for d in os.listdir(CHECKPOINT_DIR) if d.startswith('checkpoint')]
     return "Huấn luyện hoàn tất hoặc đã tiếp tục từ checkpoint."
 # Hàm Tự Động Hóa Việc Gọi Lặp Lại `run_training`
+@spaces.GPU(duration=20, queue=False)
 def continuous_training(max_epochs=3):
     current_epoch = 0
     while current_epoch < max_epochs:
         # Chờ một khoảng thời gian trước khi gọi lại (tùy thuộc vào yêu cầu của hệ thống)
         time.sleep(1)  # Thời gian chờ có thể điều chỉnh
+# # Chạy quá trình huấn luyện liên tục
+# if __name__ == "__main__":
+#     continuous_training(max_epochs=3)