PathFinderKR commited on
Commit
e6fbc1d
1 Parent(s): 199d637

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -4
README.md CHANGED
@@ -84,7 +84,7 @@ model = AutoModelForCausalLM.from_pretrained(
84
  num_return_sequences=1
85
  max_new_tokens=1024
86
  temperature=0.9
87
- top_k=40
88
  top_p=0.9
89
  repetition_penalty=1.1
90
 
@@ -179,15 +179,15 @@ bias="none"
179
  ################################################################################
180
  # TrainingArguments parameters
181
  ################################################################################
182
- num_train_epochs=2
183
  per_device_train_batch_size=1
184
- gradient_accumulation_steps=1
185
  gradient_checkpointing=True
186
  learning_rate=2e-5
187
  lr_scheduler_type="cosine"
188
  warmup_ratio=0.1
189
  optim = "adamw_torch"
190
- weight_decay=0.1
191
 
192
  ################################################################################
193
  # SFT parameters
 
84
  num_return_sequences=1
85
  max_new_tokens=1024
86
  temperature=0.9
87
+ top_k=0 # not recommended
88
  top_p=0.9
89
  repetition_penalty=1.1
90
 
 
179
  ################################################################################
180
  # TrainingArguments parameters
181
  ################################################################################
182
+ num_train_epochs=1
183
  per_device_train_batch_size=1
184
+ gradient_accumulation_steps=4
185
  gradient_checkpointing=True
186
  learning_rate=2e-5
187
  lr_scheduler_type="cosine"
188
  warmup_ratio=0.1
189
  optim = "adamw_torch"
190
+ weight_decay=0.01
191
 
192
  ################################################################################
193
  # SFT parameters