Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

README.md +0 -38
adapter_config.json +5 -5
adapter_model.bin +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +90 -58
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -216,42 +216,4 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
-- PEFT 0.6.0.dev0
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: bfloat16
-### Framework versions
-- PEFT 0.6.0.dev0
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: bfloat16
-### Framework versions
 - PEFT 0.6.0.dev0


216	### Framework versions
217
218






































219	- PEFT 0.6.0.dev0

adapter_config.json CHANGED Viewed

@@ -12,18 +12,18 @@
   "lora_dropout": 0.05,
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 12,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
     "q_proj",
     "gate_proj",
     "up_proj",
-    "o_proj",
     "lm_head",
-    "down_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "lora_dropout": 0.05,
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 10,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
     "q_proj",
+    "o_proj",
+    "v_proj",
     "gate_proj",
     "up_proj",
     "lm_head",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2150c8fa66f0ac27454b3bdcd5f06b4c6d50dc0a4daf184b0c9366ccdf1a53b
-size 127723221

 version https://git-lfs.github.com/spec/v1
+oid sha256:e656ad14e1d76b0391a061c1797fbf326c79c057f1731672e11cb75b6a6e1fa6
+size 106462933

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ee9e99599620e6d99b7c0f7860a3e128ca1e019457489dfc988dff60f05bd2a
-size 64412071

 version https://git-lfs.github.com/spec/v1
+oid sha256:6393c7ed447f7a3f01c6918424051ce72b5a6b770778a57372124a39168a7cfe
+size 53769383

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eaad1333a3bbd8bb7f42087a3d194baa5d5b31e31c620c9b7c1a1bfdb3b9fdc0
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:46da827e165696189c34c2493b211d8adc8abaffc57cfa6ca30d52808eb30a0e
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24df190247b5dc787d466cf5337ca4a8c96908de4b7a00392f0a5223b5941c70
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:08342e596f9ce0d2810a89135af8758741c90d0421d3905ccfac5d85179e1963
 size 627

trainer_state.json CHANGED Viewed

@@ -1,105 +1,137 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1363636363636362,
   "eval_steps": 50,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.11,
-      "eval_loss": 1.453033447265625,
-      "eval_runtime": 11.4227,
-      "eval_samples_per_second": 9.63,
-      "eval_steps_per_second": 1.226,
       "step": 50
     },
     {
-      "epoch": 0.23,
-      "eval_loss": 1.4157308340072632,
-      "eval_runtime": 11.406,
-      "eval_samples_per_second": 9.644,
-      "eval_steps_per_second": 1.227,
       "step": 100
     },
     {
-      "epoch": 0.34,
-      "eval_loss": 1.3941584825515747,
-      "eval_runtime": 11.4049,
-      "eval_samples_per_second": 9.645,
-      "eval_steps_per_second": 1.228,
       "step": 150
     },
     {
-      "epoch": 0.45,
-      "eval_loss": 1.3821239471435547,
-      "eval_runtime": 11.4018,
-      "eval_samples_per_second": 9.648,
-      "eval_steps_per_second": 1.228,
       "step": 200
     },
     {
-      "epoch": 0.57,
-      "eval_loss": 1.3709255456924438,
-      "eval_runtime": 11.3981,
-      "eval_samples_per_second": 9.651,
-      "eval_steps_per_second": 1.228,
       "step": 250
     },
     {
-      "epoch": 0.68,
-      "eval_loss": 1.3664299249649048,
-      "eval_runtime": 11.3976,
-      "eval_samples_per_second": 9.651,
-      "eval_steps_per_second": 1.228,
       "step": 300
     },
     {
-      "epoch": 0.8,
-      "eval_loss": 1.3568395376205444,
-      "eval_runtime": 11.4,
-      "eval_samples_per_second": 9.649,
-      "eval_steps_per_second": 1.228,
       "step": 350
     },
     {
-      "epoch": 0.91,
-      "eval_loss": 1.3490984439849854,
-      "eval_runtime": 11.3989,
-      "eval_samples_per_second": 9.65,
-      "eval_steps_per_second": 1.228,
       "step": 400
     },
     {
-      "epoch": 1.02,
-      "eval_loss": 1.3464051485061646,
-      "eval_runtime": 11.3981,
-      "eval_samples_per_second": 9.651,
-      "eval_steps_per_second": 1.228,
       "step": 450
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 0.0,
-      "loss": 1.3927,
       "step": 500
     },
     {
-      "epoch": 1.14,
-      "eval_loss": 1.343943476676941,
-      "eval_runtime": 11.3987,
-      "eval_samples_per_second": 9.65,
-      "eval_steps_per_second": 1.228,
       "step": 500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 500,
-  "num_train_epochs": 2,
   "save_steps": 50,
-  "total_flos": 2.6741709176832e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9446693657219973,
   "eval_steps": 50,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.07,
+      "eval_loss": 1.4132792949676514,
+      "eval_runtime": 24.6579,
+      "eval_samples_per_second": 4.056,
+      "eval_steps_per_second": 0.527,
       "step": 50
     },
     {
+      "epoch": 0.13,
+      "eval_loss": 1.3802086114883423,
+      "eval_runtime": 24.6958,
+      "eval_samples_per_second": 4.049,
+      "eval_steps_per_second": 0.526,
       "step": 100
     },
     {
+      "epoch": 0.2,
+      "eval_loss": 1.3620883226394653,
+      "eval_runtime": 24.6721,
+      "eval_samples_per_second": 4.053,
+      "eval_steps_per_second": 0.527,
       "step": 150
     },
     {
+      "epoch": 0.27,
+      "eval_loss": 1.34859037399292,
+      "eval_runtime": 24.7313,
+      "eval_samples_per_second": 4.043,
+      "eval_steps_per_second": 0.526,
       "step": 200
     },
     {
+      "epoch": 0.34,
+      "eval_loss": 1.3401516675949097,
+      "eval_runtime": 24.6981,
+      "eval_samples_per_second": 4.049,
+      "eval_steps_per_second": 0.526,
       "step": 250
     },
     {
+      "epoch": 0.4,
+      "eval_loss": 1.3350552320480347,
+      "eval_runtime": 24.7526,
+      "eval_samples_per_second": 4.04,
+      "eval_steps_per_second": 0.525,
       "step": 300
     },
     {
+      "epoch": 0.47,
+      "eval_loss": 1.3288078308105469,
+      "eval_runtime": 24.7114,
+      "eval_samples_per_second": 4.047,
+      "eval_steps_per_second": 0.526,
       "step": 350
     },
     {
+      "epoch": 0.54,
+      "eval_loss": 1.3192832469940186,
+      "eval_runtime": 24.7246,
+      "eval_samples_per_second": 4.045,
+      "eval_steps_per_second": 0.526,
       "step": 400
     },
     {
+      "epoch": 0.61,
+      "eval_loss": 1.3144173622131348,
+      "eval_runtime": 24.6861,
+      "eval_samples_per_second": 4.051,
+      "eval_steps_per_second": 0.527,
       "step": 450
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 7.224606580829757e-06,
+      "loss": 1.3853,
       "step": 500
     },
     {
+      "epoch": 0.67,
+      "eval_loss": 1.3092302083969116,
+      "eval_runtime": 24.7017,
+      "eval_samples_per_second": 4.048,
+      "eval_steps_per_second": 0.526,
       "step": 500
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 1.303202509880066,
+      "eval_runtime": 24.6861,
+      "eval_samples_per_second": 4.051,
+      "eval_steps_per_second": 0.527,
+      "step": 550
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 1.29935884475708,
+      "eval_runtime": 24.6791,
+      "eval_samples_per_second": 4.052,
+      "eval_steps_per_second": 0.527,
+      "step": 600
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 1.2970906496047974,
+      "eval_runtime": 24.7065,
+      "eval_samples_per_second": 4.048,
+      "eval_steps_per_second": 0.526,
+      "step": 650
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 1.2959811687469482,
+      "eval_runtime": 24.7115,
+      "eval_samples_per_second": 4.047,
+      "eval_steps_per_second": 0.526,
+      "step": 700
     }
   ],
   "logging_steps": 500,
+  "max_steps": 700,
+  "num_train_epochs": 1,
   "save_steps": 50,
+  "total_flos": 4.49645833728e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2a1de93ca3f75dfe8a6874d4a701715ed98c1760f8beb885a31aa9489fe5d89
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:127d5f0e7e6f41442f9837e46f4f0568cb2b6b2eb071d6ef7a98e02aadc0d78d
 size 4027