Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

adapter_config.json +1 -1
adapter_model.bin +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +4 -22
tokenizer.json +0 -0
tokenizer_config.json +190 -15
trainer_state.json +181 -133
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "TinyPixel/Llama-2-7B-bf16-sharded",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "stabilityai/stablelm-3b-4e1t",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a004a2c039a1412699956d44cedddedfe28d479f3c9a71fc7bd84a8320af76e0
-size 160069389

 version https://git-lfs.github.com/spec/v1
+oid sha256:621df5b1123060662d1364f53a3a6d1fdf863b8005705b38d8813283369af872
+size 100299853

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd9ce8f210d12d3d5c469cb1f55f6b32936760d91932420bee2b411f3cbd6ebf
-size 320193565

 version https://git-lfs.github.com/spec/v1
+oid sha256:481cf23b238d66089e09ae1ddc04ce828b77b7057f84c3776a81a751af76d715
+size 200654493

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58fdbed67c3829622dfa48a2bbf084356503a2a890373c8bf0c98c2412e580c5
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9aec56ece09460dca0e33aad7469805f1adede3831970aa606c45379e7c8a98
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:094fe83ba6b00779a606e1c315d5190ccde76611e3c53c464d9f758dd4968766
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:52f9984fd1b97fd57f7922d85f53e112a12c7b483b0a55b762927ced3bbc11dd
 size 627

special_tokens_map.json CHANGED Viewed

@@ -1,24 +1,6 @@
 {
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "</s>",
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
 }

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,37 +1,212 @@
 {
   "added_tokens_decoder": {
     "0": {
-      "content": "<unk>",
       "lstrip": false,
-      "normalized": true,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
     "1": {
-      "content": "<s>",
       "lstrip": false,
-      "normalized": true,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "2": {
-      "content": "</s>",
       "lstrip": false,
       "normalized": true,
       "rstrip": false,
       "single_word": false,
-      "special": true
     }
   },
-  "bos_token": "<s>",
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "</s>",
   "model_max_length": 1024,
-  "pad_token": "</s>",
-  "sp_model_kwargs": {},
-  "tokenizer_class": "LlamaTokenizer",
-  "unk_token": "<unk>",
-  "use_default_system_prompt": true
 }

 {
+  "add_prefix_space": false,
   "added_tokens_decoder": {
     "0": {
+      "content": "<|endoftext|>",
       "lstrip": false,
+      "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
     "1": {
+      "content": "<|padding|>",
       "lstrip": false,
+      "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "50254": {
+      "content": "                        ",
       "lstrip": false,
       "normalized": true,
       "rstrip": false,
       "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
     }
   },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
   "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
 }

trainer_state.json CHANGED Viewed

@@ -1,277 +1,325 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 87,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.07,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 1.8555,
       "step": 2
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 8.888888888888889e-05,
-      "loss": 2.0682,
       "step": 4
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 0.00013333333333333334,
-      "loss": 1.856,
       "step": 6
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 0.00017777777777777779,
-      "loss": 1.8259,
       "step": 8
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 0.00019743589743589744,
-      "loss": 1.7161,
       "step": 10
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 0.00019230769230769233,
-      "loss": 1.7221,
       "step": 12
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.0001871794871794872,
-      "loss": 1.7174,
       "step": 14
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 0.00018205128205128207,
-      "loss": 1.8246,
       "step": 16
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 0.00017692307692307693,
-      "loss": 1.7917,
       "step": 18
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 0.0001717948717948718,
-      "loss": 1.801,
       "step": 20
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 0.0001666666666666667,
-      "loss": 1.8224,
       "step": 22
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 0.00016153846153846155,
-      "loss": 1.6901,
       "step": 24
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 0.00015641025641025642,
-      "loss": 1.9176,
       "step": 26
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 0.00015128205128205128,
-      "loss": 1.7105,
       "step": 28
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 0.00014615384615384615,
-      "loss": 1.7531,
       "step": 30
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 0.00014102564102564104,
-      "loss": 1.7971,
       "step": 32
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 0.0001358974358974359,
-      "loss": 1.7683,
       "step": 34
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 0.00013076923076923077,
-      "loss": 1.6741,
       "step": 36
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 0.00012564102564102564,
-      "loss": 1.6559,
       "step": 38
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 0.00012051282051282052,
-      "loss": 1.675,
       "step": 40
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 0.00011538461538461538,
-      "loss": 1.6712,
       "step": 42
     },
     {
-      "epoch": 1.52,
-      "learning_rate": 0.00011025641025641027,
-      "loss": 1.6978,
       "step": 44
     },
     {
-      "epoch": 1.59,
-      "learning_rate": 0.00010512820512820514,
-      "loss": 1.7027,
       "step": 46
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 0.0001,
-      "loss": 1.737,
       "step": 48
     },
     {
-      "epoch": 1.72,
-      "learning_rate": 9.487179487179487e-05,
-      "loss": 1.5967,
       "step": 50
     },
     {
-      "epoch": 1.79,
-      "learning_rate": 8.974358974358975e-05,
-      "loss": 1.7143,
       "step": 52
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 8.461538461538461e-05,
-      "loss": 1.7453,
       "step": 54
     },
     {
-      "epoch": 1.93,
-      "learning_rate": 7.948717948717948e-05,
-      "loss": 1.6414,
       "step": 56
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 7.435897435897436e-05,
-      "loss": 1.6197,
       "step": 58
     },
     {
-      "epoch": 2.07,
-      "learning_rate": 6.923076923076924e-05,
-      "loss": 1.6796,
       "step": 60
     },
     {
-      "epoch": 2.14,
-      "learning_rate": 6.410256410256412e-05,
-      "loss": 1.531,
       "step": 62
     },
     {
-      "epoch": 2.21,
-      "learning_rate": 5.897435897435898e-05,
-      "loss": 1.6981,
       "step": 64
     },
     {
-      "epoch": 2.28,
-      "learning_rate": 5.384615384615385e-05,
-      "loss": 1.6986,
       "step": 66
     },
     {
-      "epoch": 2.34,
-      "learning_rate": 4.871794871794872e-05,
-      "loss": 1.6096,
       "step": 68
     },
     {
-      "epoch": 2.41,
-      "learning_rate": 4.358974358974359e-05,
-      "loss": 1.6927,
       "step": 70
     },
     {
-      "epoch": 2.48,
-      "learning_rate": 3.846153846153846e-05,
-      "loss": 1.5048,
       "step": 72
     },
     {
-      "epoch": 2.55,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 1.7904,
       "step": 74
     },
     {
-      "epoch": 2.62,
-      "learning_rate": 2.8205128205128207e-05,
-      "loss": 1.5874,
       "step": 76
     },
     {
-      "epoch": 2.69,
-      "learning_rate": 2.307692307692308e-05,
-      "loss": 1.6962,
       "step": 78
     },
     {
-      "epoch": 2.76,
-      "learning_rate": 1.794871794871795e-05,
-      "loss": 1.6124,
       "step": 80
     },
     {
-      "epoch": 2.83,
-      "learning_rate": 1.282051282051282e-05,
-      "loss": 1.5996,
       "step": 82
     },
     {
-      "epoch": 2.9,
-      "learning_rate": 7.692307692307694e-06,
-      "loss": 1.6096,
       "step": 84
     },
     {
-      "epoch": 2.97,
-      "learning_rate": 2.564102564102564e-06,
-      "loss": 1.5895,
       "step": 86
     }
   ],
   "logging_steps": 2,
-  "max_steps": 87,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 5.685086356557005e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9511754068716094,
   "eval_steps": 500,
+  "global_step": 102,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.06,
+      "learning_rate": 3.6363636363636364e-05,
+      "loss": 1.9061,
       "step": 2
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 7.272727272727273e-05,
+      "loss": 1.8587,
       "step": 4
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 0.00010909090909090909,
+      "loss": 1.845,
       "step": 6
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 0.00014545454545454546,
+      "loss": 1.3507,
       "step": 8
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.00018181818181818183,
+      "loss": 1.8295,
       "step": 10
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 0.0001978021978021978,
+      "loss": 1.5907,
       "step": 12
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 0.00019340659340659342,
+      "loss": 1.3843,
       "step": 14
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 0.00018901098901098903,
+      "loss": 1.7658,
       "step": 16
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 0.00018461538461538463,
+      "loss": 1.6267,
       "step": 18
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 0.00018021978021978024,
+      "loss": 1.6378,
       "step": 20
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 0.00017582417582417582,
+      "loss": 1.3681,
       "step": 22
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 0.00017142857142857143,
+      "loss": 1.5606,
       "step": 24
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 0.00016703296703296706,
+      "loss": 1.6031,
       "step": 26
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 0.00016263736263736264,
+      "loss": 1.6646,
       "step": 28
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 0.00015824175824175824,
+      "loss": 1.5681,
       "step": 30
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 0.00015384615384615385,
+      "loss": 1.4079,
       "step": 32
     },
     {
+      "epoch": 0.98,
+      "learning_rate": 0.00014945054945054946,
+      "loss": 1.4463,
       "step": 34
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 0.00014505494505494506,
+      "loss": 1.2641,
       "step": 36
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 0.00014065934065934067,
+      "loss": 1.3009,
       "step": 38
     },
     {
+      "epoch": 1.16,
+      "learning_rate": 0.00013626373626373628,
+      "loss": 1.4816,
       "step": 40
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 0.00013186813186813188,
+      "loss": 1.3263,
       "step": 42
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 0.00012747252747252746,
+      "loss": 1.5113,
       "step": 44
     },
     {
+      "epoch": 1.33,
+      "learning_rate": 0.0001230769230769231,
+      "loss": 1.6472,
       "step": 46
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 0.00011868131868131869,
+      "loss": 1.5139,
       "step": 48
     },
     {
+      "epoch": 1.45,
+      "learning_rate": 0.00011428571428571428,
+      "loss": 1.6798,
       "step": 50
     },
     {
+      "epoch": 1.5,
+      "learning_rate": 0.0001098901098901099,
+      "loss": 1.149,
       "step": 52
     },
     {
+      "epoch": 1.56,
+      "learning_rate": 0.0001054945054945055,
+      "loss": 1.2826,
       "step": 54
     },
     {
+      "epoch": 1.62,
+      "learning_rate": 0.0001010989010989011,
+      "loss": 1.3801,
       "step": 56
     },
     {
+      "epoch": 1.68,
+      "learning_rate": 9.670329670329671e-05,
+      "loss": 1.5288,
       "step": 58
     },
     {
+      "epoch": 1.74,
+      "learning_rate": 9.230769230769232e-05,
+      "loss": 1.2453,
       "step": 60
     },
     {
+      "epoch": 1.79,
+      "learning_rate": 8.791208791208791e-05,
+      "loss": 1.5235,
       "step": 62
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 8.351648351648353e-05,
+      "loss": 1.6849,
       "step": 64
     },
     {
+      "epoch": 1.91,
+      "learning_rate": 7.912087912087912e-05,
+      "loss": 1.2854,
       "step": 66
     },
     {
+      "epoch": 1.97,
+      "learning_rate": 7.472527472527473e-05,
+      "loss": 1.3023,
       "step": 68
     },
     {
+      "epoch": 2.03,
+      "learning_rate": 7.032967032967034e-05,
+      "loss": 1.3429,
       "step": 70
     },
     {
+      "epoch": 2.08,
+      "learning_rate": 6.593406593406594e-05,
+      "loss": 1.4003,
       "step": 72
     },
     {
+      "epoch": 2.14,
+      "learning_rate": 6.153846153846155e-05,
+      "loss": 1.8549,
       "step": 74
     },
     {
+      "epoch": 2.2,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 1.2843,
       "step": 76
     },
     {
+      "epoch": 2.26,
+      "learning_rate": 5.274725274725275e-05,
+      "loss": 1.2769,
       "step": 78
     },
     {
+      "epoch": 2.31,
+      "learning_rate": 4.8351648351648355e-05,
+      "loss": 0.9098,
       "step": 80
     },
     {
+      "epoch": 2.37,
+      "learning_rate": 4.3956043956043955e-05,
+      "loss": 1.2569,
       "step": 82
     },
     {
+      "epoch": 2.43,
+      "learning_rate": 3.956043956043956e-05,
+      "loss": 1.3645,
       "step": 84
     },
     {
+      "epoch": 2.49,
+      "learning_rate": 3.516483516483517e-05,
+      "loss": 1.2877,
       "step": 86
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 3.0769230769230774e-05,
+      "loss": 1.0866,
+      "step": 88
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 2.6373626373626374e-05,
+      "loss": 1.1787,
+      "step": 90
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 2.1978021978021977e-05,
+      "loss": 1.2931,
+      "step": 92
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 1.7582417582417584e-05,
+      "loss": 1.0376,
+      "step": 94
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 1.3186813186813187e-05,
+      "loss": 1.1931,
+      "step": 96
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 8.791208791208792e-06,
+      "loss": 1.7579,
+      "step": 98
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 4.395604395604396e-06,
+      "loss": 1.2542,
+      "step": 100
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.0,
+      "loss": 1.4717,
+      "step": 102
     }
   ],
   "logging_steps": 2,
+  "max_steps": 102,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 2.6989001479028736e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52e1346c8ae0cb36b02e3a5bb8e35fb40730ffa1168ea1f30c339138dc433752
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:88632b94a431bdfb69ea7bfc46cab31542f032cbcbd07f25cf586b17bc0a80d0
 size 4027