Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

README.md +3 -2
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
trainer_state.json +109 -109
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -18,6 +18,7 @@ base_model: mistralai/Mistral-7B-v0.1
 - **Developed by:** [More Information Needed]
 - **Shared by [optional]:** [More Information Needed]
 - **Model type:** [More Information Needed]
 - **Language(s) (NLP):** [More Information Needed]
@@ -76,7 +77,7 @@ Use the code below to get started with the model.
 ### Training Data
-<!-- This should link to a Data Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
 [More Information Needed]
@@ -107,7 +108,7 @@ Use the code below to get started with the model.
 #### Testing Data
-<!-- This should link to a Data Card if possible. -->
 [More Information Needed]

 - **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
 - **Shared by [optional]:** [More Information Needed]
 - **Model type:** [More Information Needed]
 - **Language(s) (NLP):** [More Information Needed]
 ### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
 [More Information Needed]
 #### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
 [More Information Needed]

adapter_config.json CHANGED Viewed

@@ -16,14 +16,14 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "lm_head",
-    "down_proj",
     "q_proj",
     "up_proj",
     "k_proj",
     "v_proj",
-    "gate_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "q_proj",
     "up_proj",
+    "down_proj",
     "k_proj",
     "v_proj",
+    "lm_head",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6efe7d5921665fda917c906f1427a1880a0089b02cd0f7eb51b99a6d43957ac
 size 85100592

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4c9908eaf5b57e25f51feb62dce86a0ca6495fd6cffe0db54f46a8d0e35c2ee
 size 85100592

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5600b3956d0427774a54d7f3bf3b7938a23d41b7b69dc207ab3e78e2479d7f37
 size 43127132

 version https://git-lfs.github.com/spec/v1
+oid sha256:49b0f3b68162daa429f96d6924f555c99d0a088ac6eff7504061c06826bdc554
 size 43127132

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad9dc56dfc01b966639cac8cd8f049d1b8d912aa8e90419adc5b16ff7e57382f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ffed6d4f513eefea1bbd2e6d94b0c2ee7dba23cd38e7ff8e5de5c5fa5fdae612
 size 14244

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8506113769271664,
   "eval_steps": 20,
   "global_step": 400,
   "is_hyper_param_search": false,
@@ -11,281 +11,281 @@
     {
       "epoch": 0.04,
       "learning_rate": 1.9325842696629215e-05,
-      "loss": 1.8391,
       "step": 20
     },
     {
       "epoch": 0.04,
-      "eval_loss": 1.7458518743515015,
-      "eval_runtime": 218.3179,
-      "eval_samples_per_second": 1.928,
-      "eval_steps_per_second": 0.197,
       "step": 20
     },
     {
       "epoch": 0.09,
       "learning_rate": 1.8426966292134835e-05,
-      "loss": 1.7536,
       "step": 40
     },
     {
       "epoch": 0.09,
-      "eval_loss": 1.693428635597229,
-      "eval_runtime": 218.0486,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 40
     },
     {
       "epoch": 0.13,
       "learning_rate": 1.752808988764045e-05,
-      "loss": 1.7346,
       "step": 60
     },
     {
       "epoch": 0.13,
-      "eval_loss": 1.6598807573318481,
-      "eval_runtime": 218.036,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 60
     },
     {
       "epoch": 0.17,
       "learning_rate": 1.662921348314607e-05,
-      "loss": 1.6951,
       "step": 80
     },
     {
       "epoch": 0.17,
-      "eval_loss": 1.639635443687439,
-      "eval_runtime": 218.0597,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 80
     },
     {
       "epoch": 0.21,
       "learning_rate": 1.5730337078651687e-05,
-      "loss": 1.6508,
       "step": 100
     },
     {
       "epoch": 0.21,
-      "eval_loss": 1.626449465751648,
-      "eval_runtime": 218.0237,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 100
     },
     {
       "epoch": 0.26,
       "learning_rate": 1.4831460674157305e-05,
-      "loss": 1.6245,
       "step": 120
     },
     {
       "epoch": 0.26,
-      "eval_loss": 1.616517186164856,
-      "eval_runtime": 218.0987,
-      "eval_samples_per_second": 1.93,
-      "eval_steps_per_second": 0.197,
       "step": 120
     },
     {
       "epoch": 0.3,
       "learning_rate": 1.3932584269662923e-05,
-      "loss": 1.6023,
       "step": 140
     },
     {
       "epoch": 0.3,
-      "eval_loss": 1.6096081733703613,
-      "eval_runtime": 218.0759,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 140
     },
     {
       "epoch": 0.34,
       "learning_rate": 1.303370786516854e-05,
-      "loss": 1.6259,
       "step": 160
     },
     {
       "epoch": 0.34,
-      "eval_loss": 1.6037150621414185,
-      "eval_runtime": 218.0228,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 160
     },
     {
-      "epoch": 0.38,
       "learning_rate": 1.213483146067416e-05,
-      "loss": 1.6116,
       "step": 180
     },
     {
-      "epoch": 0.38,
-      "eval_loss": 1.599488377571106,
-      "eval_runtime": 218.0297,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 180
     },
     {
       "epoch": 0.43,
       "learning_rate": 1.1235955056179778e-05,
-      "loss": 1.6288,
       "step": 200
     },
     {
       "epoch": 0.43,
-      "eval_loss": 1.595850944519043,
-      "eval_runtime": 218.1168,
-      "eval_samples_per_second": 1.93,
-      "eval_steps_per_second": 0.197,
       "step": 200
     },
     {
       "epoch": 0.47,
       "learning_rate": 1.0337078651685396e-05,
-      "loss": 1.6328,
       "step": 220
     },
     {
       "epoch": 0.47,
-      "eval_loss": 1.5929853916168213,
-      "eval_runtime": 218.0481,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 220
     },
     {
       "epoch": 0.51,
       "learning_rate": 9.438202247191012e-06,
-      "loss": 1.622,
       "step": 240
     },
     {
       "epoch": 0.51,
-      "eval_loss": 1.590191125869751,
-      "eval_runtime": 218.0232,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 240
     },
     {
-      "epoch": 0.55,
       "learning_rate": 8.53932584269663e-06,
-      "loss": 1.5966,
       "step": 260
     },
     {
-      "epoch": 0.55,
-      "eval_loss": 1.5878028869628906,
-      "eval_runtime": 218.0617,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 260
     },
     {
       "epoch": 0.6,
       "learning_rate": 7.640449438202247e-06,
-      "loss": 1.6094,
       "step": 280
     },
     {
       "epoch": 0.6,
-      "eval_loss": 1.5858081579208374,
-      "eval_runtime": 218.1219,
-      "eval_samples_per_second": 1.93,
-      "eval_steps_per_second": 0.197,
       "step": 280
     },
     {
       "epoch": 0.64,
       "learning_rate": 6.741573033707865e-06,
-      "loss": 1.5934,
       "step": 300
     },
     {
       "epoch": 0.64,
-      "eval_loss": 1.584080696105957,
-      "eval_runtime": 218.0609,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 300
     },
     {
       "epoch": 0.68,
       "learning_rate": 5.842696629213483e-06,
-      "loss": 1.59,
       "step": 320
     },
     {
       "epoch": 0.68,
-      "eval_loss": 1.5824154615402222,
-      "eval_runtime": 218.0845,
-      "eval_samples_per_second": 1.93,
-      "eval_steps_per_second": 0.197,
       "step": 320
     },
     {
-      "epoch": 0.72,
       "learning_rate": 4.943820224719101e-06,
-      "loss": 1.6134,
       "step": 340
     },
     {
-      "epoch": 0.72,
-      "eval_loss": 1.5810182094573975,
-      "eval_runtime": 218.1022,
-      "eval_samples_per_second": 1.93,
-      "eval_steps_per_second": 0.197,
       "step": 340
     },
     {
       "epoch": 0.77,
       "learning_rate": 4.04494382022472e-06,
-      "loss": 1.5954,
       "step": 360
     },
     {
       "epoch": 0.77,
-      "eval_loss": 1.5799251794815063,
-      "eval_runtime": 218.1537,
-      "eval_samples_per_second": 1.93,
-      "eval_steps_per_second": 0.197,
       "step": 360
     },
     {
       "epoch": 0.81,
       "learning_rate": 3.146067415730337e-06,
-      "loss": 1.5973,
       "step": 380
     },
     {
       "epoch": 0.81,
-      "eval_loss": 1.579064130783081,
-      "eval_runtime": 218.0366,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 380
     },
     {
-      "epoch": 0.85,
       "learning_rate": 2.2471910112359554e-06,
-      "loss": 1.5468,
       "step": 400
     },
     {
-      "epoch": 0.85,
-      "eval_loss": 1.5782713890075684,
-      "eval_runtime": 218.0535,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.197,
       "step": 400
     }
   ],

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8560727661851257,
   "eval_steps": 20,
   "global_step": 400,
   "is_hyper_param_search": false,
     {
       "epoch": 0.04,
       "learning_rate": 1.9325842696629215e-05,
+      "loss": 1.8283,
       "step": 20
     },
     {
       "epoch": 0.04,
+      "eval_loss": 1.7597882747650146,
+      "eval_runtime": 167.9254,
+      "eval_samples_per_second": 2.65,
+      "eval_steps_per_second": 0.268,
       "step": 20
     },
     {
       "epoch": 0.09,
       "learning_rate": 1.8426966292134835e-05,
+      "loss": 1.7181,
       "step": 40
     },
     {
       "epoch": 0.09,
+      "eval_loss": 1.7029485702514648,
+      "eval_runtime": 168.0408,
+      "eval_samples_per_second": 2.648,
+      "eval_steps_per_second": 0.268,
       "step": 40
     },
     {
       "epoch": 0.13,
       "learning_rate": 1.752808988764045e-05,
+      "loss": 1.6777,
       "step": 60
     },
     {
       "epoch": 0.13,
+      "eval_loss": 1.6699800491333008,
+      "eval_runtime": 167.9993,
+      "eval_samples_per_second": 2.649,
+      "eval_steps_per_second": 0.268,
       "step": 60
     },
     {
       "epoch": 0.17,
       "learning_rate": 1.662921348314607e-05,
+      "loss": 1.6555,
       "step": 80
     },
     {
       "epoch": 0.17,
+      "eval_loss": 1.6510975360870361,
+      "eval_runtime": 168.0236,
+      "eval_samples_per_second": 2.648,
+      "eval_steps_per_second": 0.268,
       "step": 80
     },
     {
       "epoch": 0.21,
       "learning_rate": 1.5730337078651687e-05,
+      "loss": 1.6371,
       "step": 100
     },
     {
       "epoch": 0.21,
+      "eval_loss": 1.6391140222549438,
+      "eval_runtime": 167.9874,
+      "eval_samples_per_second": 2.649,
+      "eval_steps_per_second": 0.268,
       "step": 100
     },
     {
       "epoch": 0.26,
       "learning_rate": 1.4831460674157305e-05,
+      "loss": 1.638,
       "step": 120
     },
     {
       "epoch": 0.26,
+      "eval_loss": 1.6307817697525024,
+      "eval_runtime": 167.9676,
+      "eval_samples_per_second": 2.649,
+      "eval_steps_per_second": 0.268,
       "step": 120
     },
     {
       "epoch": 0.3,
       "learning_rate": 1.3932584269662923e-05,
+      "loss": 1.6334,
       "step": 140
     },
     {
       "epoch": 0.3,
+      "eval_loss": 1.6237455606460571,
+      "eval_runtime": 167.9795,
+      "eval_samples_per_second": 2.649,
+      "eval_steps_per_second": 0.268,
       "step": 140
     },
     {
       "epoch": 0.34,
       "learning_rate": 1.303370786516854e-05,
+      "loss": 1.6568,
       "step": 160
     },
     {
       "epoch": 0.34,
+      "eval_loss": 1.6185747385025024,
+      "eval_runtime": 167.9491,
+      "eval_samples_per_second": 2.65,
+      "eval_steps_per_second": 0.268,
       "step": 160
     },
     {
+      "epoch": 0.39,
       "learning_rate": 1.213483146067416e-05,
+      "loss": 1.6095,
       "step": 180
     },
     {
+      "epoch": 0.39,
+      "eval_loss": 1.6145987510681152,
+      "eval_runtime": 167.8883,
+      "eval_samples_per_second": 2.651,
+      "eval_steps_per_second": 0.268,
       "step": 180
     },
     {
       "epoch": 0.43,
       "learning_rate": 1.1235955056179778e-05,
+      "loss": 1.6347,
       "step": 200
     },
     {
       "epoch": 0.43,
+      "eval_loss": 1.6116222143173218,
+      "eval_runtime": 167.9012,
+      "eval_samples_per_second": 2.65,
+      "eval_steps_per_second": 0.268,
       "step": 200
     },
     {
       "epoch": 0.47,
       "learning_rate": 1.0337078651685396e-05,
+      "loss": 1.6201,
       "step": 220
     },
     {
       "epoch": 0.47,
+      "eval_loss": 1.608642339706421,
+      "eval_runtime": 168.0086,
+      "eval_samples_per_second": 2.649,
+      "eval_steps_per_second": 0.268,
       "step": 220
     },
     {
       "epoch": 0.51,
       "learning_rate": 9.438202247191012e-06,
+      "loss": 1.5781,
       "step": 240
     },
     {
       "epoch": 0.51,
+      "eval_loss": 1.6063767671585083,
+      "eval_runtime": 167.9056,
+      "eval_samples_per_second": 2.65,
+      "eval_steps_per_second": 0.268,
       "step": 240
     },
     {
+      "epoch": 0.56,
       "learning_rate": 8.53932584269663e-06,
+      "loss": 1.6158,
       "step": 260
     },
     {
+      "epoch": 0.56,
+      "eval_loss": 1.6039100885391235,
+      "eval_runtime": 286.9359,
+      "eval_samples_per_second": 1.551,
+      "eval_steps_per_second": 0.157,
       "step": 260
     },
     {
       "epoch": 0.6,
       "learning_rate": 7.640449438202247e-06,
+      "loss": 1.6098,
       "step": 280
     },
     {
       "epoch": 0.6,
+      "eval_loss": 1.602189540863037,
+      "eval_runtime": 336.0332,
+      "eval_samples_per_second": 1.324,
+      "eval_steps_per_second": 0.134,
       "step": 280
     },
     {
       "epoch": 0.64,
       "learning_rate": 6.741573033707865e-06,
+      "loss": 1.6083,
       "step": 300
     },
     {
       "epoch": 0.64,
+      "eval_loss": 1.6008193492889404,
+      "eval_runtime": 333.4484,
+      "eval_samples_per_second": 1.335,
+      "eval_steps_per_second": 0.135,
       "step": 300
     },
     {
       "epoch": 0.68,
       "learning_rate": 5.842696629213483e-06,
+      "loss": 1.596,
       "step": 320
     },
     {
       "epoch": 0.68,
+      "eval_loss": 1.5991967916488647,
+      "eval_runtime": 333.495,
+      "eval_samples_per_second": 1.334,
+      "eval_steps_per_second": 0.135,
       "step": 320
     },
     {
+      "epoch": 0.73,
       "learning_rate": 4.943820224719101e-06,
+      "loss": 1.6007,
       "step": 340
     },
     {
+      "epoch": 0.73,
+      "eval_loss": 1.598080039024353,
+      "eval_runtime": 333.0437,
+      "eval_samples_per_second": 1.336,
+      "eval_steps_per_second": 0.135,
       "step": 340
     },
     {
       "epoch": 0.77,
       "learning_rate": 4.04494382022472e-06,
+      "loss": 1.6234,
       "step": 360
     },
     {
       "epoch": 0.77,
+      "eval_loss": 1.5969579219818115,
+      "eval_runtime": 336.627,
+      "eval_samples_per_second": 1.322,
+      "eval_steps_per_second": 0.134,
       "step": 360
     },
     {
       "epoch": 0.81,
       "learning_rate": 3.146067415730337e-06,
+      "loss": 1.6078,
       "step": 380
     },
     {
       "epoch": 0.81,
+      "eval_loss": 1.5960769653320312,
+      "eval_runtime": 333.84,
+      "eval_samples_per_second": 1.333,
+      "eval_steps_per_second": 0.135,
       "step": 380
     },
     {
+      "epoch": 0.86,
       "learning_rate": 2.2471910112359554e-06,
+      "loss": 1.5983,
       "step": 400
     },
     {
+      "epoch": 0.86,
+      "eval_loss": 1.5955034494400024,
+      "eval_runtime": 335.6186,
+      "eval_samples_per_second": 1.326,
+      "eval_steps_per_second": 0.134,
       "step": 400
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18f22170b63f557ce8ed503ea5362cfa3b2bf6a88a049f98dbc25116e2a6df00
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:75dba7c5f891acdcd82aeb8bc8677541948c16cf3e42df5cb5a12220cc740514
 size 4664