Model save

Browse files

Files changed (12) hide show

README.md +2 -2
all_results.json +10 -10
eval_results.json +5 -5
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Feb08_21-56-24_node01/events.out.tfevents.1707400703.node01.374598.0 +3 -0
runs/Feb08_21-56-24_node01/events.out.tfevents.1707401445.node01.374598.1 +3 -0
tokenizer.json +6 -1
train_results.json +5 -5
trainer_state.json +76 -100
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2915
 ## Model description
@@ -52,7 +52,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.2698        | 1.0   | 124  | 0.2915          |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3246
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.3042        | 1.0   | 101  | 0.3246          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 1.0,
-    "eval_loss": 0.2914734482765198,
-    "eval_runtime": 9.1903,
-    "eval_samples": 220,
-    "eval_samples_per_second": 23.938,
-    "eval_steps_per_second": 0.435,
-    "train_loss": 0.4545349882495019,
-    "train_runtime": 740.5857,
-    "train_samples": 1973,
-    "train_samples_per_second": 2.664,
-    "train_steps_per_second": 0.167
 }

 {
     "epoch": 1.0,
+    "eval_loss": 0.32460731267929077,
+    "eval_runtime": 7.1069,
+    "eval_samples": 180,
+    "eval_samples_per_second": 25.327,
+    "eval_steps_per_second": 0.422,
+    "train_loss": 0.38626466322653363,
+    "train_runtime": 734.6882,
+    "train_samples": 1604,
+    "train_samples_per_second": 2.183,
+    "train_steps_per_second": 0.137
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "eval_loss": 0.2914734482765198,
-    "eval_runtime": 9.1903,
-    "eval_samples": 220,
-    "eval_samples_per_second": 23.938,
-    "eval_steps_per_second": 0.435
 }

 {
     "epoch": 1.0,
+    "eval_loss": 0.32460731267929077,
+    "eval_runtime": 7.1069,
+    "eval_samples": 180,
+    "eval_samples_per_second": 25.327,
+    "eval_steps_per_second": 0.422
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52728496fbfea53bbc11b6356ba8397dde6064309ce912f13c76a43f4abef491
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:22380803012d497a3f200e23a07484869365dfb82529b70d138fbd4e99c3bcaf
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca10a93d50dcd47d5a06611c6213ed546bc2e842e0541852ca492ff221766327
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:59ab7da49019d1928eb38ac90ea51f2a2b66b90fb628c104cfdddd85c4a2507e
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:139ecc7ff75421346a0ffb2851a474c2fbc465c4d2393bba613f9b55bdea335b
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:23432c8a06703eafc006e23d0dd7e5845c3cd6da82a76282f2200df1d288b876
 size 4540516344

runs/Feb08_21-56-24_node01/events.out.tfevents.1707400703.node01.374598.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d2eeb9d25c52cd2c2f58151d8cabe38ae2f09155602e146a2d79befaa0814ac
+size 8258

runs/Feb08_21-56-24_node01/events.out.tfevents.1707401445.node01.374598.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcb20be6e11151d5a0298c60b0da76a5ac9e997cd86f670d80d1b5d5a4ea26df
+size 354

tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 2048,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.4545349882495019,
-    "train_runtime": 740.5857,
-    "train_samples": 1973,
-    "train_samples_per_second": 2.664,
-    "train_steps_per_second": 0.167
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.38626466322653363,
+    "train_runtime": 734.6882,
+    "train_samples": 1604,
+    "train_samples_per_second": 2.183,
+    "train_steps_per_second": 0.137
 }

trainer_state.json CHANGED Viewed

@@ -3,185 +3,161 @@
   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 124,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 1.9996790752964305e-05,
-      "loss": 0.7636,
       "step": 1
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.991987177050743e-05,
-      "loss": 2.6172,
       "step": 5
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.9680771188662044e-05,
-      "loss": 1.5854,
       "step": 10
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 1.9286529995722624e-05,
-      "loss": 0.6342,
       "step": 15
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 1.8743466161445823e-05,
-      "loss": 0.4285,
       "step": 20
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 1.8060282634540053e-05,
-      "loss": 0.4147,
       "step": 25
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 1.72479278722912e-05,
-      "loss": 0.3739,
       "step": 30
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 1.631942038446304e-05,
-      "loss": 0.3636,
       "step": 35
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 1.5289640103269626e-05,
-      "loss": 0.2994,
       "step": 40
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 1.4175089922850633e-05,
-      "loss": 0.2938,
       "step": 45
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 1.2993631229733584e-05,
-      "loss": 0.3058,
       "step": 50
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 1.1764197662578087e-05,
-      "loss": 0.3086,
       "step": 55
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 1.0506491688387128e-05,
-      "loss": 0.3109,
       "step": 60
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 9.24066885774754e-06,
-      "loss": 0.3275,
       "step": 65
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 7.987014799113398e-06,
-      "loss": 0.3047,
       "step": 70
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 6.7656201285076195e-06,
-      "loss": 0.2778,
       "step": 75
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 5.5960584844236565e-06,
-      "loss": 0.269,
       "step": 80
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 4.497072847626087e-06,
-      "loss": 0.3077,
       "step": 85
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 3.48627517277778e-06,
-      "loss": 0.3078,
       "step": 90
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 2.5798641454908945e-06,
-      "loss": 0.2905,
       "step": 95
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 1.7923655879272395e-06,
-      "loss": 0.2927,
       "step": 100
     },
-    {
-      "epoch": 0.85,
-      "learning_rate": 1.1363996731159188e-06,
-      "loss": 0.3442,
-      "step": 105
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 6.22478678529197e-07,
-      "loss": 0.2968,
-      "step": 110
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 2.588385200461307e-07,
-      "loss": 0.2628,
-      "step": 115
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 5.1306766081048456e-08,
-      "loss": 0.2698,
-      "step": 120
-    },
     {
       "epoch": 1.0,
-      "eval_loss": 0.2914734482765198,
-      "eval_runtime": 11.0655,
-      "eval_samples_per_second": 19.882,
-      "eval_steps_per_second": 0.361,
-      "step": 124
     },
     {
       "epoch": 1.0,
-      "step": 124,
-      "total_flos": 880074424320.0,
-      "train_loss": 0.4545349882495019,
-      "train_runtime": 740.5857,
-      "train_samples_per_second": 2.664,
-      "train_steps_per_second": 0.167
     }
   ],
   "logging_steps": 5,
-  "max_steps": 124,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 880074424320.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 101,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 1.999516282291988e-05,
+      "loss": 0.8295,
       "step": 1
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 1.987930439740757e-05,
+      "loss": 1.3536,
       "step": 5
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 1.95201310753273e-05,
+      "loss": 0.4367,
       "step": 10
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 1.8931150161867917e-05,
+      "loss": 0.3533,
       "step": 15
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 1.8126579138282502e-05,
+      "loss": 0.3654,
       "step": 20
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 1.7125839641475074e-05,
+      "loss": 0.3764,
       "step": 25
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 1.595308864276666e-05,
+      "loss": 0.3401,
       "step": 30
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 1.4636635319853274e-05,
+      "loss": 0.3539,
       "step": 35
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 1.3208257698153677e-05,
+      "loss": 0.3999,
       "step": 40
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 1.1702435557223988e-05,
+      "loss": 0.3299,
       "step": 45
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 1.0155518119203511e-05,
+      "loss": 0.2854,
       "step": 50
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 8.604846610560771e-06,
+      "loss": 0.3799,
       "step": 55
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 7.0878528777274814e-06,
+      "loss": 0.3321,
       "step": 60
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 5.64115581524629e-06,
+      "loss": 0.369,
       "step": 65
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 4.299677417862174e-06,
+      "loss": 0.3302,
       "step": 70
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 3.0957997942825337e-06,
+      "loss": 0.3035,
       "step": 75
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 2.058583491552465e-06,
+      "loss": 0.3097,
       "step": 80
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 1.2130659990073146e-06,
+      "loss": 0.3248,
       "step": 85
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 5.796573653001091e-07,
+      "loss": 0.2946,
       "step": 90
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 1.7364751777736334e-07,
+      "loss": 0.2796,
       "step": 95
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 4.837177080119215e-09,
+      "loss": 0.3042,
       "step": 100
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.32460731267929077,
+      "eval_runtime": 8.9558,
+      "eval_samples_per_second": 20.099,
+      "eval_steps_per_second": 0.335,
+      "step": 101
     },
     {
       "epoch": 1.0,
+      "step": 101,
+      "total_flos": 709723422720.0,
+      "train_loss": 0.38626466322653363,
+      "train_runtime": 734.6882,
+      "train_samples_per_second": 2.183,
+      "train_steps_per_second": 0.137
     }
   ],
   "logging_steps": 5,
+  "max_steps": 101,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 709723422720.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cadd1667db1395f170b945e2fac1f97fd899a914caea8b710ecb93ea39668cc3
 size 5307

 version https://git-lfs.github.com/spec/v1
+oid sha256:e159432ad0f082807d9e226e6b6d861f799fdcd0937de4ef57b98a9aeffb0073
 size 5307