timewanderer commited on Oct 11

Commit

1fd16ed

•

1 Parent(s): 6b7b360

Training in progress, step 2500

Browse files

Files changed (20) hide show

model.safetensors +1 -1
run-3/checkpoint-1000/model.safetensors +1 -1
run-3/checkpoint-1000/optimizer.pt +1 -1
run-3/checkpoint-1000/scheduler.pt +1 -1
run-3/checkpoint-1000/trainer_state.json +26 -26
run-3/checkpoint-1000/training_args.bin +1 -1
run-3/checkpoint-1500/model.safetensors +1 -1
run-3/checkpoint-1500/optimizer.pt +1 -1
run-3/checkpoint-1500/scheduler.pt +1 -1
run-3/checkpoint-1500/trainer_state.json +34 -34
run-3/checkpoint-1500/training_args.bin +1 -1
run-3/checkpoint-2000/model.safetensors +1 -1
run-3/checkpoint-2000/optimizer.pt +1 -1
run-3/checkpoint-2000/trainer_state.json +40 -40
run-3/checkpoint-2000/training_args.bin +1 -1
run-3/checkpoint-2500/model.safetensors +1 -1
run-3/checkpoint-2500/optimizer.pt +1 -1
run-3/checkpoint-2500/trainer_state.json +47 -47
run-3/checkpoint-2500/training_args.bin +1 -1
runs/Oct11_19-31-02_821d3e23518d/events.out.tfevents.1728678968.821d3e23518d.3094.4 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2224a23210a48d385404f1ee975648ba19f7baf4e99ecbaeb45ec308c4e8ac98
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ac4d617504c7155f36b9ab5a25d6b4709211109b8d952185af212a471f22930
 size 268290900

run-3/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dc069a706a506b11ab20901dc7bba81d30aebb240bc31a6eb93d221d4377cad
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:10caa747cc9b055b61da3a870005eb9854639faf1659a2954a7623865e788ced
 size 268290900

run-3/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3489d76896528cdab6dfbb9d57397fdb9e2e3ba0a8a9e7273c16fbbdaffdafb9
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9ccfb4b4789f10457afb99b1aabd35c5ff0b1a3606c647f48c026ef9e8352d6
 size 536643898

run-3/checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60ef01273aaa599804d51a93c6c0c61874ebd50ab9e135a21aab5f7cd0e6487a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c794bc4c67ef18245dd516031ce405ab557e4d551d225d8dd1e1abc0f2be8e33
 size 1064

run-3/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -10,50 +10,50 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5796774193548387,
-      "eval_loss": 0.20986367762088776,
-      "eval_runtime": 5.1673,
-      "eval_samples_per_second": 599.927,
-      "eval_steps_per_second": 12.579,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5460540056228638,
-      "learning_rate": 1.4758909853249476e-05,
-      "loss": 0.332,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8129032258064516,
-      "eval_loss": 0.1050410121679306,
-      "eval_runtime": 5.3586,
-      "eval_samples_per_second": 578.505,
-      "eval_steps_per_second": 12.13,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8709677419354839,
-      "eval_loss": 0.07279336452484131,
-      "eval_runtime": 5.2066,
-      "eval_samples_per_second": 595.399,
-      "eval_steps_per_second": 12.484,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.4723931849002838,
-      "learning_rate": 9.517819706498952e-06,
-      "loss": 0.1214,
       "step": 1000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1908,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -71,8 +71,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.9907493566825466,
-    "num_train_epochs": 6,
-    "temperature": 9
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5803225806451613,
+      "eval_loss": 0.19005867838859558,
+      "eval_runtime": 5.674,
+      "eval_samples_per_second": 546.354,
+      "eval_steps_per_second": 11.456,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5149380564689636,
+      "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3072,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.817741935483871,
+      "eval_loss": 0.0924694836139679,
+      "eval_runtime": 6.0294,
+      "eval_samples_per_second": 514.15,
+      "eval_steps_per_second": 10.781,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8770967741935484,
+      "eval_loss": 0.06209348514676094,
+      "eval_runtime": 5.7978,
+      "eval_samples_per_second": 534.685,
+      "eval_steps_per_second": 11.211,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.4281909167766571,
+      "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1072,
       "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3180,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7637668053146042,
+    "num_train_epochs": 10,
+    "temperature": 18
   }
 }

run-3/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a85143060eb3d68597fa3be18a06447136e3eefcb180aa3b82a2a8463f5f692a
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:33ceb3fabcbf71cb66944e6d8ec61e55f12751f2e6805da39ec868f61cfabfda
 size 5240

run-3/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dfbfcd7ae1710dc78f86029d19911aebcbf6263be42f5e1fad4d67a84af60e3
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:e77ed91a39a7cfbd38ba21e4c29b57be04d44cc975ec8f89e4c9d7fa45dbaaf6
 size 268290900

run-3/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36c4fbd6b433cb76cfb9c82d6958f6d74f64d6bee7012fa72823d27b3cea8048
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:308eb28881ddbf364fc834b2998ed4a5228666e33d4a58332e3280f3506c9079
 size 536643898

run-3/checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55c8d3ce0734337fc0c187ca5543b4c70ca45d996531f199209b3a0c2a798109
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:71453465aad25f4c5a0a948496c64b1f74df850abda497954afe3695c00756ee
 size 1064

run-3/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,66 +10,66 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5796774193548387,
-      "eval_loss": 0.20986367762088776,
-      "eval_runtime": 5.1673,
-      "eval_samples_per_second": 599.927,
-      "eval_steps_per_second": 12.579,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5460540056228638,
-      "learning_rate": 1.4758909853249476e-05,
-      "loss": 0.332,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8129032258064516,
-      "eval_loss": 0.1050410121679306,
-      "eval_runtime": 5.3586,
-      "eval_samples_per_second": 578.505,
-      "eval_steps_per_second": 12.13,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8709677419354839,
-      "eval_loss": 0.07279336452484131,
-      "eval_runtime": 5.2066,
-      "eval_samples_per_second": 595.399,
-      "eval_steps_per_second": 12.484,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.4723931849002838,
-      "learning_rate": 9.517819706498952e-06,
-      "loss": 0.1214,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.892258064516129,
-      "eval_loss": 0.058892734348773956,
-      "eval_runtime": 5.2068,
-      "eval_samples_per_second": 595.377,
-      "eval_steps_per_second": 12.484,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3437352180480957,
-      "learning_rate": 4.276729559748428e-06,
-      "loss": 0.0826,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1908,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -87,8 +87,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.9907493566825466,
-    "num_train_epochs": 6,
-    "temperature": 9
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5803225806451613,
+      "eval_loss": 0.19005867838859558,
+      "eval_runtime": 5.674,
+      "eval_samples_per_second": 546.354,
+      "eval_steps_per_second": 11.456,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5149380564689636,
+      "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3072,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.817741935483871,
+      "eval_loss": 0.0924694836139679,
+      "eval_runtime": 6.0294,
+      "eval_samples_per_second": 514.15,
+      "eval_steps_per_second": 10.781,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8770967741935484,
+      "eval_loss": 0.06209348514676094,
+      "eval_runtime": 5.7978,
+      "eval_samples_per_second": 534.685,
+      "eval_steps_per_second": 11.211,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.4281909167766571,
+      "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1072,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9009677419354839,
+      "eval_loss": 0.048012129962444305,
+      "eval_runtime": 5.7482,
+      "eval_samples_per_second": 539.302,
+      "eval_steps_per_second": 11.308,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.2933551073074341,
+      "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0684,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3180,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7637668053146042,
+    "num_train_epochs": 10,
+    "temperature": 18
   }
 }

run-3/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a85143060eb3d68597fa3be18a06447136e3eefcb180aa3b82a2a8463f5f692a
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:33ceb3fabcbf71cb66944e6d8ec61e55f12751f2e6805da39ec868f61cfabfda
 size 5240

run-3/checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dd8891bb979d2df7a3486f993cea9be9bd846e0af2b9f59c482859415fb9ee9
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:5826cd7e1aa88532733104f10a3c130d62ddac8febb6ccaf66bcca270f075d63
 size 268290900

run-3/checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37e31aa19ee84210ac75899eb23c1dbc98684f7a512c37e4e1c35ef870c29ddd
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e16ae3f53f18fc497fdd42f7ddebf504a6808472292d9fa664baa86991b55fb
 size 536643898

run-3/checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -10,84 +10,84 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6129032258064516,
-      "eval_loss": 0.22857815027236938,
-      "eval_runtime": 5.1291,
-      "eval_samples_per_second": 604.398,
-      "eval_steps_per_second": 12.673,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5715988874435425,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.368,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8406451612903226,
-      "eval_loss": 0.10308429598808289,
-      "eval_runtime": 5.3537,
-      "eval_samples_per_second": 579.034,
-      "eval_steps_per_second": 12.141,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8909677419354839,
-      "eval_loss": 0.06482071429491043,
-      "eval_runtime": 5.1876,
-      "eval_samples_per_second": 597.576,
-      "eval_steps_per_second": 12.53,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.4861523509025574,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1205,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9032258064516129,
-      "eval_loss": 0.04816382750868797,
-      "eval_runtime": 5.1502,
-      "eval_samples_per_second": 601.919,
-      "eval_steps_per_second": 12.621,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3236384689807892,
       "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0727,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9145161290322581,
-      "eval_loss": 0.0385914221405983,
-      "eval_runtime": 5.275,
-      "eval_samples_per_second": 587.677,
-      "eval_steps_per_second": 12.322,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.922258064516129,
-      "eval_loss": 0.03349597379565239,
-      "eval_runtime": 5.1757,
-      "eval_samples_per_second": 598.956,
-      "eval_steps_per_second": 12.559,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.27145814895629883,
       "learning_rate": 7.421383647798742e-06,
-      "loss": 0.0555,
       "step": 2000
     }
   ],
@@ -112,8 +112,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.34170044466363136,
     "num_train_epochs": 10,
-    "temperature": 5
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5803225806451613,
+      "eval_loss": 0.19005867838859558,
+      "eval_runtime": 5.674,
+      "eval_samples_per_second": 546.354,
+      "eval_steps_per_second": 11.456,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5149380564689636,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3072,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.817741935483871,
+      "eval_loss": 0.0924694836139679,
+      "eval_runtime": 6.0294,
+      "eval_samples_per_second": 514.15,
+      "eval_steps_per_second": 10.781,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8770967741935484,
+      "eval_loss": 0.06209348514676094,
+      "eval_runtime": 5.7978,
+      "eval_samples_per_second": 534.685,
+      "eval_steps_per_second": 11.211,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.4281909167766571,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1072,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9009677419354839,
+      "eval_loss": 0.048012129962444305,
+      "eval_runtime": 5.7482,
+      "eval_samples_per_second": 539.302,
+      "eval_steps_per_second": 11.308,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.2933551073074341,
       "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0684,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9093548387096774,
+      "eval_loss": 0.03922256454825401,
+      "eval_runtime": 5.9235,
+      "eval_samples_per_second": 523.338,
+      "eval_steps_per_second": 10.973,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.912258064516129,
+      "eval_loss": 0.03422800451517105,
+      "eval_runtime": 5.7032,
+      "eval_samples_per_second": 543.553,
+      "eval_steps_per_second": 11.397,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.25101438164711,
       "learning_rate": 7.421383647798742e-06,
+      "loss": 0.0534,
       "step": 2000
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7637668053146042,
     "num_train_epochs": 10,
+    "temperature": 18
   }
 }

run-3/checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13f3c53667f2d0c994b1e0580a4240dd5f1920dd508edcd4cd8ca7ddb067f7f3
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:33ceb3fabcbf71cb66944e6d8ec61e55f12751f2e6805da39ec868f61cfabfda
 size 5240

run-3/checkpoint-2500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe21bc5ed4d44215424e54d6d4c27ba6f24b1a5d50938b550a5fdb16e6adb25f
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ac4d617504c7155f36b9ab5a25d6b4709211109b8d952185af212a471f22930
 size 268290900

run-3/checkpoint-2500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebcdba7042cc47acadbf9741605302f4d74356806e9f6dda63f9b20b9e882862
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:d41e272b3c1cc2159216a635ef7226db231ca5c57104983a3bff55ace21198bf
 size 536643898

run-3/checkpoint-2500/trainer_state.json CHANGED Viewed

@@ -10,100 +10,100 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6129032258064516,
-      "eval_loss": 0.22857815027236938,
-      "eval_runtime": 5.1291,
-      "eval_samples_per_second": 604.398,
-      "eval_steps_per_second": 12.673,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5715988874435425,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.368,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8406451612903226,
-      "eval_loss": 0.10308429598808289,
-      "eval_runtime": 5.3537,
-      "eval_samples_per_second": 579.034,
-      "eval_steps_per_second": 12.141,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8909677419354839,
-      "eval_loss": 0.06482071429491043,
-      "eval_runtime": 5.1876,
-      "eval_samples_per_second": 597.576,
-      "eval_steps_per_second": 12.53,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.4861523509025574,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1205,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9032258064516129,
-      "eval_loss": 0.04816382750868797,
-      "eval_runtime": 5.1502,
-      "eval_samples_per_second": 601.919,
-      "eval_steps_per_second": 12.621,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3236384689807892,
       "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0727,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9145161290322581,
-      "eval_loss": 0.0385914221405983,
-      "eval_runtime": 5.275,
-      "eval_samples_per_second": 587.677,
-      "eval_steps_per_second": 12.322,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.922258064516129,
-      "eval_loss": 0.03349597379565239,
-      "eval_runtime": 5.1757,
-      "eval_samples_per_second": 598.956,
-      "eval_steps_per_second": 12.559,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.27145814895629883,
       "learning_rate": 7.421383647798742e-06,
-      "loss": 0.0555,
       "step": 2000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.927741935483871,
-      "eval_loss": 0.030705930665135384,
-      "eval_runtime": 5.2177,
-      "eval_samples_per_second": 594.135,
-      "eval_steps_per_second": 12.458,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
-      "grad_norm": 0.2963285446166992,
       "learning_rate": 4.276729559748428e-06,
-      "loss": 0.0477,
       "step": 2500
     }
   ],
@@ -128,8 +128,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.34170044466363136,
     "num_train_epochs": 10,
-    "temperature": 5
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5803225806451613,
+      "eval_loss": 0.19005867838859558,
+      "eval_runtime": 5.674,
+      "eval_samples_per_second": 546.354,
+      "eval_steps_per_second": 11.456,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5149380564689636,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3072,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.817741935483871,
+      "eval_loss": 0.0924694836139679,
+      "eval_runtime": 6.0294,
+      "eval_samples_per_second": 514.15,
+      "eval_steps_per_second": 10.781,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8770967741935484,
+      "eval_loss": 0.06209348514676094,
+      "eval_runtime": 5.7978,
+      "eval_samples_per_second": 534.685,
+      "eval_steps_per_second": 11.211,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.4281909167766571,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1072,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9009677419354839,
+      "eval_loss": 0.048012129962444305,
+      "eval_runtime": 5.7482,
+      "eval_samples_per_second": 539.302,
+      "eval_steps_per_second": 11.308,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.2933551073074341,
       "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0684,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9093548387096774,
+      "eval_loss": 0.03922256454825401,
+      "eval_runtime": 5.9235,
+      "eval_samples_per_second": 523.338,
+      "eval_steps_per_second": 10.973,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.912258064516129,
+      "eval_loss": 0.03422800451517105,
+      "eval_runtime": 5.7032,
+      "eval_samples_per_second": 543.553,
+      "eval_steps_per_second": 11.397,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.25101438164711,
       "learning_rate": 7.421383647798742e-06,
+      "loss": 0.0534,
       "step": 2000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9209677419354839,
+      "eval_loss": 0.0315035916864872,
+      "eval_runtime": 5.8633,
+      "eval_samples_per_second": 528.715,
+      "eval_steps_per_second": 11.086,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
+      "grad_norm": 0.26583123207092285,
       "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0462,
       "step": 2500
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7637668053146042,
     "num_train_epochs": 10,
+    "temperature": 18
   }
 }

run-3/checkpoint-2500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13f3c53667f2d0c994b1e0580a4240dd5f1920dd508edcd4cd8ca7ddb067f7f3
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:33ceb3fabcbf71cb66944e6d8ec61e55f12751f2e6805da39ec868f61cfabfda
 size 5240

runs/Oct11_19-31-02_821d3e23518d/events.out.tfevents.1728678968.821d3e23518d.3094.4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c2aa85cff79bf33e44bc2f5ad95e9335a79352cc5df863ac98300dba49dfc47
-size 13833

 version https://git-lfs.github.com/spec/v1
+oid sha256:3365839880123b6421cc311dfcd464aa63bad20c4baa74fe0cb1f55cbf19149a
+size 17292