Training in progress, step 1500

Browse files

Files changed (12) hide show

model.safetensors +1 -1
run-3/checkpoint-1000/model.safetensors +1 -1
run-3/checkpoint-1000/optimizer.pt +1 -1
run-3/checkpoint-1000/scheduler.pt +1 -1
run-3/checkpoint-1000/trainer_state.json +26 -26
run-3/checkpoint-1000/training_args.bin +1 -1
run-3/checkpoint-1500/model.safetensors +1 -1
run-3/checkpoint-1500/optimizer.pt +1 -1
run-3/checkpoint-1500/scheduler.pt +1 -1
run-3/checkpoint-1500/trainer_state.json +34 -34
run-3/checkpoint-1500/training_args.bin +1 -1
runs/Oct11_17-03-17_c179252869f4/events.out.tfevents.1728668441.c179252869f4.732.4 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:342948fd45a1d89a95c5f4f1bdfc6bdd5c2b76834819d9a7fd29b55a99531948
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dfbfcd7ae1710dc78f86029d19911aebcbf6263be42f5e1fad4d67a84af60e3
 size 268290900

run-3/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d269238e659920d175ea8529919070513eb475cc8cc4981d046f748105493cb2
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dc069a706a506b11ab20901dc7bba81d30aebb240bc31a6eb93d221d4377cad
 size 268290900

run-3/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87d8bcd0279b17a6b825fa8fcd97f96b19c502400a65143d1d153cf56a92b506
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:3489d76896528cdab6dfbb9d57397fdb9e2e3ba0a8a9e7273c16fbbdaffdafb9
 size 536643898

run-3/checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c794bc4c67ef18245dd516031ce405ab557e4d551d225d8dd1e1abc0f2be8e33
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:60ef01273aaa599804d51a93c6c0c61874ebd50ab9e135a21aab5f7cd0e6487a
 size 1064

run-3/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -10,50 +10,50 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6129032258064516,
-      "eval_loss": 0.22857815027236938,
-      "eval_runtime": 5.1291,
-      "eval_samples_per_second": 604.398,
-      "eval_steps_per_second": 12.673,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5715988874435425,
-      "learning_rate": 1.685534591194969e-05,
-      "loss": 0.368,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8406451612903226,
-      "eval_loss": 0.10308429598808289,
-      "eval_runtime": 5.3537,
-      "eval_samples_per_second": 579.034,
-      "eval_steps_per_second": 12.141,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8909677419354839,
-      "eval_loss": 0.06482071429491043,
-      "eval_runtime": 5.1876,
-      "eval_samples_per_second": 597.576,
-      "eval_steps_per_second": 12.53,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.4861523509025574,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1205,
       "step": 1000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -71,8 +71,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.34170044466363136,
-    "num_train_epochs": 10,
-    "temperature": 5
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5796774193548387,
+      "eval_loss": 0.20986367762088776,
+      "eval_runtime": 5.1673,
+      "eval_samples_per_second": 599.927,
+      "eval_steps_per_second": 12.579,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5460540056228638,
+      "learning_rate": 1.4758909853249476e-05,
+      "loss": 0.332,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8129032258064516,
+      "eval_loss": 0.1050410121679306,
+      "eval_runtime": 5.3586,
+      "eval_samples_per_second": 578.505,
+      "eval_steps_per_second": 12.13,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.07279336452484131,
+      "eval_runtime": 5.2066,
+      "eval_samples_per_second": 595.399,
+      "eval_steps_per_second": 12.484,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.4723931849002838,
+      "learning_rate": 9.517819706498952e-06,
+      "loss": 0.1214,
       "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1908,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9907493566825466,
+    "num_train_epochs": 6,
+    "temperature": 9
   }
 }

run-3/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13f3c53667f2d0c994b1e0580a4240dd5f1920dd508edcd4cd8ca7ddb067f7f3
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:a85143060eb3d68597fa3be18a06447136e3eefcb180aa3b82a2a8463f5f692a
 size 5240

run-3/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e3dfa7be2ce14e7f0ea5acdcda3076bbb825e51fff60e158046ec8811a22473
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dfbfcd7ae1710dc78f86029d19911aebcbf6263be42f5e1fad4d67a84af60e3
 size 268290900

run-3/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:578039ccc687432b658165aa96f3b0f2e843d55f7e0de1398b1ee0f672a39638
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:36c4fbd6b433cb76cfb9c82d6958f6d74f64d6bee7012fa72823d27b3cea8048
 size 536643898

run-3/checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71453465aad25f4c5a0a948496c64b1f74df850abda497954afe3695c00756ee
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:55c8d3ce0734337fc0c187ca5543b4c70ca45d996531f199209b3a0c2a798109
 size 1064

run-3/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,66 +10,66 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6129032258064516,
-      "eval_loss": 0.22857815027236938,
-      "eval_runtime": 5.1291,
-      "eval_samples_per_second": 604.398,
-      "eval_steps_per_second": 12.673,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5715988874435425,
-      "learning_rate": 1.685534591194969e-05,
-      "loss": 0.368,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8406451612903226,
-      "eval_loss": 0.10308429598808289,
-      "eval_runtime": 5.3537,
-      "eval_samples_per_second": 579.034,
-      "eval_steps_per_second": 12.141,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8909677419354839,
-      "eval_loss": 0.06482071429491043,
-      "eval_runtime": 5.1876,
-      "eval_samples_per_second": 597.576,
-      "eval_steps_per_second": 12.53,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.4861523509025574,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1205,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9032258064516129,
-      "eval_loss": 0.04816382750868797,
-      "eval_runtime": 5.1502,
-      "eval_samples_per_second": 601.919,
-      "eval_steps_per_second": 12.621,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3236384689807892,
-      "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0727,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -87,8 +87,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.34170044466363136,
-    "num_train_epochs": 10,
-    "temperature": 5
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5796774193548387,
+      "eval_loss": 0.20986367762088776,
+      "eval_runtime": 5.1673,
+      "eval_samples_per_second": 599.927,
+      "eval_steps_per_second": 12.579,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5460540056228638,
+      "learning_rate": 1.4758909853249476e-05,
+      "loss": 0.332,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8129032258064516,
+      "eval_loss": 0.1050410121679306,
+      "eval_runtime": 5.3586,
+      "eval_samples_per_second": 578.505,
+      "eval_steps_per_second": 12.13,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.07279336452484131,
+      "eval_runtime": 5.2066,
+      "eval_samples_per_second": 595.399,
+      "eval_steps_per_second": 12.484,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.4723931849002838,
+      "learning_rate": 9.517819706498952e-06,
+      "loss": 0.1214,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.892258064516129,
+      "eval_loss": 0.058892734348773956,
+      "eval_runtime": 5.2068,
+      "eval_samples_per_second": 595.377,
+      "eval_steps_per_second": 12.484,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3437352180480957,
+      "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0826,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1908,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9907493566825466,
+    "num_train_epochs": 6,
+    "temperature": 9
   }
 }

run-3/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13f3c53667f2d0c994b1e0580a4240dd5f1920dd508edcd4cd8ca7ddb067f7f3
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:a85143060eb3d68597fa3be18a06447136e3eefcb180aa3b82a2a8463f5f692a
 size 5240

runs/Oct11_17-03-17_c179252869f4/events.out.tfevents.1728668441.c179252869f4.732.4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d895f31b6e2f5f4ed03220d73decd50b20bd2ab120fd016eb69b2b17969214f
-size 13832

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f711337f1493283db26ffcc6126a461fc92f5e327516a1d3f66c75798ab4e5b
+size 15366