Training in progress, step 500

Browse files

Files changed (12) hide show

model.safetensors +1 -1
run-1/checkpoint-2544/model.safetensors +1 -1
run-1/checkpoint-2544/optimizer.pt +1 -1
run-1/checkpoint-2544/trainer_state.json +46 -46
run-1/checkpoint-2544/training_args.bin +1 -1
run-2/checkpoint-500/model.safetensors +1 -1
run-2/checkpoint-500/optimizer.pt +1 -1
run-2/checkpoint-500/scheduler.pt +1 -1
run-2/checkpoint-500/trainer_state.json +13 -13
run-2/checkpoint-500/training_args.bin +1 -1
runs/Oct11_19-31-02_821d3e23518d/events.out.tfevents.1728678216.821d3e23518d.3094.3 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47fa5bdd9ebe645b2aa80700c20cbf7176f0e6e274d2b1ea405cf63ea345869d
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:391187adb9deb662903fc270652f066549287835d564aa5a92416b302df77e71
 size 268290900

run-1/checkpoint-2544/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69eb47dc893c05ba7230c6a876fade5c74cf600f71b3fb1c999a915cf4a8f07f
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e906c7638b0248c9885b5f3e966cf1e8f0476b771b3a47b75273ae1e9f50563
 size 268290900

run-1/checkpoint-2544/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dad5182a3f14ff6ef0da349116975eeb7b9e4efc16dbb4371e39b50b0d6f0795
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2edac191b883f41f9cb0a2016ff82c05343fa1b1f4144984dea88336b70bab2
 size 536643898

run-1/checkpoint-2544/trainer_state.json CHANGED Viewed

@@ -10,100 +10,100 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5858064516129032,
-      "eval_loss": 0.20023050904273987,
-      "eval_runtime": 5.4304,
-      "eval_samples_per_second": 570.856,
-      "eval_steps_per_second": 11.97,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5323805212974548,
       "learning_rate": 1.606918238993711e-05,
-      "loss": 0.3211,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.817741935483871,
-      "eval_loss": 0.09780898690223694,
-      "eval_runtime": 5.6251,
-      "eval_samples_per_second": 551.101,
-      "eval_steps_per_second": 11.555,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8761290322580645,
-      "eval_loss": 0.06598751991987228,
-      "eval_runtime": 5.3523,
-      "eval_samples_per_second": 579.185,
-      "eval_steps_per_second": 12.144,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.45211926102638245,
       "learning_rate": 1.2138364779874214e-05,
-      "loss": 0.1134,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8970967741935484,
-      "eval_loss": 0.05154659226536751,
-      "eval_runtime": 5.4338,
-      "eval_samples_per_second": 570.506,
-      "eval_steps_per_second": 11.962,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.31171318888664246,
       "learning_rate": 8.207547169811321e-06,
-      "loss": 0.0736,
       "step": 1500
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.9051612903225806,
-      "eval_loss": 0.04292130842804909,
-      "eval_runtime": 5.5921,
-      "eval_samples_per_second": 554.351,
-      "eval_steps_per_second": 11.623,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9090322580645162,
-      "eval_loss": 0.03817291185259819,
-      "eval_runtime": 5.3716,
-      "eval_samples_per_second": 577.105,
-      "eval_steps_per_second": 12.101,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.2767144441604614,
       "learning_rate": 4.276729559748428e-06,
-      "loss": 0.0589,
       "step": 2000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9135483870967742,
-      "eval_loss": 0.03585055470466614,
-      "eval_runtime": 5.5797,
-      "eval_samples_per_second": 555.585,
-      "eval_steps_per_second": 11.649,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
-      "grad_norm": 0.27693912386894226,
       "learning_rate": 3.459119496855346e-07,
-      "loss": 0.0529,
       "step": 2500
     }
   ],
@@ -128,8 +128,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1709217232718393,
     "num_train_epochs": 8,
-    "temperature": 11
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5829032258064516,
+      "eval_loss": 0.1985393762588501,
+      "eval_runtime": 5.6203,
+      "eval_samples_per_second": 551.572,
+      "eval_steps_per_second": 11.565,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5288612246513367,
       "learning_rate": 1.606918238993711e-05,
+      "loss": 0.3184,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8174193548387096,
+      "eval_loss": 0.09726663678884506,
+      "eval_runtime": 6.0438,
+      "eval_samples_per_second": 512.92,
+      "eval_steps_per_second": 10.755,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8764516129032258,
+      "eval_loss": 0.06577406078577042,
+      "eval_runtime": 5.6348,
+      "eval_samples_per_second": 550.155,
+      "eval_steps_per_second": 11.535,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.44873112440109253,
       "learning_rate": 1.2138364779874214e-05,
+      "loss": 0.1127,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8964516129032258,
+      "eval_loss": 0.05149334296584129,
+      "eval_runtime": 5.7578,
+      "eval_samples_per_second": 538.401,
+      "eval_steps_per_second": 11.289,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.30973368883132935,
       "learning_rate": 8.207547169811321e-06,
+      "loss": 0.0733,
       "step": 1500
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.9051612903225806,
+      "eval_loss": 0.04290274158120155,
+      "eval_runtime": 5.9031,
+      "eval_samples_per_second": 525.15,
+      "eval_steps_per_second": 11.011,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9093548387096774,
+      "eval_loss": 0.038180265575647354,
+      "eval_runtime": 5.6503,
+      "eval_samples_per_second": 548.642,
+      "eval_steps_per_second": 11.504,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.27582159638404846,
       "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0587,
       "step": 2000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9141935483870968,
+      "eval_loss": 0.03587044030427933,
+      "eval_runtime": 5.962,
+      "eval_samples_per_second": 519.958,
+      "eval_steps_per_second": 10.902,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
+      "grad_norm": 0.275245726108551,
       "learning_rate": 3.459119496855346e-07,
+      "loss": 0.0528,
       "step": 2500
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.819089504077056,
     "num_train_epochs": 8,
+    "temperature": 12
   }
 }

run-1/checkpoint-2544/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78c9f8065f3863022051fc0cf21ad46e0468d9988de813731a8591806be5f3c9
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ad3761ee6c049b5f54cddb21d4403152bfaafdbfc2a13b71993419e99660838
 size 5240

run-2/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33620587b37c196969d3f412f74ef041dcfeee8258db5933dc3c4540e70b1e43
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:391187adb9deb662903fc270652f066549287835d564aa5a92416b302df77e71
 size 268290900

run-2/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bab979622485a1e70f82a64c3ec4aae99b0262391ec447afad3b7eae33df5ce
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc13f9b00992b49e7dfe94e9d1a650da3af781a61a99f9328ba16c032c275b8d
 size 536643898

run-2/checkpoint-500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98041bd7cae455426e290a1a0ee683bd5dd30893f7451fec3a464ae8995b17e4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:04366f62f8f88f5a8265df59adb051b320463277845db80e7fa43f13110c18c9
 size 1064

run-2/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -10,25 +10,25 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5887096774193549,
-      "eval_loss": 0.19886387884616852,
-      "eval_runtime": 5.1582,
-      "eval_samples_per_second": 600.982,
-      "eval_steps_per_second": 12.601,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5294517874717712,
-      "learning_rate": 1.650593990216632e-05,
-      "loss": 0.3203,
       "step": 500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2862,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 9,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -46,8 +46,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.38078945785669316,
-    "num_train_epochs": 9,
-    "temperature": 11
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5796774193548387,
+      "eval_loss": 0.1907225400209427,
+      "eval_runtime": 5.6367,
+      "eval_samples_per_second": 549.965,
+      "eval_steps_per_second": 11.532,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5174282193183899,
+      "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3083,
       "step": 500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3180,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.4529889909540463,
+    "num_train_epochs": 10,
+    "temperature": 17
   }
 }

run-2/checkpoint-500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a815016dfca6056394449b7eec53142e869a6e9ff738e6f9557bb4382010c025
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:721f120a8e258fc8c48320ec67ae2a387816a0061225dcba3c70a5da25825846
 size 5240

runs/Oct11_19-31-02_821d3e23518d/events.out.tfevents.1728678216.821d3e23518d.3094.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b40e04c0d9c558cbe125410be24b7e46355152735bdb62eee3c77377f159c32
+size 13299

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ad3761ee6c049b5f54cddb21d4403152bfaafdbfc2a13b71993419e99660838
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:721f120a8e258fc8c48320ec67ae2a387816a0061225dcba3c70a5da25825846
 size 5240