Training in progress, step 2226

Browse files

Files changed (10) hide show

model.safetensors +1 -1
run-2/checkpoint-2000/model.safetensors +1 -1
run-2/checkpoint-2000/optimizer.pt +1 -1
run-2/checkpoint-2000/trainer_state.json +40 -40
run-2/checkpoint-2000/training_args.bin +1 -1
run-2/checkpoint-2226/model.safetensors +1 -1
run-2/checkpoint-2226/optimizer.pt +1 -1
run-2/checkpoint-2226/trainer_state.json +40 -40
run-2/checkpoint-2226/training_args.bin +1 -1
runs/Oct12_06-40-39_b76c1be2ae55/events.out.tfevents.1728717352.b76c1be2ae55.1423.3 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:744965fc651adbb182875f98c309e15905b940ddfa5ac317af007d18b2f3085e
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a461fedb48bd3ba08cf0db08a34f253e9782b2d81e15c6fa47b4f754bb7a3c2
 size 268290900

run-2/checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:159a38a62caabed9e1210e59e61e37481121dd41cf4c689d9dd1ff3a76ab2258
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:ffec1b640d7fef2ebc929e35aee46eb1e69a1c047f7259f54793032dfcc12be8
 size 268290900

run-2/checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d104b09460b4032759fd9392322e2f598820f8336681511fe529d62c7badd4ca
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc1f174ac7936bbb2b1ae74026852de9c65642eaa3130e2e8c0ef7f9371e11d6
 size 536643898

run-2/checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -10,84 +10,84 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6445161290322581,
-      "eval_loss": 0.29249975085258484,
-      "eval_runtime": 5.4218,
-      "eval_samples_per_second": 571.762,
-      "eval_steps_per_second": 11.989,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.6633772850036621,
       "learning_rate": 1.550763701707098e-05,
-      "loss": 0.4626,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8380645161290322,
-      "eval_loss": 0.12248263508081436,
-      "eval_runtime": 5.3956,
-      "eval_samples_per_second": 574.542,
-      "eval_steps_per_second": 12.047,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8887096774193548,
-      "eval_loss": 0.07343784719705582,
-      "eval_runtime": 5.2977,
-      "eval_samples_per_second": 585.157,
-      "eval_steps_per_second": 12.269,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.59869384765625,
       "learning_rate": 1.101527403414196e-05,
-      "loss": 0.1438,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9045161290322581,
-      "eval_loss": 0.05444410815834999,
-      "eval_runtime": 5.5714,
-      "eval_samples_per_second": 556.417,
-      "eval_steps_per_second": 11.667,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.4075869023799896,
       "learning_rate": 6.522911051212939e-06,
-      "loss": 0.0845,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9141935483870968,
-      "eval_loss": 0.045045968145132065,
-      "eval_runtime": 5.3274,
-      "eval_samples_per_second": 581.894,
-      "eval_steps_per_second": 12.201,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9190322580645162,
-      "eval_loss": 0.04080257937312126,
-      "eval_runtime": 5.3427,
-      "eval_samples_per_second": 580.23,
-      "eval_steps_per_second": 12.166,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.352282851934433,
       "learning_rate": 2.0305480682839176e-06,
-      "loss": 0.0669,
       "step": 2000
     }
   ],
@@ -112,8 +112,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.444035914041536,
     "num_train_epochs": 7,
-    "temperature": 3
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.603225806451613,
+      "eval_loss": 0.23406817018985748,
+      "eval_runtime": 5.4802,
+      "eval_samples_per_second": 565.673,
+      "eval_steps_per_second": 11.861,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.57925945520401,
       "learning_rate": 1.550763701707098e-05,
+      "loss": 0.3716,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8309677419354838,
+      "eval_loss": 0.1094982922077179,
+      "eval_runtime": 5.8681,
+      "eval_samples_per_second": 528.276,
+      "eval_steps_per_second": 11.077,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8819354838709678,
+      "eval_loss": 0.07135984301567078,
+      "eval_runtime": 5.4437,
+      "eval_samples_per_second": 569.468,
+      "eval_steps_per_second": 11.94,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.5091490149497986,
       "learning_rate": 1.101527403414196e-05,
+      "loss": 0.1274,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8980645161290323,
+      "eval_loss": 0.055049341171979904,
+      "eval_runtime": 5.4797,
+      "eval_samples_per_second": 565.721,
+      "eval_steps_per_second": 11.862,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3538859486579895,
       "learning_rate": 6.522911051212939e-06,
+      "loss": 0.0809,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9061290322580645,
+      "eval_loss": 0.04594043269753456,
+      "eval_runtime": 5.6864,
+      "eval_samples_per_second": 545.158,
+      "eval_steps_per_second": 11.431,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9090322580645162,
+      "eval_loss": 0.04156717658042908,
+      "eval_runtime": 5.586,
+      "eval_samples_per_second": 554.96,
+      "eval_steps_per_second": 11.636,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.31923583149909973,
       "learning_rate": 2.0305480682839176e-06,
+      "loss": 0.0654,
       "step": 2000
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.49068870611003523,
     "num_train_epochs": 7,
+    "temperature": 5
   }
 }

run-2/checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22d5df12fd1120947d14fad0a0388bc240150e4fa0277e30f926f1ec12ddb8e9
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:8759fe239e3e09af377de9d8ac9ed677e8c3fe7b8d3bf99d5396a42501d32db2
 size 5240

run-2/checkpoint-2226/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bde7c96d3a8960631be6fa8967080af250062b2283875ab44aeb97fc14d426d5
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a461fedb48bd3ba08cf0db08a34f253e9782b2d81e15c6fa47b4f754bb7a3c2
 size 268290900

run-2/checkpoint-2226/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af1ad9d9d7e7e4ebe5e7086535145004be6d4299c50840889d61a06edae7e922
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9b9a634ce49f802f3a40ab00a30a40ec119bdd38806e4f1dda97675bfdca962
 size 536643898

run-2/checkpoint-2226/trainer_state.json CHANGED Viewed

@@ -10,84 +10,84 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6445161290322581,
-      "eval_loss": 0.29249975085258484,
-      "eval_runtime": 5.4218,
-      "eval_samples_per_second": 571.762,
-      "eval_steps_per_second": 11.989,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.6633772850036621,
       "learning_rate": 1.550763701707098e-05,
-      "loss": 0.4626,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8380645161290322,
-      "eval_loss": 0.12248263508081436,
-      "eval_runtime": 5.3956,
-      "eval_samples_per_second": 574.542,
-      "eval_steps_per_second": 12.047,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8887096774193548,
-      "eval_loss": 0.07343784719705582,
-      "eval_runtime": 5.2977,
-      "eval_samples_per_second": 585.157,
-      "eval_steps_per_second": 12.269,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.59869384765625,
       "learning_rate": 1.101527403414196e-05,
-      "loss": 0.1438,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9045161290322581,
-      "eval_loss": 0.05444410815834999,
-      "eval_runtime": 5.5714,
-      "eval_samples_per_second": 556.417,
-      "eval_steps_per_second": 11.667,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.4075869023799896,
       "learning_rate": 6.522911051212939e-06,
-      "loss": 0.0845,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9141935483870968,
-      "eval_loss": 0.045045968145132065,
-      "eval_runtime": 5.3274,
-      "eval_samples_per_second": 581.894,
-      "eval_steps_per_second": 12.201,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9190322580645162,
-      "eval_loss": 0.04080257937312126,
-      "eval_runtime": 5.3427,
-      "eval_samples_per_second": 580.23,
-      "eval_steps_per_second": 12.166,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.352282851934433,
       "learning_rate": 2.0305480682839176e-06,
-      "loss": 0.0669,
       "step": 2000
     }
   ],
@@ -112,8 +112,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.444035914041536,
     "num_train_epochs": 7,
-    "temperature": 3
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.603225806451613,
+      "eval_loss": 0.23406817018985748,
+      "eval_runtime": 5.4802,
+      "eval_samples_per_second": 565.673,
+      "eval_steps_per_second": 11.861,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.57925945520401,
       "learning_rate": 1.550763701707098e-05,
+      "loss": 0.3716,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8309677419354838,
+      "eval_loss": 0.1094982922077179,
+      "eval_runtime": 5.8681,
+      "eval_samples_per_second": 528.276,
+      "eval_steps_per_second": 11.077,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8819354838709678,
+      "eval_loss": 0.07135984301567078,
+      "eval_runtime": 5.4437,
+      "eval_samples_per_second": 569.468,
+      "eval_steps_per_second": 11.94,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.5091490149497986,
       "learning_rate": 1.101527403414196e-05,
+      "loss": 0.1274,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8980645161290323,
+      "eval_loss": 0.055049341171979904,
+      "eval_runtime": 5.4797,
+      "eval_samples_per_second": 565.721,
+      "eval_steps_per_second": 11.862,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3538859486579895,
       "learning_rate": 6.522911051212939e-06,
+      "loss": 0.0809,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9061290322580645,
+      "eval_loss": 0.04594043269753456,
+      "eval_runtime": 5.6864,
+      "eval_samples_per_second": 545.158,
+      "eval_steps_per_second": 11.431,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9090322580645162,
+      "eval_loss": 0.04156717658042908,
+      "eval_runtime": 5.586,
+      "eval_samples_per_second": 554.96,
+      "eval_steps_per_second": 11.636,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.31923583149909973,
       "learning_rate": 2.0305480682839176e-06,
+      "loss": 0.0654,
       "step": 2000
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.49068870611003523,
     "num_train_epochs": 7,
+    "temperature": 5
   }
 }

run-2/checkpoint-2226/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22d5df12fd1120947d14fad0a0388bc240150e4fa0277e30f926f1ec12ddb8e9
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:8759fe239e3e09af377de9d8ac9ed677e8c3fe7b8d3bf99d5396a42501d32db2
 size 5240

runs/Oct12_06-40-39_b76c1be2ae55/events.out.tfevents.1728717352.b76c1be2ae55.1423.3 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d40e1bffd20d44f6d7d196bd10584be1460641c398a0457ce17732b1f4af602
-size 15223

 version https://git-lfs.github.com/spec/v1
+oid sha256:2db09c995ccbc13b91f82d14a76ef099521d2714c6dbf6bd493238eb824d4952
+size 15900