Uploaded checkpoint-4000

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +153 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8153c1ec03df5594efef9482f36db85ac0366821320fba1ba8aae357d7d7188
 size 119975656

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae99966885dfadca210314bf64872ce443f70308df6e4727adcc50f428ab66db
 size 119975656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48f7a51201319a8a132484b82cfc2452f1693df833826e55a13467cec23fc927
 size 60477396

 version https://git-lfs.github.com/spec/v1
+oid sha256:2812ec63c28059aad0edb8123a9e90f5f8301e979f2372ce02fe039956e98169
 size 60477396

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89a6ecb1fb2aa6a3c4d8bd6fdae6076f15725b87d99a6f3bffd86e06ab5951a4
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:b12fc07e36413d2b0b11012030944d448c215499606c7c88123ca1e537650ca8
+size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:770db92ac44ccb712216aece2abb8a41e68fd6d952c7ae7884e9032fb3cc3f81
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9399232396020991,
   "eval_steps": 100,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -457,6 +457,156 @@
       "eval_samples_per_second": 5.189,
       "eval_steps_per_second": 5.189,
       "step": 3000
     }
   ],
   "logging_steps": 100,
@@ -464,7 +614,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 4.8306377981952e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2532309861361322,
   "eval_steps": 100,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.189,
       "eval_steps_per_second": 5.189,
       "step": 3000
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.0015150770777836442,
+      "learning_rate": 8.444444444444446e-06,
+      "loss": 0.055,
+      "step": 3100
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 0.020349696278572083,
+      "eval_runtime": 192.752,
+      "eval_samples_per_second": 5.188,
+      "eval_steps_per_second": 5.188,
+      "step": 3100
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.8284673690795898,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0424,
+      "step": 3200
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.011587778106331825,
+      "eval_runtime": 192.4082,
+      "eval_samples_per_second": 5.197,
+      "eval_steps_per_second": 5.197,
+      "step": 3200
+    },
+    {
+      "epoch": 1.03,
+      "grad_norm": 0.00324226007796824,
+      "learning_rate": 7.555555555555556e-06,
+      "loss": 0.0232,
+      "step": 3300
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.02541309781372547,
+      "eval_runtime": 192.4753,
+      "eval_samples_per_second": 5.195,
+      "eval_steps_per_second": 5.195,
+      "step": 3300
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 0.0018368299352005124,
+      "learning_rate": 7.111111111111112e-06,
+      "loss": 0.0391,
+      "step": 3400
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.019817600026726723,
+      "eval_runtime": 192.2908,
+      "eval_samples_per_second": 5.2,
+      "eval_steps_per_second": 5.2,
+      "step": 3400
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 0.001375267980620265,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.029,
+      "step": 3500
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 0.014760646037757397,
+      "eval_runtime": 192.1713,
+      "eval_samples_per_second": 5.204,
+      "eval_steps_per_second": 5.204,
+      "step": 3500
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 1.2048271894454956,
+      "learning_rate": 6.222222222222223e-06,
+      "loss": 0.028,
+      "step": 3600
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.024096647277474403,
+      "eval_runtime": 191.7597,
+      "eval_samples_per_second": 5.215,
+      "eval_steps_per_second": 5.215,
+      "step": 3600
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 1.7010436058044434,
+      "learning_rate": 5.777777777777778e-06,
+      "loss": 0.033,
+      "step": 3700
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.024101875722408295,
+      "eval_runtime": 191.6566,
+      "eval_samples_per_second": 5.218,
+      "eval_steps_per_second": 5.218,
+      "step": 3700
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 0.4044632613658905,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.0411,
+      "step": 3800
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.020846880972385406,
+      "eval_runtime": 192.1837,
+      "eval_samples_per_second": 5.203,
+      "eval_steps_per_second": 5.203,
+      "step": 3800
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 0.47499576210975647,
+      "learning_rate": 4.888888888888889e-06,
+      "loss": 0.0233,
+      "step": 3900
+    },
+    {
+      "epoch": 1.22,
+      "eval_loss": 0.010989435017108917,
+      "eval_runtime": 192.4351,
+      "eval_samples_per_second": 5.197,
+      "eval_steps_per_second": 5.197,
+      "step": 3900
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.017001571133732796,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.0204,
+      "step": 4000
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 0.02116994932293892,
+      "eval_runtime": 192.8643,
+      "eval_samples_per_second": 5.185,
+      "eval_steps_per_second": 5.185,
+      "step": 4000
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 6.4408503975936e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null