Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

pytorch_model-00001-of-00003.bin +1 -1
pytorch_model-00002-of-00003.bin +1 -1
pytorch_model-00003-of-00003.bin +1 -1
trainer_state.json +678 -120
training_args.bin +1 -1

pytorch_model-00001-of-00003.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:984de491c9c88b5ca7a244427a2965b125fd5d1c5c3f36ec3fdd4baa2826dfc8
 size 9877989586

 version https://git-lfs.github.com/spec/v1
+oid sha256:a374a9f1d01331767790359848209f2a896a799d7e4af25cea164e7bde00f111
 size 9877989586

pytorch_model-00002-of-00003.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddb8f2bd4c71080f2aa02689f6f7f6dcdf9581428c288159379f80e151410e9b
 size 9894801014

 version https://git-lfs.github.com/spec/v1
+oid sha256:8334dd8394f8989710e613e3e5bec93abe3eb367b4c56be58b2d2b4100d269ec
 size 9894801014

pytorch_model-00003-of-00003.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea69a2dd72d7fec44345d2b0747801e50d0b0da86c3d89490ea08fa751a2807d
 size 7180990649

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c149b4a60e50d9b2e1d032a0928746bebffdbe1fd1838d5d41059a1fba5860f
 size 7180990649

trainer_state.json CHANGED Viewed

@@ -1,241 +1,799 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.945945945945946,
-  "global_step": 36,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05,
-      "learning_rate": 1e-05,
-      "loss": 0.5752,
       "step": 1
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 2e-05,
-      "loss": 0.5373,
       "step": 2
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 1.9957341762950346e-05,
-      "loss": 0.4761,
       "step": 3
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 1.982973099683902e-05,
-      "loss": 0.4532,
       "step": 4
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 1.961825643172819e-05,
-      "loss": 0.433,
       "step": 5
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 1.932472229404356e-05,
-      "loss": 0.3961,
       "step": 6
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 1.8951632913550625e-05,
-      "loss": 0.3748,
       "step": 7
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 1.8502171357296144e-05,
-      "loss": 0.3499,
       "step": 8
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 1.7980172272802398e-05,
-      "loss": 0.3753,
       "step": 9
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 1.7390089172206594e-05,
-      "loss": 0.3512,
       "step": 10
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 1.6736956436465573e-05,
-      "loss": 0.3141,
       "step": 11
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 1.6026346363792565e-05,
-      "loss": 0.3097,
       "step": 12
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 1.526432162877356e-05,
-      "loss": 0.3212,
       "step": 13
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 1.4457383557765385e-05,
-      "loss": 0.319,
       "step": 14
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 1.3612416661871532e-05,
-      "loss": 0.2819,
       "step": 15
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 1.2736629900720832e-05,
-      "loss": 0.2806,
       "step": 16
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 1.1837495178165706e-05,
-      "loss": 0.3209,
       "step": 17
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 1.092268359463302e-05,
-      "loss": 0.2699,
       "step": 18
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 1e-05,
-      "loss": 0.2524,
       "step": 19
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 9.07731640536698e-06,
-      "loss": 0.2383,
       "step": 20
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 8.162504821834296e-06,
-      "loss": 0.2116,
       "step": 21
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 7.263370099279173e-06,
-      "loss": 0.2579,
       "step": 22
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 6.387583338128471e-06,
-      "loss": 0.2247,
       "step": 23
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 5.542616442234618e-06,
-      "loss": 0.2532,
       "step": 24
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 4.7356783712264405e-06,
-      "loss": 0.2392,
       "step": 25
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 3.973653636207437e-06,
-      "loss": 0.2334,
       "step": 26
     },
     {
-      "epoch": 1.46,
-      "learning_rate": 3.2630435635344283e-06,
-      "loss": 0.2479,
       "step": 27
     },
     {
-      "epoch": 1.51,
-      "learning_rate": 2.6099108277934105e-06,
-      "loss": 0.2025,
       "step": 28
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 2.019827727197605e-06,
-      "loss": 0.2124,
       "step": 29
     },
     {
-      "epoch": 1.62,
-      "learning_rate": 1.4978286427038602e-06,
-      "loss": 0.1978,
       "step": 30
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 1.0483670864493777e-06,
-      "loss": 0.2144,
       "step": 31
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 6.752777059564431e-07,
-      "loss": 0.2246,
       "step": 32
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 3.817435682718096e-07,
-      "loss": 0.1932,
       "step": 33
     },
     {
-      "epoch": 1.84,
-      "learning_rate": 1.7026900316098217e-07,
-      "loss": 0.1926,
       "step": 34
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 4.2658237049655325e-08,
-      "loss": 0.2296,
       "step": 35
     },
     {
-      "epoch": 1.95,
-      "learning_rate": 0.0,
-      "loss": 0.1756,
       "step": 36
     },
     {
-      "epoch": 1.95,
-      "step": 36,
-      "total_flos": 9.480789044704051e+16,
-      "train_loss": 0.29834916690985364,
-      "train_runtime": 1836.8,
-      "train_samples_per_second": 2.546,
-      "train_steps_per_second": 0.02
     }
   ],
-  "max_steps": 36,
-  "num_train_epochs": 2,
-  "total_flos": 9.480789044704051e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9961389961389961,
+  "global_step": 129,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.285,
       "step": 1
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.2933,
       "step": 2
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1e-05,
+      "loss": 0.2853,
       "step": 3
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.2804,
       "step": 4
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.2834,
       "step": 5
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 2e-05,
+      "loss": 0.2805,
       "step": 6
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 1.9996738360808566e-05,
+      "loss": 0.2805,
       "step": 7
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 1.9986955570892302e-05,
+      "loss": 0.2906,
       "step": 8
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 1.9970658011837404e-05,
+      "loss": 0.2822,
       "step": 9
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 1.994785631499535e-05,
+      "loss": 0.2994,
       "step": 10
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 1.9918565354547738e-05,
+      "loss": 0.3013,
       "step": 11
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 1.9882804237803487e-05,
+      "loss": 0.2954,
       "step": 12
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 1.9840596292734573e-05,
+      "loss": 0.2929,
       "step": 13
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 1.9791969052758563e-05,
+      "loss": 0.2956,
       "step": 14
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 1.9736954238777793e-05,
+      "loss": 0.3002,
       "step": 15
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 1.9675587738486935e-05,
+      "loss": 0.2918,
       "step": 16
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 1.9607909582962478e-05,
+      "loss": 0.2791,
       "step": 17
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 1.9533963920549307e-05,
+      "loss": 0.2777,
       "step": 18
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 1.9453798988061535e-05,
+      "loss": 0.2885,
       "step": 19
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 1.936746707931628e-05,
+      "loss": 0.2957,
       "step": 20
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.927502451102095e-05,
+      "loss": 0.2913,
       "step": 21
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 1.9176531586036282e-05,
+      "loss": 0.2945,
       "step": 22
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 1.9072052554039123e-05,
+      "loss": 0.2802,
       "step": 23
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 1.8961655569610557e-05,
+      "loss": 0.2885,
       "step": 24
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 1.8845412647776795e-05,
+      "loss": 0.2888,
       "step": 25
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 1.8723399617031754e-05,
+      "loss": 0.2772,
       "step": 26
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 1.8595696069872013e-05,
+      "loss": 0.2705,
       "step": 27
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 1.8462385310876444e-05,
+      "loss": 0.2831,
       "step": 28
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 1.8323554302364273e-05,
+      "loss": 0.28,
       "step": 29
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 1.8179293607667177e-05,
+      "loss": 0.28,
       "step": 30
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 1.8029697332052277e-05,
+      "loss": 0.2819,
       "step": 31
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 1.7874863061334658e-05,
+      "loss": 0.2847,
       "step": 32
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 1.7714891798219432e-05,
+      "loss": 0.2809,
       "step": 33
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 1.7549887896414853e-05,
+      "loss": 0.2666,
       "step": 34
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 1.7379958992559494e-05,
+      "loss": 0.2837,
       "step": 35
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 1.720521593600787e-05,
+      "loss": 0.2822,
       "step": 36
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 1.7025772716520324e-05,
+      "loss": 0.2764,
+      "step": 37
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.6841746389904306e-05,
+      "loss": 0.2795,
+      "step": 38
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 1.6653257001655652e-05,
+      "loss": 0.2686,
+      "step": 39
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.6460427508649546e-05,
+      "loss": 0.2655,
+      "step": 40
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1.6263383698932307e-05,
+      "loss": 0.2715,
+      "step": 41
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1.6062254109666383e-05,
+      "loss": 0.276,
+      "step": 42
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.5857169943281948e-05,
+      "loss": 0.274,
+      "step": 43
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.5648264981889936e-05,
+      "loss": 0.2831,
+      "step": 44
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.5435675500012212e-05,
+      "loss": 0.2685,
+      "step": 45
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.5219540175685938e-05,
+      "loss": 0.2746,
+      "step": 46
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.2624,
+      "step": 47
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.477719818512263e-05,
+      "loss": 0.2709,
+      "step": 48
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.4551280070880089e-05,
+      "loss": 0.2801,
+      "step": 49
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.432239302994747e-05,
+      "loss": 0.2724,
+      "step": 50
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.4090686371713403e-05,
+      "loss": 0.2661,
+      "step": 51
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.385631124488136e-05,
+      "loss": 0.262,
+      "step": 52
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1.361942053887118e-05,
+      "loss": 0.2653,
+      "step": 53
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 1.3380168784085028e-05,
+      "loss": 0.2618,
+      "step": 54
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 1.3138712051102908e-05,
+      "loss": 0.2619,
+      "step": 55
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 1.2895207848873488e-05,
+      "loss": 0.2597,
+      "step": 56
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 1.264981502196662e-05,
+      "loss": 0.2592,
+      "step": 57
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 1.2402693646954607e-05,
+      "loss": 0.2658,
+      "step": 58
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.2154004927989815e-05,
+      "loss": 0.2535,
+      "step": 59
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1903911091646684e-05,
+      "loss": 0.2711,
+      "step": 60
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.165257528109685e-05,
+      "loss": 0.2601,
+      "step": 61
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.1400161449686293e-05,
+      "loss": 0.2532,
+      "step": 62
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.1146834253984008e-05,
+      "loss": 0.2621,
+      "step": 63
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.0892758946371943e-05,
+      "loss": 0.2612,
+      "step": 64
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 1.0638101267246283e-05,
+      "loss": 0.2521,
+      "step": 65
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 1.0383027336900356e-05,
+      "loss": 0.2611,
+      "step": 66
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 1.012770354715974e-05,
+      "loss": 0.256,
+      "step": 67
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 9.872296452840266e-06,
+      "loss": 0.2584,
+      "step": 68
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 9.616972663099648e-06,
+      "loss": 0.2502,
+      "step": 69
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 9.361898732753715e-06,
+      "loss": 0.2384,
+      "step": 70
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 9.107241053628058e-06,
+      "loss": 0.258,
+      "step": 71
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.853165746015997e-06,
+      "loss": 0.2536,
+      "step": 72
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.599838550313714e-06,
+      "loss": 0.263,
+      "step": 73
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 8.347424718903152e-06,
+      "loss": 0.247,
+      "step": 74
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 8.096088908353316e-06,
+      "loss": 0.2523,
+      "step": 75
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 7.845995072010188e-06,
+      "loss": 0.2454,
+      "step": 76
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 7.597306353045393e-06,
+      "loss": 0.2618,
+      "step": 77
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 7.350184978033386e-06,
+      "loss": 0.2536,
+      "step": 78
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 7.104792151126515e-06,
+      "loss": 0.2454,
+      "step": 79
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 6.861287948897091e-06,
+      "loss": 0.2636,
+      "step": 80
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 6.619831215914974e-06,
+      "loss": 0.2415,
+      "step": 81
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 6.38057946112882e-06,
+      "loss": 0.2415,
+      "step": 82
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 6.1436887551186466e-06,
+      "loss": 0.248,
+      "step": 83
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 5.9093136282866014e-06,
+      "loss": 0.247,
+      "step": 84
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 5.67760697005253e-06,
+      "loss": 0.245,
+      "step": 85
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 5.448719929119916e-06,
+      "loss": 0.2298,
+      "step": 86
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 5.22280181487737e-06,
+      "loss": 0.2465,
+      "step": 87
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 0.2403,
+      "step": 88
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.7804598243140664e-06,
+      "loss": 0.242,
+      "step": 89
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.56432449998779e-06,
+      "loss": 0.2402,
+      "step": 90
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.351735018110066e-06,
+      "loss": 0.2423,
+      "step": 91
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.142830056718052e-06,
+      "loss": 0.2453,
+      "step": 92
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3.937745890333623e-06,
+      "loss": 0.2467,
+      "step": 93
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3.7366163010676937e-06,
+      "loss": 0.2354,
+      "step": 94
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3.5395724913504546e-06,
+      "loss": 0.2497,
+      "step": 95
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3.3467429983443477e-06,
+      "loss": 0.2362,
+      "step": 96
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.1582536100956973e-06,
+      "loss": 0.2444,
+      "step": 97
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 2.9742272834796813e-06,
+      "loss": 0.2495,
+      "step": 98
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 2.7947840639921308e-06,
+      "loss": 0.2242,
+      "step": 99
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.620041007440508e-06,
+      "loss": 0.2356,
+      "step": 100
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 2.4501121035851494e-06,
+      "loss": 0.2369,
+      "step": 101
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 2.2851082017805704e-06,
+      "loss": 0.2424,
+      "step": 102
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 2.1251369386653454e-06,
+      "loss": 0.248,
+      "step": 103
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.9703026679477253e-06,
+      "loss": 0.2354,
+      "step": 104
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.820706392332824e-06,
+      "loss": 0.2518,
+      "step": 105
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.6764456976357279e-06,
+      "loss": 0.2402,
+      "step": 106
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.53761468912356e-06,
+      "loss": 0.2509,
+      "step": 107
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.4043039301279904e-06,
+      "loss": 0.2446,
+      "step": 108
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.2766003829682504e-06,
+      "loss": 0.2343,
+      "step": 109
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.1545873522232055e-06,
+      "loss": 0.2363,
+      "step": 110
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.0383444303894453e-06,
+      "loss": 0.2332,
+      "step": 111
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 9.279474459608806e-07,
+      "loss": 0.2388,
+      "step": 112
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 8.234684139637205e-07,
+      "loss": 0.2414,
+      "step": 113
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.249754889790539e-07,
+      "loss": 0.2407,
+      "step": 114
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 6.325329206837217e-07,
+      "loss": 0.2363,
+      "step": 115
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.462010119384665e-07,
+      "loss": 0.2463,
+      "step": 116
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.660360794506946e-07,
+      "loss": 0.2328,
+      "step": 117
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3.920904170375239e-07,
+      "loss": 0.2308,
+      "step": 118
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.2441226151306403e-07,
+      "loss": 0.2474,
+      "step": 119
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.6304576122221035e-07,
+      "loss": 0.2353,
+      "step": 120
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.0803094724143879e-07,
+      "loss": 0.2331,
+      "step": 121
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.5940370726542864e-07,
+      "loss": 0.2374,
+      "step": 122
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.1719576219651585e-07,
+      "loss": 0.2279,
+      "step": 123
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 8.143464545226298e-08,
+      "loss": 0.2498,
+      "step": 124
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 5.214368500465305e-08,
+      "loss": 0.2452,
+      "step": 125
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 2.9341988162595593e-08,
+      "loss": 0.2374,
+      "step": 126
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.3044429107700319e-08,
+      "loss": 0.2405,
+      "step": 127
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.2616391914364056e-09,
+      "loss": 0.246,
+      "step": 128
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "loss": 0.2311,
+      "step": 129
+    },
+    {
+      "epoch": 1.0,
+      "step": 129,
+      "total_flos": 1.0254156470912287e+18,
+      "train_loss": 0.2606376674055129,
+      "train_runtime": 20090.4454,
+      "train_samples_per_second": 4.947,
+      "train_steps_per_second": 0.006
     }
   ],
+  "max_steps": 129,
+  "num_train_epochs": 1,
+  "total_flos": 1.0254156470912287e+18,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af0fcb0b7fb60347544c0595022936b78fda0d060d0dc5a47828f26c1b3d4ed5
 size 3771

 version https://git-lfs.github.com/spec/v1
+oid sha256:86db5b26b025cde82a2aa084a23b6e7d928d912530cfff8a617c19f7aa56dafd
 size 3771