Training in progress, step 141

Browse files

Files changed (9) hide show

model.safetensors +1 -1
run-rukgjisn/checkpoint-141/config.json +22 -0
run-rukgjisn/checkpoint-141/model.safetensors +3 -0
run-rukgjisn/checkpoint-141/optimizer.pt +3 -0
run-rukgjisn/checkpoint-141/rng_state.pth +3 -0
run-rukgjisn/checkpoint-141/scheduler.pt +3 -0
run-rukgjisn/checkpoint-141/trainer_state.json +745 -0
run-rukgjisn/checkpoint-141/training_args.bin +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fe2d20fea15644b7c82e89af20ce72ac6fc5759999bc2fdead1cc2ef0d55551
 size 605156676

 version https://git-lfs.github.com/spec/v1
+oid sha256:74d09b7e21715c345df914e334fa0c9663d9cebfebfebd86d03ea69315b85e9f
 size 605156676

run-rukgjisn/checkpoint-141/config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "_name_or_path": "openai/clip-vit-base-patch32",
+  "architectures": [
+    "CLIPModel"
+  ],
+  "initializer_factor": 1.0,
+  "logit_scale_init_value": 2.6592,
+  "model_type": "clip",
+  "projection_dim": 512,
+  "text_config": {
+    "bos_token_id": 0,
+    "dropout": 0.0,
+    "eos_token_id": 2,
+    "model_type": "clip_text_model"
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.0.dev0",
+  "vision_config": {
+    "dropout": 0.0,
+    "model_type": "clip_vision_model"
+  }
+}

run-rukgjisn/checkpoint-141/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74d09b7e21715c345df914e334fa0c9663d9cebfebfebd86d03ea69315b85e9f
+size 605156676

run-rukgjisn/checkpoint-141/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8e1492c16e6617decac1692a61d9ebe0c3703083debe381bc3ba5220ecbdc5f
+size 1210551612

run-rukgjisn/checkpoint-141/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e96fc8563484f6a8496903580e7bc7e8a2ce3b03a6219f8c18b38034a60c61e0
+size 14244

run-rukgjisn/checkpoint-141/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2ff5b95c0d9fc9c1957bd86dceb741fb3264c2542974ebf2d568a92183b8c00
+size 1064

run-rukgjisn/checkpoint-141/trainer_state.json ADDED Viewed

	@@ -0,0 +1,745 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 3,
+  "global_step": 141,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06382978723404255,
+      "grad_norm": 126.25067138671875,
+      "learning_rate": 2.7017280741018005e-06,
+      "loss": 2.0446,
+      "step": 3
+    },
+    {
+      "epoch": 0.06382978723404255,
+      "eval_loss": 1.5570741891860962,
+      "eval_runtime": 138.2934,
+      "eval_samples_per_second": 2.169,
+      "eval_steps_per_second": 0.036,
+      "step": 3
+    },
+    {
+      "epoch": 0.1276595744680851,
+      "grad_norm": 120.61219024658203,
+      "learning_rate": 2.642994855099588e-06,
+      "loss": 1.5291,
+      "step": 6
+    },
+    {
+      "epoch": 0.1276595744680851,
+      "eval_loss": 1.5480098724365234,
+      "eval_runtime": 55.4012,
+      "eval_samples_per_second": 5.415,
+      "eval_steps_per_second": 0.09,
+      "step": 6
+    },
+    {
+      "epoch": 0.19148936170212766,
+      "grad_norm": 148.80548095703125,
+      "learning_rate": 2.5842616360973746e-06,
+      "loss": 1.5643,
+      "step": 9
+    },
+    {
+      "epoch": 0.19148936170212766,
+      "eval_loss": 1.493557095527649,
+      "eval_runtime": 63.0246,
+      "eval_samples_per_second": 4.76,
+      "eval_steps_per_second": 0.079,
+      "step": 9
+    },
+    {
+      "epoch": 0.2553191489361702,
+      "grad_norm": 107.73375701904297,
+      "learning_rate": 2.5255284170951615e-06,
+      "loss": 1.4307,
+      "step": 12
+    },
+    {
+      "epoch": 0.2553191489361702,
+      "eval_loss": 1.4424189329147339,
+      "eval_runtime": 75.4031,
+      "eval_samples_per_second": 3.979,
+      "eval_steps_per_second": 0.066,
+      "step": 12
+    },
+    {
+      "epoch": 0.3191489361702128,
+      "grad_norm": 130.98121643066406,
+      "learning_rate": 2.4667951980929483e-06,
+      "loss": 1.6454,
+      "step": 15
+    },
+    {
+      "epoch": 0.3191489361702128,
+      "eval_loss": 1.408605694770813,
+      "eval_runtime": 53.8295,
+      "eval_samples_per_second": 5.573,
+      "eval_steps_per_second": 0.093,
+      "step": 15
+    },
+    {
+      "epoch": 0.3829787234042553,
+      "grad_norm": 106.03084564208984,
+      "learning_rate": 2.4080619790907356e-06,
+      "loss": 1.3147,
+      "step": 18
+    },
+    {
+      "epoch": 0.3829787234042553,
+      "eval_loss": 1.3837209939956665,
+      "eval_runtime": 67.6789,
+      "eval_samples_per_second": 4.433,
+      "eval_steps_per_second": 0.074,
+      "step": 18
+    },
+    {
+      "epoch": 0.44680851063829785,
+      "grad_norm": 113.49714660644531,
+      "learning_rate": 2.3493287600885224e-06,
+      "loss": 1.2143,
+      "step": 21
+    },
+    {
+      "epoch": 0.44680851063829785,
+      "eval_loss": 1.3638520240783691,
+      "eval_runtime": 54.0491,
+      "eval_samples_per_second": 5.551,
+      "eval_steps_per_second": 0.093,
+      "step": 21
+    },
+    {
+      "epoch": 0.5106382978723404,
+      "grad_norm": 113.10063934326172,
+      "learning_rate": 2.2905955410863092e-06,
+      "loss": 1.4135,
+      "step": 24
+    },
+    {
+      "epoch": 0.5106382978723404,
+      "eval_loss": 1.3405903577804565,
+      "eval_runtime": 53.7778,
+      "eval_samples_per_second": 5.579,
+      "eval_steps_per_second": 0.093,
+      "step": 24
+    },
+    {
+      "epoch": 0.574468085106383,
+      "grad_norm": 140.38291931152344,
+      "learning_rate": 2.231862322084096e-06,
+      "loss": 1.5794,
+      "step": 27
+    },
+    {
+      "epoch": 0.574468085106383,
+      "eval_loss": 1.3204959630966187,
+      "eval_runtime": 53.6497,
+      "eval_samples_per_second": 5.592,
+      "eval_steps_per_second": 0.093,
+      "step": 27
+    },
+    {
+      "epoch": 0.6382978723404256,
+      "grad_norm": 76.08525085449219,
+      "learning_rate": 2.1731291030818833e-06,
+      "loss": 1.3112,
+      "step": 30
+    },
+    {
+      "epoch": 0.6382978723404256,
+      "eval_loss": 1.3033435344696045,
+      "eval_runtime": 71.2383,
+      "eval_samples_per_second": 4.211,
+      "eval_steps_per_second": 0.07,
+      "step": 30
+    },
+    {
+      "epoch": 0.7021276595744681,
+      "grad_norm": 92.6861801147461,
+      "learning_rate": 2.11439588407967e-06,
+      "loss": 1.5098,
+      "step": 33
+    },
+    {
+      "epoch": 0.7021276595744681,
+      "eval_loss": 1.2886630296707153,
+      "eval_runtime": 67.4449,
+      "eval_samples_per_second": 4.448,
+      "eval_steps_per_second": 0.074,
+      "step": 33
+    },
+    {
+      "epoch": 0.7659574468085106,
+      "grad_norm": 109.13264465332031,
+      "learning_rate": 2.055662665077457e-06,
+      "loss": 1.6407,
+      "step": 36
+    },
+    {
+      "epoch": 0.7659574468085106,
+      "eval_loss": 1.273186445236206,
+      "eval_runtime": 54.8832,
+      "eval_samples_per_second": 5.466,
+      "eval_steps_per_second": 0.091,
+      "step": 36
+    },
+    {
+      "epoch": 0.8297872340425532,
+      "grad_norm": 78.30274200439453,
+      "learning_rate": 1.9969294460752442e-06,
+      "loss": 1.4043,
+      "step": 39
+    },
+    {
+      "epoch": 0.8297872340425532,
+      "eval_loss": 1.2596654891967773,
+      "eval_runtime": 54.429,
+      "eval_samples_per_second": 5.512,
+      "eval_steps_per_second": 0.092,
+      "step": 39
+    },
+    {
+      "epoch": 0.8936170212765957,
+      "grad_norm": 93.06748962402344,
+      "learning_rate": 1.938196227073031e-06,
+      "loss": 1.3401,
+      "step": 42
+    },
+    {
+      "epoch": 0.8936170212765957,
+      "eval_loss": 1.2511677742004395,
+      "eval_runtime": 54.4103,
+      "eval_samples_per_second": 5.514,
+      "eval_steps_per_second": 0.092,
+      "step": 42
+    },
+    {
+      "epoch": 0.9574468085106383,
+      "grad_norm": 84.16166687011719,
+      "learning_rate": 1.8794630080708177e-06,
+      "loss": 1.2157,
+      "step": 45
+    },
+    {
+      "epoch": 0.9574468085106383,
+      "eval_loss": 1.2443844079971313,
+      "eval_runtime": 54.268,
+      "eval_samples_per_second": 5.528,
+      "eval_steps_per_second": 0.092,
+      "step": 45
+    },
+    {
+      "epoch": 1.0212765957446808,
+      "grad_norm": 55.88615417480469,
+      "learning_rate": 1.8207297890686047e-06,
+      "loss": 1.1511,
+      "step": 48
+    },
+    {
+      "epoch": 1.0212765957446808,
+      "eval_loss": 1.231595516204834,
+      "eval_runtime": 54.7796,
+      "eval_samples_per_second": 5.476,
+      "eval_steps_per_second": 0.091,
+      "step": 48
+    },
+    {
+      "epoch": 1.0851063829787233,
+      "grad_norm": 46.52244567871094,
+      "learning_rate": 1.7619965700663918e-06,
+      "loss": 0.8315,
+      "step": 51
+    },
+    {
+      "epoch": 1.0851063829787233,
+      "eval_loss": 1.2207295894622803,
+      "eval_runtime": 53.8738,
+      "eval_samples_per_second": 5.569,
+      "eval_steps_per_second": 0.093,
+      "step": 51
+    },
+    {
+      "epoch": 1.148936170212766,
+      "grad_norm": 44.749393463134766,
+      "learning_rate": 1.7032633510641786e-06,
+      "loss": 0.6485,
+      "step": 54
+    },
+    {
+      "epoch": 1.148936170212766,
+      "eval_loss": 1.209995985031128,
+      "eval_runtime": 78.7141,
+      "eval_samples_per_second": 3.811,
+      "eval_steps_per_second": 0.064,
+      "step": 54
+    },
+    {
+      "epoch": 1.2127659574468086,
+      "grad_norm": 63.92289733886719,
+      "learning_rate": 1.6445301320619655e-06,
+      "loss": 0.8721,
+      "step": 57
+    },
+    {
+      "epoch": 1.2127659574468086,
+      "eval_loss": 1.2013087272644043,
+      "eval_runtime": 53.3669,
+      "eval_samples_per_second": 5.621,
+      "eval_steps_per_second": 0.094,
+      "step": 57
+    },
+    {
+      "epoch": 1.2765957446808511,
+      "grad_norm": 45.4834098815918,
+      "learning_rate": 1.5857969130597527e-06,
+      "loss": 0.7515,
+      "step": 60
+    },
+    {
+      "epoch": 1.2765957446808511,
+      "eval_loss": 1.1964448690414429,
+      "eval_runtime": 53.8155,
+      "eval_samples_per_second": 5.575,
+      "eval_steps_per_second": 0.093,
+      "step": 60
+    },
+    {
+      "epoch": 1.3404255319148937,
+      "grad_norm": 46.8050422668457,
+      "learning_rate": 1.5270636940575396e-06,
+      "loss": 0.5828,
+      "step": 63
+    },
+    {
+      "epoch": 1.3404255319148937,
+      "eval_loss": 1.195375919342041,
+      "eval_runtime": 53.8711,
+      "eval_samples_per_second": 5.569,
+      "eval_steps_per_second": 0.093,
+      "step": 63
+    },
+    {
+      "epoch": 1.4042553191489362,
+      "grad_norm": 66.9081039428711,
+      "learning_rate": 1.4683304750553264e-06,
+      "loss": 0.7587,
+      "step": 66
+    },
+    {
+      "epoch": 1.4042553191489362,
+      "eval_loss": 1.1937648057937622,
+      "eval_runtime": 54.3286,
+      "eval_samples_per_second": 5.522,
+      "eval_steps_per_second": 0.092,
+      "step": 66
+    },
+    {
+      "epoch": 1.4680851063829787,
+      "grad_norm": 66.40003204345703,
+      "learning_rate": 1.4095972560531132e-06,
+      "loss": 0.8638,
+      "step": 69
+    },
+    {
+      "epoch": 1.4680851063829787,
+      "eval_loss": 1.1902137994766235,
+      "eval_runtime": 54.7582,
+      "eval_samples_per_second": 5.479,
+      "eval_steps_per_second": 0.091,
+      "step": 69
+    },
+    {
+      "epoch": 1.5319148936170213,
+      "grad_norm": 62.0701789855957,
+      "learning_rate": 1.3508640370509003e-06,
+      "loss": 0.757,
+      "step": 72
+    },
+    {
+      "epoch": 1.5319148936170213,
+      "eval_loss": 1.1826313734054565,
+      "eval_runtime": 54.1709,
+      "eval_samples_per_second": 5.538,
+      "eval_steps_per_second": 0.092,
+      "step": 72
+    },
+    {
+      "epoch": 1.5957446808510638,
+      "grad_norm": 75.45089721679688,
+      "learning_rate": 1.2921308180486873e-06,
+      "loss": 0.9248,
+      "step": 75
+    },
+    {
+      "epoch": 1.5957446808510638,
+      "eval_loss": 1.174964189529419,
+      "eval_runtime": 54.2646,
+      "eval_samples_per_second": 5.528,
+      "eval_steps_per_second": 0.092,
+      "step": 75
+    },
+    {
+      "epoch": 1.6595744680851063,
+      "grad_norm": 55.88802719116211,
+      "learning_rate": 1.2333975990464741e-06,
+      "loss": 0.7642,
+      "step": 78
+    },
+    {
+      "epoch": 1.6595744680851063,
+      "eval_loss": 1.1686428785324097,
+      "eval_runtime": 64.2026,
+      "eval_samples_per_second": 4.673,
+      "eval_steps_per_second": 0.078,
+      "step": 78
+    },
+    {
+      "epoch": 1.7234042553191489,
+      "grad_norm": 65.16743469238281,
+      "learning_rate": 1.1746643800442612e-06,
+      "loss": 0.6538,
+      "step": 81
+    },
+    {
+      "epoch": 1.7234042553191489,
+      "eval_loss": 1.162994623184204,
+      "eval_runtime": 55.9418,
+      "eval_samples_per_second": 5.363,
+      "eval_steps_per_second": 0.089,
+      "step": 81
+    },
+    {
+      "epoch": 1.7872340425531914,
+      "grad_norm": 62.544212341308594,
+      "learning_rate": 1.115931161042048e-06,
+      "loss": 0.7696,
+      "step": 84
+    },
+    {
+      "epoch": 1.7872340425531914,
+      "eval_loss": 1.1596062183380127,
+      "eval_runtime": 54.4231,
+      "eval_samples_per_second": 5.512,
+      "eval_steps_per_second": 0.092,
+      "step": 84
+    },
+    {
+      "epoch": 1.851063829787234,
+      "grad_norm": 72.0561752319336,
+      "learning_rate": 1.057197942039835e-06,
+      "loss": 0.803,
+      "step": 87
+    },
+    {
+      "epoch": 1.851063829787234,
+      "eval_loss": 1.1562731266021729,
+      "eval_runtime": 55.0497,
+      "eval_samples_per_second": 5.45,
+      "eval_steps_per_second": 0.091,
+      "step": 87
+    },
+    {
+      "epoch": 1.9148936170212765,
+      "grad_norm": 55.98563766479492,
+      "learning_rate": 9.984647230376221e-07,
+      "loss": 0.648,
+      "step": 90
+    },
+    {
+      "epoch": 1.9148936170212765,
+      "eval_loss": 1.1566147804260254,
+      "eval_runtime": 55.0097,
+      "eval_samples_per_second": 5.454,
+      "eval_steps_per_second": 0.091,
+      "step": 90
+    },
+    {
+      "epoch": 1.978723404255319,
+      "grad_norm": 54.97642517089844,
+      "learning_rate": 9.397315040354089e-07,
+      "loss": 0.7102,
+      "step": 93
+    },
+    {
+      "epoch": 1.978723404255319,
+      "eval_loss": 1.1567518711090088,
+      "eval_runtime": 55.4659,
+      "eval_samples_per_second": 5.409,
+      "eval_steps_per_second": 0.09,
+      "step": 93
+    },
+    {
+      "epoch": 2.0425531914893615,
+      "grad_norm": 62.32664489746094,
+      "learning_rate": 8.809982850331959e-07,
+      "loss": 0.7291,
+      "step": 96
+    },
+    {
+      "epoch": 2.0425531914893615,
+      "eval_loss": 1.155635952949524,
+      "eval_runtime": 58.8091,
+      "eval_samples_per_second": 5.101,
+      "eval_steps_per_second": 0.085,
+      "step": 96
+    },
+    {
+      "epoch": 2.106382978723404,
+      "grad_norm": 38.61061096191406,
+      "learning_rate": 8.222650660309827e-07,
+      "loss": 0.5435,
+      "step": 99
+    },
+    {
+      "epoch": 2.106382978723404,
+      "eval_loss": 1.1566288471221924,
+      "eval_runtime": 61.3747,
+      "eval_samples_per_second": 4.888,
+      "eval_steps_per_second": 0.081,
+      "step": 99
+    },
+    {
+      "epoch": 2.1702127659574466,
+      "grad_norm": 37.246219635009766,
+      "learning_rate": 7.635318470287698e-07,
+      "loss": 0.4237,
+      "step": 102
+    },
+    {
+      "epoch": 2.1702127659574466,
+      "eval_loss": 1.1587642431259155,
+      "eval_runtime": 54.2257,
+      "eval_samples_per_second": 5.532,
+      "eval_steps_per_second": 0.092,
+      "step": 102
+    },
+    {
+      "epoch": 2.2340425531914896,
+      "grad_norm": 53.6576042175293,
+      "learning_rate": 7.047986280265566e-07,
+      "loss": 0.599,
+      "step": 105
+    },
+    {
+      "epoch": 2.2340425531914896,
+      "eval_loss": 1.1605359315872192,
+      "eval_runtime": 74.2548,
+      "eval_samples_per_second": 4.04,
+      "eval_steps_per_second": 0.067,
+      "step": 105
+    },
+    {
+      "epoch": 2.297872340425532,
+      "grad_norm": 53.27869415283203,
+      "learning_rate": 6.460654090243437e-07,
+      "loss": 0.5356,
+      "step": 108
+    },
+    {
+      "epoch": 2.297872340425532,
+      "eval_loss": 1.1615859270095825,
+      "eval_runtime": 54.2089,
+      "eval_samples_per_second": 5.534,
+      "eval_steps_per_second": 0.092,
+      "step": 108
+    },
+    {
+      "epoch": 2.3617021276595747,
+      "grad_norm": 53.355735778808594,
+      "learning_rate": 5.873321900221306e-07,
+      "loss": 0.4193,
+      "step": 111
+    },
+    {
+      "epoch": 2.3617021276595747,
+      "eval_loss": 1.162276029586792,
+      "eval_runtime": 54.4971,
+      "eval_samples_per_second": 5.505,
+      "eval_steps_per_second": 0.092,
+      "step": 111
+    },
+    {
+      "epoch": 2.425531914893617,
+      "grad_norm": 49.23762512207031,
+      "learning_rate": 5.285989710199175e-07,
+      "loss": 0.4437,
+      "step": 114
+    },
+    {
+      "epoch": 2.425531914893617,
+      "eval_loss": 1.1603819131851196,
+      "eval_runtime": 54.4206,
+      "eval_samples_per_second": 5.513,
+      "eval_steps_per_second": 0.092,
+      "step": 114
+    },
+    {
+      "epoch": 2.4893617021276597,
+      "grad_norm": 53.271141052246094,
+      "learning_rate": 4.698657520177044e-07,
+      "loss": 0.4134,
+      "step": 117
+    },
+    {
+      "epoch": 2.4893617021276597,
+      "eval_loss": 1.1590569019317627,
+      "eval_runtime": 54.4573,
+      "eval_samples_per_second": 5.509,
+      "eval_steps_per_second": 0.092,
+      "step": 117
+    },
+    {
+      "epoch": 2.5531914893617023,
+      "grad_norm": 49.70021057128906,
+      "learning_rate": 4.1113253301549137e-07,
+      "loss": 0.5297,
+      "step": 120
+    },
+    {
+      "epoch": 2.5531914893617023,
+      "eval_loss": 1.1584316492080688,
+      "eval_runtime": 72.8487,
+      "eval_samples_per_second": 4.118,
+      "eval_steps_per_second": 0.069,
+      "step": 120
+    },
+    {
+      "epoch": 2.617021276595745,
+      "grad_norm": 85.43531036376953,
+      "learning_rate": 3.523993140132783e-07,
+      "loss": 0.5691,
+      "step": 123
+    },
+    {
+      "epoch": 2.617021276595745,
+      "eval_loss": 1.157990574836731,
+      "eval_runtime": 54.3078,
+      "eval_samples_per_second": 5.524,
+      "eval_steps_per_second": 0.092,
+      "step": 123
+    },
+    {
+      "epoch": 2.6808510638297873,
+      "grad_norm": 37.16761016845703,
+      "learning_rate": 2.936660950110653e-07,
+      "loss": 0.3697,
+      "step": 126
+    },
+    {
+      "epoch": 2.6808510638297873,
+      "eval_loss": 1.158142328262329,
+      "eval_runtime": 59.3308,
+      "eval_samples_per_second": 5.056,
+      "eval_steps_per_second": 0.084,
+      "step": 126
+    },
+    {
+      "epoch": 2.74468085106383,
+      "grad_norm": 53.20654296875,
+      "learning_rate": 2.349328760088522e-07,
+      "loss": 0.4085,
+      "step": 129
+    },
+    {
+      "epoch": 2.74468085106383,
+      "eval_loss": 1.1589455604553223,
+      "eval_runtime": 53.9966,
+      "eval_samples_per_second": 5.556,
+      "eval_steps_per_second": 0.093,
+      "step": 129
+    },
+    {
+      "epoch": 2.8085106382978724,
+      "grad_norm": 52.14693832397461,
+      "learning_rate": 1.7619965700663915e-07,
+      "loss": 0.4542,
+      "step": 132
+    },
+    {
+      "epoch": 2.8085106382978724,
+      "eval_loss": 1.1593271493911743,
+      "eval_runtime": 55.1703,
+      "eval_samples_per_second": 5.438,
+      "eval_steps_per_second": 0.091,
+      "step": 132
+    },
+    {
+      "epoch": 2.872340425531915,
+      "grad_norm": 42.75836944580078,
+      "learning_rate": 1.174664380044261e-07,
+      "loss": 0.4124,
+      "step": 135
+    },
+    {
+      "epoch": 2.872340425531915,
+      "eval_loss": 1.1595427989959717,
+      "eval_runtime": 54.8115,
+      "eval_samples_per_second": 5.473,
+      "eval_steps_per_second": 0.091,
+      "step": 135
+    },
+    {
+      "epoch": 2.9361702127659575,
+      "grad_norm": 44.63527297973633,
+      "learning_rate": 5.873321900221305e-08,
+      "loss": 0.5137,
+      "step": 138
+    },
+    {
+      "epoch": 2.9361702127659575,
+      "eval_loss": 1.1596213579177856,
+      "eval_runtime": 54.0814,
+      "eval_samples_per_second": 5.547,
+      "eval_steps_per_second": 0.092,
+      "step": 138
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 56.000244140625,
+      "learning_rate": 0.0,
+      "loss": 0.4429,
+      "step": 141
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.1596343517303467,
+      "eval_runtime": 58.7466,
+      "eval_samples_per_second": 5.107,
+      "eval_steps_per_second": 0.085,
+      "step": 141
+    }
+  ],
+  "logging_steps": 3,
+  "max_steps": 141,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 523328480700102.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "_wandb": {},
+    "assignments": {},
+    "decay": 0.01,
+    "learning_rate": 2.7604612931040137e-06,
+    "metric": "eval/loss",
+    "per_device_train_batch_size": 64
+  }
+}

run-rukgjisn/checkpoint-141/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f32e56a92fc888c2246e5b72e7d93d10f0ea6484a0289837bffd6e64aaa0db1c
+size 5112

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2033e965e3cac9f654a8aa76d2201efed61d55e726945c74813e0d5dfc4adb19
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:f32e56a92fc888c2246e5b72e7d93d10f0ea6484a0289837bffd6e64aaa0db1c
 size 5112