Training in progress, epoch 0

Browse files

Files changed (5) hide show

model.safetensors +1 -1
runs/Oct30_13-07-11_101dbfee8143/events.out.tfevents.1730295902.101dbfee8143.30.5 +3 -0
runs/Oct30_13-45-02_101dbfee8143/events.out.tfevents.1730295908.101dbfee8143.30.6 +3 -0
trainer_state.json +248 -139
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f55187e9bb3073195567e6dead30d181aa0a242605992681cd89ee4634e97da
 size 347498816

 version https://git-lfs.github.com/spec/v1
+oid sha256:d499fddb89fc0ccb44379fe6ff797442703d79e38c6f891c1702d3d1a17b5aa0
 size 347498816

runs/Oct30_13-07-11_101dbfee8143/events.out.tfevents.1730295902.101dbfee8143.30.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3ac3d537818b6a624c2301b26fafce02badc8fa6ddf322fa97d2ef2c3eccb66
+size 405

runs/Oct30_13-45-02_101dbfee8143/events.out.tfevents.1730295908.101dbfee8143.30.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:300f755dda9d7a65dcdcebdcab9b665298f3aecd596d339cd6ba65138b43bc48
+size 7043

trainer_state.json CHANGED Viewed

@@ -1,303 +1,412 @@
 {
-  "best_metric": 0.6136999068033551,
-  "best_model_checkpoint": "microsoft/swin-base-patch4-window7-224-finetuned-dsc/checkpoint-335",
-  "epoch": 4.981412639405205,
   "eval_steps": 500,
-  "global_step": 335,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.14869888475836432,
-      "grad_norm": 3.900222063064575,
-      "learning_rate": 2.941176470588235e-07,
-      "loss": 0.729,
       "step": 10
     },
     {
       "epoch": 0.29739776951672864,
-      "grad_norm": 10.130753517150879,
-      "learning_rate": 5.88235294117647e-07,
-      "loss": 0.7221,
       "step": 20
     },
     {
       "epoch": 0.44609665427509293,
-      "grad_norm": 4.810166358947754,
-      "learning_rate": 8.823529411764705e-07,
-      "loss": 0.7006,
       "step": 30
     },
     {
       "epoch": 0.5947955390334573,
-      "grad_norm": 5.600071430206299,
-      "learning_rate": 9.800664451827242e-07,
-      "loss": 0.6958,
       "step": 40
     },
     {
       "epoch": 0.7434944237918215,
-      "grad_norm": 4.575618743896484,
-      "learning_rate": 9.468438538205979e-07,
-      "loss": 0.6933,
       "step": 50
     },
     {
       "epoch": 0.8921933085501859,
-      "grad_norm": 5.213474750518799,
-      "learning_rate": 9.136212624584717e-07,
-      "loss": 0.6927,
       "step": 60
     },
     {
       "epoch": 0.9962825278810409,
-      "eval_f1": 0.5754892823858341,
-      "eval_loss": 0.6844027638435364,
-      "eval_runtime": 41.9646,
-      "eval_samples_per_second": 51.138,
-      "eval_steps_per_second": 1.62,
       "step": 67
     },
     {
       "epoch": 1.0408921933085502,
-      "grad_norm": 5.1729302406311035,
-      "learning_rate": 8.803986710963455e-07,
-      "loss": 0.7031,
       "step": 70
     },
     {
       "epoch": 1.1895910780669146,
-      "grad_norm": 7.67883825302124,
-      "learning_rate": 8.471760797342192e-07,
-      "loss": 0.6821,
       "step": 80
     },
     {
       "epoch": 1.3382899628252787,
-      "grad_norm": 4.546557426452637,
-      "learning_rate": 8.13953488372093e-07,
-      "loss": 0.6748,
       "step": 90
     },
     {
       "epoch": 1.486988847583643,
-      "grad_norm": 7.672399044036865,
-      "learning_rate": 7.807308970099668e-07,
-      "loss": 0.6869,
       "step": 100
     },
     {
       "epoch": 1.6356877323420074,
-      "grad_norm": 4.821686744689941,
-      "learning_rate": 7.475083056478405e-07,
-      "loss": 0.6902,
       "step": 110
     },
     {
       "epoch": 1.7843866171003717,
-      "grad_norm": 4.082989692687988,
-      "learning_rate": 7.142857142857143e-07,
-      "loss": 0.674,
       "step": 120
     },
     {
       "epoch": 1.933085501858736,
-      "grad_norm": 9.173211097717285,
-      "learning_rate": 6.81063122923588e-07,
-      "loss": 0.6786,
       "step": 130
     },
     {
       "epoch": 1.9925650557620818,
-      "eval_f1": 0.5927306616961789,
-      "eval_loss": 0.6724621653556824,
-      "eval_runtime": 41.9087,
-      "eval_samples_per_second": 51.207,
-      "eval_steps_per_second": 1.623,
       "step": 134
     },
     {
       "epoch": 2.0817843866171004,
-      "grad_norm": 10.643899917602539,
-      "learning_rate": 6.478405315614617e-07,
-      "loss": 0.668,
       "step": 140
     },
     {
       "epoch": 2.2304832713754648,
-      "grad_norm": 4.458714485168457,
-      "learning_rate": 6.146179401993355e-07,
-      "loss": 0.6691,
       "step": 150
     },
     {
       "epoch": 2.379182156133829,
-      "grad_norm": 4.217385768890381,
-      "learning_rate": 5.813953488372093e-07,
-      "loss": 0.6756,
       "step": 160
     },
     {
       "epoch": 2.5278810408921935,
-      "grad_norm": 4.536714553833008,
-      "learning_rate": 5.481727574750831e-07,
-      "loss": 0.6737,
       "step": 170
     },
     {
       "epoch": 2.6765799256505574,
-      "grad_norm": 3.2948648929595947,
-      "learning_rate": 5.149501661129568e-07,
-      "loss": 0.6797,
       "step": 180
     },
     {
       "epoch": 2.825278810408922,
-      "grad_norm": 3.37129282951355,
-      "learning_rate": 4.817275747508305e-07,
-      "loss": 0.6676,
       "step": 190
     },
     {
       "epoch": 2.973977695167286,
-      "grad_norm": 3.7001469135284424,
-      "learning_rate": 4.485049833887043e-07,
-      "loss": 0.6836,
       "step": 200
     },
     {
       "epoch": 2.9888475836431225,
-      "eval_f1": 0.6053122087604846,
-      "eval_loss": 0.6655076742172241,
-      "eval_runtime": 41.9214,
-      "eval_samples_per_second": 51.191,
-      "eval_steps_per_second": 1.622,
       "step": 201
     },
     {
       "epoch": 3.1226765799256504,
-      "grad_norm": 4.924835205078125,
-      "learning_rate": 4.1528239202657803e-07,
-      "loss": 0.6558,
       "step": 210
     },
     {
       "epoch": 3.2713754646840147,
-      "grad_norm": 4.923318862915039,
-      "learning_rate": 3.820598006644518e-07,
-      "loss": 0.6669,
       "step": 220
     },
     {
       "epoch": 3.420074349442379,
-      "grad_norm": 5.509921550750732,
-      "learning_rate": 3.4883720930232557e-07,
-      "loss": 0.6739,
       "step": 230
     },
     {
       "epoch": 3.5687732342007434,
-      "grad_norm": 4.011142730712891,
-      "learning_rate": 3.1561461794019934e-07,
-      "loss": 0.6487,
       "step": 240
     },
     {
       "epoch": 3.717472118959108,
-      "grad_norm": 4.390259265899658,
-      "learning_rate": 2.823920265780731e-07,
-      "loss": 0.6678,
       "step": 250
     },
     {
       "epoch": 3.866171003717472,
-      "grad_norm": 6.248193264007568,
-      "learning_rate": 2.4916943521594683e-07,
-      "loss": 0.6873,
       "step": 260
     },
     {
       "epoch": 4.0,
-      "eval_f1": 0.6109040074557316,
-      "eval_loss": 0.6614588499069214,
-      "eval_runtime": 41.8672,
-      "eval_samples_per_second": 51.257,
-      "eval_steps_per_second": 1.624,
       "step": 269
     },
     {
       "epoch": 4.014869888475836,
-      "grad_norm": 3.9943816661834717,
-      "learning_rate": 2.159468438538206e-07,
-      "loss": 0.6696,
       "step": 270
     },
     {
       "epoch": 4.163568773234201,
-      "grad_norm": 13.663310050964355,
-      "learning_rate": 1.8272425249169434e-07,
-      "loss": 0.6757,
       "step": 280
     },
     {
       "epoch": 4.312267657992565,
-      "grad_norm": 3.3316593170166016,
-      "learning_rate": 1.4950166112956811e-07,
-      "loss": 0.6548,
       "step": 290
     },
     {
       "epoch": 4.4609665427509295,
-      "grad_norm": 5.199376106262207,
-      "learning_rate": 1.1627906976744186e-07,
-      "loss": 0.6621,
       "step": 300
     },
     {
       "epoch": 4.609665427509293,
-      "grad_norm": 3.6021132469177246,
-      "learning_rate": 8.305647840531561e-08,
-      "loss": 0.661,
       "step": 310
     },
     {
       "epoch": 4.758364312267658,
-      "grad_norm": 3.7294249534606934,
-      "learning_rate": 4.9833887043189365e-08,
-      "loss": 0.6869,
       "step": 320
     },
     {
       "epoch": 4.907063197026022,
-      "grad_norm": 4.851199150085449,
-      "learning_rate": 1.6611295681063125e-08,
-      "loss": 0.6643,
       "step": 330
     },
     {
-      "epoch": 4.981412639405205,
-      "eval_f1": 0.6136999068033551,
-      "eval_loss": 0.6604039072990417,
-      "eval_runtime": 42.293,
-      "eval_samples_per_second": 50.741,
-      "eval_steps_per_second": 1.608,
-      "step": 335
     },
     {
-      "epoch": 4.981412639405205,
-      "step": 335,
-      "total_flos": 3.351309487544697e+18,
-      "train_loss": 0.6791417484852805,
-      "train_runtime": 1579.8568,
-      "train_samples_per_second": 27.161,
       "train_steps_per_second": 0.212
     }
   ],
   "logging_steps": 10,
-  "max_steps": 335,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -311,7 +420,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.351309487544697e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6374650512581547,
+  "best_model_checkpoint": "microsoft/swin-base-patch4-window7-224-finetuned-dsc/checkpoint-336",
+  "epoch": 6.973977695167286,
   "eval_steps": 500,
+  "global_step": 469,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.14869888475836432,
+      "grad_norm": 4.006267070770264,
+      "learning_rate": 2.127659574468085e-07,
+      "loss": 0.6718,
       "step": 10
     },
     {
       "epoch": 0.29739776951672864,
+      "grad_norm": 4.247750759124756,
+      "learning_rate": 4.25531914893617e-07,
+      "loss": 0.664,
       "step": 20
     },
     {
       "epoch": 0.44609665427509293,
+      "grad_norm": 3.412334680557251,
+      "learning_rate": 6.382978723404255e-07,
+      "loss": 0.6556,
       "step": 30
     },
     {
       "epoch": 0.5947955390334573,
+      "grad_norm": 3.8701229095458984,
+      "learning_rate": 8.51063829787234e-07,
+      "loss": 0.6526,
       "step": 40
     },
     {
       "epoch": 0.7434944237918215,
+      "grad_norm": 3.543933391571045,
+      "learning_rate": 9.928909952606635e-07,
+      "loss": 0.6506,
       "step": 50
     },
     {
       "epoch": 0.8921933085501859,
+      "grad_norm": 3.1438159942626953,
+      "learning_rate": 9.691943127962085e-07,
+      "loss": 0.6558,
       "step": 60
     },
     {
       "epoch": 0.9962825278810409,
+      "eval_f1": 0.624883504193849,
+      "eval_loss": 0.654695987701416,
+      "eval_runtime": 41.9567,
+      "eval_samples_per_second": 51.148,
+      "eval_steps_per_second": 1.621,
       "step": 67
     },
     {
       "epoch": 1.0408921933085502,
+      "grad_norm": 4.4484333992004395,
+      "learning_rate": 9.454976303317536e-07,
+      "loss": 0.6682,
       "step": 70
     },
     {
       "epoch": 1.1895910780669146,
+      "grad_norm": 4.100910663604736,
+      "learning_rate": 9.218009478672986e-07,
+      "loss": 0.651,
       "step": 80
     },
     {
       "epoch": 1.3382899628252787,
+      "grad_norm": 4.338140964508057,
+      "learning_rate": 8.981042654028435e-07,
+      "loss": 0.6381,
       "step": 90
     },
     {
       "epoch": 1.486988847583643,
+      "grad_norm": 3.433474540710449,
+      "learning_rate": 8.744075829383885e-07,
+      "loss": 0.6617,
       "step": 100
     },
     {
       "epoch": 1.6356877323420074,
+      "grad_norm": 3.912813186645508,
+      "learning_rate": 8.507109004739336e-07,
+      "loss": 0.6622,
       "step": 110
     },
     {
       "epoch": 1.7843866171003717,
+      "grad_norm": 4.420755863189697,
+      "learning_rate": 8.270142180094787e-07,
+      "loss": 0.6466,
       "step": 120
     },
     {
       "epoch": 1.933085501858736,
+      "grad_norm": 3.3080854415893555,
+      "learning_rate": 8.033175355450236e-07,
+      "loss": 0.6504,
       "step": 130
     },
     {
       "epoch": 1.9925650557620818,
+      "eval_f1": 0.6290773532152842,
+      "eval_loss": 0.6480793356895447,
+      "eval_runtime": 42.0039,
+      "eval_samples_per_second": 51.09,
+      "eval_steps_per_second": 1.619,
       "step": 134
     },
     {
       "epoch": 2.0817843866171004,
+      "grad_norm": 3.932919979095459,
+      "learning_rate": 7.796208530805687e-07,
+      "loss": 0.6428,
       "step": 140
     },
     {
       "epoch": 2.2304832713754648,
+      "grad_norm": 3.613367795944214,
+      "learning_rate": 7.559241706161137e-07,
+      "loss": 0.6428,
       "step": 150
     },
     {
       "epoch": 2.379182156133829,
+      "grad_norm": 3.385443687438965,
+      "learning_rate": 7.322274881516587e-07,
+      "loss": 0.6494,
       "step": 160
     },
     {
       "epoch": 2.5278810408921935,
+      "grad_norm": 6.523526668548584,
+      "learning_rate": 7.085308056872038e-07,
+      "loss": 0.646,
       "step": 170
     },
     {
       "epoch": 2.6765799256505574,
+      "grad_norm": 4.9948554039001465,
+      "learning_rate": 6.848341232227488e-07,
+      "loss": 0.6508,
       "step": 180
     },
     {
       "epoch": 2.825278810408922,
+      "grad_norm": 3.637260913848877,
+      "learning_rate": 6.611374407582938e-07,
+      "loss": 0.6417,
       "step": 190
     },
     {
       "epoch": 2.973977695167286,
+      "grad_norm": 3.3876774311065674,
+      "learning_rate": 6.374407582938388e-07,
+      "loss": 0.6595,
       "step": 200
     },
     {
       "epoch": 2.9888475836431225,
+      "eval_f1": 0.6342031686859273,
+      "eval_loss": 0.6434848308563232,
+      "eval_runtime": 42.0287,
+      "eval_samples_per_second": 51.06,
+      "eval_steps_per_second": 1.618,
       "step": 201
     },
     {
       "epoch": 3.1226765799256504,
+      "grad_norm": 4.729325294494629,
+      "learning_rate": 6.137440758293838e-07,
+      "loss": 0.6284,
       "step": 210
     },
     {
       "epoch": 3.2713754646840147,
+      "grad_norm": 3.6306986808776855,
+      "learning_rate": 5.900473933649289e-07,
+      "loss": 0.6393,
       "step": 220
     },
     {
       "epoch": 3.420074349442379,
+      "grad_norm": 4.591604232788086,
+      "learning_rate": 5.66350710900474e-07,
+      "loss": 0.6478,
       "step": 230
     },
     {
       "epoch": 3.5687732342007434,
+      "grad_norm": 4.6553473472595215,
+      "learning_rate": 5.426540284360189e-07,
+      "loss": 0.6233,
       "step": 240
     },
     {
       "epoch": 3.717472118959108,
+      "grad_norm": 3.999525547027588,
+      "learning_rate": 5.189573459715639e-07,
+      "loss": 0.6454,
       "step": 250
     },
     {
       "epoch": 3.866171003717472,
+      "grad_norm": 4.377701759338379,
+      "learning_rate": 4.95260663507109e-07,
+      "loss": 0.6662,
       "step": 260
     },
     {
       "epoch": 4.0,
+      "eval_f1": 0.6356011183597391,
+      "eval_loss": 0.6397082805633545,
+      "eval_runtime": 41.9159,
+      "eval_samples_per_second": 51.198,
+      "eval_steps_per_second": 1.622,
       "step": 269
     },
     {
       "epoch": 4.014869888475836,
+      "grad_norm": 4.2719950675964355,
+      "learning_rate": 4.71563981042654e-07,
+      "loss": 0.6457,
       "step": 270
     },
     {
       "epoch": 4.163568773234201,
+      "grad_norm": 4.870419025421143,
+      "learning_rate": 4.4786729857819903e-07,
+      "loss": 0.6526,
       "step": 280
     },
     {
       "epoch": 4.312267657992565,
+      "grad_norm": 3.5545692443847656,
+      "learning_rate": 4.2417061611374406e-07,
+      "loss": 0.6337,
       "step": 290
     },
     {
       "epoch": 4.4609665427509295,
+      "grad_norm": 4.513426780700684,
+      "learning_rate": 4.004739336492891e-07,
+      "loss": 0.6386,
       "step": 300
     },
     {
       "epoch": 4.609665427509293,
+      "grad_norm": 3.423133611679077,
+      "learning_rate": 3.7677725118483413e-07,
+      "loss": 0.633,
       "step": 310
     },
     {
       "epoch": 4.758364312267658,
+      "grad_norm": 2.879420042037964,
+      "learning_rate": 3.530805687203791e-07,
+      "loss": 0.6626,
       "step": 320
     },
     {
       "epoch": 4.907063197026022,
+      "grad_norm": 7.331841468811035,
+      "learning_rate": 3.293838862559242e-07,
+      "loss": 0.6409,
       "step": 330
     },
     {
+      "epoch": 4.996282527881041,
+      "eval_f1": 0.6374650512581547,
+      "eval_loss": 0.6374994516372681,
+      "eval_runtime": 41.9902,
+      "eval_samples_per_second": 51.107,
+      "eval_steps_per_second": 1.619,
+      "step": 336
+    },
+    {
+      "epoch": 5.055762081784387,
+      "grad_norm": 4.733645915985107,
+      "learning_rate": 3.0568720379146917e-07,
+      "loss": 0.6435,
+      "step": 340
+    },
+    {
+      "epoch": 5.204460966542751,
+      "grad_norm": 4.443199634552002,
+      "learning_rate": 2.819905213270142e-07,
+      "loss": 0.6461,
+      "step": 350
+    },
+    {
+      "epoch": 5.353159851301116,
+      "grad_norm": 3.4727444648742676,
+      "learning_rate": 2.5829383886255924e-07,
+      "loss": 0.6459,
+      "step": 360
+    },
+    {
+      "epoch": 5.5018587360594795,
+      "grad_norm": 5.56289529800415,
+      "learning_rate": 2.3459715639810427e-07,
+      "loss": 0.6447,
+      "step": 370
+    },
+    {
+      "epoch": 5.650557620817844,
+      "grad_norm": 4.653774738311768,
+      "learning_rate": 2.109004739336493e-07,
+      "loss": 0.6512,
+      "step": 380
+    },
+    {
+      "epoch": 5.799256505576208,
+      "grad_norm": 3.595479726791382,
+      "learning_rate": 1.8720379146919428e-07,
+      "loss": 0.6433,
+      "step": 390
+    },
+    {
+      "epoch": 5.947955390334572,
+      "grad_norm": 3.631420135498047,
+      "learning_rate": 1.6350710900473932e-07,
+      "loss": 0.637,
+      "step": 400
+    },
+    {
+      "epoch": 5.992565055762082,
+      "eval_f1": 0.6369990680335508,
+      "eval_loss": 0.6362724304199219,
+      "eval_runtime": 41.9377,
+      "eval_samples_per_second": 51.171,
+      "eval_steps_per_second": 1.621,
+      "step": 403
+    },
+    {
+      "epoch": 6.096654275092937,
+      "grad_norm": 5.001819133758545,
+      "learning_rate": 1.3981042654028435e-07,
+      "loss": 0.6312,
+      "step": 410
+    },
+    {
+      "epoch": 6.245353159851301,
+      "grad_norm": 4.287126064300537,
+      "learning_rate": 1.1611374407582938e-07,
+      "loss": 0.6277,
+      "step": 420
+    },
+    {
+      "epoch": 6.394052044609666,
+      "grad_norm": 3.234271764755249,
+      "learning_rate": 9.24170616113744e-08,
+      "loss": 0.6272,
+      "step": 430
+    },
+    {
+      "epoch": 6.5427509293680295,
+      "grad_norm": 7.107583045959473,
+      "learning_rate": 6.872037914691943e-08,
+      "loss": 0.6462,
+      "step": 440
+    },
+    {
+      "epoch": 6.691449814126394,
+      "grad_norm": 4.110471725463867,
+      "learning_rate": 4.5023696682464454e-08,
+      "loss": 0.6399,
+      "step": 450
+    },
+    {
+      "epoch": 6.840148698884758,
+      "grad_norm": 5.2897186279296875,
+      "learning_rate": 2.132701421800948e-08,
+      "loss": 0.6442,
+      "step": 460
+    },
+    {
+      "epoch": 6.973977695167286,
+      "eval_f1": 0.6369990680335508,
+      "eval_loss": 0.6359897255897522,
+      "eval_runtime": 42.3917,
+      "eval_samples_per_second": 50.623,
+      "eval_steps_per_second": 1.604,
+      "step": 469
     },
     {
+      "epoch": 6.973977695167286,
+      "step": 469,
+      "total_flos": 4.691018488784044e+18,
+      "train_loss": 0.6468103404746635,
+      "train_runtime": 2213.3268,
+      "train_samples_per_second": 27.142,
       "train_steps_per_second": 0.212
     }
   ],
   "logging_steps": 10,
+  "max_steps": 469,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 4.691018488784044e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50e1284574e2c6ec9b0f579e3e8cfe22ee41eac25428d72aa0388024333f237e
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:65fce2aea49d7d2f597088fe48421f8e687f6ec46b1fbee8d85fc5e4758e0ed1
 size 5304