triki07
/

trocr-large-printed-cmc7_tesseract_MICR_ocr

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 936,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -224,6 +224,155 @@
       "learning_rate": 2.0192307692307694e-05,
       "loss": 0.2934,
       "step": 930
     }
   ],
   "logging_steps": 31,
@@ -231,7 +380,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 1.1075205215224332e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 1560,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.0192307692307694e-05,
       "loss": 0.2934,
       "step": 930
+    },
+    {
+      "epoch": 3.08,
+      "grad_norm": 15.149397850036621,
+      "learning_rate": 1.919871794871795e-05,
+      "loss": 0.2682,
+      "step": 961
+    },
+    {
+      "epoch": 3.18,
+      "grad_norm": 3.612698793411255,
+      "learning_rate": 1.8205128205128204e-05,
+      "loss": 0.264,
+      "step": 992
+    },
+    {
+      "epoch": 3.28,
+      "grad_norm": 1.7986979484558105,
+      "learning_rate": 1.721153846153846e-05,
+      "loss": 0.2085,
+      "step": 1023
+    },
+    {
+      "epoch": 3.38,
+      "grad_norm": 3.6060192584991455,
+      "learning_rate": 1.6217948717948718e-05,
+      "loss": 0.247,
+      "step": 1054
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 2.7116451263427734,
+      "learning_rate": 1.5224358974358973e-05,
+      "loss": 0.2104,
+      "step": 1085
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 4.838766574859619,
+      "learning_rate": 1.423076923076923e-05,
+      "loss": 0.234,
+      "step": 1116
+    },
+    {
+      "epoch": 3.68,
+      "grad_norm": 2.237657070159912,
+      "learning_rate": 1.3237179487179489e-05,
+      "loss": 0.2033,
+      "step": 1147
+    },
+    {
+      "epoch": 3.78,
+      "grad_norm": 1.6461944580078125,
+      "learning_rate": 1.2243589743589744e-05,
+      "loss": 0.2098,
+      "step": 1178
+    },
+    {
+      "epoch": 3.88,
+      "grad_norm": 6.327276229858398,
+      "learning_rate": 1.125e-05,
+      "loss": 0.2073,
+      "step": 1209
+    },
+    {
+      "epoch": 3.97,
+      "grad_norm": 2.9778146743774414,
+      "learning_rate": 1.0256410256410256e-05,
+      "loss": 0.1988,
+      "step": 1240
+    },
+    {
+      "epoch": 4.07,
+      "grad_norm": 1.4347281455993652,
+      "learning_rate": 9.262820512820514e-06,
+      "loss": 0.1664,
+      "step": 1271
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 2.844505786895752,
+      "learning_rate": 8.26923076923077e-06,
+      "loss": 0.1529,
+      "step": 1302
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 1.985013723373413,
+      "learning_rate": 7.275641025641026e-06,
+      "loss": 0.1447,
+      "step": 1333
+    },
+    {
+      "epoch": 4.37,
+      "grad_norm": 2.9127843379974365,
+      "learning_rate": 6.282051282051282e-06,
+      "loss": 0.1375,
+      "step": 1364
+    },
+    {
+      "epoch": 4.47,
+      "grad_norm": 2.6174566745758057,
+      "learning_rate": 5.288461538461538e-06,
+      "loss": 0.1515,
+      "step": 1395
+    },
+    {
+      "epoch": 4.57,
+      "grad_norm": 1.2411088943481445,
+      "learning_rate": 4.294871794871795e-06,
+      "loss": 0.1408,
+      "step": 1426
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 1.8333454132080078,
+      "learning_rate": 3.3012820512820517e-06,
+      "loss": 0.1372,
+      "step": 1457
+    },
+    {
+      "epoch": 4.77,
+      "grad_norm": 1.785672903060913,
+      "learning_rate": 2.307692307692308e-06,
+      "loss": 0.1409,
+      "step": 1488
+    },
+    {
+      "epoch": 4.87,
+      "grad_norm": 3.533236026763916,
+      "learning_rate": 1.3141025641025643e-06,
+      "loss": 0.1276,
+      "step": 1519
+    },
+    {
+      "epoch": 4.97,
+      "grad_norm": 1.3145009279251099,
+      "learning_rate": 3.205128205128205e-07,
+      "loss": 0.1329,
+      "step": 1550
+    },
+    {
+      "epoch": 5.0,
+      "step": 1560,
+      "total_flos": 1.845867535870722e+19,
+      "train_loss": 0.4759287901413746,
+      "train_runtime": 3971.7695,
+      "train_samples_per_second": 3.14,
+      "train_steps_per_second": 0.393
     }
   ],
   "logging_steps": 31,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 1.845867535870722e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null