End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +12 -12
eval_results.json +7 -7
runs/Jul13_01-17-08_798ef0aa6e31/events.out.tfevents.1720838484.798ef0aa6e31.2600.1 +3 -0
train_results.json +6 -6
trainer_state.json +294 -5

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: roberta-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # roberta-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: roberta-javanese
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.4158020342790051
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # roberta-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 3.8064
+- Accuracy: 0.4158
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 11.0,
-    "eval_accuracy": 0.2780392959476054,
-    "eval_loss": 5.024305820465088,
-    "eval_runtime": 29.6763,
     "eval_samples": 4053,
-    "eval_samples_per_second": 136.574,
-    "eval_steps_per_second": 34.169,
-    "perplexity": 152.0646592908706,
-    "total_flos": 5.807695355039002e+16,
-    "train_loss": 1.5156397336923944,
-    "train_runtime": 4860.501,
     "train_samples": 80219,
-    "train_samples_per_second": 181.547,
-    "train_steps_per_second": 11.347
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.4158020342790051,
+    "eval_loss": 3.806352376937866,
+    "eval_runtime": 29.338,
     "eval_samples": 4053,
+    "eval_samples_per_second": 138.149,
+    "eval_steps_per_second": 34.563,
+    "perplexity": 44.98604708614023,
+    "total_flos": 7.919584575053184e+16,
+    "train_loss": 1.1771604976443562,
+    "train_runtime": 4937.567,
     "train_samples": 80219,
+    "train_samples_per_second": 243.7,
+    "train_steps_per_second": 15.232
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 11.0,
-    "eval_accuracy": 0.2780392959476054,
-    "eval_loss": 5.024305820465088,
-    "eval_runtime": 29.6763,
     "eval_samples": 4053,
-    "eval_samples_per_second": 136.574,
-    "eval_steps_per_second": 34.169,
-    "perplexity": 152.0646592908706
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.4158020342790051,
+    "eval_loss": 3.806352376937866,
+    "eval_runtime": 29.338,
     "eval_samples": 4053,
+    "eval_samples_per_second": 138.149,
+    "eval_steps_per_second": 34.563,
+    "perplexity": 44.98604708614023
 }

runs/Jul13_01-17-08_798ef0aa6e31/events.out.tfevents.1720838484.798ef0aa6e31.2600.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5f46e05ab7f3a3dbad4431e2d8e8721723ce382c15c25c78db758fd08a7df44
+size 417

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 11.0,
-    "total_flos": 5.807695355039002e+16,
-    "train_loss": 1.5156397336923944,
-    "train_runtime": 4860.501,
     "train_samples": 80219,
-    "train_samples_per_second": 181.547,
-    "train_steps_per_second": 11.347
 }

 {
+    "epoch": 15.0,
+    "total_flos": 7.919584575053184e+16,
+    "train_loss": 1.1771604976443562,
+    "train_runtime": 4937.567,
     "train_samples": 80219,
+    "train_samples_per_second": 243.7,
+    "train_steps_per_second": 15.232
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.0,
   "eval_steps": 500,
-  "global_step": 55154,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -795,12 +795,301 @@
       "train_runtime": 4860.501,
       "train_samples_per_second": 181.547,
       "train_steps_per_second": 11.347
     }
   ],
   "logging_steps": 500,
-  "max_steps": 55154,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 11,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -814,7 +1103,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.807695355039002e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 15.0,
   "eval_steps": 500,
+  "global_step": 75210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 4860.501,
       "train_samples_per_second": 181.547,
       "train_steps_per_second": 11.347
+    },
+    {
+      "epoch": 11.069006781013163,
+      "grad_norm": 7.099039077758789,
+      "learning_rate": 4.976997739662279e-05,
+      "loss": 5.2813,
+      "step": 55500
+    },
+    {
+      "epoch": 11.168727562824092,
+      "grad_norm": 6.935009479522705,
+      "learning_rate": 4.943757479058636e-05,
+      "loss": 5.2781,
+      "step": 56000
+    },
+    {
+      "epoch": 11.268448344635022,
+      "grad_norm": 8.239794731140137,
+      "learning_rate": 4.910517218454993e-05,
+      "loss": 5.2531,
+      "step": 56500
+    },
+    {
+      "epoch": 11.36816912644595,
+      "grad_norm": 6.757853031158447,
+      "learning_rate": 4.87727695785135e-05,
+      "loss": 5.1861,
+      "step": 57000
+    },
+    {
+      "epoch": 11.46788990825688,
+      "grad_norm": 7.666926383972168,
+      "learning_rate": 4.844036697247707e-05,
+      "loss": 5.1783,
+      "step": 57500
+    },
+    {
+      "epoch": 11.56761069006781,
+      "grad_norm": 7.166041374206543,
+      "learning_rate": 4.810796436644063e-05,
+      "loss": 5.1202,
+      "step": 58000
+    },
+    {
+      "epoch": 11.66733147187874,
+      "grad_norm": 7.543915748596191,
+      "learning_rate": 4.77755617604042e-05,
+      "loss": 5.0482,
+      "step": 58500
+    },
+    {
+      "epoch": 11.76705225368967,
+      "grad_norm": 8.00036907196045,
+      "learning_rate": 4.744315915436777e-05,
+      "loss": 5.0167,
+      "step": 59000
+    },
+    {
+      "epoch": 11.866773035500598,
+      "grad_norm": 6.7936272621154785,
+      "learning_rate": 4.711075654833134e-05,
+      "loss": 4.9823,
+      "step": 59500
+    },
+    {
+      "epoch": 11.966493817311529,
+      "grad_norm": 7.003523826599121,
+      "learning_rate": 4.677835394229491e-05,
+      "loss": 4.9457,
+      "step": 60000
+    },
+    {
+      "epoch": 12.066214599122457,
+      "grad_norm": 7.01780891418457,
+      "learning_rate": 4.644595133625848e-05,
+      "loss": 4.825,
+      "step": 60500
+    },
+    {
+      "epoch": 12.165935380933387,
+      "grad_norm": 7.654853820800781,
+      "learning_rate": 4.6113548730222045e-05,
+      "loss": 4.7741,
+      "step": 61000
+    },
+    {
+      "epoch": 12.265656162744316,
+      "grad_norm": 7.968235492706299,
+      "learning_rate": 4.578181092939769e-05,
+      "loss": 4.7404,
+      "step": 61500
+    },
+    {
+      "epoch": 12.365376944555246,
+      "grad_norm": 7.112838268280029,
+      "learning_rate": 4.544940832336126e-05,
+      "loss": 4.6502,
+      "step": 62000
+    },
+    {
+      "epoch": 12.465097726366174,
+      "grad_norm": 6.567187786102295,
+      "learning_rate": 4.511700571732483e-05,
+      "loss": 4.6277,
+      "step": 62500
+    },
+    {
+      "epoch": 12.564818508177105,
+      "grad_norm": 6.989046096801758,
+      "learning_rate": 4.478460311128839e-05,
+      "loss": 4.5757,
+      "step": 63000
+    },
+    {
+      "epoch": 12.664539289988033,
+      "grad_norm": 6.270955562591553,
+      "learning_rate": 4.445220050525196e-05,
+      "loss": 4.5394,
+      "step": 63500
+    },
+    {
+      "epoch": 12.764260071798963,
+      "grad_norm": 6.227508544921875,
+      "learning_rate": 4.412046270442761e-05,
+      "loss": 4.4651,
+      "step": 64000
+    },
+    {
+      "epoch": 12.863980853609892,
+      "grad_norm": 6.464995861053467,
+      "learning_rate": 4.378806009839118e-05,
+      "loss": 4.423,
+      "step": 64500
+    },
+    {
+      "epoch": 12.963701635420822,
+      "grad_norm": 6.102914810180664,
+      "learning_rate": 4.345565749235474e-05,
+      "loss": 4.3969,
+      "step": 65000
+    },
+    {
+      "epoch": 13.06342241723175,
+      "grad_norm": 6.3487067222595215,
+      "learning_rate": 4.312325488631831e-05,
+      "loss": 4.2689,
+      "step": 65500
+    },
+    {
+      "epoch": 13.16314319904268,
+      "grad_norm": 6.235875129699707,
+      "learning_rate": 4.279085228028188e-05,
+      "loss": 4.2232,
+      "step": 66000
+    },
+    {
+      "epoch": 13.26286398085361,
+      "grad_norm": 5.931600570678711,
+      "learning_rate": 4.245844967424545e-05,
+      "loss": 4.222,
+      "step": 66500
+    },
+    {
+      "epoch": 13.36258476266454,
+      "grad_norm": 5.873235702514648,
+      "learning_rate": 4.212604706820902e-05,
+      "loss": 4.1722,
+      "step": 67000
+    },
+    {
+      "epoch": 13.462305544475468,
+      "grad_norm": 6.30717134475708,
+      "learning_rate": 4.179364446217259e-05,
+      "loss": 4.1255,
+      "step": 67500
+    },
+    {
+      "epoch": 13.562026326286398,
+      "grad_norm": 5.893185138702393,
+      "learning_rate": 4.146190666134823e-05,
+      "loss": 4.0975,
+      "step": 68000
+    },
+    {
+      "epoch": 13.661747108097327,
+      "grad_norm": 6.775746822357178,
+      "learning_rate": 4.113016886052387e-05,
+      "loss": 4.0787,
+      "step": 68500
+    },
+    {
+      "epoch": 13.761467889908257,
+      "grad_norm": 5.948095798492432,
+      "learning_rate": 4.0797766254487435e-05,
+      "loss": 4.0581,
+      "step": 69000
+    },
+    {
+      "epoch": 13.861188671719185,
+      "grad_norm": 5.961909770965576,
+      "learning_rate": 4.0465363648451005e-05,
+      "loss": 4.0097,
+      "step": 69500
+    },
+    {
+      "epoch": 13.960909453530116,
+      "grad_norm": 5.72122859954834,
+      "learning_rate": 4.0132961042414575e-05,
+      "loss": 3.9751,
+      "step": 70000
+    },
+    {
+      "epoch": 14.060630235341046,
+      "grad_norm": 6.1757378578186035,
+      "learning_rate": 3.980122324159022e-05,
+      "loss": 3.9707,
+      "step": 70500
+    },
+    {
+      "epoch": 14.160351017151974,
+      "grad_norm": 5.7611236572265625,
+      "learning_rate": 3.946882063555378e-05,
+      "loss": 3.9126,
+      "step": 71000
+    },
+    {
+      "epoch": 14.260071798962905,
+      "grad_norm": 6.233034133911133,
+      "learning_rate": 3.913641802951735e-05,
+      "loss": 3.9005,
+      "step": 71500
+    },
+    {
+      "epoch": 14.359792580773833,
+      "grad_norm": 6.282217979431152,
+      "learning_rate": 3.880401542348092e-05,
+      "loss": 3.8648,
+      "step": 72000
+    },
+    {
+      "epoch": 14.459513362584763,
+      "grad_norm": 6.495648384094238,
+      "learning_rate": 3.847161281744449e-05,
+      "loss": 3.8567,
+      "step": 72500
+    },
+    {
+      "epoch": 14.559234144395692,
+      "grad_norm": 6.3030195236206055,
+      "learning_rate": 3.813921021140806e-05,
+      "loss": 3.839,
+      "step": 73000
+    },
+    {
+      "epoch": 14.658954926206622,
+      "grad_norm": 5.807531833648682,
+      "learning_rate": 3.78074724105837e-05,
+      "loss": 3.8156,
+      "step": 73500
+    },
+    {
+      "epoch": 14.75867570801755,
+      "grad_norm": 5.283077716827393,
+      "learning_rate": 3.747506980454727e-05,
+      "loss": 3.8142,
+      "step": 74000
+    },
+    {
+      "epoch": 14.85839648982848,
+      "grad_norm": 5.933303356170654,
+      "learning_rate": 3.714266719851084e-05,
+      "loss": 3.8109,
+      "step": 74500
+    },
+    {
+      "epoch": 14.95811727163941,
+      "grad_norm": 6.217842102050781,
+      "learning_rate": 3.681026459247441e-05,
+      "loss": 3.7937,
+      "step": 75000
+    },
+    {
+      "epoch": 15.0,
+      "step": 75210,
+      "total_flos": 7.919584575053184e+16,
+      "train_loss": 1.1771604976443562,
+      "train_runtime": 4937.567,
+      "train_samples_per_second": 243.7,
+      "train_steps_per_second": 15.232
     }
   ],
   "logging_steps": 500,
+  "max_steps": 75210,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 7.919584575053184e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null