End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +12 -12
eval_results.json +7 -7
runs/Jul16_23-39-50_1f9b0cd15cbb/events.out.tfevents.1721180281.1f9b0cd15cbb.1376.1 +3 -0
train_results.json +6 -6
trainer_state.json +364 -5

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: roberta-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # roberta-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: roberta-javanese
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.5187187058672487
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # roberta-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.9966
+- Accuracy: 0.5187
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 25.0,
-    "eval_accuracy": 0.5023109513416356,
-    "eval_loss": 3.115068197250366,
-    "eval_runtime": 29.8729,
     "eval_samples": 4053,
-    "eval_samples_per_second": 135.675,
-    "eval_steps_per_second": 33.944,
-    "perplexity": 22.53496712388723,
-    "total_flos": 1.319930762508864e+17,
-    "train_loss": 0.6150265672133651,
-    "train_runtime": 7682.6614,
     "train_samples": 80219,
-    "train_samples_per_second": 261.039,
-    "train_steps_per_second": 16.316
 }

 {
+    "epoch": 30.0,
+    "eval_accuracy": 0.5187187058672487,
+    "eval_loss": 2.996563196182251,
+    "eval_runtime": 30.3359,
     "eval_samples": 4053,
+    "eval_samples_per_second": 133.604,
+    "eval_steps_per_second": 33.426,
+    "perplexity": 20.01662535880206,
+    "total_flos": 1.5839169150106368e+17,
+    "train_loss": 0.47119966579742084,
+    "train_runtime": 6930.0607,
     "train_samples": 80219,
+    "train_samples_per_second": 347.265,
+    "train_steps_per_second": 21.705
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 25.0,
-    "eval_accuracy": 0.5023109513416356,
-    "eval_loss": 3.115068197250366,
-    "eval_runtime": 29.8729,
     "eval_samples": 4053,
-    "eval_samples_per_second": 135.675,
-    "eval_steps_per_second": 33.944,
-    "perplexity": 22.53496712388723
 }

 {
+    "epoch": 30.0,
+    "eval_accuracy": 0.5187187058672487,
+    "eval_loss": 2.996563196182251,
+    "eval_runtime": 30.3359,
     "eval_samples": 4053,
+    "eval_samples_per_second": 133.604,
+    "eval_steps_per_second": 33.426,
+    "perplexity": 20.01662535880206
 }

runs/Jul16_23-39-50_1f9b0cd15cbb/events.out.tfevents.1721180281.1f9b0cd15cbb.1376.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:690947851e0d8d29fd488745b8000d62a6dd22a837afe3681da84f72ae3418c6
+size 417

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 25.0,
-    "total_flos": 1.319930762508864e+17,
-    "train_loss": 0.6150265672133651,
-    "train_runtime": 7682.6614,
     "train_samples": 80219,
-    "train_samples_per_second": 261.039,
-    "train_steps_per_second": 16.316
 }

 {
+    "epoch": 30.0,
+    "total_flos": 1.5839169150106368e+17,
+    "train_loss": 0.47119966579742084,
+    "train_runtime": 6930.0607,
     "train_samples": 80219,
+    "train_samples_per_second": 347.265,
+    "train_steps_per_second": 21.705
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 25.0,
   "eval_steps": 500,
-  "global_step": 125350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1802,12 +1802,371 @@
       "train_runtime": 7682.6614,
       "train_samples_per_second": 261.039,
       "train_steps_per_second": 16.316
     }
   ],
   "logging_steps": 500,
-  "max_steps": 125350,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 25,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1821,7 +2180,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.319930762508864e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 30.0,
   "eval_steps": 500,
+  "global_step": 150420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 7682.6614,
       "train_samples_per_second": 261.039,
       "train_steps_per_second": 16.316
+    },
+    {
+      "epoch": 25.02991623454328,
+      "grad_norm": 6.8266754150390625,
+      "learning_rate": 4.9950139609094536e-05,
+      "loss": 2.9041,
+      "step": 125500
+    },
+    {
+      "epoch": 25.12963701635421,
+      "grad_norm": 7.047895431518555,
+      "learning_rate": 4.9783938306076325e-05,
+      "loss": 2.9501,
+      "step": 126000
+    },
+    {
+      "epoch": 25.229357798165136,
+      "grad_norm": 6.489243507385254,
+      "learning_rate": 4.9617737003058106e-05,
+      "loss": 2.9795,
+      "step": 126500
+    },
+    {
+      "epoch": 25.329078579976066,
+      "grad_norm": 6.933114528656006,
+      "learning_rate": 4.9451535700039895e-05,
+      "loss": 2.9906,
+      "step": 127000
+    },
+    {
+      "epoch": 25.428799361786997,
+      "grad_norm": 7.721564769744873,
+      "learning_rate": 4.9285334397021676e-05,
+      "loss": 2.9822,
+      "step": 127500
+    },
+    {
+      "epoch": 25.528520143597927,
+      "grad_norm": 7.604334831237793,
+      "learning_rate": 4.911913309400346e-05,
+      "loss": 2.9751,
+      "step": 128000
+    },
+    {
+      "epoch": 25.628240925408853,
+      "grad_norm": 6.689730644226074,
+      "learning_rate": 4.8952931790985246e-05,
+      "loss": 2.9806,
+      "step": 128500
+    },
+    {
+      "epoch": 25.727961707219784,
+      "grad_norm": 7.001711368560791,
+      "learning_rate": 4.878673048796703e-05,
+      "loss": 2.9701,
+      "step": 129000
+    },
+    {
+      "epoch": 25.827682489030714,
+      "grad_norm": 6.627374649047852,
+      "learning_rate": 4.862052918494881e-05,
+      "loss": 2.982,
+      "step": 129500
+    },
+    {
+      "epoch": 25.927403270841644,
+      "grad_norm": 6.500030517578125,
+      "learning_rate": 4.8454660284536635e-05,
+      "loss": 2.9497,
+      "step": 130000
+    },
+    {
+      "epoch": 26.027124052652574,
+      "grad_norm": 6.908927917480469,
+      "learning_rate": 4.828845898151842e-05,
+      "loss": 2.9201,
+      "step": 130500
+    },
+    {
+      "epoch": 26.1268448344635,
+      "grad_norm": 7.953597068786621,
+      "learning_rate": 4.8122257678500205e-05,
+      "loss": 2.8916,
+      "step": 131000
+    },
+    {
+      "epoch": 26.22656561627443,
+      "grad_norm": 7.111712455749512,
+      "learning_rate": 4.795605637548199e-05,
+      "loss": 2.8983,
+      "step": 131500
+    },
+    {
+      "epoch": 26.32628639808536,
+      "grad_norm": 7.099549293518066,
+      "learning_rate": 4.778985507246377e-05,
+      "loss": 2.8862,
+      "step": 132000
+    },
+    {
+      "epoch": 26.426007179896292,
+      "grad_norm": 6.708031177520752,
+      "learning_rate": 4.762365376944555e-05,
+      "loss": 2.8828,
+      "step": 132500
+    },
+    {
+      "epoch": 26.52572796170722,
+      "grad_norm": 6.638050079345703,
+      "learning_rate": 4.745745246642734e-05,
+      "loss": 2.9,
+      "step": 133000
+    },
+    {
+      "epoch": 26.62544874351815,
+      "grad_norm": 6.474231243133545,
+      "learning_rate": 4.729125116340912e-05,
+      "loss": 2.8729,
+      "step": 133500
+    },
+    {
+      "epoch": 26.72516952532908,
+      "grad_norm": 7.071346759796143,
+      "learning_rate": 4.712538226299694e-05,
+      "loss": 2.878,
+      "step": 134000
+    },
+    {
+      "epoch": 26.82489030714001,
+      "grad_norm": 7.4629740715026855,
+      "learning_rate": 4.695918095997873e-05,
+      "loss": 2.8949,
+      "step": 134500
+    },
+    {
+      "epoch": 26.924611088950936,
+      "grad_norm": 7.166282653808594,
+      "learning_rate": 4.679331205956655e-05,
+      "loss": 2.8834,
+      "step": 135000
+    },
+    {
+      "epoch": 27.024331870761866,
+      "grad_norm": 7.213958263397217,
+      "learning_rate": 4.6627110756548334e-05,
+      "loss": 2.8722,
+      "step": 135500
+    },
+    {
+      "epoch": 27.124052652572797,
+      "grad_norm": 6.917830467224121,
+      "learning_rate": 4.6460909453530116e-05,
+      "loss": 2.812,
+      "step": 136000
+    },
+    {
+      "epoch": 27.223773434383727,
+      "grad_norm": 7.030029296875,
+      "learning_rate": 4.62947081505119e-05,
+      "loss": 2.7973,
+      "step": 136500
+    },
+    {
+      "epoch": 27.323494216194653,
+      "grad_norm": 6.927401542663574,
+      "learning_rate": 4.6128506847493686e-05,
+      "loss": 2.8567,
+      "step": 137000
+    },
+    {
+      "epoch": 27.423214998005584,
+      "grad_norm": 7.063901424407959,
+      "learning_rate": 4.596230554447547e-05,
+      "loss": 2.8119,
+      "step": 137500
+    },
+    {
+      "epoch": 27.522935779816514,
+      "grad_norm": 6.619449138641357,
+      "learning_rate": 4.5796104241457256e-05,
+      "loss": 2.814,
+      "step": 138000
+    },
+    {
+      "epoch": 27.622656561627444,
+      "grad_norm": 6.861698150634766,
+      "learning_rate": 4.562990293843904e-05,
+      "loss": 2.7966,
+      "step": 138500
+    },
+    {
+      "epoch": 27.72237734343837,
+      "grad_norm": 5.698707580566406,
+      "learning_rate": 4.5464034038026856e-05,
+      "loss": 2.8274,
+      "step": 139000
+    },
+    {
+      "epoch": 27.8220981252493,
+      "grad_norm": 6.638801574707031,
+      "learning_rate": 4.5297832735008645e-05,
+      "loss": 2.8111,
+      "step": 139500
+    },
+    {
+      "epoch": 27.92181890706023,
+      "grad_norm": 7.414352893829346,
+      "learning_rate": 4.5131631431990427e-05,
+      "loss": 2.8219,
+      "step": 140000
+    },
+    {
+      "epoch": 28.02153968887116,
+      "grad_norm": 7.000102519989014,
+      "learning_rate": 4.4965430128972215e-05,
+      "loss": 2.8059,
+      "step": 140500
+    },
+    {
+      "epoch": 28.121260470682092,
+      "grad_norm": 7.648940563201904,
+      "learning_rate": 4.4799561228560034e-05,
+      "loss": 2.7801,
+      "step": 141000
+    },
+    {
+      "epoch": 28.22098125249302,
+      "grad_norm": 6.238720417022705,
+      "learning_rate": 4.4633359925541815e-05,
+      "loss": 2.7611,
+      "step": 141500
+    },
+    {
+      "epoch": 28.32070203430395,
+      "grad_norm": 7.083422660827637,
+      "learning_rate": 4.4467491025129634e-05,
+      "loss": 2.7476,
+      "step": 142000
+    },
+    {
+      "epoch": 28.42042281611488,
+      "grad_norm": 7.1048760414123535,
+      "learning_rate": 4.430128972211142e-05,
+      "loss": 2.7601,
+      "step": 142500
+    },
+    {
+      "epoch": 28.52014359792581,
+      "grad_norm": 6.950742244720459,
+      "learning_rate": 4.4135088419093204e-05,
+      "loss": 2.7615,
+      "step": 143000
+    },
+    {
+      "epoch": 28.619864379736736,
+      "grad_norm": 7.063054084777832,
+      "learning_rate": 4.396888711607499e-05,
+      "loss": 2.7583,
+      "step": 143500
+    },
+    {
+      "epoch": 28.719585161547666,
+      "grad_norm": 6.951484680175781,
+      "learning_rate": 4.3802685813056774e-05,
+      "loss": 2.748,
+      "step": 144000
+    },
+    {
+      "epoch": 28.819305943358597,
+      "grad_norm": 7.212677955627441,
+      "learning_rate": 4.363648451003856e-05,
+      "loss": 2.7542,
+      "step": 144500
+    },
+    {
+      "epoch": 28.919026725169527,
+      "grad_norm": 6.691658973693848,
+      "learning_rate": 4.3470283207020344e-05,
+      "loss": 2.753,
+      "step": 145000
+    },
+    {
+      "epoch": 29.018747506980453,
+      "grad_norm": 7.1954874992370605,
+      "learning_rate": 4.330408190400213e-05,
+      "loss": 2.7332,
+      "step": 145500
+    },
+    {
+      "epoch": 29.118468288791384,
+      "grad_norm": 6.654098987579346,
+      "learning_rate": 4.313821300358995e-05,
+      "loss": 2.7109,
+      "step": 146000
+    },
+    {
+      "epoch": 29.218189070602314,
+      "grad_norm": 6.924403667449951,
+      "learning_rate": 4.297201170057173e-05,
+      "loss": 2.7076,
+      "step": 146500
+    },
+    {
+      "epoch": 29.317909852413244,
+      "grad_norm": 7.731849193572998,
+      "learning_rate": 4.280581039755352e-05,
+      "loss": 2.6943,
+      "step": 147000
+    },
+    {
+      "epoch": 29.41763063422417,
+      "grad_norm": 7.095526218414307,
+      "learning_rate": 4.26396090945353e-05,
+      "loss": 2.72,
+      "step": 147500
+    },
+    {
+      "epoch": 29.5173514160351,
+      "grad_norm": 7.1939520835876465,
+      "learning_rate": 4.247340779151709e-05,
+      "loss": 2.6772,
+      "step": 148000
+    },
+    {
+      "epoch": 29.61707219784603,
+      "grad_norm": 7.466503620147705,
+      "learning_rate": 4.230753889110491e-05,
+      "loss": 2.7193,
+      "step": 148500
+    },
+    {
+      "epoch": 29.71679297965696,
+      "grad_norm": 6.902263164520264,
+      "learning_rate": 4.214133758808669e-05,
+      "loss": 2.716,
+      "step": 149000
+    },
+    {
+      "epoch": 29.81651376146789,
+      "grad_norm": 7.366625785827637,
+      "learning_rate": 4.197513628506848e-05,
+      "loss": 2.7009,
+      "step": 149500
+    },
+    {
+      "epoch": 29.91623454327882,
+      "grad_norm": 6.991941452026367,
+      "learning_rate": 4.180893498205026e-05,
+      "loss": 2.7202,
+      "step": 150000
+    },
+    {
+      "epoch": 30.0,
+      "step": 150420,
+      "total_flos": 1.5839169150106368e+17,
+      "train_loss": 0.47119966579742084,
+      "train_runtime": 6930.0607,
+      "train_samples_per_second": 347.265,
+      "train_steps_per_second": 21.705
     }
   ],
   "logging_steps": 500,
+  "max_steps": 150420,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.5839169150106368e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null