End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +12 -12
eval_results.json +7 -7
runs/Jul15_01-09-56_bee445b9fed3/events.out.tfevents.1721013478.bee445b9fed3.1176.1 +3 -0
train_results.json +6 -6
trainer_state.json +364 -5

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: roberta-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # roberta-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: roberta-javanese
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.47418153806650404
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # roberta-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 3.3326
+- Accuracy: 0.4742
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 15.0,
-    "eval_accuracy": 0.4158020342790051,
-    "eval_loss": 3.806352376937866,
-    "eval_runtime": 29.338,
     "eval_samples": 4053,
-    "eval_samples_per_second": 138.149,
-    "eval_steps_per_second": 34.563,
-    "perplexity": 44.98604708614023,
-    "total_flos": 7.919584575053184e+16,
-    "train_loss": 1.1771604976443562,
-    "train_runtime": 4937.567,
     "train_samples": 80219,
-    "train_samples_per_second": 243.7,
-    "train_steps_per_second": 15.232
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.47418153806650404,
+    "eval_loss": 3.3325774669647217,
+    "eval_runtime": 29.361,
     "eval_samples": 4053,
+    "eval_samples_per_second": 138.04,
+    "eval_steps_per_second": 34.536,
+    "perplexity": 28.01044473770335,
+    "total_flos": 1.0559446100070912e+17,
+    "train_loss": 0.8717835233465437,
+    "train_runtime": 7516.252,
     "train_samples": 80219,
+    "train_samples_per_second": 213.455,
+    "train_steps_per_second": 13.342
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 15.0,
-    "eval_accuracy": 0.4158020342790051,
-    "eval_loss": 3.806352376937866,
-    "eval_runtime": 29.338,
     "eval_samples": 4053,
-    "eval_samples_per_second": 138.149,
-    "eval_steps_per_second": 34.563,
-    "perplexity": 44.98604708614023
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.47418153806650404,
+    "eval_loss": 3.3325774669647217,
+    "eval_runtime": 29.361,
     "eval_samples": 4053,
+    "eval_samples_per_second": 138.04,
+    "eval_steps_per_second": 34.536,
+    "perplexity": 28.01044473770335
 }

runs/Jul15_01-09-56_bee445b9fed3/events.out.tfevents.1721013478.bee445b9fed3.1176.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a73c4ae31ef55c1f913a3859cad46ceb372a87e8c3124c1f2abb0969ec21e31
+size 417

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 15.0,
-    "total_flos": 7.919584575053184e+16,
-    "train_loss": 1.1771604976443562,
-    "train_runtime": 4937.567,
     "train_samples": 80219,
-    "train_samples_per_second": 243.7,
-    "train_steps_per_second": 15.232
 }

 {
+    "epoch": 20.0,
+    "total_flos": 1.0559446100070912e+17,
+    "train_loss": 0.8717835233465437,
+    "train_runtime": 7516.252,
     "train_samples": 80219,
+    "train_samples_per_second": 213.455,
+    "train_steps_per_second": 13.342
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 15.0,
   "eval_steps": 500,
-  "global_step": 75210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1084,12 +1084,371 @@
       "train_runtime": 4937.567,
       "train_samples_per_second": 243.7,
       "train_steps_per_second": 15.232
     }
   ],
   "logging_steps": 500,
-  "max_steps": 75210,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 15,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1103,7 +1462,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.919584575053184e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 100280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 4937.567,
       "train_samples_per_second": 243.7,
       "train_steps_per_second": 15.232
+    },
+    {
+      "epoch": 15.05783805345034,
+      "grad_norm": 6.581785202026367,
+      "learning_rate": 4.985540486637415e-05,
+      "loss": 3.8491,
+      "step": 75500
+    },
+    {
+      "epoch": 15.157558835261268,
+      "grad_norm": 6.372396469116211,
+      "learning_rate": 4.960610291184683e-05,
+      "loss": 3.8838,
+      "step": 76000
+    },
+    {
+      "epoch": 15.257279617072198,
+      "grad_norm": 6.738864421844482,
+      "learning_rate": 4.935680095731951e-05,
+      "loss": 3.8834,
+      "step": 76500
+    },
+    {
+      "epoch": 15.357000398883127,
+      "grad_norm": 6.700061798095703,
+      "learning_rate": 4.910749900279219e-05,
+      "loss": 3.8559,
+      "step": 77000
+    },
+    {
+      "epoch": 15.456721180694057,
+      "grad_norm": 6.3839497566223145,
+      "learning_rate": 4.8858197048264857e-05,
+      "loss": 3.8275,
+      "step": 77500
+    },
+    {
+      "epoch": 15.556441962504985,
+      "grad_norm": 6.165511131286621,
+      "learning_rate": 4.860889509373754e-05,
+      "loss": 3.803,
+      "step": 78000
+    },
+    {
+      "epoch": 15.656162744315916,
+      "grad_norm": 5.800929069519043,
+      "learning_rate": 4.8359593139210215e-05,
+      "loss": 3.8,
+      "step": 78500
+    },
+    {
+      "epoch": 15.755883526126844,
+      "grad_norm": 6.714051246643066,
+      "learning_rate": 4.811029118468289e-05,
+      "loss": 3.797,
+      "step": 79000
+    },
+    {
+      "epoch": 15.855604307937774,
+      "grad_norm": 6.74777889251709,
+      "learning_rate": 4.786098923015557e-05,
+      "loss": 3.7759,
+      "step": 79500
+    },
+    {
+      "epoch": 15.955325089748703,
+      "grad_norm": 6.980929374694824,
+      "learning_rate": 4.761168727562824e-05,
+      "loss": 3.7445,
+      "step": 80000
+    },
+    {
+      "epoch": 16.05504587155963,
+      "grad_norm": 6.54088020324707,
+      "learning_rate": 4.736238532110092e-05,
+      "loss": 3.6805,
+      "step": 80500
+    },
+    {
+      "epoch": 16.15476665337056,
+      "grad_norm": 5.999478340148926,
+      "learning_rate": 4.7113083366573594e-05,
+      "loss": 3.6537,
+      "step": 81000
+    },
+    {
+      "epoch": 16.254487435181492,
+      "grad_norm": 6.384885311126709,
+      "learning_rate": 4.686378141204627e-05,
+      "loss": 3.6522,
+      "step": 81500
+    },
+    {
+      "epoch": 16.354208216992422,
+      "grad_norm": 6.624803066253662,
+      "learning_rate": 4.661447945751895e-05,
+      "loss": 3.6302,
+      "step": 82000
+    },
+    {
+      "epoch": 16.453928998803352,
+      "grad_norm": 6.454346656799316,
+      "learning_rate": 4.636567610690068e-05,
+      "loss": 3.6179,
+      "step": 82500
+    },
+    {
+      "epoch": 16.55364978061428,
+      "grad_norm": 6.266842365264893,
+      "learning_rate": 4.611637415237336e-05,
+      "loss": 3.6265,
+      "step": 83000
+    },
+    {
+      "epoch": 16.65337056242521,
+      "grad_norm": 6.608065128326416,
+      "learning_rate": 4.5867072197846036e-05,
+      "loss": 3.6105,
+      "step": 83500
+    },
+    {
+      "epoch": 16.75309134423614,
+      "grad_norm": 6.4489426612854,
+      "learning_rate": 4.5617770243318705e-05,
+      "loss": 3.5994,
+      "step": 84000
+    },
+    {
+      "epoch": 16.85281212604707,
+      "grad_norm": 6.433938503265381,
+      "learning_rate": 4.536896689270044e-05,
+      "loss": 3.5648,
+      "step": 84500
+    },
+    {
+      "epoch": 16.952532907857996,
+      "grad_norm": 7.4558610916137695,
+      "learning_rate": 4.511966493817312e-05,
+      "loss": 3.5746,
+      "step": 85000
+    },
+    {
+      "epoch": 17.052253689668927,
+      "grad_norm": 5.742049217224121,
+      "learning_rate": 4.4870362983645795e-05,
+      "loss": 3.5378,
+      "step": 85500
+    },
+    {
+      "epoch": 17.151974471479857,
+      "grad_norm": 6.346868515014648,
+      "learning_rate": 4.462106102911847e-05,
+      "loss": 3.505,
+      "step": 86000
+    },
+    {
+      "epoch": 17.251695253290787,
+      "grad_norm": 6.252668857574463,
+      "learning_rate": 4.4371759074591147e-05,
+      "loss": 3.4787,
+      "step": 86500
+    },
+    {
+      "epoch": 17.351416035101714,
+      "grad_norm": 6.237195014953613,
+      "learning_rate": 4.412245712006383e-05,
+      "loss": 3.4914,
+      "step": 87000
+    },
+    {
+      "epoch": 17.451136816912644,
+      "grad_norm": 7.106077194213867,
+      "learning_rate": 4.3873653769445554e-05,
+      "loss": 3.4641,
+      "step": 87500
+    },
+    {
+      "epoch": 17.550857598723574,
+      "grad_norm": 7.160710334777832,
+      "learning_rate": 4.362435181491823e-05,
+      "loss": 3.4419,
+      "step": 88000
+    },
+    {
+      "epoch": 17.650578380534505,
+      "grad_norm": 7.160135746002197,
+      "learning_rate": 4.337504986039091e-05,
+      "loss": 3.4604,
+      "step": 88500
+    },
+    {
+      "epoch": 17.75029916234543,
+      "grad_norm": 6.785101890563965,
+      "learning_rate": 4.312574790586358e-05,
+      "loss": 3.432,
+      "step": 89000
+    },
+    {
+      "epoch": 17.85001994415636,
+      "grad_norm": 5.990314960479736,
+      "learning_rate": 4.287644595133626e-05,
+      "loss": 3.4045,
+      "step": 89500
+    },
+    {
+      "epoch": 17.949740725967292,
+      "grad_norm": 6.434844493865967,
+      "learning_rate": 4.2627642600717995e-05,
+      "loss": 3.4236,
+      "step": 90000
+    },
+    {
+      "epoch": 18.049461507778222,
+      "grad_norm": 6.7937774658203125,
+      "learning_rate": 4.2378340646190664e-05,
+      "loss": 3.3902,
+      "step": 90500
+    },
+    {
+      "epoch": 18.14918228958915,
+      "grad_norm": 7.1783576011657715,
+      "learning_rate": 4.212903869166335e-05,
+      "loss": 3.3545,
+      "step": 91000
+    },
+    {
+      "epoch": 18.24890307140008,
+      "grad_norm": 6.374876022338867,
+      "learning_rate": 4.187973673713602e-05,
+      "loss": 3.3451,
+      "step": 91500
+    },
+    {
+      "epoch": 18.34862385321101,
+      "grad_norm": 6.49647331237793,
+      "learning_rate": 4.163093338651775e-05,
+      "loss": 3.3452,
+      "step": 92000
+    },
+    {
+      "epoch": 18.44834463502194,
+      "grad_norm": 6.785512924194336,
+      "learning_rate": 4.138163143199043e-05,
+      "loss": 3.3102,
+      "step": 92500
+    },
+    {
+      "epoch": 18.54806541683287,
+      "grad_norm": 6.842392921447754,
+      "learning_rate": 4.1132329477463106e-05,
+      "loss": 3.3376,
+      "step": 93000
+    },
+    {
+      "epoch": 18.647786198643796,
+      "grad_norm": 7.126637935638428,
+      "learning_rate": 4.088302752293578e-05,
+      "loss": 3.3249,
+      "step": 93500
+    },
+    {
+      "epoch": 18.747506980454727,
+      "grad_norm": 5.808903217315674,
+      "learning_rate": 4.063372556840846e-05,
+      "loss": 3.2808,
+      "step": 94000
+    },
+    {
+      "epoch": 18.847227762265657,
+      "grad_norm": 6.2346954345703125,
+      "learning_rate": 4.0385420821699245e-05,
+      "loss": 3.3189,
+      "step": 94500
+    },
+    {
+      "epoch": 18.946948544076587,
+      "grad_norm": 6.60822057723999,
+      "learning_rate": 4.013611886717192e-05,
+      "loss": 3.3143,
+      "step": 95000
+    },
+    {
+      "epoch": 19.046669325887514,
+      "grad_norm": 6.471176624298096,
+      "learning_rate": 3.9886816912644597e-05,
+      "loss": 3.2855,
+      "step": 95500
+    },
+    {
+      "epoch": 19.146390107698444,
+      "grad_norm": 6.365059852600098,
+      "learning_rate": 3.963751495811727e-05,
+      "loss": 3.2616,
+      "step": 96000
+    },
+    {
+      "epoch": 19.246110889509374,
+      "grad_norm": 6.250296592712402,
+      "learning_rate": 3.9388213003589955e-05,
+      "loss": 3.226,
+      "step": 96500
+    },
+    {
+      "epoch": 19.345831671320305,
+      "grad_norm": 6.003506660461426,
+      "learning_rate": 3.9138911049062624e-05,
+      "loss": 3.2352,
+      "step": 97000
+    },
+    {
+      "epoch": 19.44555245313123,
+      "grad_norm": 5.75541353225708,
+      "learning_rate": 3.88896090945353e-05,
+      "loss": 3.2395,
+      "step": 97500
+    },
+    {
+      "epoch": 19.54527323494216,
+      "grad_norm": 6.684996604919434,
+      "learning_rate": 3.864030714000798e-05,
+      "loss": 3.2272,
+      "step": 98000
+    },
+    {
+      "epoch": 19.644994016753092,
+      "grad_norm": 5.906820297241211,
+      "learning_rate": 3.839100518548066e-05,
+      "loss": 3.2096,
+      "step": 98500
+    },
+    {
+      "epoch": 19.744714798564022,
+      "grad_norm": 6.240872383117676,
+      "learning_rate": 3.814220183486238e-05,
+      "loss": 3.2016,
+      "step": 99000
+    },
+    {
+      "epoch": 19.84443558037495,
+      "grad_norm": 6.751197338104248,
+      "learning_rate": 3.7892899880335066e-05,
+      "loss": 3.2141,
+      "step": 99500
+    },
+    {
+      "epoch": 19.94415636218588,
+      "grad_norm": 6.535121917724609,
+      "learning_rate": 3.764359792580774e-05,
+      "loss": 3.1829,
+      "step": 100000
+    },
+    {
+      "epoch": 20.0,
+      "step": 100280,
+      "total_flos": 1.0559446100070912e+17,
+      "train_loss": 0.8717835233465437,
+      "train_runtime": 7516.252,
+      "train_samples_per_second": 213.455,
+      "train_steps_per_second": 13.342
     }
   ],
   "logging_steps": 500,
+  "max_steps": 100280,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.0559446100070912e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null