End of training

Browse files

Files changed (11) hide show

README.md +18 -13
all_results.json +11 -11
config.json +1 -1
eval_results.json +6 -6
model.safetensors +1 -1
runs/Apr23_01-28-16_6ef5debac42d/events.out.tfevents.1713835697.6ef5debac42d.34.0 +3 -0
runs/Apr23_02-26-48_6ef5debac42d/events.out.tfevents.1713839214.6ef5debac42d.34.1 +3 -0
runs/Apr23_02-26-48_6ef5debac42d/events.out.tfevents.1713840541.6ef5debac42d.34.2 +3 -0
train_results.json +6 -6
trainer_state.json +191 -144
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -13,13 +13,12 @@ model-index:
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/hallo23/huggingface/runs/8oefwxr0)
 # ckpts
 This model is a fine-tuned version of [facebook/hubert-base-ls960](https://huggingface.co/facebook/hubert-base-ls960) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2441
-- Accuracy: 0.9394
 ## Model description
@@ -51,18 +50,24 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch   | Step | Validation Loss | Accuracy |
-|:-------------:|:-------:|:----:|:---------------:|:--------:|
-| 0.4948        | 2.2422  | 500  | 0.3149          | 0.9091   |
-| 0.2091        | 4.4843  | 1000 | 0.2441          | 0.9394   |
-| 0.1252        | 6.7265  | 1500 | 0.2574          | 0.9495   |
-| 0.1459        | 8.9686  | 2000 | 0.2598          | 0.9495   |
-| 0.1062        | 11.2108 | 2500 | 0.2850          | 0.9495   |
 ### Framework versions
-- Transformers 4.41.0.dev0
 - Pytorch 2.1.2
-- Datasets 2.19.1.dev0
-- Tokenizers 0.19.1

 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
 # ckpts
 This model is a fine-tuned version of [facebook/hubert-base-ls960](https://huggingface.co/facebook/hubert-base-ls960) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3189
+- Accuracy: 0.9444
 ## Model description
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.7722        | 1.0   | 223  | 0.4733          | 0.8434   |
+| 0.4755        | 2.0   | 446  | 0.4240          | 0.8687   |
+| 0.3262        | 3.0   | 669  | 0.2939          | 0.9343   |
+| 0.2642        | 4.0   | 892  | 0.3087          | 0.9293   |
+| 0.191         | 5.0   | 1115 | 0.3079          | 0.9394   |
+| 0.1534        | 6.0   | 1338 | 0.3134          | 0.9394   |
+| 0.1571        | 7.0   | 1561 | 0.4009          | 0.9293   |
+| 0.1328        | 8.0   | 1784 | 0.3189          | 0.9444   |
+| 0.1567        | 9.0   | 2007 | 0.4089          | 0.9192   |
+| 0.1043        | 10.0  | 2230 | 0.3429          | 0.9343   |
+| 0.1161        | 11.0  | 2453 | 0.3534          | 0.9394   |
 ### Framework versions
+- Transformers 4.39.3
 - Pytorch 2.1.2
+- Datasets 2.18.0
+- Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 11.210762331838565,
-    "eval_accuracy": 0.939393937587738,
-    "eval_loss": 0.2440650463104248,
-    "eval_runtime": 9.1551,
-    "eval_samples_per_second": 21.627,
-    "eval_steps_per_second": 5.461,
-    "total_flos": 6.392309759902944e+17,
-    "train_loss": 0.3350444522857666,
-    "train_runtime": 1353.7938,
     "train_samples": 1781,
-    "train_samples_per_second": 19.733,
-    "train_steps_per_second": 2.471
 }

 {
+    "epoch": 11.0,
+    "eval_accuracy": 0.9444444179534912,
+    "eval_loss": 0.3189202845096588,
+    "eval_runtime": 9.0656,
+    "eval_samples_per_second": 21.841,
+    "eval_steps_per_second": 5.515,
+    "total_flos": 6.273609670944864e+17,
+    "train_loss": 0.2735439113728912,
+    "train_runtime": 1317.5896,
     "train_samples": 1781,
+    "train_samples_per_second": 20.276,
+    "train_steps_per_second": 2.539
 }

config.json CHANGED Viewed

@@ -87,7 +87,7 @@
   "problem_type": "single_label_classification",
   "tokenizer_class": "Wav2Vec2CTCTokenizer",
   "torch_dtype": "float32",
-  "transformers_version": "4.41.0.dev0",
   "use_weighted_layer_sum": false,
   "vocab_size": 32
 }

   "problem_type": "single_label_classification",
   "tokenizer_class": "Wav2Vec2CTCTokenizer",
   "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
   "use_weighted_layer_sum": false,
   "vocab_size": 32
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 11.210762331838565,
-    "eval_accuracy": 0.939393937587738,
-    "eval_loss": 0.2440650463104248,
-    "eval_runtime": 9.1551,
-    "eval_samples_per_second": 21.627,
-    "eval_steps_per_second": 5.461
 }

 {
+    "epoch": 11.0,
+    "eval_accuracy": 0.9444444179534912,
+    "eval_loss": 0.3189202845096588,
+    "eval_runtime": 9.0656,
+    "eval_samples_per_second": 21.841,
+    "eval_steps_per_second": 5.515
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a20a752159837c75f2cc88929592ca3273e30623d416393032de66165047cf8
 size 379890236

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9ca5e862fb246d7eaa7bfe0560a4177c3c1b4da82ae4c7765071e7b5f8402b5
 size 379890236

runs/Apr23_01-28-16_6ef5debac42d/events.out.tfevents.1713835697.6ef5debac42d.34.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a9f9a84df5d0b7a943fd4c6f03184e98145fcb3e1adce3028fa5b9099aed8e9
+size 6016

runs/Apr23_02-26-48_6ef5debac42d/events.out.tfevents.1713839214.6ef5debac42d.34.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eed67d284e1a49e7d9efe29567c6844f19210307f0b2b762e32a701f57d060dd
+size 14829

runs/Apr23_02-26-48_6ef5debac42d/events.out.tfevents.1713840541.6ef5debac42d.34.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd6dc00b487f29345c8a919953fe1d96b8ebfa234649cae5634dd52b0393bd35
+size 734

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 11.210762331838565,
-    "total_flos": 6.392309759902944e+17,
-    "train_loss": 0.3350444522857666,
-    "train_runtime": 1353.7938,
     "train_samples": 1781,
-    "train_samples_per_second": 19.733,
-    "train_steps_per_second": 2.471
 }

 {
+    "epoch": 11.0,
+    "total_flos": 6.273609670944864e+17,
+    "train_loss": 0.2735439113728912,
+    "train_runtime": 1317.5896,
     "train_samples": 1781,
+    "train_samples_per_second": 20.276,
+    "train_steps_per_second": 2.539
 }

trainer_state.json CHANGED Viewed

@@ -1,250 +1,297 @@
 {
-  "best_metric": 0.2440650463104248,
-  "best_model_checkpoint": "/kaggle/working/ckpts/checkpoint-1000",
-  "epoch": 11.210762331838565,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.4484304932735426,
-      "grad_norm": 2.7230775356292725,
       "learning_rate": 9.701046337817639e-06,
-      "loss": 1.5364,
       "step": 100
     },
     {
-      "epoch": 0.8968609865470852,
-      "grad_norm": 3.450390577316284,
-      "learning_rate": 9.402092675635277e-06,
-      "loss": 1.1843,
       "step": 200
     },
     {
-      "epoch": 1.3452914798206277,
-      "grad_norm": 6.235444068908691,
       "learning_rate": 9.106128550074738e-06,
-      "loss": 0.8509,
       "step": 300
     },
     {
-      "epoch": 1.7937219730941703,
-      "grad_norm": 3.819420099258423,
       "learning_rate": 8.807174887892378e-06,
-      "loss": 0.619,
       "step": 400
     },
     {
-      "epoch": 2.242152466367713,
-      "grad_norm": 3.2721917629241943,
-      "learning_rate": 8.51121076233184e-06,
-      "loss": 0.4948,
-      "step": 500
     },
     {
-      "epoch": 2.242152466367713,
-      "eval_accuracy": 0.9090909361839294,
-      "eval_loss": 0.31492409110069275,
-      "eval_runtime": 9.2418,
-      "eval_samples_per_second": 21.424,
-      "eval_steps_per_second": 5.41,
       "step": 500
     },
     {
-      "epoch": 2.6905829596412554,
-      "grad_norm": 2.11232328414917,
-      "learning_rate": 8.212257100149478e-06,
-      "loss": 0.3709,
       "step": 600
     },
     {
-      "epoch": 3.1390134529147984,
-      "grad_norm": 8.740654945373535,
-      "learning_rate": 7.913303437967116e-06,
-      "loss": 0.3427,
       "step": 700
     },
     {
-      "epoch": 3.587443946188341,
-      "grad_norm": 18.510692596435547,
       "learning_rate": 7.617339312406578e-06,
-      "loss": 0.2957,
       "step": 800
     },
     {
-      "epoch": 4.0358744394618835,
-      "grad_norm": 54.879703521728516,
       "learning_rate": 7.318385650224216e-06,
-      "loss": 0.3187,
       "step": 900
     },
     {
-      "epoch": 4.484304932735426,
-      "grad_norm": 25.553455352783203,
       "learning_rate": 7.019431988041854e-06,
-      "loss": 0.2091,
       "step": 1000
     },
     {
-      "epoch": 4.484304932735426,
-      "eval_accuracy": 0.939393937587738,
-      "eval_loss": 0.2440650463104248,
-      "eval_runtime": 9.3073,
-      "eval_samples_per_second": 21.274,
-      "eval_steps_per_second": 5.372,
-      "step": 1000
     },
     {
-      "epoch": 4.932735426008969,
-      "grad_norm": 18.517961502075195,
-      "learning_rate": 6.720478325859492e-06,
-      "loss": 0.1786,
-      "step": 1100
     },
     {
-      "epoch": 5.381165919282511,
-      "grad_norm": 18.12173080444336,
-      "learning_rate": 6.421524663677131e-06,
-      "loss": 0.2242,
       "step": 1200
     },
     {
-      "epoch": 5.829596412556054,
-      "grad_norm": 12.17724895477295,
-      "learning_rate": 6.1225710014947695e-06,
-      "loss": 0.1743,
       "step": 1300
     },
     {
-      "epoch": 6.278026905829597,
-      "grad_norm": 0.7298703789710999,
-      "learning_rate": 5.823617339312408e-06,
-      "loss": 0.1864,
       "step": 1400
     },
     {
-      "epoch": 6.726457399103139,
-      "grad_norm": 0.3917248845100403,
-      "learning_rate": 5.524663677130046e-06,
-      "loss": 0.1252,
       "step": 1500
     },
     {
-      "epoch": 6.726457399103139,
-      "eval_accuracy": 0.9494949579238892,
-      "eval_loss": 0.2574491798877716,
-      "eval_runtime": 9.3365,
-      "eval_samples_per_second": 21.207,
-      "eval_steps_per_second": 5.355,
-      "step": 1500
     },
     {
-      "epoch": 7.174887892376682,
-      "grad_norm": 0.04727130010724068,
-      "learning_rate": 5.225710014947683e-06,
-      "loss": 0.1388,
       "step": 1600
     },
     {
-      "epoch": 7.623318385650224,
-      "grad_norm": 0.06415404379367828,
       "learning_rate": 4.929745889387145e-06,
-      "loss": 0.1366,
       "step": 1700
     },
     {
-      "epoch": 8.071748878923767,
-      "grad_norm": 14.02224349975586,
       "learning_rate": 4.630792227204783e-06,
-      "loss": 0.156,
       "step": 1800
     },
     {
-      "epoch": 8.52017937219731,
-      "grad_norm": 0.037808869034051895,
       "learning_rate": 4.3318385650224224e-06,
-      "loss": 0.1297,
       "step": 1900
     },
     {
-      "epoch": 8.968609865470851,
-      "grad_norm": 41.554500579833984,
       "learning_rate": 4.03288490284006e-06,
-      "loss": 0.1459,
       "step": 2000
     },
     {
-      "epoch": 8.968609865470851,
-      "eval_accuracy": 0.9494949579238892,
-      "eval_loss": 0.2597883343696594,
-      "eval_runtime": 9.3051,
-      "eval_samples_per_second": 21.279,
-      "eval_steps_per_second": 5.373,
-      "step": 2000
     },
     {
-      "epoch": 9.417040358744394,
-      "grad_norm": 0.05968519300222397,
       "learning_rate": 3.7339312406576984e-06,
-      "loss": 0.1264,
       "step": 2100
     },
     {
-      "epoch": 9.865470852017937,
-      "grad_norm": 0.05496314913034439,
       "learning_rate": 3.4349775784753366e-06,
-      "loss": 0.0953,
       "step": 2200
     },
     {
-      "epoch": 10.31390134529148,
-      "grad_norm": 0.08967319875955582,
       "learning_rate": 3.136023916292975e-06,
-      "loss": 0.1124,
       "step": 2300
     },
     {
-      "epoch": 10.762331838565022,
-      "grad_norm": 0.25198718905448914,
       "learning_rate": 2.8370702541106134e-06,
-      "loss": 0.1178,
       "step": 2400
     },
     {
-      "epoch": 11.210762331838565,
-      "grad_norm": 26.92681884765625,
-      "learning_rate": 2.538116591928251e-06,
-      "loss": 0.1062,
-      "step": 2500
-    },
-    {
-      "epoch": 11.210762331838565,
-      "eval_accuracy": 0.9494949579238892,
-      "eval_loss": 0.28504666686058044,
-      "eval_runtime": 9.4727,
-      "eval_samples_per_second": 20.902,
-      "eval_steps_per_second": 5.278,
-      "step": 2500
     },
     {
-      "epoch": 11.210762331838565,
-      "step": 2500,
-      "total_flos": 6.392309759902944e+17,
-      "train_loss": 0.3350444522857666,
-      "train_runtime": 1353.7938,
-      "train_samples_per_second": 19.733,
-      "train_steps_per_second": 2.471
     },
     {
-      "epoch": 11.210762331838565,
-      "eval_accuracy": 0.939393937587738,
-      "eval_loss": 0.2440650463104248,
-      "eval_runtime": 9.1551,
-      "eval_samples_per_second": 21.627,
-      "eval_steps_per_second": 5.461,
-      "step": 2500
     }
   ],
   "logging_steps": 100,
@@ -252,7 +299,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 15,
   "save_steps": 500,
-  "total_flos": 6.392309759902944e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9444444179534912,
+  "best_model_checkpoint": "/kaggle/working/ckpts/checkpoint-1784",
+  "epoch": 11.0,
   "eval_steps": 500,
+  "global_step": 2453,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.45,
+      "grad_norm": 3.8796565532684326,
       "learning_rate": 9.701046337817639e-06,
+      "loss": 1.0979,
       "step": 100
     },
     {
+      "epoch": 0.9,
+      "grad_norm": 2.6467082500457764,
+      "learning_rate": 9.4050822122571e-06,
+      "loss": 0.7722,
       "step": 200
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8434343338012695,
+      "eval_loss": 0.4733273386955261,
+      "eval_runtime": 9.4201,
+      "eval_samples_per_second": 21.019,
+      "eval_steps_per_second": 5.308,
+      "step": 223
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 20.371318817138672,
       "learning_rate": 9.106128550074738e-06,
+      "loss": 0.5871,
       "step": 300
     },
     {
+      "epoch": 1.79,
+      "grad_norm": 3.244633674621582,
       "learning_rate": 8.807174887892378e-06,
+      "loss": 0.4755,
       "step": 400
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.868686854839325,
+      "eval_loss": 0.42396825551986694,
+      "eval_runtime": 9.3161,
+      "eval_samples_per_second": 21.254,
+      "eval_steps_per_second": 5.367,
+      "step": 446
     },
     {
+      "epoch": 2.24,
+      "grad_norm": 8.883748054504395,
+      "learning_rate": 8.51121076233184e-06,
+      "loss": 0.377,
       "step": 500
     },
     {
+      "epoch": 2.69,
+      "grad_norm": 1.6546649932861328,
+      "learning_rate": 8.2152466367713e-06,
+      "loss": 0.3262,
       "step": 600
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9343434572219849,
+      "eval_loss": 0.2939111590385437,
+      "eval_runtime": 9.4493,
+      "eval_samples_per_second": 20.954,
+      "eval_steps_per_second": 5.291,
+      "step": 669
+    },
+    {
+      "epoch": 3.14,
+      "grad_norm": 7.946984767913818,
+      "learning_rate": 7.916292974588939e-06,
+      "loss": 0.2347,
       "step": 700
     },
     {
+      "epoch": 3.59,
+      "grad_norm": 9.960402488708496,
       "learning_rate": 7.617339312406578e-06,
+      "loss": 0.2642,
       "step": 800
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9292929172515869,
+      "eval_loss": 0.3087417781352997,
+      "eval_runtime": 9.224,
+      "eval_samples_per_second": 21.466,
+      "eval_steps_per_second": 5.421,
+      "step": 892
+    },
+    {
+      "epoch": 4.04,
+      "grad_norm": 87.66458129882812,
       "learning_rate": 7.318385650224216e-06,
+      "loss": 0.2608,
       "step": 900
     },
     {
+      "epoch": 4.48,
+      "grad_norm": 42.06097412109375,
       "learning_rate": 7.019431988041854e-06,
+      "loss": 0.213,
       "step": 1000
     },
     {
+      "epoch": 4.93,
+      "grad_norm": 21.227588653564453,
+      "learning_rate": 6.723467862481315e-06,
+      "loss": 0.191,
+      "step": 1100
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.939393937587738,
+      "eval_loss": 0.30786794424057007,
+      "eval_runtime": 9.2259,
+      "eval_samples_per_second": 21.461,
+      "eval_steps_per_second": 5.42,
+      "step": 1115
     },
     {
+      "epoch": 5.38,
+      "grad_norm": 0.09492979198694229,
+      "learning_rate": 6.424514200298954e-06,
+      "loss": 0.1891,
       "step": 1200
     },
     {
+      "epoch": 5.83,
+      "grad_norm": 22.492895126342773,
+      "learning_rate": 6.1255605381165925e-06,
+      "loss": 0.1534,
       "step": 1300
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.939393937587738,
+      "eval_loss": 0.3133719265460968,
+      "eval_runtime": 9.3193,
+      "eval_samples_per_second": 21.246,
+      "eval_steps_per_second": 5.365,
+      "step": 1338
+    },
+    {
+      "epoch": 6.28,
+      "grad_norm": 0.05382364243268967,
+      "learning_rate": 5.826606875934231e-06,
+      "loss": 0.1825,
       "step": 1400
     },
     {
+      "epoch": 6.73,
+      "grad_norm": 5.18447732925415,
+      "learning_rate": 5.527653213751869e-06,
+      "loss": 0.1571,
       "step": 1500
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9292929172515869,
+      "eval_loss": 0.40089717507362366,
+      "eval_runtime": 9.2909,
+      "eval_samples_per_second": 21.311,
+      "eval_steps_per_second": 5.382,
+      "step": 1561
     },
     {
+      "epoch": 7.17,
+      "grad_norm": 0.036003902554512024,
+      "learning_rate": 5.228699551569507e-06,
+      "loss": 0.1518,
       "step": 1600
     },
     {
+      "epoch": 7.62,
+      "grad_norm": 0.10409737378358841,
       "learning_rate": 4.929745889387145e-06,
+      "loss": 0.1328,
       "step": 1700
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9444444179534912,
+      "eval_loss": 0.3189202845096588,
+      "eval_runtime": 9.3287,
+      "eval_samples_per_second": 21.225,
+      "eval_steps_per_second": 5.36,
+      "step": 1784
+    },
+    {
+      "epoch": 8.07,
+      "grad_norm": 6.580456733703613,
       "learning_rate": 4.630792227204783e-06,
+      "loss": 0.1127,
       "step": 1800
     },
     {
+      "epoch": 8.52,
+      "grad_norm": 0.12464825063943863,
       "learning_rate": 4.3318385650224224e-06,
+      "loss": 0.1333,
       "step": 1900
     },
     {
+      "epoch": 8.97,
+      "grad_norm": 127.78559112548828,
       "learning_rate": 4.03288490284006e-06,
+      "loss": 0.1567,
       "step": 2000
     },
     {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9191918969154358,
+      "eval_loss": 0.40891000628471375,
+      "eval_runtime": 9.2849,
+      "eval_samples_per_second": 21.325,
+      "eval_steps_per_second": 5.385,
+      "step": 2007
     },
     {
+      "epoch": 9.42,
+      "grad_norm": 0.03460687771439552,
       "learning_rate": 3.7339312406576984e-06,
+      "loss": 0.1313,
       "step": 2100
     },
     {
+      "epoch": 9.87,
+      "grad_norm": 3.1638216972351074,
       "learning_rate": 3.4349775784753366e-06,
+      "loss": 0.1043,
       "step": 2200
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9343434572219849,
+      "eval_loss": 0.34286314249038696,
+      "eval_runtime": 9.3365,
+      "eval_samples_per_second": 21.207,
+      "eval_steps_per_second": 5.355,
+      "step": 2230
+    },
+    {
+      "epoch": 10.31,
+      "grad_norm": 0.462053507566452,
       "learning_rate": 3.136023916292975e-06,
+      "loss": 0.1551,
       "step": 2300
     },
     {
+      "epoch": 10.76,
+      "grad_norm": 0.5621947050094604,
       "learning_rate": 2.8370702541106134e-06,
+      "loss": 0.1161,
       "step": 2400
     },
     {
+      "epoch": 11.0,
+      "eval_accuracy": 0.939393937587738,
+      "eval_loss": 0.3534471094608307,
+      "eval_runtime": 9.2307,
+      "eval_samples_per_second": 21.45,
+      "eval_steps_per_second": 5.417,
+      "step": 2453
     },
     {
+      "epoch": 11.0,
+      "step": 2453,
+      "total_flos": 6.273609670944864e+17,
+      "train_loss": 0.2735439113728912,
+      "train_runtime": 1317.5896,
+      "train_samples_per_second": 20.276,
+      "train_steps_per_second": 2.539
     },
     {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9444444179534912,
+      "eval_loss": 0.3189202845096588,
+      "eval_runtime": 9.0656,
+      "eval_samples_per_second": 21.841,
+      "eval_steps_per_second": 5.515,
+      "step": 2453
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 15,
   "save_steps": 500,
+  "total_flos": 6.273609670944864e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfd0a8fac2fa2f9e7a44ceb796236325ad0e73a925cf176a1dd48186e55392f8
-size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:de65037c614a22836253ad31eda6e76236b1e78bf69197af95578707a3ab6bbe
+size 4984