Training in progress, step 1000

Browse files

Files changed (9) hide show

checkpoint-1000/config.json +9 -9
checkpoint-1000/optimizer.pt +2 -2
checkpoint-1000/pytorch_model.bin +2 -2
checkpoint-1000/rng_state.pth +1 -1
checkpoint-1000/scaler.pt +1 -1
checkpoint-1000/tokenizer_config.json +1 -1
checkpoint-1000/trainer_state.json +99 -90
checkpoint-1000/training_args.bin +1 -1
pytorch_model.bin +1 -1

checkpoint-1000/config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "openai/whisper-small",
   "activation_dropout": 0.0,
   "activation_function": "gelu",
   "architectures": [
@@ -11,17 +11,17 @@
     50257
   ],
   "bos_token_id": 50257,
-  "d_model": 768,
-  "decoder_attention_heads": 12,
-  "decoder_ffn_dim": 3072,
   "decoder_layerdrop": 0.0,
-  "decoder_layers": 12,
   "decoder_start_token_id": 50258,
   "dropout": 0.0,
-  "encoder_attention_heads": 12,
-  "encoder_ffn_dim": 3072,
   "encoder_layerdrop": 0.0,
-  "encoder_layers": 12,
   "eos_token_id": 50257,
   "forced_decoder_ids": null,
   "init_std": 0.02,
@@ -30,7 +30,7 @@
   "max_source_positions": 1500,
   "max_target_positions": 448,
   "model_type": "whisper",
-  "num_hidden_layers": 12,
   "num_mel_bins": 80,
   "pad_token_id": 50257,
   "scale_embedding": false,

 {
+  "_name_or_path": "openai/whisper-medium",
   "activation_dropout": 0.0,
   "activation_function": "gelu",
   "architectures": [
     50257
   ],
   "bos_token_id": 50257,
+  "d_model": 1024,
+  "decoder_attention_heads": 16,
+  "decoder_ffn_dim": 4096,
   "decoder_layerdrop": 0.0,
+  "decoder_layers": 24,
   "decoder_start_token_id": 50258,
   "dropout": 0.0,
+  "encoder_attention_heads": 16,
+  "encoder_ffn_dim": 4096,
   "encoder_layerdrop": 0.0,
+  "encoder_layers": 24,
   "eos_token_id": 50257,
   "forced_decoder_ids": null,
   "init_std": 0.02,
   "max_source_positions": 1500,
   "max_target_positions": 448,
   "model_type": "whisper",
+  "num_hidden_layers": 24,
   "num_mel_bins": 80,
   "pad_token_id": 50257,
   "scale_embedding": false,

checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87cdde1c69ccea77fc2d10883218b255caf5fd29a0d50ea75faa5550ffef7f19
-size 1934161093

 version https://git-lfs.github.com/spec/v1
+oid sha256:af49b47896328ac338c2bcc0a0a9633edbceecd04542cc94134d901a533e16f8
+size 6111428695

checkpoint-1000/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f90976fea374ad783c2542b5b16cffb3e21309e241eca73e9211168253b120e2
-size 967102601

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ab09aea52de50a7a60e8ffee379732eaeae6a128802ab70f0a79b4df77d8852
+size 3055754841

checkpoint-1000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cd183ac6e2c1c51a5ab296c5ecccf98b4ba8d20eae77a8c910a6c8ebf6f3dc4
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcec21c75f2a56d1a885ca69805f92f00488b77824a9c72d1f47bbf304ea23f4
 size 14575

checkpoint-1000/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2292b0497ddb0554f3fc4518d7cc9b046879e509117234d9fc7434b7c01df20c
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:a18a0387d70684d7f96dff24b357b2696f9665783ff9db9a34d4aff631f8b03a
 size 557

checkpoint-1000/tokenizer_config.json CHANGED Viewed

@@ -19,7 +19,7 @@
   },
   "errors": "replace",
   "model_max_length": 1024,
-  "name_or_path": "openai/whisper-small",
   "pad_token": null,
   "processor_class": "WhisperProcessor",
   "return_attention_mask": false,

   },
   "errors": "replace",
   "model_max_length": 1024,
+  "name_or_path": "openai/whisper-medium",
   "pad_token": null,
   "processor_class": "WhisperProcessor",
   "return_attention_mask": false,

checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -1,265 +1,274 @@
 {
-  "best_metric": 15.703064185124902,
   "best_model_checkpoint": "./checkpoint-1000",
-  "epoch": 5.026,
   "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01,
       "learning_rate": 4.2000000000000006e-07,
-      "loss": 4.163,
       "step": 25
     },
     {
-      "epoch": 0.01,
       "learning_rate": 9.200000000000001e-07,
-      "loss": 3.2393,
       "step": 50
     },
     {
-      "epoch": 0.01,
       "learning_rate": 1.42e-06,
-      "loss": 2.1044,
       "step": 75
     },
     {
-      "epoch": 0.02,
       "learning_rate": 1.9200000000000003e-06,
-      "loss": 1.3638,
       "step": 100
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2.42e-06,
-      "loss": 1.1844,
       "step": 125
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2.92e-06,
-      "loss": 1.009,
       "step": 150
     },
     {
-      "epoch": 1.0,
       "learning_rate": 3.4200000000000007e-06,
-      "loss": 0.8762,
       "step": 175
     },
     {
-      "epoch": 1.01,
       "learning_rate": 3.920000000000001e-06,
-      "loss": 0.8188,
       "step": 200
     },
     {
-      "epoch": 1.01,
       "learning_rate": 4.42e-06,
-      "loss": 0.6994,
       "step": 225
     },
     {
-      "epoch": 1.02,
       "learning_rate": 4.92e-06,
-      "loss": 0.3518,
       "step": 250
     },
     {
-      "epoch": 1.02,
       "learning_rate": 5.420000000000001e-06,
-      "loss": 0.2302,
       "step": 275
     },
     {
-      "epoch": 1.03,
       "learning_rate": 5.92e-06,
-      "loss": 0.2269,
       "step": 300
     },
     {
-      "epoch": 1.03,
       "learning_rate": 6.42e-06,
-      "loss": 0.1694,
       "step": 325
     },
     {
-      "epoch": 2.0,
       "learning_rate": 6.92e-06,
-      "loss": 0.1352,
       "step": 350
     },
     {
-      "epoch": 2.01,
       "learning_rate": 7.420000000000001e-06,
-      "loss": 0.1625,
       "step": 375
     },
     {
-      "epoch": 2.01,
       "learning_rate": 7.92e-06,
-      "loss": 0.1407,
       "step": 400
     },
     {
-      "epoch": 2.02,
       "learning_rate": 8.42e-06,
-      "loss": 0.1125,
       "step": 425
     },
     {
-      "epoch": 2.02,
       "learning_rate": 8.920000000000001e-06,
-      "loss": 0.1035,
       "step": 450
     },
     {
-      "epoch": 2.03,
       "learning_rate": 9.42e-06,
-      "loss": 0.1027,
       "step": 475
     },
     {
-      "epoch": 2.03,
       "learning_rate": 9.920000000000002e-06,
-      "loss": 0.0734,
       "step": 500
     },
     {
-      "epoch": 3.0,
       "learning_rate": 9.953333333333333e-06,
-      "loss": 0.0636,
       "step": 525
     },
     {
-      "epoch": 3.01,
       "learning_rate": 9.89777777777778e-06,
-      "loss": 0.0785,
       "step": 550
     },
     {
-      "epoch": 3.01,
       "learning_rate": 9.842222222222223e-06,
-      "loss": 0.0641,
       "step": 575
     },
     {
-      "epoch": 3.02,
       "learning_rate": 9.786666666666667e-06,
-      "loss": 0.053,
       "step": 600
     },
     {
-      "epoch": 3.02,
       "learning_rate": 9.731111111111113e-06,
-      "loss": 0.0498,
       "step": 625
     },
     {
-      "epoch": 3.03,
       "learning_rate": 9.675555555555555e-06,
-      "loss": 0.0464,
       "step": 650
     },
     {
-      "epoch": 3.03,
       "learning_rate": 9.620000000000001e-06,
-      "loss": 0.0349,
       "step": 675
     },
     {
-      "epoch": 4.0,
       "learning_rate": 9.564444444444445e-06,
-      "loss": 0.0306,
       "step": 700
     },
     {
-      "epoch": 4.01,
       "learning_rate": 9.508888888888889e-06,
-      "loss": 0.037,
       "step": 725
     },
     {
-      "epoch": 4.01,
       "learning_rate": 9.453333333333335e-06,
-      "loss": 0.0337,
       "step": 750
     },
     {
-      "epoch": 4.02,
       "learning_rate": 9.397777777777779e-06,
-      "loss": 0.0263,
       "step": 775
     },
     {
-      "epoch": 4.02,
       "learning_rate": 9.342222222222223e-06,
-      "loss": 0.0279,
       "step": 800
     },
     {
-      "epoch": 4.03,
       "learning_rate": 9.286666666666667e-06,
-      "loss": 0.0247,
       "step": 825
     },
     {
-      "epoch": 4.03,
       "learning_rate": 9.231111111111111e-06,
-      "loss": 0.0171,
       "step": 850
     },
     {
-      "epoch": 5.0,
       "learning_rate": 9.175555555555557e-06,
-      "loss": 0.017,
       "step": 875
     },
     {
-      "epoch": 5.01,
       "learning_rate": 9.12e-06,
-      "loss": 0.0213,
       "step": 900
     },
     {
-      "epoch": 5.01,
       "learning_rate": 9.064444444444447e-06,
-      "loss": 0.0173,
       "step": 925
     },
     {
-      "epoch": 5.02,
       "learning_rate": 9.008888888888889e-06,
-      "loss": 0.0156,
       "step": 950
     },
     {
-      "epoch": 5.02,
       "learning_rate": 8.953333333333335e-06,
-      "loss": 0.0162,
       "step": 975
     },
     {
-      "epoch": 5.03,
       "learning_rate": 8.897777777777779e-06,
-      "loss": 0.0137,
       "step": 1000
     },
     {
-      "epoch": 5.03,
-      "eval_loss": 0.2068425565958023,
-      "eval_runtime": 1070.693,
-      "eval_samples_per_second": 3.604,
-      "eval_steps_per_second": 0.451,
-      "eval_wer": 15.703064185124902,
       "step": 1000
     }
   ],
   "max_steps": 5000,
-  "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.84290636644352e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 7.904606892647371,
   "best_model_checkpoint": "./checkpoint-1000",
+  "epoch": 2.00802407221665,
   "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.05,
       "learning_rate": 4.2000000000000006e-07,
+      "loss": 2.983,
       "step": 25
     },
     {
+      "epoch": 0.1,
       "learning_rate": 9.200000000000001e-07,
+      "loss": 2.4843,
       "step": 50
     },
     {
+      "epoch": 0.15,
       "learning_rate": 1.42e-06,
+      "loss": 1.6336,
       "step": 75
     },
     {
+      "epoch": 0.2,
       "learning_rate": 1.9200000000000003e-06,
+      "loss": 1.1537,
       "step": 100
     },
     {
+      "epoch": 0.25,
       "learning_rate": 2.42e-06,
+      "loss": 0.8284,
       "step": 125
     },
     {
+      "epoch": 0.3,
       "learning_rate": 2.92e-06,
+      "loss": 0.2948,
       "step": 150
     },
     {
+      "epoch": 0.35,
       "learning_rate": 3.4200000000000007e-06,
+      "loss": 0.1898,
       "step": 175
     },
     {
+      "epoch": 0.4,
       "learning_rate": 3.920000000000001e-06,
+      "loss": 0.1784,
       "step": 200
     },
     {
+      "epoch": 0.45,
       "learning_rate": 4.42e-06,
+      "loss": 0.1658,
       "step": 225
     },
     {
+      "epoch": 0.5,
       "learning_rate": 4.92e-06,
+      "loss": 0.1603,
       "step": 250
     },
     {
+      "epoch": 0.55,
       "learning_rate": 5.420000000000001e-06,
+      "loss": 0.1459,
       "step": 275
     },
     {
+      "epoch": 0.6,
       "learning_rate": 5.92e-06,
+      "loss": 0.1448,
       "step": 300
     },
     {
+      "epoch": 0.65,
       "learning_rate": 6.42e-06,
+      "loss": 0.1413,
       "step": 325
     },
     {
+      "epoch": 0.7,
       "learning_rate": 6.92e-06,
+      "loss": 0.1349,
       "step": 350
     },
     {
+      "epoch": 0.75,
       "learning_rate": 7.420000000000001e-06,
+      "loss": 0.1372,
       "step": 375
     },
     {
+      "epoch": 0.8,
       "learning_rate": 7.92e-06,
+      "loss": 0.1304,
       "step": 400
     },
     {
+      "epoch": 0.85,
       "learning_rate": 8.42e-06,
+      "loss": 0.128,
       "step": 425
     },
     {
+      "epoch": 0.9,
       "learning_rate": 8.920000000000001e-06,
+      "loss": 0.1228,
       "step": 450
     },
     {
+      "epoch": 0.95,
       "learning_rate": 9.42e-06,
+      "loss": 0.1198,
       "step": 475
     },
     {
+      "epoch": 1.0,
       "learning_rate": 9.920000000000002e-06,
+      "loss": 0.1176,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.10957513749599457,
+      "eval_runtime": 2168.1929,
+      "eval_samples_per_second": 1.78,
+      "eval_steps_per_second": 0.056,
+      "eval_wer": 10.749416177199066,
       "step": 500
     },
     {
+      "epoch": 1.05,
       "learning_rate": 9.953333333333333e-06,
+      "loss": 0.0829,
       "step": 525
     },
     {
+      "epoch": 1.1,
       "learning_rate": 9.89777777777778e-06,
+      "loss": 0.0721,
       "step": 550
     },
     {
+      "epoch": 1.15,
       "learning_rate": 9.842222222222223e-06,
+      "loss": 0.0747,
       "step": 575
     },
     {
+      "epoch": 1.2,
       "learning_rate": 9.786666666666667e-06,
+      "loss": 0.0781,
       "step": 600
     },
     {
+      "epoch": 1.25,
       "learning_rate": 9.731111111111113e-06,
+      "loss": 0.0769,
       "step": 625
     },
     {
+      "epoch": 1.3,
       "learning_rate": 9.675555555555555e-06,
+      "loss": 0.0755,
       "step": 650
     },
     {
+      "epoch": 1.36,
       "learning_rate": 9.620000000000001e-06,
+      "loss": 0.0805,
       "step": 675
     },
     {
+      "epoch": 1.41,
       "learning_rate": 9.564444444444445e-06,
+      "loss": 0.0733,
       "step": 700
     },
     {
+      "epoch": 1.46,
       "learning_rate": 9.508888888888889e-06,
+      "loss": 0.0696,
       "step": 725
     },
     {
+      "epoch": 1.51,
       "learning_rate": 9.453333333333335e-06,
+      "loss": 0.0682,
       "step": 750
     },
     {
+      "epoch": 1.56,
       "learning_rate": 9.397777777777779e-06,
+      "loss": 0.0727,
       "step": 775
     },
     {
+      "epoch": 1.61,
       "learning_rate": 9.342222222222223e-06,
+      "loss": 0.0724,
       "step": 800
     },
     {
+      "epoch": 1.66,
       "learning_rate": 9.286666666666667e-06,
+      "loss": 0.0688,
       "step": 825
     },
     {
+      "epoch": 1.71,
       "learning_rate": 9.231111111111111e-06,
+      "loss": 0.0672,
       "step": 850
     },
     {
+      "epoch": 1.76,
       "learning_rate": 9.175555555555557e-06,
+      "loss": 0.0705,
       "step": 875
     },
     {
+      "epoch": 1.81,
       "learning_rate": 9.12e-06,
+      "loss": 0.0714,
       "step": 900
     },
     {
+      "epoch": 1.86,
       "learning_rate": 9.064444444444447e-06,
+      "loss": 0.0635,
       "step": 925
     },
     {
+      "epoch": 1.91,
       "learning_rate": 9.008888888888889e-06,
+      "loss": 0.0639,
       "step": 950
     },
     {
+      "epoch": 1.96,
       "learning_rate": 8.953333333333335e-06,
+      "loss": 0.0728,
       "step": 975
     },
     {
+      "epoch": 2.01,
       "learning_rate": 8.897777777777779e-06,
+      "loss": 0.0605,
       "step": 1000
     },
     {
+      "epoch": 2.01,
+      "eval_loss": 0.08087032288312912,
+      "eval_runtime": 2054.0453,
+      "eval_samples_per_second": 1.879,
+      "eval_steps_per_second": 0.059,
+      "eval_wer": 7.904606892647371,
       "step": 1000
     }
   ],
   "max_steps": 5000,
+  "num_train_epochs": 11,
+  "total_flos": 6.532075529109504e+19,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:742d6336a47261393eaf2aa9094d49bc3919ce81a5a476e274ca09727f84d700
 size 3515

 version https://git-lfs.github.com/spec/v1
+oid sha256:e743affccad386edf49daf1d2a83ab221a7a5d57d4c0eb2be98eb95698bbbc49
 size 3515

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b834663a22bdd000f5d4ea4c7d1ea42086b90f03e3eb67ab3e620a417d35aab
 size 3055754841

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ab09aea52de50a7a60e8ffee379732eaeae6a128802ab70f0a79b4df77d8852
 size 3055754841