fanaf91318 commited on
Commit
d4e67c9
1 Parent(s): 3b4b27c

Upload trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. trainer_state.json +2905 -0
trainer_state.json ADDED
@@ -0,0 +1,2905 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 43.10069742838263,
3
+ "best_model_checkpoint": "./whisper-distil-v3/checkpoint-8000",
4
+ "epoch": 0.43838018521562827,
5
+ "eval_steps": 1000,
6
+ "global_step": 8000,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.0010959504630390707,
13
+ "grad_norm": 5.807405471801758,
14
+ "learning_rate": 3.6e-06,
15
+ "loss": 8.6037,
16
+ "step": 20
17
+ },
18
+ {
19
+ "epoch": 0.0021919009260781414,
20
+ "grad_norm": 5.726860523223877,
21
+ "learning_rate": 7.6e-06,
22
+ "loss": 8.4874,
23
+ "step": 40
24
+ },
25
+ {
26
+ "epoch": 0.003287851389117212,
27
+ "grad_norm": 7.615314960479736,
28
+ "learning_rate": 1.16e-05,
29
+ "loss": 8.0934,
30
+ "step": 60
31
+ },
32
+ {
33
+ "epoch": 0.004383801852156283,
34
+ "grad_norm": 7.089465618133545,
35
+ "learning_rate": 1.56e-05,
36
+ "loss": 7.4227,
37
+ "step": 80
38
+ },
39
+ {
40
+ "epoch": 0.005479752315195353,
41
+ "grad_norm": 5.158086776733398,
42
+ "learning_rate": 1.9600000000000002e-05,
43
+ "loss": 6.3418,
44
+ "step": 100
45
+ },
46
+ {
47
+ "epoch": 0.006575702778234424,
48
+ "grad_norm": 3.288583278656006,
49
+ "learning_rate": 2.3400000000000003e-05,
50
+ "loss": 5.2747,
51
+ "step": 120
52
+ },
53
+ {
54
+ "epoch": 0.007671653241273495,
55
+ "grad_norm": 3.1715681552886963,
56
+ "learning_rate": 2.7400000000000002e-05,
57
+ "loss": 4.3075,
58
+ "step": 140
59
+ },
60
+ {
61
+ "epoch": 0.008767603704312565,
62
+ "grad_norm": 3.033198833465576,
63
+ "learning_rate": 3.1400000000000004e-05,
64
+ "loss": 3.631,
65
+ "step": 160
66
+ },
67
+ {
68
+ "epoch": 0.009863554167351636,
69
+ "grad_norm": 3.027251720428467,
70
+ "learning_rate": 3.54e-05,
71
+ "loss": 3.2186,
72
+ "step": 180
73
+ },
74
+ {
75
+ "epoch": 0.010959504630390707,
76
+ "grad_norm": 2.9063901901245117,
77
+ "learning_rate": 3.94e-05,
78
+ "loss": 2.9226,
79
+ "step": 200
80
+ },
81
+ {
82
+ "epoch": 0.012055455093429777,
83
+ "grad_norm": 3.1165690422058105,
84
+ "learning_rate": 4.3400000000000005e-05,
85
+ "loss": 2.8402,
86
+ "step": 220
87
+ },
88
+ {
89
+ "epoch": 0.013151405556468848,
90
+ "grad_norm": 2.7977383136749268,
91
+ "learning_rate": 4.74e-05,
92
+ "loss": 2.613,
93
+ "step": 240
94
+ },
95
+ {
96
+ "epoch": 0.014247356019507919,
97
+ "grad_norm": 3.7818286418914795,
98
+ "learning_rate": 5.14e-05,
99
+ "loss": 2.377,
100
+ "step": 260
101
+ },
102
+ {
103
+ "epoch": 0.01534330648254699,
104
+ "grad_norm": 3.2088804244995117,
105
+ "learning_rate": 5.5400000000000005e-05,
106
+ "loss": 2.3204,
107
+ "step": 280
108
+ },
109
+ {
110
+ "epoch": 0.01643925694558606,
111
+ "grad_norm": 3.2518157958984375,
112
+ "learning_rate": 5.94e-05,
113
+ "loss": 2.1812,
114
+ "step": 300
115
+ },
116
+ {
117
+ "epoch": 0.01753520740862513,
118
+ "grad_norm": 3.725226640701294,
119
+ "learning_rate": 6.340000000000001e-05,
120
+ "loss": 2.158,
121
+ "step": 320
122
+ },
123
+ {
124
+ "epoch": 0.0186311578716642,
125
+ "grad_norm": 3.5929486751556396,
126
+ "learning_rate": 6.740000000000001e-05,
127
+ "loss": 2.1241,
128
+ "step": 340
129
+ },
130
+ {
131
+ "epoch": 0.019727108334703272,
132
+ "grad_norm": 4.1317572593688965,
133
+ "learning_rate": 7.14e-05,
134
+ "loss": 2.2284,
135
+ "step": 360
136
+ },
137
+ {
138
+ "epoch": 0.020823058797742343,
139
+ "grad_norm": 3.4276161193847656,
140
+ "learning_rate": 7.54e-05,
141
+ "loss": 1.9655,
142
+ "step": 380
143
+ },
144
+ {
145
+ "epoch": 0.021919009260781414,
146
+ "grad_norm": 3.9775540828704834,
147
+ "learning_rate": 7.94e-05,
148
+ "loss": 1.9407,
149
+ "step": 400
150
+ },
151
+ {
152
+ "epoch": 0.023014959723820484,
153
+ "grad_norm": 3.67511248588562,
154
+ "learning_rate": 8.34e-05,
155
+ "loss": 1.9312,
156
+ "step": 420
157
+ },
158
+ {
159
+ "epoch": 0.024110910186859555,
160
+ "grad_norm": 4.781565189361572,
161
+ "learning_rate": 8.740000000000001e-05,
162
+ "loss": 1.9218,
163
+ "step": 440
164
+ },
165
+ {
166
+ "epoch": 0.025206860649898626,
167
+ "grad_norm": 5.2797698974609375,
168
+ "learning_rate": 9.140000000000001e-05,
169
+ "loss": 1.8729,
170
+ "step": 460
171
+ },
172
+ {
173
+ "epoch": 0.026302811112937696,
174
+ "grad_norm": 6.1737284660339355,
175
+ "learning_rate": 9.54e-05,
176
+ "loss": 1.6848,
177
+ "step": 480
178
+ },
179
+ {
180
+ "epoch": 0.027398761575976767,
181
+ "grad_norm": 4.926702976226807,
182
+ "learning_rate": 9.94e-05,
183
+ "loss": 1.8866,
184
+ "step": 500
185
+ },
186
+ {
187
+ "epoch": 0.028494712039015838,
188
+ "grad_norm": 4.043098449707031,
189
+ "learning_rate": 0.0001,
190
+ "loss": 1.749,
191
+ "step": 520
192
+ },
193
+ {
194
+ "epoch": 0.02959066250205491,
195
+ "grad_norm": 4.022521495819092,
196
+ "learning_rate": 0.0001,
197
+ "loss": 1.7654,
198
+ "step": 540
199
+ },
200
+ {
201
+ "epoch": 0.03068661296509398,
202
+ "grad_norm": 3.1964547634124756,
203
+ "learning_rate": 0.0001,
204
+ "loss": 1.7496,
205
+ "step": 560
206
+ },
207
+ {
208
+ "epoch": 0.03178256342813305,
209
+ "grad_norm": 3.5182583332061768,
210
+ "learning_rate": 0.0001,
211
+ "loss": 1.7312,
212
+ "step": 580
213
+ },
214
+ {
215
+ "epoch": 0.03287851389117212,
216
+ "grad_norm": 3.529665231704712,
217
+ "learning_rate": 0.0001,
218
+ "loss": 1.6307,
219
+ "step": 600
220
+ },
221
+ {
222
+ "epoch": 0.03397446435421119,
223
+ "grad_norm": 3.329401969909668,
224
+ "learning_rate": 0.0001,
225
+ "loss": 1.7613,
226
+ "step": 620
227
+ },
228
+ {
229
+ "epoch": 0.03507041481725026,
230
+ "grad_norm": 3.4481399059295654,
231
+ "learning_rate": 0.0001,
232
+ "loss": 1.6204,
233
+ "step": 640
234
+ },
235
+ {
236
+ "epoch": 0.03616636528028933,
237
+ "grad_norm": 3.3551902770996094,
238
+ "learning_rate": 0.0001,
239
+ "loss": 1.5846,
240
+ "step": 660
241
+ },
242
+ {
243
+ "epoch": 0.0372623157433284,
244
+ "grad_norm": 3.591031074523926,
245
+ "learning_rate": 0.0001,
246
+ "loss": 1.6077,
247
+ "step": 680
248
+ },
249
+ {
250
+ "epoch": 0.038358266206367474,
251
+ "grad_norm": 3.8630764484405518,
252
+ "learning_rate": 0.0001,
253
+ "loss": 1.5275,
254
+ "step": 700
255
+ },
256
+ {
257
+ "epoch": 0.039454216669406544,
258
+ "grad_norm": 3.77461838722229,
259
+ "learning_rate": 0.0001,
260
+ "loss": 1.5386,
261
+ "step": 720
262
+ },
263
+ {
264
+ "epoch": 0.040550167132445615,
265
+ "grad_norm": 2.9158153533935547,
266
+ "learning_rate": 0.0001,
267
+ "loss": 1.5536,
268
+ "step": 740
269
+ },
270
+ {
271
+ "epoch": 0.041646117595484686,
272
+ "grad_norm": 3.761077642440796,
273
+ "learning_rate": 0.0001,
274
+ "loss": 1.5607,
275
+ "step": 760
276
+ },
277
+ {
278
+ "epoch": 0.042742068058523756,
279
+ "grad_norm": 3.5758230686187744,
280
+ "learning_rate": 0.0001,
281
+ "loss": 1.5145,
282
+ "step": 780
283
+ },
284
+ {
285
+ "epoch": 0.04383801852156283,
286
+ "grad_norm": 3.01175856590271,
287
+ "learning_rate": 0.0001,
288
+ "loss": 1.5639,
289
+ "step": 800
290
+ },
291
+ {
292
+ "epoch": 0.0449339689846019,
293
+ "grad_norm": 3.8395230770111084,
294
+ "learning_rate": 0.0001,
295
+ "loss": 1.6478,
296
+ "step": 820
297
+ },
298
+ {
299
+ "epoch": 0.04602991944764097,
300
+ "grad_norm": 2.9240541458129883,
301
+ "learning_rate": 0.0001,
302
+ "loss": 1.5303,
303
+ "step": 840
304
+ },
305
+ {
306
+ "epoch": 0.04712586991068004,
307
+ "grad_norm": 3.603835344314575,
308
+ "learning_rate": 0.0001,
309
+ "loss": 1.4436,
310
+ "step": 860
311
+ },
312
+ {
313
+ "epoch": 0.04822182037371911,
314
+ "grad_norm": 3.1701183319091797,
315
+ "learning_rate": 0.0001,
316
+ "loss": 1.5622,
317
+ "step": 880
318
+ },
319
+ {
320
+ "epoch": 0.04931777083675818,
321
+ "grad_norm": 4.054835796356201,
322
+ "learning_rate": 0.0001,
323
+ "loss": 1.4354,
324
+ "step": 900
325
+ },
326
+ {
327
+ "epoch": 0.05041372129979725,
328
+ "grad_norm": 2.9651615619659424,
329
+ "learning_rate": 0.0001,
330
+ "loss": 1.4676,
331
+ "step": 920
332
+ },
333
+ {
334
+ "epoch": 0.05150967176283632,
335
+ "grad_norm": 3.2480218410491943,
336
+ "learning_rate": 0.0001,
337
+ "loss": 1.3769,
338
+ "step": 940
339
+ },
340
+ {
341
+ "epoch": 0.05260562222587539,
342
+ "grad_norm": 3.494356155395508,
343
+ "learning_rate": 0.0001,
344
+ "loss": 1.4928,
345
+ "step": 960
346
+ },
347
+ {
348
+ "epoch": 0.05370157268891446,
349
+ "grad_norm": 3.394205331802368,
350
+ "learning_rate": 0.0001,
351
+ "loss": 1.4045,
352
+ "step": 980
353
+ },
354
+ {
355
+ "epoch": 0.054797523151953534,
356
+ "grad_norm": 3.333587646484375,
357
+ "learning_rate": 0.0001,
358
+ "loss": 1.4953,
359
+ "step": 1000
360
+ },
361
+ {
362
+ "epoch": 0.054797523151953534,
363
+ "eval_loss": 1.4313914775848389,
364
+ "eval_runtime": 30911.9498,
365
+ "eval_samples_per_second": 2.099,
366
+ "eval_steps_per_second": 0.066,
367
+ "eval_wer": 70.88587442180551,
368
+ "step": 1000
369
+ },
370
+ {
371
+ "epoch": 0.055893473614992605,
372
+ "grad_norm": 3.2317609786987305,
373
+ "learning_rate": 0.0001,
374
+ "loss": 1.4376,
375
+ "step": 1020
376
+ },
377
+ {
378
+ "epoch": 0.056989424078031675,
379
+ "grad_norm": 2.9077706336975098,
380
+ "learning_rate": 0.0001,
381
+ "loss": 1.4398,
382
+ "step": 1040
383
+ },
384
+ {
385
+ "epoch": 0.058085374541070746,
386
+ "grad_norm": 3.0054707527160645,
387
+ "learning_rate": 0.0001,
388
+ "loss": 1.4326,
389
+ "step": 1060
390
+ },
391
+ {
392
+ "epoch": 0.05918132500410982,
393
+ "grad_norm": 3.7243480682373047,
394
+ "learning_rate": 0.0001,
395
+ "loss": 1.4915,
396
+ "step": 1080
397
+ },
398
+ {
399
+ "epoch": 0.06027727546714889,
400
+ "grad_norm": 2.9608402252197266,
401
+ "learning_rate": 0.0001,
402
+ "loss": 1.4595,
403
+ "step": 1100
404
+ },
405
+ {
406
+ "epoch": 0.06137322593018796,
407
+ "grad_norm": 2.652829885482788,
408
+ "learning_rate": 0.0001,
409
+ "loss": 1.4378,
410
+ "step": 1120
411
+ },
412
+ {
413
+ "epoch": 0.06246917639322703,
414
+ "grad_norm": 2.9017295837402344,
415
+ "learning_rate": 0.0001,
416
+ "loss": 1.4257,
417
+ "step": 1140
418
+ },
419
+ {
420
+ "epoch": 0.0635651268562661,
421
+ "grad_norm": 3.0610859394073486,
422
+ "learning_rate": 0.0001,
423
+ "loss": 1.348,
424
+ "step": 1160
425
+ },
426
+ {
427
+ "epoch": 0.06466107731930516,
428
+ "grad_norm": 2.701765775680542,
429
+ "learning_rate": 0.0001,
430
+ "loss": 1.3853,
431
+ "step": 1180
432
+ },
433
+ {
434
+ "epoch": 0.06575702778234424,
435
+ "grad_norm": 3.83376145362854,
436
+ "learning_rate": 0.0001,
437
+ "loss": 1.4708,
438
+ "step": 1200
439
+ },
440
+ {
441
+ "epoch": 0.0668529782453833,
442
+ "grad_norm": 3.178449869155884,
443
+ "learning_rate": 0.0001,
444
+ "loss": 1.362,
445
+ "step": 1220
446
+ },
447
+ {
448
+ "epoch": 0.06794892870842238,
449
+ "grad_norm": 3.796205997467041,
450
+ "learning_rate": 0.0001,
451
+ "loss": 1.4331,
452
+ "step": 1240
453
+ },
454
+ {
455
+ "epoch": 0.06904487917146145,
456
+ "grad_norm": 2.8163928985595703,
457
+ "learning_rate": 0.0001,
458
+ "loss": 1.2835,
459
+ "step": 1260
460
+ },
461
+ {
462
+ "epoch": 0.07014082963450052,
463
+ "grad_norm": 2.698793888092041,
464
+ "learning_rate": 0.0001,
465
+ "loss": 1.3444,
466
+ "step": 1280
467
+ },
468
+ {
469
+ "epoch": 0.07123678009753959,
470
+ "grad_norm": 2.584484815597534,
471
+ "learning_rate": 0.0001,
472
+ "loss": 1.2145,
473
+ "step": 1300
474
+ },
475
+ {
476
+ "epoch": 0.07233273056057866,
477
+ "grad_norm": 2.696967363357544,
478
+ "learning_rate": 0.0001,
479
+ "loss": 1.2855,
480
+ "step": 1320
481
+ },
482
+ {
483
+ "epoch": 0.07342868102361773,
484
+ "grad_norm": 3.382924795150757,
485
+ "learning_rate": 0.0001,
486
+ "loss": 1.2164,
487
+ "step": 1340
488
+ },
489
+ {
490
+ "epoch": 0.0745246314866568,
491
+ "grad_norm": 2.8127260208129883,
492
+ "learning_rate": 0.0001,
493
+ "loss": 1.2873,
494
+ "step": 1360
495
+ },
496
+ {
497
+ "epoch": 0.07562058194969587,
498
+ "grad_norm": 2.631011724472046,
499
+ "learning_rate": 0.0001,
500
+ "loss": 1.3759,
501
+ "step": 1380
502
+ },
503
+ {
504
+ "epoch": 0.07671653241273495,
505
+ "grad_norm": 2.913276433944702,
506
+ "learning_rate": 0.0001,
507
+ "loss": 1.2688,
508
+ "step": 1400
509
+ },
510
+ {
511
+ "epoch": 0.07781248287577401,
512
+ "grad_norm": 2.811455488204956,
513
+ "learning_rate": 0.0001,
514
+ "loss": 1.2179,
515
+ "step": 1420
516
+ },
517
+ {
518
+ "epoch": 0.07890843333881309,
519
+ "grad_norm": 2.8242247104644775,
520
+ "learning_rate": 0.0001,
521
+ "loss": 1.142,
522
+ "step": 1440
523
+ },
524
+ {
525
+ "epoch": 0.08000438380185215,
526
+ "grad_norm": 3.1733341217041016,
527
+ "learning_rate": 0.0001,
528
+ "loss": 1.2934,
529
+ "step": 1460
530
+ },
531
+ {
532
+ "epoch": 0.08110033426489123,
533
+ "grad_norm": 2.491945743560791,
534
+ "learning_rate": 0.0001,
535
+ "loss": 1.3274,
536
+ "step": 1480
537
+ },
538
+ {
539
+ "epoch": 0.0821962847279303,
540
+ "grad_norm": 2.717165470123291,
541
+ "learning_rate": 0.0001,
542
+ "loss": 1.2484,
543
+ "step": 1500
544
+ },
545
+ {
546
+ "epoch": 0.08329223519096937,
547
+ "grad_norm": 2.3187918663024902,
548
+ "learning_rate": 0.0001,
549
+ "loss": 1.2038,
550
+ "step": 1520
551
+ },
552
+ {
553
+ "epoch": 0.08438818565400844,
554
+ "grad_norm": 2.9296529293060303,
555
+ "learning_rate": 0.0001,
556
+ "loss": 1.1962,
557
+ "step": 1540
558
+ },
559
+ {
560
+ "epoch": 0.08548413611704751,
561
+ "grad_norm": 2.5763330459594727,
562
+ "learning_rate": 0.0001,
563
+ "loss": 1.2122,
564
+ "step": 1560
565
+ },
566
+ {
567
+ "epoch": 0.08658008658008658,
568
+ "grad_norm": 3.4159390926361084,
569
+ "learning_rate": 0.0001,
570
+ "loss": 1.2302,
571
+ "step": 1580
572
+ },
573
+ {
574
+ "epoch": 0.08767603704312565,
575
+ "grad_norm": 2.893261432647705,
576
+ "learning_rate": 0.0001,
577
+ "loss": 1.2106,
578
+ "step": 1600
579
+ },
580
+ {
581
+ "epoch": 0.08877198750616472,
582
+ "grad_norm": 2.1891727447509766,
583
+ "learning_rate": 0.0001,
584
+ "loss": 1.2282,
585
+ "step": 1620
586
+ },
587
+ {
588
+ "epoch": 0.0898679379692038,
589
+ "grad_norm": 2.4100029468536377,
590
+ "learning_rate": 0.0001,
591
+ "loss": 1.2039,
592
+ "step": 1640
593
+ },
594
+ {
595
+ "epoch": 0.09096388843224286,
596
+ "grad_norm": 2.5420494079589844,
597
+ "learning_rate": 0.0001,
598
+ "loss": 1.2201,
599
+ "step": 1660
600
+ },
601
+ {
602
+ "epoch": 0.09205983889528194,
603
+ "grad_norm": 3.1885313987731934,
604
+ "learning_rate": 0.0001,
605
+ "loss": 1.2446,
606
+ "step": 1680
607
+ },
608
+ {
609
+ "epoch": 0.093155789358321,
610
+ "grad_norm": 3.120586633682251,
611
+ "learning_rate": 0.0001,
612
+ "loss": 1.2308,
613
+ "step": 1700
614
+ },
615
+ {
616
+ "epoch": 0.09425173982136008,
617
+ "grad_norm": 2.4548628330230713,
618
+ "learning_rate": 0.0001,
619
+ "loss": 1.1777,
620
+ "step": 1720
621
+ },
622
+ {
623
+ "epoch": 0.09534769028439914,
624
+ "grad_norm": 3.101803779602051,
625
+ "learning_rate": 0.0001,
626
+ "loss": 1.2123,
627
+ "step": 1740
628
+ },
629
+ {
630
+ "epoch": 0.09644364074743822,
631
+ "grad_norm": 2.536121368408203,
632
+ "learning_rate": 0.0001,
633
+ "loss": 1.1914,
634
+ "step": 1760
635
+ },
636
+ {
637
+ "epoch": 0.09753959121047728,
638
+ "grad_norm": 2.3796801567077637,
639
+ "learning_rate": 0.0001,
640
+ "loss": 1.1848,
641
+ "step": 1780
642
+ },
643
+ {
644
+ "epoch": 0.09863554167351636,
645
+ "grad_norm": 2.67964243888855,
646
+ "learning_rate": 0.0001,
647
+ "loss": 1.1973,
648
+ "step": 1800
649
+ },
650
+ {
651
+ "epoch": 0.09973149213655542,
652
+ "grad_norm": 3.160212755203247,
653
+ "learning_rate": 0.0001,
654
+ "loss": 1.2472,
655
+ "step": 1820
656
+ },
657
+ {
658
+ "epoch": 0.1008274425995945,
659
+ "grad_norm": 2.7035927772521973,
660
+ "learning_rate": 0.0001,
661
+ "loss": 1.1844,
662
+ "step": 1840
663
+ },
664
+ {
665
+ "epoch": 0.10192339306263357,
666
+ "grad_norm": 2.7725090980529785,
667
+ "learning_rate": 0.0001,
668
+ "loss": 1.1262,
669
+ "step": 1860
670
+ },
671
+ {
672
+ "epoch": 0.10301934352567264,
673
+ "grad_norm": 2.2705016136169434,
674
+ "learning_rate": 0.0001,
675
+ "loss": 1.182,
676
+ "step": 1880
677
+ },
678
+ {
679
+ "epoch": 0.10411529398871171,
680
+ "grad_norm": 3.0717403888702393,
681
+ "learning_rate": 0.0001,
682
+ "loss": 1.137,
683
+ "step": 1900
684
+ },
685
+ {
686
+ "epoch": 0.10521124445175078,
687
+ "grad_norm": 2.9270904064178467,
688
+ "learning_rate": 0.0001,
689
+ "loss": 1.2556,
690
+ "step": 1920
691
+ },
692
+ {
693
+ "epoch": 0.10630719491478985,
694
+ "grad_norm": 2.4564895629882812,
695
+ "learning_rate": 0.0001,
696
+ "loss": 1.1812,
697
+ "step": 1940
698
+ },
699
+ {
700
+ "epoch": 0.10740314537782893,
701
+ "grad_norm": 2.983851909637451,
702
+ "learning_rate": 0.0001,
703
+ "loss": 1.1445,
704
+ "step": 1960
705
+ },
706
+ {
707
+ "epoch": 0.10849909584086799,
708
+ "grad_norm": 2.772733688354492,
709
+ "learning_rate": 0.0001,
710
+ "loss": 1.1968,
711
+ "step": 1980
712
+ },
713
+ {
714
+ "epoch": 0.10959504630390707,
715
+ "grad_norm": 2.9768126010894775,
716
+ "learning_rate": 0.0001,
717
+ "loss": 1.0942,
718
+ "step": 2000
719
+ },
720
+ {
721
+ "epoch": 0.10959504630390707,
722
+ "eval_loss": 1.1446514129638672,
723
+ "eval_runtime": 30634.8587,
724
+ "eval_samples_per_second": 2.118,
725
+ "eval_steps_per_second": 0.066,
726
+ "eval_wer": 61.28519240053001,
727
+ "step": 2000
728
+ },
729
+ {
730
+ "epoch": 0.11069099676694613,
731
+ "grad_norm": 2.806312322616577,
732
+ "learning_rate": 0.0001,
733
+ "loss": 1.1924,
734
+ "step": 2020
735
+ },
736
+ {
737
+ "epoch": 0.11178694722998521,
738
+ "grad_norm": 2.639443874359131,
739
+ "learning_rate": 0.0001,
740
+ "loss": 1.0572,
741
+ "step": 2040
742
+ },
743
+ {
744
+ "epoch": 0.11288289769302427,
745
+ "grad_norm": 2.2005367279052734,
746
+ "learning_rate": 0.0001,
747
+ "loss": 1.1337,
748
+ "step": 2060
749
+ },
750
+ {
751
+ "epoch": 0.11397884815606335,
752
+ "grad_norm": 2.4102020263671875,
753
+ "learning_rate": 0.0001,
754
+ "loss": 1.1297,
755
+ "step": 2080
756
+ },
757
+ {
758
+ "epoch": 0.11507479861910241,
759
+ "grad_norm": 3.410691976547241,
760
+ "learning_rate": 0.0001,
761
+ "loss": 1.1354,
762
+ "step": 2100
763
+ },
764
+ {
765
+ "epoch": 0.11617074908214149,
766
+ "grad_norm": 2.1337172985076904,
767
+ "learning_rate": 0.0001,
768
+ "loss": 1.1725,
769
+ "step": 2120
770
+ },
771
+ {
772
+ "epoch": 0.11726669954518056,
773
+ "grad_norm": 2.627319097518921,
774
+ "learning_rate": 0.0001,
775
+ "loss": 1.1006,
776
+ "step": 2140
777
+ },
778
+ {
779
+ "epoch": 0.11836265000821963,
780
+ "grad_norm": 2.6450726985931396,
781
+ "learning_rate": 0.0001,
782
+ "loss": 1.0985,
783
+ "step": 2160
784
+ },
785
+ {
786
+ "epoch": 0.1194586004712587,
787
+ "grad_norm": 2.3205084800720215,
788
+ "learning_rate": 0.0001,
789
+ "loss": 1.1634,
790
+ "step": 2180
791
+ },
792
+ {
793
+ "epoch": 0.12055455093429777,
794
+ "grad_norm": 2.51177978515625,
795
+ "learning_rate": 0.0001,
796
+ "loss": 1.1697,
797
+ "step": 2200
798
+ },
799
+ {
800
+ "epoch": 0.12165050139733684,
801
+ "grad_norm": 2.6632323265075684,
802
+ "learning_rate": 0.0001,
803
+ "loss": 1.071,
804
+ "step": 2220
805
+ },
806
+ {
807
+ "epoch": 0.12274645186037592,
808
+ "grad_norm": 2.8322274684906006,
809
+ "learning_rate": 0.0001,
810
+ "loss": 1.0983,
811
+ "step": 2240
812
+ },
813
+ {
814
+ "epoch": 0.12384240232341498,
815
+ "grad_norm": 2.547708749771118,
816
+ "learning_rate": 0.0001,
817
+ "loss": 1.0629,
818
+ "step": 2260
819
+ },
820
+ {
821
+ "epoch": 0.12493835278645406,
822
+ "grad_norm": 2.6638150215148926,
823
+ "learning_rate": 0.0001,
824
+ "loss": 1.1985,
825
+ "step": 2280
826
+ },
827
+ {
828
+ "epoch": 0.12603430324949313,
829
+ "grad_norm": 2.980463743209839,
830
+ "learning_rate": 0.0001,
831
+ "loss": 1.1885,
832
+ "step": 2300
833
+ },
834
+ {
835
+ "epoch": 0.1271302537125322,
836
+ "grad_norm": 1.9924368858337402,
837
+ "learning_rate": 0.0001,
838
+ "loss": 1.0971,
839
+ "step": 2320
840
+ },
841
+ {
842
+ "epoch": 0.12822620417557126,
843
+ "grad_norm": 2.2847180366516113,
844
+ "learning_rate": 0.0001,
845
+ "loss": 1.1149,
846
+ "step": 2340
847
+ },
848
+ {
849
+ "epoch": 0.12932215463861033,
850
+ "grad_norm": 2.4860479831695557,
851
+ "learning_rate": 0.0001,
852
+ "loss": 1.0927,
853
+ "step": 2360
854
+ },
855
+ {
856
+ "epoch": 0.13041810510164942,
857
+ "grad_norm": 2.3988494873046875,
858
+ "learning_rate": 0.0001,
859
+ "loss": 1.1918,
860
+ "step": 2380
861
+ },
862
+ {
863
+ "epoch": 0.13151405556468848,
864
+ "grad_norm": 2.5361902713775635,
865
+ "learning_rate": 0.0001,
866
+ "loss": 1.0603,
867
+ "step": 2400
868
+ },
869
+ {
870
+ "epoch": 0.13261000602772754,
871
+ "grad_norm": 2.4060215950012207,
872
+ "learning_rate": 0.0001,
873
+ "loss": 1.056,
874
+ "step": 2420
875
+ },
876
+ {
877
+ "epoch": 0.1337059564907666,
878
+ "grad_norm": 2.4094231128692627,
879
+ "learning_rate": 0.0001,
880
+ "loss": 1.0787,
881
+ "step": 2440
882
+ },
883
+ {
884
+ "epoch": 0.1348019069538057,
885
+ "grad_norm": 2.5207912921905518,
886
+ "learning_rate": 0.0001,
887
+ "loss": 1.0901,
888
+ "step": 2460
889
+ },
890
+ {
891
+ "epoch": 0.13589785741684476,
892
+ "grad_norm": 2.1340293884277344,
893
+ "learning_rate": 0.0001,
894
+ "loss": 1.1691,
895
+ "step": 2480
896
+ },
897
+ {
898
+ "epoch": 0.13699380787988383,
899
+ "grad_norm": 2.312554359436035,
900
+ "learning_rate": 0.0001,
901
+ "loss": 0.9791,
902
+ "step": 2500
903
+ },
904
+ {
905
+ "epoch": 0.1380897583429229,
906
+ "grad_norm": 2.2881298065185547,
907
+ "learning_rate": 0.0001,
908
+ "loss": 0.9998,
909
+ "step": 2520
910
+ },
911
+ {
912
+ "epoch": 0.13918570880596198,
913
+ "grad_norm": 2.2146573066711426,
914
+ "learning_rate": 0.0001,
915
+ "loss": 1.094,
916
+ "step": 2540
917
+ },
918
+ {
919
+ "epoch": 0.14028165926900105,
920
+ "grad_norm": 2.3992650508880615,
921
+ "learning_rate": 0.0001,
922
+ "loss": 1.0667,
923
+ "step": 2560
924
+ },
925
+ {
926
+ "epoch": 0.1413776097320401,
927
+ "grad_norm": 2.7630209922790527,
928
+ "learning_rate": 0.0001,
929
+ "loss": 1.1541,
930
+ "step": 2580
931
+ },
932
+ {
933
+ "epoch": 0.14247356019507917,
934
+ "grad_norm": 2.9216675758361816,
935
+ "learning_rate": 0.0001,
936
+ "loss": 1.0463,
937
+ "step": 2600
938
+ },
939
+ {
940
+ "epoch": 0.14356951065811827,
941
+ "grad_norm": 2.366373062133789,
942
+ "learning_rate": 0.0001,
943
+ "loss": 1.0557,
944
+ "step": 2620
945
+ },
946
+ {
947
+ "epoch": 0.14466546112115733,
948
+ "grad_norm": 2.7161865234375,
949
+ "learning_rate": 0.0001,
950
+ "loss": 1.1066,
951
+ "step": 2640
952
+ },
953
+ {
954
+ "epoch": 0.1457614115841964,
955
+ "grad_norm": 2.046992778778076,
956
+ "learning_rate": 0.0001,
957
+ "loss": 0.9786,
958
+ "step": 2660
959
+ },
960
+ {
961
+ "epoch": 0.14685736204723546,
962
+ "grad_norm": 2.6320793628692627,
963
+ "learning_rate": 0.0001,
964
+ "loss": 0.9564,
965
+ "step": 2680
966
+ },
967
+ {
968
+ "epoch": 0.14795331251027455,
969
+ "grad_norm": 2.485445737838745,
970
+ "learning_rate": 0.0001,
971
+ "loss": 1.0283,
972
+ "step": 2700
973
+ },
974
+ {
975
+ "epoch": 0.1490492629733136,
976
+ "grad_norm": 2.267420768737793,
977
+ "learning_rate": 0.0001,
978
+ "loss": 1.0092,
979
+ "step": 2720
980
+ },
981
+ {
982
+ "epoch": 0.15014521343635268,
983
+ "grad_norm": 2.618067502975464,
984
+ "learning_rate": 0.0001,
985
+ "loss": 1.0369,
986
+ "step": 2740
987
+ },
988
+ {
989
+ "epoch": 0.15124116389939174,
990
+ "grad_norm": 2.502471685409546,
991
+ "learning_rate": 0.0001,
992
+ "loss": 0.9982,
993
+ "step": 2760
994
+ },
995
+ {
996
+ "epoch": 0.15233711436243083,
997
+ "grad_norm": 2.936964273452759,
998
+ "learning_rate": 0.0001,
999
+ "loss": 1.1122,
1000
+ "step": 2780
1001
+ },
1002
+ {
1003
+ "epoch": 0.1534330648254699,
1004
+ "grad_norm": 2.5342159271240234,
1005
+ "learning_rate": 0.0001,
1006
+ "loss": 1.0409,
1007
+ "step": 2800
1008
+ },
1009
+ {
1010
+ "epoch": 0.15452901528850896,
1011
+ "grad_norm": 2.88598895072937,
1012
+ "learning_rate": 0.0001,
1013
+ "loss": 1.0259,
1014
+ "step": 2820
1015
+ },
1016
+ {
1017
+ "epoch": 0.15562496575154802,
1018
+ "grad_norm": 2.6327946186065674,
1019
+ "learning_rate": 0.0001,
1020
+ "loss": 0.9829,
1021
+ "step": 2840
1022
+ },
1023
+ {
1024
+ "epoch": 0.1567209162145871,
1025
+ "grad_norm": 2.4873671531677246,
1026
+ "learning_rate": 0.0001,
1027
+ "loss": 1.0472,
1028
+ "step": 2860
1029
+ },
1030
+ {
1031
+ "epoch": 0.15781686667762618,
1032
+ "grad_norm": 2.1543166637420654,
1033
+ "learning_rate": 0.0001,
1034
+ "loss": 1.0157,
1035
+ "step": 2880
1036
+ },
1037
+ {
1038
+ "epoch": 0.15891281714066524,
1039
+ "grad_norm": 1.9687381982803345,
1040
+ "learning_rate": 0.0001,
1041
+ "loss": 1.0465,
1042
+ "step": 2900
1043
+ },
1044
+ {
1045
+ "epoch": 0.1600087676037043,
1046
+ "grad_norm": 2.868544816970825,
1047
+ "learning_rate": 0.0001,
1048
+ "loss": 0.9835,
1049
+ "step": 2920
1050
+ },
1051
+ {
1052
+ "epoch": 0.1611047180667434,
1053
+ "grad_norm": 2.3211984634399414,
1054
+ "learning_rate": 0.0001,
1055
+ "loss": 1.1204,
1056
+ "step": 2940
1057
+ },
1058
+ {
1059
+ "epoch": 0.16220066852978246,
1060
+ "grad_norm": 2.631458282470703,
1061
+ "learning_rate": 0.0001,
1062
+ "loss": 1.0175,
1063
+ "step": 2960
1064
+ },
1065
+ {
1066
+ "epoch": 0.16329661899282152,
1067
+ "grad_norm": 2.7994022369384766,
1068
+ "learning_rate": 0.0001,
1069
+ "loss": 1.0828,
1070
+ "step": 2980
1071
+ },
1072
+ {
1073
+ "epoch": 0.1643925694558606,
1074
+ "grad_norm": 2.051626443862915,
1075
+ "learning_rate": 0.0001,
1076
+ "loss": 0.97,
1077
+ "step": 3000
1078
+ },
1079
+ {
1080
+ "epoch": 0.1643925694558606,
1081
+ "eval_loss": 1.0072325468063354,
1082
+ "eval_runtime": 30710.9249,
1083
+ "eval_samples_per_second": 2.113,
1084
+ "eval_steps_per_second": 0.066,
1085
+ "eval_wer": 55.08434535201816,
1086
+ "step": 3000
1087
+ },
1088
+ {
1089
+ "epoch": 0.16548851991889968,
1090
+ "grad_norm": 2.6088364124298096,
1091
+ "learning_rate": 0.0001,
1092
+ "loss": 0.9803,
1093
+ "step": 3020
1094
+ },
1095
+ {
1096
+ "epoch": 0.16658447038193874,
1097
+ "grad_norm": 2.234034299850464,
1098
+ "learning_rate": 0.0001,
1099
+ "loss": 1.0757,
1100
+ "step": 3040
1101
+ },
1102
+ {
1103
+ "epoch": 0.1676804208449778,
1104
+ "grad_norm": 2.3472328186035156,
1105
+ "learning_rate": 0.0001,
1106
+ "loss": 0.9408,
1107
+ "step": 3060
1108
+ },
1109
+ {
1110
+ "epoch": 0.16877637130801687,
1111
+ "grad_norm": 2.5871200561523438,
1112
+ "learning_rate": 0.0001,
1113
+ "loss": 0.9269,
1114
+ "step": 3080
1115
+ },
1116
+ {
1117
+ "epoch": 0.16987232177105596,
1118
+ "grad_norm": 2.0150465965270996,
1119
+ "learning_rate": 0.0001,
1120
+ "loss": 1.0547,
1121
+ "step": 3100
1122
+ },
1123
+ {
1124
+ "epoch": 0.17096827223409503,
1125
+ "grad_norm": 2.5823395252227783,
1126
+ "learning_rate": 0.0001,
1127
+ "loss": 1.0559,
1128
+ "step": 3120
1129
+ },
1130
+ {
1131
+ "epoch": 0.1720642226971341,
1132
+ "grad_norm": 2.8252885341644287,
1133
+ "learning_rate": 0.0001,
1134
+ "loss": 1.1219,
1135
+ "step": 3140
1136
+ },
1137
+ {
1138
+ "epoch": 0.17316017316017315,
1139
+ "grad_norm": 2.1086535453796387,
1140
+ "learning_rate": 0.0001,
1141
+ "loss": 1.0089,
1142
+ "step": 3160
1143
+ },
1144
+ {
1145
+ "epoch": 0.17425612362321224,
1146
+ "grad_norm": 2.2288014888763428,
1147
+ "learning_rate": 0.0001,
1148
+ "loss": 1.136,
1149
+ "step": 3180
1150
+ },
1151
+ {
1152
+ "epoch": 0.1753520740862513,
1153
+ "grad_norm": 2.6622703075408936,
1154
+ "learning_rate": 0.0001,
1155
+ "loss": 1.0395,
1156
+ "step": 3200
1157
+ },
1158
+ {
1159
+ "epoch": 0.17644802454929037,
1160
+ "grad_norm": 1.9478541612625122,
1161
+ "learning_rate": 0.0001,
1162
+ "loss": 1.0658,
1163
+ "step": 3220
1164
+ },
1165
+ {
1166
+ "epoch": 0.17754397501232944,
1167
+ "grad_norm": 2.55828857421875,
1168
+ "learning_rate": 0.0001,
1169
+ "loss": 0.9904,
1170
+ "step": 3240
1171
+ },
1172
+ {
1173
+ "epoch": 0.1786399254753685,
1174
+ "grad_norm": 2.533651828765869,
1175
+ "learning_rate": 0.0001,
1176
+ "loss": 0.9733,
1177
+ "step": 3260
1178
+ },
1179
+ {
1180
+ "epoch": 0.1797358759384076,
1181
+ "grad_norm": 1.8745101690292358,
1182
+ "learning_rate": 0.0001,
1183
+ "loss": 0.9903,
1184
+ "step": 3280
1185
+ },
1186
+ {
1187
+ "epoch": 0.18083182640144665,
1188
+ "grad_norm": 1.8459206819534302,
1189
+ "learning_rate": 0.0001,
1190
+ "loss": 0.9095,
1191
+ "step": 3300
1192
+ },
1193
+ {
1194
+ "epoch": 0.18192777686448572,
1195
+ "grad_norm": 2.6654012203216553,
1196
+ "learning_rate": 0.0001,
1197
+ "loss": 0.9854,
1198
+ "step": 3320
1199
+ },
1200
+ {
1201
+ "epoch": 0.18302372732752478,
1202
+ "grad_norm": 2.6444480419158936,
1203
+ "learning_rate": 0.0001,
1204
+ "loss": 0.8857,
1205
+ "step": 3340
1206
+ },
1207
+ {
1208
+ "epoch": 0.18411967779056387,
1209
+ "grad_norm": 2.190462827682495,
1210
+ "learning_rate": 0.0001,
1211
+ "loss": 0.9375,
1212
+ "step": 3360
1213
+ },
1214
+ {
1215
+ "epoch": 0.18521562825360294,
1216
+ "grad_norm": 2.8208882808685303,
1217
+ "learning_rate": 0.0001,
1218
+ "loss": 0.9646,
1219
+ "step": 3380
1220
+ },
1221
+ {
1222
+ "epoch": 0.186311578716642,
1223
+ "grad_norm": 2.4978795051574707,
1224
+ "learning_rate": 0.0001,
1225
+ "loss": 0.9724,
1226
+ "step": 3400
1227
+ },
1228
+ {
1229
+ "epoch": 0.18740752917968106,
1230
+ "grad_norm": 2.4202938079833984,
1231
+ "learning_rate": 0.0001,
1232
+ "loss": 0.9659,
1233
+ "step": 3420
1234
+ },
1235
+ {
1236
+ "epoch": 0.18850347964272016,
1237
+ "grad_norm": 1.9026118516921997,
1238
+ "learning_rate": 0.0001,
1239
+ "loss": 1.0321,
1240
+ "step": 3440
1241
+ },
1242
+ {
1243
+ "epoch": 0.18959943010575922,
1244
+ "grad_norm": 2.6031651496887207,
1245
+ "learning_rate": 0.0001,
1246
+ "loss": 0.9622,
1247
+ "step": 3460
1248
+ },
1249
+ {
1250
+ "epoch": 0.19069538056879828,
1251
+ "grad_norm": 1.962509274482727,
1252
+ "learning_rate": 0.0001,
1253
+ "loss": 1.0262,
1254
+ "step": 3480
1255
+ },
1256
+ {
1257
+ "epoch": 0.19179133103183735,
1258
+ "grad_norm": 2.794633626937866,
1259
+ "learning_rate": 0.0001,
1260
+ "loss": 1.0626,
1261
+ "step": 3500
1262
+ },
1263
+ {
1264
+ "epoch": 0.19288728149487644,
1265
+ "grad_norm": 2.4276185035705566,
1266
+ "learning_rate": 0.0001,
1267
+ "loss": 0.9961,
1268
+ "step": 3520
1269
+ },
1270
+ {
1271
+ "epoch": 0.1939832319579155,
1272
+ "grad_norm": 2.0747737884521484,
1273
+ "learning_rate": 0.0001,
1274
+ "loss": 0.8945,
1275
+ "step": 3540
1276
+ },
1277
+ {
1278
+ "epoch": 0.19507918242095457,
1279
+ "grad_norm": 1.9151681661605835,
1280
+ "learning_rate": 0.0001,
1281
+ "loss": 1.0664,
1282
+ "step": 3560
1283
+ },
1284
+ {
1285
+ "epoch": 0.19617513288399363,
1286
+ "grad_norm": 2.11547589302063,
1287
+ "learning_rate": 0.0001,
1288
+ "loss": 0.9865,
1289
+ "step": 3580
1290
+ },
1291
+ {
1292
+ "epoch": 0.19727108334703272,
1293
+ "grad_norm": 2.359848737716675,
1294
+ "learning_rate": 0.0001,
1295
+ "loss": 0.95,
1296
+ "step": 3600
1297
+ },
1298
+ {
1299
+ "epoch": 0.19836703381007179,
1300
+ "grad_norm": 1.9854378700256348,
1301
+ "learning_rate": 0.0001,
1302
+ "loss": 0.9992,
1303
+ "step": 3620
1304
+ },
1305
+ {
1306
+ "epoch": 0.19946298427311085,
1307
+ "grad_norm": 2.476423978805542,
1308
+ "learning_rate": 0.0001,
1309
+ "loss": 0.9097,
1310
+ "step": 3640
1311
+ },
1312
+ {
1313
+ "epoch": 0.2005589347361499,
1314
+ "grad_norm": 2.420011281967163,
1315
+ "learning_rate": 0.0001,
1316
+ "loss": 1.0167,
1317
+ "step": 3660
1318
+ },
1319
+ {
1320
+ "epoch": 0.201654885199189,
1321
+ "grad_norm": 2.12312388420105,
1322
+ "learning_rate": 0.0001,
1323
+ "loss": 0.9298,
1324
+ "step": 3680
1325
+ },
1326
+ {
1327
+ "epoch": 0.20275083566222807,
1328
+ "grad_norm": 1.9679986238479614,
1329
+ "learning_rate": 0.0001,
1330
+ "loss": 1.0064,
1331
+ "step": 3700
1332
+ },
1333
+ {
1334
+ "epoch": 0.20384678612526713,
1335
+ "grad_norm": 2.608135461807251,
1336
+ "learning_rate": 0.0001,
1337
+ "loss": 0.9396,
1338
+ "step": 3720
1339
+ },
1340
+ {
1341
+ "epoch": 0.2049427365883062,
1342
+ "grad_norm": 2.542102098464966,
1343
+ "learning_rate": 0.0001,
1344
+ "loss": 1.0868,
1345
+ "step": 3740
1346
+ },
1347
+ {
1348
+ "epoch": 0.2060386870513453,
1349
+ "grad_norm": 2.5252091884613037,
1350
+ "learning_rate": 0.0001,
1351
+ "loss": 1.0417,
1352
+ "step": 3760
1353
+ },
1354
+ {
1355
+ "epoch": 0.20713463751438435,
1356
+ "grad_norm": 1.98774254322052,
1357
+ "learning_rate": 0.0001,
1358
+ "loss": 0.9949,
1359
+ "step": 3780
1360
+ },
1361
+ {
1362
+ "epoch": 0.20823058797742341,
1363
+ "grad_norm": 1.9502965211868286,
1364
+ "learning_rate": 0.0001,
1365
+ "loss": 0.9862,
1366
+ "step": 3800
1367
+ },
1368
+ {
1369
+ "epoch": 0.20932653844046248,
1370
+ "grad_norm": 2.2537944316864014,
1371
+ "learning_rate": 0.0001,
1372
+ "loss": 0.9087,
1373
+ "step": 3820
1374
+ },
1375
+ {
1376
+ "epoch": 0.21042248890350157,
1377
+ "grad_norm": 2.2866523265838623,
1378
+ "learning_rate": 0.0001,
1379
+ "loss": 1.0128,
1380
+ "step": 3840
1381
+ },
1382
+ {
1383
+ "epoch": 0.21151843936654063,
1384
+ "grad_norm": 2.2907001972198486,
1385
+ "learning_rate": 0.0001,
1386
+ "loss": 0.9654,
1387
+ "step": 3860
1388
+ },
1389
+ {
1390
+ "epoch": 0.2126143898295797,
1391
+ "grad_norm": 2.5648560523986816,
1392
+ "learning_rate": 0.0001,
1393
+ "loss": 1.0269,
1394
+ "step": 3880
1395
+ },
1396
+ {
1397
+ "epoch": 0.21371034029261876,
1398
+ "grad_norm": 2.198974847793579,
1399
+ "learning_rate": 0.0001,
1400
+ "loss": 0.9823,
1401
+ "step": 3900
1402
+ },
1403
+ {
1404
+ "epoch": 0.21480629075565785,
1405
+ "grad_norm": 2.1045591831207275,
1406
+ "learning_rate": 0.0001,
1407
+ "loss": 0.9139,
1408
+ "step": 3920
1409
+ },
1410
+ {
1411
+ "epoch": 0.21590224121869692,
1412
+ "grad_norm": 2.1462857723236084,
1413
+ "learning_rate": 0.0001,
1414
+ "loss": 0.9406,
1415
+ "step": 3940
1416
+ },
1417
+ {
1418
+ "epoch": 0.21699819168173598,
1419
+ "grad_norm": 2.3216285705566406,
1420
+ "learning_rate": 0.0001,
1421
+ "loss": 0.8597,
1422
+ "step": 3960
1423
+ },
1424
+ {
1425
+ "epoch": 0.21809414214477504,
1426
+ "grad_norm": 1.867150068283081,
1427
+ "learning_rate": 0.0001,
1428
+ "loss": 0.9776,
1429
+ "step": 3980
1430
+ },
1431
+ {
1432
+ "epoch": 0.21919009260781414,
1433
+ "grad_norm": 2.3432791233062744,
1434
+ "learning_rate": 0.0001,
1435
+ "loss": 0.9546,
1436
+ "step": 4000
1437
+ },
1438
+ {
1439
+ "epoch": 0.21919009260781414,
1440
+ "eval_loss": 0.9323587417602539,
1441
+ "eval_runtime": 30935.2713,
1442
+ "eval_samples_per_second": 2.098,
1443
+ "eval_steps_per_second": 0.066,
1444
+ "eval_wer": 63.836951720973865,
1445
+ "step": 4000
1446
+ },
1447
+ {
1448
+ "epoch": 0.2202860430708532,
1449
+ "grad_norm": 1.9426536560058594,
1450
+ "learning_rate": 0.0001,
1451
+ "loss": 0.9291,
1452
+ "step": 4020
1453
+ },
1454
+ {
1455
+ "epoch": 0.22138199353389226,
1456
+ "grad_norm": 2.693723201751709,
1457
+ "learning_rate": 0.0001,
1458
+ "loss": 0.9072,
1459
+ "step": 4040
1460
+ },
1461
+ {
1462
+ "epoch": 0.22247794399693133,
1463
+ "grad_norm": 2.237900972366333,
1464
+ "learning_rate": 0.0001,
1465
+ "loss": 0.8571,
1466
+ "step": 4060
1467
+ },
1468
+ {
1469
+ "epoch": 0.22357389445997042,
1470
+ "grad_norm": 2.739129066467285,
1471
+ "learning_rate": 0.0001,
1472
+ "loss": 0.9132,
1473
+ "step": 4080
1474
+ },
1475
+ {
1476
+ "epoch": 0.22466984492300948,
1477
+ "grad_norm": 1.886438012123108,
1478
+ "learning_rate": 0.0001,
1479
+ "loss": 0.9646,
1480
+ "step": 4100
1481
+ },
1482
+ {
1483
+ "epoch": 0.22576579538604855,
1484
+ "grad_norm": 2.3505897521972656,
1485
+ "learning_rate": 0.0001,
1486
+ "loss": 1.0479,
1487
+ "step": 4120
1488
+ },
1489
+ {
1490
+ "epoch": 0.2268617458490876,
1491
+ "grad_norm": 2.4302868843078613,
1492
+ "learning_rate": 0.0001,
1493
+ "loss": 0.9956,
1494
+ "step": 4140
1495
+ },
1496
+ {
1497
+ "epoch": 0.2279576963121267,
1498
+ "grad_norm": 2.2747528553009033,
1499
+ "learning_rate": 0.0001,
1500
+ "loss": 0.9621,
1501
+ "step": 4160
1502
+ },
1503
+ {
1504
+ "epoch": 0.22905364677516576,
1505
+ "grad_norm": 2.312248945236206,
1506
+ "learning_rate": 0.0001,
1507
+ "loss": 0.9292,
1508
+ "step": 4180
1509
+ },
1510
+ {
1511
+ "epoch": 0.23014959723820483,
1512
+ "grad_norm": 2.0439066886901855,
1513
+ "learning_rate": 0.0001,
1514
+ "loss": 0.8804,
1515
+ "step": 4200
1516
+ },
1517
+ {
1518
+ "epoch": 0.2312455477012439,
1519
+ "grad_norm": 2.615898609161377,
1520
+ "learning_rate": 0.0001,
1521
+ "loss": 0.9302,
1522
+ "step": 4220
1523
+ },
1524
+ {
1525
+ "epoch": 0.23234149816428298,
1526
+ "grad_norm": 2.306796073913574,
1527
+ "learning_rate": 0.0001,
1528
+ "loss": 1.0401,
1529
+ "step": 4240
1530
+ },
1531
+ {
1532
+ "epoch": 0.23343744862732205,
1533
+ "grad_norm": 2.4527432918548584,
1534
+ "learning_rate": 0.0001,
1535
+ "loss": 0.9195,
1536
+ "step": 4260
1537
+ },
1538
+ {
1539
+ "epoch": 0.2345333990903611,
1540
+ "grad_norm": 1.8589290380477905,
1541
+ "learning_rate": 0.0001,
1542
+ "loss": 0.9284,
1543
+ "step": 4280
1544
+ },
1545
+ {
1546
+ "epoch": 0.23562934955340017,
1547
+ "grad_norm": 1.8492025136947632,
1548
+ "learning_rate": 0.0001,
1549
+ "loss": 0.8898,
1550
+ "step": 4300
1551
+ },
1552
+ {
1553
+ "epoch": 0.23672530001643927,
1554
+ "grad_norm": 2.574871063232422,
1555
+ "learning_rate": 0.0001,
1556
+ "loss": 1.0026,
1557
+ "step": 4320
1558
+ },
1559
+ {
1560
+ "epoch": 0.23782125047947833,
1561
+ "grad_norm": 2.2600936889648438,
1562
+ "learning_rate": 0.0001,
1563
+ "loss": 1.0738,
1564
+ "step": 4340
1565
+ },
1566
+ {
1567
+ "epoch": 0.2389172009425174,
1568
+ "grad_norm": 2.35066556930542,
1569
+ "learning_rate": 0.0001,
1570
+ "loss": 0.8573,
1571
+ "step": 4360
1572
+ },
1573
+ {
1574
+ "epoch": 0.24001315140555646,
1575
+ "grad_norm": 2.165745496749878,
1576
+ "learning_rate": 0.0001,
1577
+ "loss": 0.8989,
1578
+ "step": 4380
1579
+ },
1580
+ {
1581
+ "epoch": 0.24110910186859555,
1582
+ "grad_norm": 2.1494085788726807,
1583
+ "learning_rate": 0.0001,
1584
+ "loss": 0.8292,
1585
+ "step": 4400
1586
+ },
1587
+ {
1588
+ "epoch": 0.2422050523316346,
1589
+ "grad_norm": 2.185359239578247,
1590
+ "learning_rate": 0.0001,
1591
+ "loss": 0.8954,
1592
+ "step": 4420
1593
+ },
1594
+ {
1595
+ "epoch": 0.24330100279467368,
1596
+ "grad_norm": 2.193904161453247,
1597
+ "learning_rate": 0.0001,
1598
+ "loss": 0.8944,
1599
+ "step": 4440
1600
+ },
1601
+ {
1602
+ "epoch": 0.24439695325771274,
1603
+ "grad_norm": 2.1101438999176025,
1604
+ "learning_rate": 0.0001,
1605
+ "loss": 0.9059,
1606
+ "step": 4460
1607
+ },
1608
+ {
1609
+ "epoch": 0.24549290372075183,
1610
+ "grad_norm": 2.026642084121704,
1611
+ "learning_rate": 0.0001,
1612
+ "loss": 0.8978,
1613
+ "step": 4480
1614
+ },
1615
+ {
1616
+ "epoch": 0.2465888541837909,
1617
+ "grad_norm": 2.0481228828430176,
1618
+ "learning_rate": 0.0001,
1619
+ "loss": 0.8835,
1620
+ "step": 4500
1621
+ },
1622
+ {
1623
+ "epoch": 0.24768480464682996,
1624
+ "grad_norm": 2.201350688934326,
1625
+ "learning_rate": 0.0001,
1626
+ "loss": 0.9519,
1627
+ "step": 4520
1628
+ },
1629
+ {
1630
+ "epoch": 0.24878075510986902,
1631
+ "grad_norm": 1.852100133895874,
1632
+ "learning_rate": 0.0001,
1633
+ "loss": 0.8458,
1634
+ "step": 4540
1635
+ },
1636
+ {
1637
+ "epoch": 0.24987670557290811,
1638
+ "grad_norm": 2.1303794384002686,
1639
+ "learning_rate": 0.0001,
1640
+ "loss": 0.9092,
1641
+ "step": 4560
1642
+ },
1643
+ {
1644
+ "epoch": 0.25097265603594715,
1645
+ "grad_norm": 2.2715415954589844,
1646
+ "learning_rate": 0.0001,
1647
+ "loss": 0.8931,
1648
+ "step": 4580
1649
+ },
1650
+ {
1651
+ "epoch": 0.25206860649898627,
1652
+ "grad_norm": 2.091785192489624,
1653
+ "learning_rate": 0.0001,
1654
+ "loss": 0.8645,
1655
+ "step": 4600
1656
+ },
1657
+ {
1658
+ "epoch": 0.25316455696202533,
1659
+ "grad_norm": 2.108103036880493,
1660
+ "learning_rate": 0.0001,
1661
+ "loss": 0.8387,
1662
+ "step": 4620
1663
+ },
1664
+ {
1665
+ "epoch": 0.2542605074250644,
1666
+ "grad_norm": 2.083848237991333,
1667
+ "learning_rate": 0.0001,
1668
+ "loss": 0.8315,
1669
+ "step": 4640
1670
+ },
1671
+ {
1672
+ "epoch": 0.25535645788810346,
1673
+ "grad_norm": 1.570475459098816,
1674
+ "learning_rate": 0.0001,
1675
+ "loss": 0.9355,
1676
+ "step": 4660
1677
+ },
1678
+ {
1679
+ "epoch": 0.2564524083511425,
1680
+ "grad_norm": 1.90199875831604,
1681
+ "learning_rate": 0.0001,
1682
+ "loss": 0.8308,
1683
+ "step": 4680
1684
+ },
1685
+ {
1686
+ "epoch": 0.2575483588141816,
1687
+ "grad_norm": 2.1952812671661377,
1688
+ "learning_rate": 0.0001,
1689
+ "loss": 0.8618,
1690
+ "step": 4700
1691
+ },
1692
+ {
1693
+ "epoch": 0.25864430927722065,
1694
+ "grad_norm": 2.0530431270599365,
1695
+ "learning_rate": 0.0001,
1696
+ "loss": 0.7951,
1697
+ "step": 4720
1698
+ },
1699
+ {
1700
+ "epoch": 0.2597402597402597,
1701
+ "grad_norm": 2.202252149581909,
1702
+ "learning_rate": 0.0001,
1703
+ "loss": 0.8858,
1704
+ "step": 4740
1705
+ },
1706
+ {
1707
+ "epoch": 0.26083621020329883,
1708
+ "grad_norm": 1.9541796445846558,
1709
+ "learning_rate": 0.0001,
1710
+ "loss": 0.8466,
1711
+ "step": 4760
1712
+ },
1713
+ {
1714
+ "epoch": 0.2619321606663379,
1715
+ "grad_norm": 1.9440534114837646,
1716
+ "learning_rate": 0.0001,
1717
+ "loss": 0.8488,
1718
+ "step": 4780
1719
+ },
1720
+ {
1721
+ "epoch": 0.26302811112937696,
1722
+ "grad_norm": 2.569821834564209,
1723
+ "learning_rate": 0.0001,
1724
+ "loss": 0.963,
1725
+ "step": 4800
1726
+ },
1727
+ {
1728
+ "epoch": 0.264124061592416,
1729
+ "grad_norm": 1.8896031379699707,
1730
+ "learning_rate": 0.0001,
1731
+ "loss": 0.837,
1732
+ "step": 4820
1733
+ },
1734
+ {
1735
+ "epoch": 0.2652200120554551,
1736
+ "grad_norm": 1.9390859603881836,
1737
+ "learning_rate": 0.0001,
1738
+ "loss": 0.8855,
1739
+ "step": 4840
1740
+ },
1741
+ {
1742
+ "epoch": 0.26631596251849415,
1743
+ "grad_norm": 2.2261974811553955,
1744
+ "learning_rate": 0.0001,
1745
+ "loss": 0.8901,
1746
+ "step": 4860
1747
+ },
1748
+ {
1749
+ "epoch": 0.2674119129815332,
1750
+ "grad_norm": 2.0486056804656982,
1751
+ "learning_rate": 0.0001,
1752
+ "loss": 0.8073,
1753
+ "step": 4880
1754
+ },
1755
+ {
1756
+ "epoch": 0.2685078634445723,
1757
+ "grad_norm": 2.292015314102173,
1758
+ "learning_rate": 0.0001,
1759
+ "loss": 0.9492,
1760
+ "step": 4900
1761
+ },
1762
+ {
1763
+ "epoch": 0.2696038139076114,
1764
+ "grad_norm": 2.0762240886688232,
1765
+ "learning_rate": 0.0001,
1766
+ "loss": 0.8528,
1767
+ "step": 4920
1768
+ },
1769
+ {
1770
+ "epoch": 0.27069976437065046,
1771
+ "grad_norm": 1.870642066001892,
1772
+ "learning_rate": 0.0001,
1773
+ "loss": 0.9482,
1774
+ "step": 4940
1775
+ },
1776
+ {
1777
+ "epoch": 0.27179571483368953,
1778
+ "grad_norm": 2.436768054962158,
1779
+ "learning_rate": 0.0001,
1780
+ "loss": 0.9299,
1781
+ "step": 4960
1782
+ },
1783
+ {
1784
+ "epoch": 0.2728916652967286,
1785
+ "grad_norm": 2.505880832672119,
1786
+ "learning_rate": 0.0001,
1787
+ "loss": 0.9259,
1788
+ "step": 4980
1789
+ },
1790
+ {
1791
+ "epoch": 0.27398761575976766,
1792
+ "grad_norm": 1.717252492904663,
1793
+ "learning_rate": 0.0001,
1794
+ "loss": 0.8134,
1795
+ "step": 5000
1796
+ },
1797
+ {
1798
+ "epoch": 0.27398761575976766,
1799
+ "eval_loss": 0.8726964592933655,
1800
+ "eval_runtime": 30710.3822,
1801
+ "eval_samples_per_second": 2.113,
1802
+ "eval_steps_per_second": 0.066,
1803
+ "eval_wer": 52.213316533880224,
1804
+ "step": 5000
1805
+ },
1806
+ {
1807
+ "epoch": 0.2750835662228067,
1808
+ "grad_norm": 2.28765869140625,
1809
+ "learning_rate": 0.0001,
1810
+ "loss": 1.0229,
1811
+ "step": 5020
1812
+ },
1813
+ {
1814
+ "epoch": 0.2761795166858458,
1815
+ "grad_norm": 2.2264580726623535,
1816
+ "learning_rate": 0.0001,
1817
+ "loss": 0.8291,
1818
+ "step": 5040
1819
+ },
1820
+ {
1821
+ "epoch": 0.27727546714888485,
1822
+ "grad_norm": 1.9387757778167725,
1823
+ "learning_rate": 0.0001,
1824
+ "loss": 0.821,
1825
+ "step": 5060
1826
+ },
1827
+ {
1828
+ "epoch": 0.27837141761192397,
1829
+ "grad_norm": 2.8628933429718018,
1830
+ "learning_rate": 0.0001,
1831
+ "loss": 0.9521,
1832
+ "step": 5080
1833
+ },
1834
+ {
1835
+ "epoch": 0.27946736807496303,
1836
+ "grad_norm": 2.2691447734832764,
1837
+ "learning_rate": 0.0001,
1838
+ "loss": 0.8182,
1839
+ "step": 5100
1840
+ },
1841
+ {
1842
+ "epoch": 0.2805633185380021,
1843
+ "grad_norm": 1.9515260457992554,
1844
+ "learning_rate": 0.0001,
1845
+ "loss": 0.9342,
1846
+ "step": 5120
1847
+ },
1848
+ {
1849
+ "epoch": 0.28165926900104116,
1850
+ "grad_norm": 2.1714837551116943,
1851
+ "learning_rate": 0.0001,
1852
+ "loss": 0.9663,
1853
+ "step": 5140
1854
+ },
1855
+ {
1856
+ "epoch": 0.2827552194640802,
1857
+ "grad_norm": 2.0159664154052734,
1858
+ "learning_rate": 0.0001,
1859
+ "loss": 0.8294,
1860
+ "step": 5160
1861
+ },
1862
+ {
1863
+ "epoch": 0.2838511699271193,
1864
+ "grad_norm": 2.024634599685669,
1865
+ "learning_rate": 0.0001,
1866
+ "loss": 0.896,
1867
+ "step": 5180
1868
+ },
1869
+ {
1870
+ "epoch": 0.28494712039015835,
1871
+ "grad_norm": 2.0035595893859863,
1872
+ "learning_rate": 0.0001,
1873
+ "loss": 0.8446,
1874
+ "step": 5200
1875
+ },
1876
+ {
1877
+ "epoch": 0.2860430708531974,
1878
+ "grad_norm": 2.4142866134643555,
1879
+ "learning_rate": 0.0001,
1880
+ "loss": 0.8835,
1881
+ "step": 5220
1882
+ },
1883
+ {
1884
+ "epoch": 0.28713902131623653,
1885
+ "grad_norm": 2.070338010787964,
1886
+ "learning_rate": 0.0001,
1887
+ "loss": 0.8687,
1888
+ "step": 5240
1889
+ },
1890
+ {
1891
+ "epoch": 0.2882349717792756,
1892
+ "grad_norm": 1.9818578958511353,
1893
+ "learning_rate": 0.0001,
1894
+ "loss": 0.8296,
1895
+ "step": 5260
1896
+ },
1897
+ {
1898
+ "epoch": 0.28933092224231466,
1899
+ "grad_norm": 1.8923412561416626,
1900
+ "learning_rate": 0.0001,
1901
+ "loss": 0.8999,
1902
+ "step": 5280
1903
+ },
1904
+ {
1905
+ "epoch": 0.2904268727053537,
1906
+ "grad_norm": 2.200206995010376,
1907
+ "learning_rate": 0.0001,
1908
+ "loss": 0.8662,
1909
+ "step": 5300
1910
+ },
1911
+ {
1912
+ "epoch": 0.2915228231683928,
1913
+ "grad_norm": 1.982446551322937,
1914
+ "learning_rate": 0.0001,
1915
+ "loss": 0.8301,
1916
+ "step": 5320
1917
+ },
1918
+ {
1919
+ "epoch": 0.29261877363143185,
1920
+ "grad_norm": 1.934844732284546,
1921
+ "learning_rate": 0.0001,
1922
+ "loss": 0.8219,
1923
+ "step": 5340
1924
+ },
1925
+ {
1926
+ "epoch": 0.2937147240944709,
1927
+ "grad_norm": 2.2790510654449463,
1928
+ "learning_rate": 0.0001,
1929
+ "loss": 0.8666,
1930
+ "step": 5360
1931
+ },
1932
+ {
1933
+ "epoch": 0.29481067455751,
1934
+ "grad_norm": 1.771672248840332,
1935
+ "learning_rate": 0.0001,
1936
+ "loss": 0.843,
1937
+ "step": 5380
1938
+ },
1939
+ {
1940
+ "epoch": 0.2959066250205491,
1941
+ "grad_norm": 2.3459877967834473,
1942
+ "learning_rate": 0.0001,
1943
+ "loss": 0.8516,
1944
+ "step": 5400
1945
+ },
1946
+ {
1947
+ "epoch": 0.29700257548358816,
1948
+ "grad_norm": 2.156458854675293,
1949
+ "learning_rate": 0.0001,
1950
+ "loss": 0.8425,
1951
+ "step": 5420
1952
+ },
1953
+ {
1954
+ "epoch": 0.2980985259466272,
1955
+ "grad_norm": 1.9492950439453125,
1956
+ "learning_rate": 0.0001,
1957
+ "loss": 0.8445,
1958
+ "step": 5440
1959
+ },
1960
+ {
1961
+ "epoch": 0.2991944764096663,
1962
+ "grad_norm": 2.1061997413635254,
1963
+ "learning_rate": 0.0001,
1964
+ "loss": 0.8858,
1965
+ "step": 5460
1966
+ },
1967
+ {
1968
+ "epoch": 0.30029042687270535,
1969
+ "grad_norm": 2.3567299842834473,
1970
+ "learning_rate": 0.0001,
1971
+ "loss": 0.8376,
1972
+ "step": 5480
1973
+ },
1974
+ {
1975
+ "epoch": 0.3013863773357444,
1976
+ "grad_norm": 2.1302335262298584,
1977
+ "learning_rate": 0.0001,
1978
+ "loss": 0.8272,
1979
+ "step": 5500
1980
+ },
1981
+ {
1982
+ "epoch": 0.3024823277987835,
1983
+ "grad_norm": 2.2098424434661865,
1984
+ "learning_rate": 0.0001,
1985
+ "loss": 0.8742,
1986
+ "step": 5520
1987
+ },
1988
+ {
1989
+ "epoch": 0.30357827826182254,
1990
+ "grad_norm": 1.7558562755584717,
1991
+ "learning_rate": 0.0001,
1992
+ "loss": 0.8863,
1993
+ "step": 5540
1994
+ },
1995
+ {
1996
+ "epoch": 0.30467422872486166,
1997
+ "grad_norm": 1.8461397886276245,
1998
+ "learning_rate": 0.0001,
1999
+ "loss": 0.8792,
2000
+ "step": 5560
2001
+ },
2002
+ {
2003
+ "epoch": 0.3057701791879007,
2004
+ "grad_norm": 2.0006344318389893,
2005
+ "learning_rate": 0.0001,
2006
+ "loss": 0.8263,
2007
+ "step": 5580
2008
+ },
2009
+ {
2010
+ "epoch": 0.3068661296509398,
2011
+ "grad_norm": 1.6772565841674805,
2012
+ "learning_rate": 0.0001,
2013
+ "loss": 0.789,
2014
+ "step": 5600
2015
+ },
2016
+ {
2017
+ "epoch": 0.30796208011397885,
2018
+ "grad_norm": 1.9263228178024292,
2019
+ "learning_rate": 0.0001,
2020
+ "loss": 0.842,
2021
+ "step": 5620
2022
+ },
2023
+ {
2024
+ "epoch": 0.3090580305770179,
2025
+ "grad_norm": 1.8888592720031738,
2026
+ "learning_rate": 0.0001,
2027
+ "loss": 0.8475,
2028
+ "step": 5640
2029
+ },
2030
+ {
2031
+ "epoch": 0.310153981040057,
2032
+ "grad_norm": 2.2354602813720703,
2033
+ "learning_rate": 0.0001,
2034
+ "loss": 1.0036,
2035
+ "step": 5660
2036
+ },
2037
+ {
2038
+ "epoch": 0.31124993150309604,
2039
+ "grad_norm": 1.9634332656860352,
2040
+ "learning_rate": 0.0001,
2041
+ "loss": 0.8517,
2042
+ "step": 5680
2043
+ },
2044
+ {
2045
+ "epoch": 0.3123458819661351,
2046
+ "grad_norm": 2.348825216293335,
2047
+ "learning_rate": 0.0001,
2048
+ "loss": 0.8731,
2049
+ "step": 5700
2050
+ },
2051
+ {
2052
+ "epoch": 0.3134418324291742,
2053
+ "grad_norm": 2.487741708755493,
2054
+ "learning_rate": 0.0001,
2055
+ "loss": 0.8556,
2056
+ "step": 5720
2057
+ },
2058
+ {
2059
+ "epoch": 0.3145377828922133,
2060
+ "grad_norm": 1.999516248703003,
2061
+ "learning_rate": 0.0001,
2062
+ "loss": 0.7969,
2063
+ "step": 5740
2064
+ },
2065
+ {
2066
+ "epoch": 0.31563373335525235,
2067
+ "grad_norm": 1.9654616117477417,
2068
+ "learning_rate": 0.0001,
2069
+ "loss": 0.7843,
2070
+ "step": 5760
2071
+ },
2072
+ {
2073
+ "epoch": 0.3167296838182914,
2074
+ "grad_norm": 2.1070950031280518,
2075
+ "learning_rate": 0.0001,
2076
+ "loss": 0.8399,
2077
+ "step": 5780
2078
+ },
2079
+ {
2080
+ "epoch": 0.3178256342813305,
2081
+ "grad_norm": 2.257129192352295,
2082
+ "learning_rate": 0.0001,
2083
+ "loss": 0.8224,
2084
+ "step": 5800
2085
+ },
2086
+ {
2087
+ "epoch": 0.31892158474436955,
2088
+ "grad_norm": 1.8256118297576904,
2089
+ "learning_rate": 0.0001,
2090
+ "loss": 0.794,
2091
+ "step": 5820
2092
+ },
2093
+ {
2094
+ "epoch": 0.3200175352074086,
2095
+ "grad_norm": 1.8899625539779663,
2096
+ "learning_rate": 0.0001,
2097
+ "loss": 0.8614,
2098
+ "step": 5840
2099
+ },
2100
+ {
2101
+ "epoch": 0.3211134856704477,
2102
+ "grad_norm": 2.221484661102295,
2103
+ "learning_rate": 0.0001,
2104
+ "loss": 0.765,
2105
+ "step": 5860
2106
+ },
2107
+ {
2108
+ "epoch": 0.3222094361334868,
2109
+ "grad_norm": 1.796877384185791,
2110
+ "learning_rate": 0.0001,
2111
+ "loss": 0.8359,
2112
+ "step": 5880
2113
+ },
2114
+ {
2115
+ "epoch": 0.32330538659652586,
2116
+ "grad_norm": 1.7495447397232056,
2117
+ "learning_rate": 0.0001,
2118
+ "loss": 0.8688,
2119
+ "step": 5900
2120
+ },
2121
+ {
2122
+ "epoch": 0.3244013370595649,
2123
+ "grad_norm": 2.136664628982544,
2124
+ "learning_rate": 0.0001,
2125
+ "loss": 0.9163,
2126
+ "step": 5920
2127
+ },
2128
+ {
2129
+ "epoch": 0.325497287522604,
2130
+ "grad_norm": 1.8508238792419434,
2131
+ "learning_rate": 0.0001,
2132
+ "loss": 0.7975,
2133
+ "step": 5940
2134
+ },
2135
+ {
2136
+ "epoch": 0.32659323798564305,
2137
+ "grad_norm": 2.144523859024048,
2138
+ "learning_rate": 0.0001,
2139
+ "loss": 0.7749,
2140
+ "step": 5960
2141
+ },
2142
+ {
2143
+ "epoch": 0.3276891884486821,
2144
+ "grad_norm": 2.208815336227417,
2145
+ "learning_rate": 0.0001,
2146
+ "loss": 0.8148,
2147
+ "step": 5980
2148
+ },
2149
+ {
2150
+ "epoch": 0.3287851389117212,
2151
+ "grad_norm": 2.0617401599884033,
2152
+ "learning_rate": 0.0001,
2153
+ "loss": 0.8884,
2154
+ "step": 6000
2155
+ },
2156
+ {
2157
+ "epoch": 0.3287851389117212,
2158
+ "eval_loss": 0.8316722512245178,
2159
+ "eval_runtime": 30850.8589,
2160
+ "eval_samples_per_second": 2.103,
2161
+ "eval_steps_per_second": 0.066,
2162
+ "eval_wer": 45.9960352377659,
2163
+ "step": 6000
2164
+ },
2165
+ {
2166
+ "epoch": 0.32988108937476024,
2167
+ "grad_norm": 2.0406434535980225,
2168
+ "learning_rate": 0.0001,
2169
+ "loss": 0.8504,
2170
+ "step": 6020
2171
+ },
2172
+ {
2173
+ "epoch": 0.33097703983779936,
2174
+ "grad_norm": 2.1899139881134033,
2175
+ "learning_rate": 0.0001,
2176
+ "loss": 0.7782,
2177
+ "step": 6040
2178
+ },
2179
+ {
2180
+ "epoch": 0.3320729903008384,
2181
+ "grad_norm": 2.650421380996704,
2182
+ "learning_rate": 0.0001,
2183
+ "loss": 0.7823,
2184
+ "step": 6060
2185
+ },
2186
+ {
2187
+ "epoch": 0.3331689407638775,
2188
+ "grad_norm": 2.085683584213257,
2189
+ "learning_rate": 0.0001,
2190
+ "loss": 0.754,
2191
+ "step": 6080
2192
+ },
2193
+ {
2194
+ "epoch": 0.33426489122691655,
2195
+ "grad_norm": 2.1783502101898193,
2196
+ "learning_rate": 0.0001,
2197
+ "loss": 0.8819,
2198
+ "step": 6100
2199
+ },
2200
+ {
2201
+ "epoch": 0.3353608416899556,
2202
+ "grad_norm": 2.096208333969116,
2203
+ "learning_rate": 0.0001,
2204
+ "loss": 0.8702,
2205
+ "step": 6120
2206
+ },
2207
+ {
2208
+ "epoch": 0.3364567921529947,
2209
+ "grad_norm": 2.005629062652588,
2210
+ "learning_rate": 0.0001,
2211
+ "loss": 0.8827,
2212
+ "step": 6140
2213
+ },
2214
+ {
2215
+ "epoch": 0.33755274261603374,
2216
+ "grad_norm": 2.1545634269714355,
2217
+ "learning_rate": 0.0001,
2218
+ "loss": 0.8496,
2219
+ "step": 6160
2220
+ },
2221
+ {
2222
+ "epoch": 0.3386486930790728,
2223
+ "grad_norm": 1.8190851211547852,
2224
+ "learning_rate": 0.0001,
2225
+ "loss": 0.7622,
2226
+ "step": 6180
2227
+ },
2228
+ {
2229
+ "epoch": 0.3397446435421119,
2230
+ "grad_norm": 1.9555623531341553,
2231
+ "learning_rate": 0.0001,
2232
+ "loss": 0.8338,
2233
+ "step": 6200
2234
+ },
2235
+ {
2236
+ "epoch": 0.340840594005151,
2237
+ "grad_norm": 1.8530341386795044,
2238
+ "learning_rate": 0.0001,
2239
+ "loss": 0.8017,
2240
+ "step": 6220
2241
+ },
2242
+ {
2243
+ "epoch": 0.34193654446819005,
2244
+ "grad_norm": 1.8724114894866943,
2245
+ "learning_rate": 0.0001,
2246
+ "loss": 0.848,
2247
+ "step": 6240
2248
+ },
2249
+ {
2250
+ "epoch": 0.3430324949312291,
2251
+ "grad_norm": 1.8598796129226685,
2252
+ "learning_rate": 0.0001,
2253
+ "loss": 0.8074,
2254
+ "step": 6260
2255
+ },
2256
+ {
2257
+ "epoch": 0.3441284453942682,
2258
+ "grad_norm": 2.1442923545837402,
2259
+ "learning_rate": 0.0001,
2260
+ "loss": 0.8473,
2261
+ "step": 6280
2262
+ },
2263
+ {
2264
+ "epoch": 0.34522439585730724,
2265
+ "grad_norm": 2.3083174228668213,
2266
+ "learning_rate": 0.0001,
2267
+ "loss": 0.9016,
2268
+ "step": 6300
2269
+ },
2270
+ {
2271
+ "epoch": 0.3463203463203463,
2272
+ "grad_norm": 1.8194735050201416,
2273
+ "learning_rate": 0.0001,
2274
+ "loss": 0.8267,
2275
+ "step": 6320
2276
+ },
2277
+ {
2278
+ "epoch": 0.34741629678338537,
2279
+ "grad_norm": 2.063523054122925,
2280
+ "learning_rate": 0.0001,
2281
+ "loss": 0.7841,
2282
+ "step": 6340
2283
+ },
2284
+ {
2285
+ "epoch": 0.3485122472464245,
2286
+ "grad_norm": 2.17594051361084,
2287
+ "learning_rate": 0.0001,
2288
+ "loss": 0.8318,
2289
+ "step": 6360
2290
+ },
2291
+ {
2292
+ "epoch": 0.34960819770946355,
2293
+ "grad_norm": 1.665189504623413,
2294
+ "learning_rate": 0.0001,
2295
+ "loss": 0.7983,
2296
+ "step": 6380
2297
+ },
2298
+ {
2299
+ "epoch": 0.3507041481725026,
2300
+ "grad_norm": 2.2596445083618164,
2301
+ "learning_rate": 0.0001,
2302
+ "loss": 0.8421,
2303
+ "step": 6400
2304
+ },
2305
+ {
2306
+ "epoch": 0.3518000986355417,
2307
+ "grad_norm": 1.7096545696258545,
2308
+ "learning_rate": 0.0001,
2309
+ "loss": 0.889,
2310
+ "step": 6420
2311
+ },
2312
+ {
2313
+ "epoch": 0.35289604909858074,
2314
+ "grad_norm": 1.7475535869598389,
2315
+ "learning_rate": 0.0001,
2316
+ "loss": 0.8006,
2317
+ "step": 6440
2318
+ },
2319
+ {
2320
+ "epoch": 0.3539919995616198,
2321
+ "grad_norm": 1.8176007270812988,
2322
+ "learning_rate": 0.0001,
2323
+ "loss": 0.8632,
2324
+ "step": 6460
2325
+ },
2326
+ {
2327
+ "epoch": 0.35508795002465887,
2328
+ "grad_norm": 2.6806535720825195,
2329
+ "learning_rate": 0.0001,
2330
+ "loss": 0.8427,
2331
+ "step": 6480
2332
+ },
2333
+ {
2334
+ "epoch": 0.35618390048769794,
2335
+ "grad_norm": 2.094172477722168,
2336
+ "learning_rate": 0.0001,
2337
+ "loss": 0.7812,
2338
+ "step": 6500
2339
+ },
2340
+ {
2341
+ "epoch": 0.357279850950737,
2342
+ "grad_norm": 1.8341765403747559,
2343
+ "learning_rate": 0.0001,
2344
+ "loss": 0.8051,
2345
+ "step": 6520
2346
+ },
2347
+ {
2348
+ "epoch": 0.3583758014137761,
2349
+ "grad_norm": 2.2341349124908447,
2350
+ "learning_rate": 0.0001,
2351
+ "loss": 0.8001,
2352
+ "step": 6540
2353
+ },
2354
+ {
2355
+ "epoch": 0.3594717518768152,
2356
+ "grad_norm": 2.1017801761627197,
2357
+ "learning_rate": 0.0001,
2358
+ "loss": 0.8142,
2359
+ "step": 6560
2360
+ },
2361
+ {
2362
+ "epoch": 0.36056770233985425,
2363
+ "grad_norm": 1.9903994798660278,
2364
+ "learning_rate": 0.0001,
2365
+ "loss": 0.8117,
2366
+ "step": 6580
2367
+ },
2368
+ {
2369
+ "epoch": 0.3616636528028933,
2370
+ "grad_norm": 2.273465394973755,
2371
+ "learning_rate": 0.0001,
2372
+ "loss": 0.8864,
2373
+ "step": 6600
2374
+ },
2375
+ {
2376
+ "epoch": 0.3627596032659324,
2377
+ "grad_norm": 2.0767428874969482,
2378
+ "learning_rate": 0.0001,
2379
+ "loss": 0.7687,
2380
+ "step": 6620
2381
+ },
2382
+ {
2383
+ "epoch": 0.36385555372897144,
2384
+ "grad_norm": 2.559774398803711,
2385
+ "learning_rate": 0.0001,
2386
+ "loss": 0.8181,
2387
+ "step": 6640
2388
+ },
2389
+ {
2390
+ "epoch": 0.3649515041920105,
2391
+ "grad_norm": 2.1393582820892334,
2392
+ "learning_rate": 0.0001,
2393
+ "loss": 0.7936,
2394
+ "step": 6660
2395
+ },
2396
+ {
2397
+ "epoch": 0.36604745465504956,
2398
+ "grad_norm": 2.06675386428833,
2399
+ "learning_rate": 0.0001,
2400
+ "loss": 0.8263,
2401
+ "step": 6680
2402
+ },
2403
+ {
2404
+ "epoch": 0.3671434051180887,
2405
+ "grad_norm": 1.7674784660339355,
2406
+ "learning_rate": 0.0001,
2407
+ "loss": 0.7818,
2408
+ "step": 6700
2409
+ },
2410
+ {
2411
+ "epoch": 0.36823935558112775,
2412
+ "grad_norm": 1.765442132949829,
2413
+ "learning_rate": 0.0001,
2414
+ "loss": 0.8335,
2415
+ "step": 6720
2416
+ },
2417
+ {
2418
+ "epoch": 0.3693353060441668,
2419
+ "grad_norm": 2.044288158416748,
2420
+ "learning_rate": 0.0001,
2421
+ "loss": 0.8742,
2422
+ "step": 6740
2423
+ },
2424
+ {
2425
+ "epoch": 0.3704312565072059,
2426
+ "grad_norm": 1.9821726083755493,
2427
+ "learning_rate": 0.0001,
2428
+ "loss": 0.928,
2429
+ "step": 6760
2430
+ },
2431
+ {
2432
+ "epoch": 0.37152720697024494,
2433
+ "grad_norm": 2.0798370838165283,
2434
+ "learning_rate": 0.0001,
2435
+ "loss": 0.7627,
2436
+ "step": 6780
2437
+ },
2438
+ {
2439
+ "epoch": 0.372623157433284,
2440
+ "grad_norm": 1.6817582845687866,
2441
+ "learning_rate": 0.0001,
2442
+ "loss": 0.7985,
2443
+ "step": 6800
2444
+ },
2445
+ {
2446
+ "epoch": 0.37371910789632307,
2447
+ "grad_norm": 1.872247576713562,
2448
+ "learning_rate": 0.0001,
2449
+ "loss": 0.8102,
2450
+ "step": 6820
2451
+ },
2452
+ {
2453
+ "epoch": 0.37481505835936213,
2454
+ "grad_norm": 1.7761516571044922,
2455
+ "learning_rate": 0.0001,
2456
+ "loss": 0.8435,
2457
+ "step": 6840
2458
+ },
2459
+ {
2460
+ "epoch": 0.37591100882240125,
2461
+ "grad_norm": 1.739585518836975,
2462
+ "learning_rate": 0.0001,
2463
+ "loss": 0.8706,
2464
+ "step": 6860
2465
+ },
2466
+ {
2467
+ "epoch": 0.3770069592854403,
2468
+ "grad_norm": 2.0503687858581543,
2469
+ "learning_rate": 0.0001,
2470
+ "loss": 0.8354,
2471
+ "step": 6880
2472
+ },
2473
+ {
2474
+ "epoch": 0.3781029097484794,
2475
+ "grad_norm": 2.283393621444702,
2476
+ "learning_rate": 0.0001,
2477
+ "loss": 0.7476,
2478
+ "step": 6900
2479
+ },
2480
+ {
2481
+ "epoch": 0.37919886021151844,
2482
+ "grad_norm": 1.801018238067627,
2483
+ "learning_rate": 0.0001,
2484
+ "loss": 0.7817,
2485
+ "step": 6920
2486
+ },
2487
+ {
2488
+ "epoch": 0.3802948106745575,
2489
+ "grad_norm": 2.5343267917633057,
2490
+ "learning_rate": 0.0001,
2491
+ "loss": 0.7628,
2492
+ "step": 6940
2493
+ },
2494
+ {
2495
+ "epoch": 0.38139076113759657,
2496
+ "grad_norm": 2.010507822036743,
2497
+ "learning_rate": 0.0001,
2498
+ "loss": 0.7931,
2499
+ "step": 6960
2500
+ },
2501
+ {
2502
+ "epoch": 0.38248671160063563,
2503
+ "grad_norm": 1.7228796482086182,
2504
+ "learning_rate": 0.0001,
2505
+ "loss": 0.7517,
2506
+ "step": 6980
2507
+ },
2508
+ {
2509
+ "epoch": 0.3835826620636747,
2510
+ "grad_norm": 1.967822551727295,
2511
+ "learning_rate": 0.0001,
2512
+ "loss": 0.804,
2513
+ "step": 7000
2514
+ },
2515
+ {
2516
+ "epoch": 0.3835826620636747,
2517
+ "eval_loss": 0.7978512644767761,
2518
+ "eval_runtime": 30977.7517,
2519
+ "eval_samples_per_second": 2.095,
2520
+ "eval_steps_per_second": 0.065,
2521
+ "eval_wer": 61.261910549759826,
2522
+ "step": 7000
2523
+ },
2524
+ {
2525
+ "epoch": 0.3846786125267138,
2526
+ "grad_norm": 1.9999229907989502,
2527
+ "learning_rate": 0.0001,
2528
+ "loss": 0.7634,
2529
+ "step": 7020
2530
+ },
2531
+ {
2532
+ "epoch": 0.3857745629897529,
2533
+ "grad_norm": 1.956128716468811,
2534
+ "learning_rate": 0.0001,
2535
+ "loss": 0.8102,
2536
+ "step": 7040
2537
+ },
2538
+ {
2539
+ "epoch": 0.38687051345279194,
2540
+ "grad_norm": 2.0134966373443604,
2541
+ "learning_rate": 0.0001,
2542
+ "loss": 0.7957,
2543
+ "step": 7060
2544
+ },
2545
+ {
2546
+ "epoch": 0.387966463915831,
2547
+ "grad_norm": 2.0373167991638184,
2548
+ "learning_rate": 0.0001,
2549
+ "loss": 0.8251,
2550
+ "step": 7080
2551
+ },
2552
+ {
2553
+ "epoch": 0.38906241437887007,
2554
+ "grad_norm": 1.7772964239120483,
2555
+ "learning_rate": 0.0001,
2556
+ "loss": 0.8128,
2557
+ "step": 7100
2558
+ },
2559
+ {
2560
+ "epoch": 0.39015836484190913,
2561
+ "grad_norm": 1.7618379592895508,
2562
+ "learning_rate": 0.0001,
2563
+ "loss": 0.8345,
2564
+ "step": 7120
2565
+ },
2566
+ {
2567
+ "epoch": 0.3912543153049482,
2568
+ "grad_norm": 2.181671380996704,
2569
+ "learning_rate": 0.0001,
2570
+ "loss": 0.8345,
2571
+ "step": 7140
2572
+ },
2573
+ {
2574
+ "epoch": 0.39235026576798726,
2575
+ "grad_norm": 1.8794726133346558,
2576
+ "learning_rate": 0.0001,
2577
+ "loss": 0.7615,
2578
+ "step": 7160
2579
+ },
2580
+ {
2581
+ "epoch": 0.3934462162310264,
2582
+ "grad_norm": 1.9297798871994019,
2583
+ "learning_rate": 0.0001,
2584
+ "loss": 0.7618,
2585
+ "step": 7180
2586
+ },
2587
+ {
2588
+ "epoch": 0.39454216669406544,
2589
+ "grad_norm": 1.9441471099853516,
2590
+ "learning_rate": 0.0001,
2591
+ "loss": 0.859,
2592
+ "step": 7200
2593
+ },
2594
+ {
2595
+ "epoch": 0.3956381171571045,
2596
+ "grad_norm": 2.2561404705047607,
2597
+ "learning_rate": 0.0001,
2598
+ "loss": 0.7877,
2599
+ "step": 7220
2600
+ },
2601
+ {
2602
+ "epoch": 0.39673406762014357,
2603
+ "grad_norm": 1.8441416025161743,
2604
+ "learning_rate": 0.0001,
2605
+ "loss": 0.7734,
2606
+ "step": 7240
2607
+ },
2608
+ {
2609
+ "epoch": 0.39783001808318263,
2610
+ "grad_norm": 1.686120867729187,
2611
+ "learning_rate": 0.0001,
2612
+ "loss": 0.7066,
2613
+ "step": 7260
2614
+ },
2615
+ {
2616
+ "epoch": 0.3989259685462217,
2617
+ "grad_norm": 1.9456263780593872,
2618
+ "learning_rate": 0.0001,
2619
+ "loss": 0.7469,
2620
+ "step": 7280
2621
+ },
2622
+ {
2623
+ "epoch": 0.40002191900926076,
2624
+ "grad_norm": 1.9112725257873535,
2625
+ "learning_rate": 0.0001,
2626
+ "loss": 0.7607,
2627
+ "step": 7300
2628
+ },
2629
+ {
2630
+ "epoch": 0.4011178694722998,
2631
+ "grad_norm": 2.5668513774871826,
2632
+ "learning_rate": 0.0001,
2633
+ "loss": 0.7859,
2634
+ "step": 7320
2635
+ },
2636
+ {
2637
+ "epoch": 0.40221381993533895,
2638
+ "grad_norm": 1.9502942562103271,
2639
+ "learning_rate": 0.0001,
2640
+ "loss": 0.7607,
2641
+ "step": 7340
2642
+ },
2643
+ {
2644
+ "epoch": 0.403309770398378,
2645
+ "grad_norm": 1.6973525285720825,
2646
+ "learning_rate": 0.0001,
2647
+ "loss": 0.8313,
2648
+ "step": 7360
2649
+ },
2650
+ {
2651
+ "epoch": 0.4044057208614171,
2652
+ "grad_norm": 2.3962297439575195,
2653
+ "learning_rate": 0.0001,
2654
+ "loss": 0.7806,
2655
+ "step": 7380
2656
+ },
2657
+ {
2658
+ "epoch": 0.40550167132445614,
2659
+ "grad_norm": 1.887536883354187,
2660
+ "learning_rate": 0.0001,
2661
+ "loss": 0.7524,
2662
+ "step": 7400
2663
+ },
2664
+ {
2665
+ "epoch": 0.4065976217874952,
2666
+ "grad_norm": 1.999687910079956,
2667
+ "learning_rate": 0.0001,
2668
+ "loss": 0.7349,
2669
+ "step": 7420
2670
+ },
2671
+ {
2672
+ "epoch": 0.40769357225053426,
2673
+ "grad_norm": 1.7444576025009155,
2674
+ "learning_rate": 0.0001,
2675
+ "loss": 0.8156,
2676
+ "step": 7440
2677
+ },
2678
+ {
2679
+ "epoch": 0.40878952271357333,
2680
+ "grad_norm": 1.7175132036209106,
2681
+ "learning_rate": 0.0001,
2682
+ "loss": 0.7419,
2683
+ "step": 7460
2684
+ },
2685
+ {
2686
+ "epoch": 0.4098854731766124,
2687
+ "grad_norm": 2.23638653755188,
2688
+ "learning_rate": 0.0001,
2689
+ "loss": 0.666,
2690
+ "step": 7480
2691
+ },
2692
+ {
2693
+ "epoch": 0.4109814236396515,
2694
+ "grad_norm": 2.024102210998535,
2695
+ "learning_rate": 0.0001,
2696
+ "loss": 0.7541,
2697
+ "step": 7500
2698
+ },
2699
+ {
2700
+ "epoch": 0.4120773741026906,
2701
+ "grad_norm": 2.042541265487671,
2702
+ "learning_rate": 0.0001,
2703
+ "loss": 0.7915,
2704
+ "step": 7520
2705
+ },
2706
+ {
2707
+ "epoch": 0.41317332456572964,
2708
+ "grad_norm": 1.9140897989273071,
2709
+ "learning_rate": 0.0001,
2710
+ "loss": 0.8712,
2711
+ "step": 7540
2712
+ },
2713
+ {
2714
+ "epoch": 0.4142692750287687,
2715
+ "grad_norm": 1.8435416221618652,
2716
+ "learning_rate": 0.0001,
2717
+ "loss": 0.8241,
2718
+ "step": 7560
2719
+ },
2720
+ {
2721
+ "epoch": 0.41536522549180777,
2722
+ "grad_norm": 2.027944803237915,
2723
+ "learning_rate": 0.0001,
2724
+ "loss": 0.9422,
2725
+ "step": 7580
2726
+ },
2727
+ {
2728
+ "epoch": 0.41646117595484683,
2729
+ "grad_norm": 2.07381534576416,
2730
+ "learning_rate": 0.0001,
2731
+ "loss": 0.812,
2732
+ "step": 7600
2733
+ },
2734
+ {
2735
+ "epoch": 0.4175571264178859,
2736
+ "grad_norm": 1.9762136936187744,
2737
+ "learning_rate": 0.0001,
2738
+ "loss": 0.7852,
2739
+ "step": 7620
2740
+ },
2741
+ {
2742
+ "epoch": 0.41865307688092496,
2743
+ "grad_norm": 1.8222426176071167,
2744
+ "learning_rate": 0.0001,
2745
+ "loss": 0.752,
2746
+ "step": 7640
2747
+ },
2748
+ {
2749
+ "epoch": 0.4197490273439641,
2750
+ "grad_norm": 2.0519089698791504,
2751
+ "learning_rate": 0.0001,
2752
+ "loss": 0.8031,
2753
+ "step": 7660
2754
+ },
2755
+ {
2756
+ "epoch": 0.42084497780700314,
2757
+ "grad_norm": 1.8777110576629639,
2758
+ "learning_rate": 0.0001,
2759
+ "loss": 0.8173,
2760
+ "step": 7680
2761
+ },
2762
+ {
2763
+ "epoch": 0.4219409282700422,
2764
+ "grad_norm": 2.323411703109741,
2765
+ "learning_rate": 0.0001,
2766
+ "loss": 0.8479,
2767
+ "step": 7700
2768
+ },
2769
+ {
2770
+ "epoch": 0.42303687873308127,
2771
+ "grad_norm": 1.6403400897979736,
2772
+ "learning_rate": 0.0001,
2773
+ "loss": 0.7567,
2774
+ "step": 7720
2775
+ },
2776
+ {
2777
+ "epoch": 0.42413282919612033,
2778
+ "grad_norm": 1.6627925634384155,
2779
+ "learning_rate": 0.0001,
2780
+ "loss": 0.7734,
2781
+ "step": 7740
2782
+ },
2783
+ {
2784
+ "epoch": 0.4252287796591594,
2785
+ "grad_norm": 1.8771709203720093,
2786
+ "learning_rate": 0.0001,
2787
+ "loss": 0.7652,
2788
+ "step": 7760
2789
+ },
2790
+ {
2791
+ "epoch": 0.42632473012219846,
2792
+ "grad_norm": 1.9806597232818604,
2793
+ "learning_rate": 0.0001,
2794
+ "loss": 0.7699,
2795
+ "step": 7780
2796
+ },
2797
+ {
2798
+ "epoch": 0.4274206805852375,
2799
+ "grad_norm": 2.1376988887786865,
2800
+ "learning_rate": 0.0001,
2801
+ "loss": 0.7825,
2802
+ "step": 7800
2803
+ },
2804
+ {
2805
+ "epoch": 0.42851663104827664,
2806
+ "grad_norm": 1.5566449165344238,
2807
+ "learning_rate": 0.0001,
2808
+ "loss": 0.704,
2809
+ "step": 7820
2810
+ },
2811
+ {
2812
+ "epoch": 0.4296125815113157,
2813
+ "grad_norm": 2.1835947036743164,
2814
+ "learning_rate": 0.0001,
2815
+ "loss": 0.8101,
2816
+ "step": 7840
2817
+ },
2818
+ {
2819
+ "epoch": 0.43070853197435477,
2820
+ "grad_norm": 2.055119037628174,
2821
+ "learning_rate": 0.0001,
2822
+ "loss": 0.703,
2823
+ "step": 7860
2824
+ },
2825
+ {
2826
+ "epoch": 0.43180448243739383,
2827
+ "grad_norm": 1.9324967861175537,
2828
+ "learning_rate": 0.0001,
2829
+ "loss": 0.81,
2830
+ "step": 7880
2831
+ },
2832
+ {
2833
+ "epoch": 0.4329004329004329,
2834
+ "grad_norm": 2.1087846755981445,
2835
+ "learning_rate": 0.0001,
2836
+ "loss": 0.7676,
2837
+ "step": 7900
2838
+ },
2839
+ {
2840
+ "epoch": 0.43399638336347196,
2841
+ "grad_norm": 1.8521897792816162,
2842
+ "learning_rate": 0.0001,
2843
+ "loss": 0.7546,
2844
+ "step": 7920
2845
+ },
2846
+ {
2847
+ "epoch": 0.435092333826511,
2848
+ "grad_norm": 2.145947217941284,
2849
+ "learning_rate": 0.0001,
2850
+ "loss": 0.7992,
2851
+ "step": 7940
2852
+ },
2853
+ {
2854
+ "epoch": 0.4361882842895501,
2855
+ "grad_norm": 1.7739931344985962,
2856
+ "learning_rate": 0.0001,
2857
+ "loss": 0.7133,
2858
+ "step": 7960
2859
+ },
2860
+ {
2861
+ "epoch": 0.4372842347525892,
2862
+ "grad_norm": 1.6032921075820923,
2863
+ "learning_rate": 0.0001,
2864
+ "loss": 0.8207,
2865
+ "step": 7980
2866
+ },
2867
+ {
2868
+ "epoch": 0.43838018521562827,
2869
+ "grad_norm": 2.1895668506622314,
2870
+ "learning_rate": 0.0001,
2871
+ "loss": 0.7638,
2872
+ "step": 8000
2873
+ },
2874
+ {
2875
+ "epoch": 0.43838018521562827,
2876
+ "eval_loss": 0.770411491394043,
2877
+ "eval_runtime": 30675.7059,
2878
+ "eval_samples_per_second": 2.115,
2879
+ "eval_steps_per_second": 0.066,
2880
+ "eval_wer": 43.10069742838263,
2881
+ "step": 8000
2882
+ }
2883
+ ],
2884
+ "logging_steps": 20,
2885
+ "max_steps": 54747,
2886
+ "num_input_tokens_seen": 0,
2887
+ "num_train_epochs": 3,
2888
+ "save_steps": 1000,
2889
+ "stateful_callbacks": {
2890
+ "TrainerControl": {
2891
+ "args": {
2892
+ "should_epoch_stop": false,
2893
+ "should_evaluate": false,
2894
+ "should_log": false,
2895
+ "should_save": true,
2896
+ "should_training_stop": false
2897
+ },
2898
+ "attributes": {}
2899
+ }
2900
+ },
2901
+ "total_flos": 3.578723706312065e+20,
2902
+ "train_batch_size": 8,
2903
+ "trial_name": null,
2904
+ "trial_params": null
2905
+ }