raiyan007 commited on
Commit
b2d0971
1 Parent(s): d10273b
Files changed (6) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +3 -0
  3. rng_state.pth +3 -0
  4. scheduler.pt +3 -0
  5. trainer_state.json +1177 -0
  6. training_args.bin +2 -2
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:981ad6637ebe478993821fba115789efe534de05b68ec78e58ef81a182e6060b
3
  size 290403936
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c4a87d1bdd63729eba67ec2664e3415bd1ee14cb6c5e39d16bbc13e39f8a5ca9
3
  size 290403936
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ecd26f408db59df6a2f85549ae0e5abffdcf14411891223eea5a5f8dd95840ef
3
+ size 574811514
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a7c93a397e9322e49f4ed50d18f810eaf2c39ecdb2985c95d248cd7a2fa2aa47
3
+ size 14244
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e88295c42365fd93a1c1de4d8be0425f3a739044af9fb1d0b4ef0f8c27295d60
3
+ size 1064
trainer_state.json ADDED
@@ -0,0 +1,1177 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 34.549659010739205,
3
+ "best_model_checkpoint": "./whisper-small-hi/checkpoint-4000",
4
+ "epoch": 2.546148949713558,
5
+ "eval_steps": 1000,
6
+ "global_step": 4000,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.015913430935709738,
13
+ "grad_norm": 6.266472339630127,
14
+ "learning_rate": 1.44e-05,
15
+ "loss": 1.7883,
16
+ "step": 25
17
+ },
18
+ {
19
+ "epoch": 0.031826861871419476,
20
+ "grad_norm": 11.293601989746094,
21
+ "learning_rate": 2.94e-05,
22
+ "loss": 1.3114,
23
+ "step": 50
24
+ },
25
+ {
26
+ "epoch": 0.047740292807129214,
27
+ "grad_norm": 11.253959655761719,
28
+ "learning_rate": 4.4399999999999995e-05,
29
+ "loss": 0.7712,
30
+ "step": 75
31
+ },
32
+ {
33
+ "epoch": 0.06365372374283895,
34
+ "grad_norm": 6.763392448425293,
35
+ "learning_rate": 5.94e-05,
36
+ "loss": 0.4958,
37
+ "step": 100
38
+ },
39
+ {
40
+ "epoch": 0.07956715467854869,
41
+ "grad_norm": 7.226134300231934,
42
+ "learning_rate": 7.439999999999999e-05,
43
+ "loss": 0.4231,
44
+ "step": 125
45
+ },
46
+ {
47
+ "epoch": 0.09548058561425843,
48
+ "grad_norm": 8.527499198913574,
49
+ "learning_rate": 8.939999999999999e-05,
50
+ "loss": 0.3815,
51
+ "step": 150
52
+ },
53
+ {
54
+ "epoch": 0.11139401654996817,
55
+ "grad_norm": 6.013850212097168,
56
+ "learning_rate": 0.00010439999999999999,
57
+ "loss": 0.3633,
58
+ "step": 175
59
+ },
60
+ {
61
+ "epoch": 0.1273074474856779,
62
+ "grad_norm": 5.921957015991211,
63
+ "learning_rate": 0.0001194,
64
+ "loss": 0.3564,
65
+ "step": 200
66
+ },
67
+ {
68
+ "epoch": 0.14322087842138764,
69
+ "grad_norm": 6.438776969909668,
70
+ "learning_rate": 0.0001344,
71
+ "loss": 0.3549,
72
+ "step": 225
73
+ },
74
+ {
75
+ "epoch": 0.15913430935709738,
76
+ "grad_norm": 6.543764114379883,
77
+ "learning_rate": 0.0001494,
78
+ "loss": 0.3298,
79
+ "step": 250
80
+ },
81
+ {
82
+ "epoch": 0.17504774029280712,
83
+ "grad_norm": 5.377121448516846,
84
+ "learning_rate": 0.0001644,
85
+ "loss": 0.3251,
86
+ "step": 275
87
+ },
88
+ {
89
+ "epoch": 0.19096117122851686,
90
+ "grad_norm": 6.325755596160889,
91
+ "learning_rate": 0.00017939999999999997,
92
+ "loss": 0.3319,
93
+ "step": 300
94
+ },
95
+ {
96
+ "epoch": 0.2068746021642266,
97
+ "grad_norm": 3.889002561569214,
98
+ "learning_rate": 0.00019439999999999998,
99
+ "loss": 0.3311,
100
+ "step": 325
101
+ },
102
+ {
103
+ "epoch": 0.22278803309993633,
104
+ "grad_norm": 4.005517482757568,
105
+ "learning_rate": 0.00020939999999999997,
106
+ "loss": 0.3388,
107
+ "step": 350
108
+ },
109
+ {
110
+ "epoch": 0.23870146403564607,
111
+ "grad_norm": 3.7465219497680664,
112
+ "learning_rate": 0.00022439999999999998,
113
+ "loss": 0.3304,
114
+ "step": 375
115
+ },
116
+ {
117
+ "epoch": 0.2546148949713558,
118
+ "grad_norm": 3.612300157546997,
119
+ "learning_rate": 0.0002394,
120
+ "loss": 0.3253,
121
+ "step": 400
122
+ },
123
+ {
124
+ "epoch": 0.27052832590706555,
125
+ "grad_norm": 2.8564534187316895,
126
+ "learning_rate": 0.00025439999999999995,
127
+ "loss": 0.325,
128
+ "step": 425
129
+ },
130
+ {
131
+ "epoch": 0.2864417568427753,
132
+ "grad_norm": 3.6657044887542725,
133
+ "learning_rate": 0.0002694,
134
+ "loss": 0.3362,
135
+ "step": 450
136
+ },
137
+ {
138
+ "epoch": 0.302355187778485,
139
+ "grad_norm": 6.07236385345459,
140
+ "learning_rate": 0.0002844,
141
+ "loss": 0.3396,
142
+ "step": 475
143
+ },
144
+ {
145
+ "epoch": 0.31826861871419476,
146
+ "grad_norm": 3.5293257236480713,
147
+ "learning_rate": 0.00029939999999999996,
148
+ "loss": 0.3265,
149
+ "step": 500
150
+ },
151
+ {
152
+ "epoch": 0.3341820496499045,
153
+ "grad_norm": 2.7845981121063232,
154
+ "learning_rate": 0.0002979428571428571,
155
+ "loss": 0.3066,
156
+ "step": 525
157
+ },
158
+ {
159
+ "epoch": 0.35009548058561424,
160
+ "grad_norm": 3.957970380783081,
161
+ "learning_rate": 0.0002958,
162
+ "loss": 0.3076,
163
+ "step": 550
164
+ },
165
+ {
166
+ "epoch": 0.366008911521324,
167
+ "grad_norm": 2.7481985092163086,
168
+ "learning_rate": 0.00029365714285714285,
169
+ "loss": 0.3181,
170
+ "step": 575
171
+ },
172
+ {
173
+ "epoch": 0.3819223424570337,
174
+ "grad_norm": 5.5784912109375,
175
+ "learning_rate": 0.0002915142857142857,
176
+ "loss": 0.325,
177
+ "step": 600
178
+ },
179
+ {
180
+ "epoch": 0.39783577339274345,
181
+ "grad_norm": 2.688514232635498,
182
+ "learning_rate": 0.0002893714285714285,
183
+ "loss": 0.2907,
184
+ "step": 625
185
+ },
186
+ {
187
+ "epoch": 0.4137492043284532,
188
+ "grad_norm": 1.8559094667434692,
189
+ "learning_rate": 0.0002872285714285714,
190
+ "loss": 0.2837,
191
+ "step": 650
192
+ },
193
+ {
194
+ "epoch": 0.42966263526416293,
195
+ "grad_norm": 2.075263023376465,
196
+ "learning_rate": 0.00028508571428571426,
197
+ "loss": 0.2884,
198
+ "step": 675
199
+ },
200
+ {
201
+ "epoch": 0.44557606619987267,
202
+ "grad_norm": 2.253748893737793,
203
+ "learning_rate": 0.00028294285714285713,
204
+ "loss": 0.2652,
205
+ "step": 700
206
+ },
207
+ {
208
+ "epoch": 0.4614894971355824,
209
+ "grad_norm": 2.5322704315185547,
210
+ "learning_rate": 0.0002808,
211
+ "loss": 0.2763,
212
+ "step": 725
213
+ },
214
+ {
215
+ "epoch": 0.47740292807129214,
216
+ "grad_norm": 2.8500661849975586,
217
+ "learning_rate": 0.0002786571428571428,
218
+ "loss": 0.2698,
219
+ "step": 750
220
+ },
221
+ {
222
+ "epoch": 0.49331635900700194,
223
+ "grad_norm": 2.4770638942718506,
224
+ "learning_rate": 0.0002765142857142857,
225
+ "loss": 0.2643,
226
+ "step": 775
227
+ },
228
+ {
229
+ "epoch": 0.5092297899427116,
230
+ "grad_norm": 2.8346035480499268,
231
+ "learning_rate": 0.00027437142857142854,
232
+ "loss": 0.2682,
233
+ "step": 800
234
+ },
235
+ {
236
+ "epoch": 0.5251432208784214,
237
+ "grad_norm": 2.551896095275879,
238
+ "learning_rate": 0.0002722285714285714,
239
+ "loss": 0.2484,
240
+ "step": 825
241
+ },
242
+ {
243
+ "epoch": 0.5410566518141311,
244
+ "grad_norm": 2.1376454830169678,
245
+ "learning_rate": 0.0002700857142857143,
246
+ "loss": 0.2433,
247
+ "step": 850
248
+ },
249
+ {
250
+ "epoch": 0.5569700827498408,
251
+ "grad_norm": 2.4351694583892822,
252
+ "learning_rate": 0.0002679428571428571,
253
+ "loss": 0.248,
254
+ "step": 875
255
+ },
256
+ {
257
+ "epoch": 0.5728835136855506,
258
+ "grad_norm": 2.142422914505005,
259
+ "learning_rate": 0.00026579999999999996,
260
+ "loss": 0.2592,
261
+ "step": 900
262
+ },
263
+ {
264
+ "epoch": 0.5887969446212603,
265
+ "grad_norm": 2.287863254547119,
266
+ "learning_rate": 0.0002636571428571428,
267
+ "loss": 0.2361,
268
+ "step": 925
269
+ },
270
+ {
271
+ "epoch": 0.60471037555697,
272
+ "grad_norm": 1.8011589050292969,
273
+ "learning_rate": 0.0002615142857142857,
274
+ "loss": 0.2349,
275
+ "step": 950
276
+ },
277
+ {
278
+ "epoch": 0.6206238064926798,
279
+ "grad_norm": 2.0155577659606934,
280
+ "learning_rate": 0.00025937142857142856,
281
+ "loss": 0.2343,
282
+ "step": 975
283
+ },
284
+ {
285
+ "epoch": 0.6365372374283895,
286
+ "grad_norm": 1.7602595090866089,
287
+ "learning_rate": 0.0002572285714285714,
288
+ "loss": 0.2369,
289
+ "step": 1000
290
+ },
291
+ {
292
+ "epoch": 0.6365372374283895,
293
+ "eval_loss": 0.24331499636173248,
294
+ "eval_runtime": 3161.0794,
295
+ "eval_samples_per_second": 2.642,
296
+ "eval_steps_per_second": 0.331,
297
+ "eval_wer": 62.18807974706697,
298
+ "step": 1000
299
+ },
300
+ {
301
+ "epoch": 0.6524506683640993,
302
+ "grad_norm": 2.084760904312134,
303
+ "learning_rate": 0.0002550857142857143,
304
+ "loss": 0.2352,
305
+ "step": 1025
306
+ },
307
+ {
308
+ "epoch": 0.668364099299809,
309
+ "grad_norm": 1.6412831544876099,
310
+ "learning_rate": 0.00025294285714285716,
311
+ "loss": 0.2242,
312
+ "step": 1050
313
+ },
314
+ {
315
+ "epoch": 0.6842775302355187,
316
+ "grad_norm": 1.3746275901794434,
317
+ "learning_rate": 0.00025079999999999997,
318
+ "loss": 0.2206,
319
+ "step": 1075
320
+ },
321
+ {
322
+ "epoch": 0.7001909611712285,
323
+ "grad_norm": 2.017609119415283,
324
+ "learning_rate": 0.00024865714285714284,
325
+ "loss": 0.2223,
326
+ "step": 1100
327
+ },
328
+ {
329
+ "epoch": 0.7161043921069382,
330
+ "grad_norm": 2.0669291019439697,
331
+ "learning_rate": 0.0002465142857142857,
332
+ "loss": 0.2233,
333
+ "step": 1125
334
+ },
335
+ {
336
+ "epoch": 0.732017823042648,
337
+ "grad_norm": 1.699652075767517,
338
+ "learning_rate": 0.00024437142857142857,
339
+ "loss": 0.1984,
340
+ "step": 1150
341
+ },
342
+ {
343
+ "epoch": 0.7479312539783577,
344
+ "grad_norm": 1.5082184076309204,
345
+ "learning_rate": 0.00024222857142857138,
346
+ "loss": 0.2143,
347
+ "step": 1175
348
+ },
349
+ {
350
+ "epoch": 0.7638446849140674,
351
+ "grad_norm": 1.363891363143921,
352
+ "learning_rate": 0.00024008571428571425,
353
+ "loss": 0.2067,
354
+ "step": 1200
355
+ },
356
+ {
357
+ "epoch": 0.7797581158497772,
358
+ "grad_norm": 1.3396174907684326,
359
+ "learning_rate": 0.00023794285714285712,
360
+ "loss": 0.2083,
361
+ "step": 1225
362
+ },
363
+ {
364
+ "epoch": 0.7956715467854869,
365
+ "grad_norm": 1.6803642511367798,
366
+ "learning_rate": 0.00023579999999999999,
367
+ "loss": 0.2072,
368
+ "step": 1250
369
+ },
370
+ {
371
+ "epoch": 0.8115849777211966,
372
+ "grad_norm": 1.8154999017715454,
373
+ "learning_rate": 0.00023365714285714283,
374
+ "loss": 0.2137,
375
+ "step": 1275
376
+ },
377
+ {
378
+ "epoch": 0.8274984086569064,
379
+ "grad_norm": 1.9345273971557617,
380
+ "learning_rate": 0.0002315142857142857,
381
+ "loss": 0.1854,
382
+ "step": 1300
383
+ },
384
+ {
385
+ "epoch": 0.8434118395926161,
386
+ "grad_norm": 1.8204659223556519,
387
+ "learning_rate": 0.00022937142857142856,
388
+ "loss": 0.1944,
389
+ "step": 1325
390
+ },
391
+ {
392
+ "epoch": 0.8593252705283259,
393
+ "grad_norm": 1.7036362886428833,
394
+ "learning_rate": 0.00022722857142857143,
395
+ "loss": 0.1925,
396
+ "step": 1350
397
+ },
398
+ {
399
+ "epoch": 0.8752387014640356,
400
+ "grad_norm": 1.5732781887054443,
401
+ "learning_rate": 0.0002250857142857143,
402
+ "loss": 0.2006,
403
+ "step": 1375
404
+ },
405
+ {
406
+ "epoch": 0.8911521323997453,
407
+ "grad_norm": 1.4482449293136597,
408
+ "learning_rate": 0.0002229428571428571,
409
+ "loss": 0.1814,
410
+ "step": 1400
411
+ },
412
+ {
413
+ "epoch": 0.9070655633354551,
414
+ "grad_norm": 1.474438190460205,
415
+ "learning_rate": 0.00022079999999999997,
416
+ "loss": 0.1876,
417
+ "step": 1425
418
+ },
419
+ {
420
+ "epoch": 0.9229789942711648,
421
+ "grad_norm": 1.6966629028320312,
422
+ "learning_rate": 0.00021865714285714284,
423
+ "loss": 0.186,
424
+ "step": 1450
425
+ },
426
+ {
427
+ "epoch": 0.9388924252068745,
428
+ "grad_norm": 1.6632884740829468,
429
+ "learning_rate": 0.0002165142857142857,
430
+ "loss": 0.1846,
431
+ "step": 1475
432
+ },
433
+ {
434
+ "epoch": 0.9548058561425843,
435
+ "grad_norm": 1.4217106103897095,
436
+ "learning_rate": 0.00021437142857142855,
437
+ "loss": 0.1714,
438
+ "step": 1500
439
+ },
440
+ {
441
+ "epoch": 0.9707192870782941,
442
+ "grad_norm": 1.280887484550476,
443
+ "learning_rate": 0.00021222857142857141,
444
+ "loss": 0.1794,
445
+ "step": 1525
446
+ },
447
+ {
448
+ "epoch": 0.9866327180140039,
449
+ "grad_norm": 1.7453186511993408,
450
+ "learning_rate": 0.00021008571428571428,
451
+ "loss": 0.1788,
452
+ "step": 1550
453
+ },
454
+ {
455
+ "epoch": 1.0025461489497136,
456
+ "grad_norm": 1.3471609354019165,
457
+ "learning_rate": 0.00020794285714285712,
458
+ "loss": 0.1631,
459
+ "step": 1575
460
+ },
461
+ {
462
+ "epoch": 1.0184595798854232,
463
+ "grad_norm": 1.6721386909484863,
464
+ "learning_rate": 0.0002058,
465
+ "loss": 0.1388,
466
+ "step": 1600
467
+ },
468
+ {
469
+ "epoch": 1.034373010821133,
470
+ "grad_norm": 1.3706496953964233,
471
+ "learning_rate": 0.00020365714285714283,
472
+ "loss": 0.139,
473
+ "step": 1625
474
+ },
475
+ {
476
+ "epoch": 1.0502864417568427,
477
+ "grad_norm": 1.8108116388320923,
478
+ "learning_rate": 0.0002015142857142857,
479
+ "loss": 0.1486,
480
+ "step": 1650
481
+ },
482
+ {
483
+ "epoch": 1.0661998726925526,
484
+ "grad_norm": 1.5080534219741821,
485
+ "learning_rate": 0.00019937142857142856,
486
+ "loss": 0.1431,
487
+ "step": 1675
488
+ },
489
+ {
490
+ "epoch": 1.0821133036282622,
491
+ "grad_norm": 1.377472996711731,
492
+ "learning_rate": 0.00019722857142857143,
493
+ "loss": 0.1493,
494
+ "step": 1700
495
+ },
496
+ {
497
+ "epoch": 1.098026734563972,
498
+ "grad_norm": 1.4746475219726562,
499
+ "learning_rate": 0.00019508571428571427,
500
+ "loss": 0.1386,
501
+ "step": 1725
502
+ },
503
+ {
504
+ "epoch": 1.1139401654996817,
505
+ "grad_norm": 1.4167110919952393,
506
+ "learning_rate": 0.0001929428571428571,
507
+ "loss": 0.144,
508
+ "step": 1750
509
+ },
510
+ {
511
+ "epoch": 1.1298535964353915,
512
+ "grad_norm": 1.4052375555038452,
513
+ "learning_rate": 0.00019079999999999998,
514
+ "loss": 0.1479,
515
+ "step": 1775
516
+ },
517
+ {
518
+ "epoch": 1.1457670273711011,
519
+ "grad_norm": 1.1903959512710571,
520
+ "learning_rate": 0.00018865714285714284,
521
+ "loss": 0.1319,
522
+ "step": 1800
523
+ },
524
+ {
525
+ "epoch": 1.161680458306811,
526
+ "grad_norm": 1.5119489431381226,
527
+ "learning_rate": 0.00018651428571428568,
528
+ "loss": 0.1408,
529
+ "step": 1825
530
+ },
531
+ {
532
+ "epoch": 1.1775938892425206,
533
+ "grad_norm": 1.2824383974075317,
534
+ "learning_rate": 0.00018437142857142855,
535
+ "loss": 0.1379,
536
+ "step": 1850
537
+ },
538
+ {
539
+ "epoch": 1.1935073201782305,
540
+ "grad_norm": 2.1692168712615967,
541
+ "learning_rate": 0.00018222857142857142,
542
+ "loss": 0.1411,
543
+ "step": 1875
544
+ },
545
+ {
546
+ "epoch": 1.20942075111394,
547
+ "grad_norm": 1.2325959205627441,
548
+ "learning_rate": 0.00018008571428571428,
549
+ "loss": 0.1333,
550
+ "step": 1900
551
+ },
552
+ {
553
+ "epoch": 1.22533418204965,
554
+ "grad_norm": 0.9051541090011597,
555
+ "learning_rate": 0.00017794285714285715,
556
+ "loss": 0.1523,
557
+ "step": 1925
558
+ },
559
+ {
560
+ "epoch": 1.2412476129853596,
561
+ "grad_norm": 1.3505010604858398,
562
+ "learning_rate": 0.00017579999999999996,
563
+ "loss": 0.1363,
564
+ "step": 1950
565
+ },
566
+ {
567
+ "epoch": 1.2571610439210694,
568
+ "grad_norm": 1.3619211912155151,
569
+ "learning_rate": 0.00017365714285714283,
570
+ "loss": 0.1308,
571
+ "step": 1975
572
+ },
573
+ {
574
+ "epoch": 1.273074474856779,
575
+ "grad_norm": 1.2368829250335693,
576
+ "learning_rate": 0.0001715142857142857,
577
+ "loss": 0.1242,
578
+ "step": 2000
579
+ },
580
+ {
581
+ "epoch": 1.273074474856779,
582
+ "eval_loss": 0.17340172827243805,
583
+ "eval_runtime": 3339.9389,
584
+ "eval_samples_per_second": 2.501,
585
+ "eval_steps_per_second": 0.313,
586
+ "eval_wer": 49.436910454391054,
587
+ "step": 2000
588
+ },
589
+ {
590
+ "epoch": 1.288987905792489,
591
+ "grad_norm": 1.3111966848373413,
592
+ "learning_rate": 0.00016937142857142856,
593
+ "loss": 0.1318,
594
+ "step": 2025
595
+ },
596
+ {
597
+ "epoch": 1.3049013367281985,
598
+ "grad_norm": 1.3677690029144287,
599
+ "learning_rate": 0.0001672285714285714,
600
+ "loss": 0.1368,
601
+ "step": 2050
602
+ },
603
+ {
604
+ "epoch": 1.3208147676639084,
605
+ "grad_norm": 1.1350477933883667,
606
+ "learning_rate": 0.00016508571428571427,
607
+ "loss": 0.1218,
608
+ "step": 2075
609
+ },
610
+ {
611
+ "epoch": 1.336728198599618,
612
+ "grad_norm": 1.4157230854034424,
613
+ "learning_rate": 0.00016294285714285714,
614
+ "loss": 0.1245,
615
+ "step": 2100
616
+ },
617
+ {
618
+ "epoch": 1.3526416295353278,
619
+ "grad_norm": 1.6313213109970093,
620
+ "learning_rate": 0.0001608,
621
+ "loss": 0.1249,
622
+ "step": 2125
623
+ },
624
+ {
625
+ "epoch": 1.3685550604710375,
626
+ "grad_norm": 1.1400282382965088,
627
+ "learning_rate": 0.00015865714285714282,
628
+ "loss": 0.1258,
629
+ "step": 2150
630
+ },
631
+ {
632
+ "epoch": 1.3844684914067473,
633
+ "grad_norm": 1.0388585329055786,
634
+ "learning_rate": 0.00015651428571428569,
635
+ "loss": 0.1278,
636
+ "step": 2175
637
+ },
638
+ {
639
+ "epoch": 1.400381922342457,
640
+ "grad_norm": 1.1972434520721436,
641
+ "learning_rate": 0.00015437142857142855,
642
+ "loss": 0.1294,
643
+ "step": 2200
644
+ },
645
+ {
646
+ "epoch": 1.4162953532781668,
647
+ "grad_norm": 1.5634195804595947,
648
+ "learning_rate": 0.00015222857142857142,
649
+ "loss": 0.122,
650
+ "step": 2225
651
+ },
652
+ {
653
+ "epoch": 1.4322087842138764,
654
+ "grad_norm": 1.0193285942077637,
655
+ "learning_rate": 0.00015008571428571429,
656
+ "loss": 0.116,
657
+ "step": 2250
658
+ },
659
+ {
660
+ "epoch": 1.4481222151495863,
661
+ "grad_norm": 1.2780238389968872,
662
+ "learning_rate": 0.00014794285714285713,
663
+ "loss": 0.124,
664
+ "step": 2275
665
+ },
666
+ {
667
+ "epoch": 1.464035646085296,
668
+ "grad_norm": 1.1720143556594849,
669
+ "learning_rate": 0.0001458,
670
+ "loss": 0.1267,
671
+ "step": 2300
672
+ },
673
+ {
674
+ "epoch": 1.4799490770210058,
675
+ "grad_norm": 1.1181762218475342,
676
+ "learning_rate": 0.00014365714285714286,
677
+ "loss": 0.1131,
678
+ "step": 2325
679
+ },
680
+ {
681
+ "epoch": 1.4958625079567156,
682
+ "grad_norm": 1.2259148359298706,
683
+ "learning_rate": 0.0001415142857142857,
684
+ "loss": 0.1121,
685
+ "step": 2350
686
+ },
687
+ {
688
+ "epoch": 1.5117759388924252,
689
+ "grad_norm": 1.2877577543258667,
690
+ "learning_rate": 0.00013937142857142857,
691
+ "loss": 0.1125,
692
+ "step": 2375
693
+ },
694
+ {
695
+ "epoch": 1.5276893698281349,
696
+ "grad_norm": 0.9741705656051636,
697
+ "learning_rate": 0.0001372285714285714,
698
+ "loss": 0.1122,
699
+ "step": 2400
700
+ },
701
+ {
702
+ "epoch": 1.5436028007638447,
703
+ "grad_norm": 1.1237064599990845,
704
+ "learning_rate": 0.00013508571428571427,
705
+ "loss": 0.1135,
706
+ "step": 2425
707
+ },
708
+ {
709
+ "epoch": 1.5595162316995546,
710
+ "grad_norm": 0.9983360767364502,
711
+ "learning_rate": 0.00013294285714285711,
712
+ "loss": 0.1053,
713
+ "step": 2450
714
+ },
715
+ {
716
+ "epoch": 1.5754296626352642,
717
+ "grad_norm": 0.941571831703186,
718
+ "learning_rate": 0.00013079999999999998,
719
+ "loss": 0.1104,
720
+ "step": 2475
721
+ },
722
+ {
723
+ "epoch": 1.5913430935709738,
724
+ "grad_norm": 0.8732393383979797,
725
+ "learning_rate": 0.00012865714285714285,
726
+ "loss": 0.1073,
727
+ "step": 2500
728
+ },
729
+ {
730
+ "epoch": 1.6072565245066837,
731
+ "grad_norm": 1.1299751996994019,
732
+ "learning_rate": 0.0001265142857142857,
733
+ "loss": 0.1121,
734
+ "step": 2525
735
+ },
736
+ {
737
+ "epoch": 1.6231699554423935,
738
+ "grad_norm": 0.8921777606010437,
739
+ "learning_rate": 0.00012437142857142855,
740
+ "loss": 0.1097,
741
+ "step": 2550
742
+ },
743
+ {
744
+ "epoch": 1.6390833863781031,
745
+ "grad_norm": 0.8513890504837036,
746
+ "learning_rate": 0.00012222857142857142,
747
+ "loss": 0.1082,
748
+ "step": 2575
749
+ },
750
+ {
751
+ "epoch": 1.6549968173138128,
752
+ "grad_norm": 1.0893051624298096,
753
+ "learning_rate": 0.00012008571428571428,
754
+ "loss": 0.1029,
755
+ "step": 2600
756
+ },
757
+ {
758
+ "epoch": 1.6709102482495226,
759
+ "grad_norm": 0.8744276165962219,
760
+ "learning_rate": 0.00011794285714285713,
761
+ "loss": 0.1086,
762
+ "step": 2625
763
+ },
764
+ {
765
+ "epoch": 1.6868236791852325,
766
+ "grad_norm": 1.1604117155075073,
767
+ "learning_rate": 0.0001158,
768
+ "loss": 0.1008,
769
+ "step": 2650
770
+ },
771
+ {
772
+ "epoch": 1.702737110120942,
773
+ "grad_norm": 0.9912447929382324,
774
+ "learning_rate": 0.00011365714285714284,
775
+ "loss": 0.1022,
776
+ "step": 2675
777
+ },
778
+ {
779
+ "epoch": 1.7186505410566517,
780
+ "grad_norm": 1.088443636894226,
781
+ "learning_rate": 0.0001115142857142857,
782
+ "loss": 0.1029,
783
+ "step": 2700
784
+ },
785
+ {
786
+ "epoch": 1.7345639719923616,
787
+ "grad_norm": 1.1775622367858887,
788
+ "learning_rate": 0.00010937142857142856,
789
+ "loss": 0.1041,
790
+ "step": 2725
791
+ },
792
+ {
793
+ "epoch": 1.7504774029280714,
794
+ "grad_norm": 1.1188244819641113,
795
+ "learning_rate": 0.00010722857142857142,
796
+ "loss": 0.1068,
797
+ "step": 2750
798
+ },
799
+ {
800
+ "epoch": 1.766390833863781,
801
+ "grad_norm": 0.9570010900497437,
802
+ "learning_rate": 0.00010508571428571429,
803
+ "loss": 0.098,
804
+ "step": 2775
805
+ },
806
+ {
807
+ "epoch": 1.7823042647994907,
808
+ "grad_norm": 1.4812625646591187,
809
+ "learning_rate": 0.00010294285714285713,
810
+ "loss": 0.0949,
811
+ "step": 2800
812
+ },
813
+ {
814
+ "epoch": 1.7982176957352005,
815
+ "grad_norm": 0.8738514184951782,
816
+ "learning_rate": 0.0001008,
817
+ "loss": 0.1003,
818
+ "step": 2825
819
+ },
820
+ {
821
+ "epoch": 1.8141311266709104,
822
+ "grad_norm": 0.9198557734489441,
823
+ "learning_rate": 9.865714285714285e-05,
824
+ "loss": 0.0913,
825
+ "step": 2850
826
+ },
827
+ {
828
+ "epoch": 1.83004455760662,
829
+ "grad_norm": 0.8232097625732422,
830
+ "learning_rate": 9.65142857142857e-05,
831
+ "loss": 0.1017,
832
+ "step": 2875
833
+ },
834
+ {
835
+ "epoch": 1.8459579885423296,
836
+ "grad_norm": 0.7927132844924927,
837
+ "learning_rate": 9.437142857142856e-05,
838
+ "loss": 0.1006,
839
+ "step": 2900
840
+ },
841
+ {
842
+ "epoch": 1.8618714194780395,
843
+ "grad_norm": 0.8228179812431335,
844
+ "learning_rate": 9.222857142857142e-05,
845
+ "loss": 0.0954,
846
+ "step": 2925
847
+ },
848
+ {
849
+ "epoch": 1.8777848504137493,
850
+ "grad_norm": 1.0207316875457764,
851
+ "learning_rate": 9.008571428571428e-05,
852
+ "loss": 0.1015,
853
+ "step": 2950
854
+ },
855
+ {
856
+ "epoch": 1.893698281349459,
857
+ "grad_norm": 1.3909655809402466,
858
+ "learning_rate": 8.794285714285713e-05,
859
+ "loss": 0.0966,
860
+ "step": 2975
861
+ },
862
+ {
863
+ "epoch": 1.9096117122851686,
864
+ "grad_norm": 0.8367329835891724,
865
+ "learning_rate": 8.579999999999998e-05,
866
+ "loss": 0.1022,
867
+ "step": 3000
868
+ },
869
+ {
870
+ "epoch": 1.9096117122851686,
871
+ "eval_loss": 0.11972030252218246,
872
+ "eval_runtime": 3680.6627,
873
+ "eval_samples_per_second": 2.269,
874
+ "eval_steps_per_second": 0.284,
875
+ "eval_wer": 39.05306890334718,
876
+ "step": 3000
877
+ },
878
+ {
879
+ "epoch": 1.9255251432208784,
880
+ "grad_norm": 0.8776394724845886,
881
+ "learning_rate": 8.365714285714285e-05,
882
+ "loss": 0.0951,
883
+ "step": 3025
884
+ },
885
+ {
886
+ "epoch": 1.9414385741565883,
887
+ "grad_norm": 0.7883875966072083,
888
+ "learning_rate": 8.151428571428572e-05,
889
+ "loss": 0.0887,
890
+ "step": 3050
891
+ },
892
+ {
893
+ "epoch": 1.957352005092298,
894
+ "grad_norm": 0.9402434229850769,
895
+ "learning_rate": 7.937142857142856e-05,
896
+ "loss": 0.0989,
897
+ "step": 3075
898
+ },
899
+ {
900
+ "epoch": 1.9732654360280075,
901
+ "grad_norm": 0.9308575391769409,
902
+ "learning_rate": 7.722857142857143e-05,
903
+ "loss": 0.0913,
904
+ "step": 3100
905
+ },
906
+ {
907
+ "epoch": 1.9891788669637174,
908
+ "grad_norm": 0.8554713129997253,
909
+ "learning_rate": 7.508571428571428e-05,
910
+ "loss": 0.0841,
911
+ "step": 3125
912
+ },
913
+ {
914
+ "epoch": 2.0050922978994272,
915
+ "grad_norm": 0.6500595211982727,
916
+ "learning_rate": 7.294285714285713e-05,
917
+ "loss": 0.0778,
918
+ "step": 3150
919
+ },
920
+ {
921
+ "epoch": 2.021005728835137,
922
+ "grad_norm": 0.8015878200531006,
923
+ "learning_rate": 7.079999999999999e-05,
924
+ "loss": 0.0485,
925
+ "step": 3175
926
+ },
927
+ {
928
+ "epoch": 2.0369191597708465,
929
+ "grad_norm": 0.9871166944503784,
930
+ "learning_rate": 6.865714285714285e-05,
931
+ "loss": 0.0538,
932
+ "step": 3200
933
+ },
934
+ {
935
+ "epoch": 2.0528325907065565,
936
+ "grad_norm": 0.7539300918579102,
937
+ "learning_rate": 6.65142857142857e-05,
938
+ "loss": 0.0567,
939
+ "step": 3225
940
+ },
941
+ {
942
+ "epoch": 2.068746021642266,
943
+ "grad_norm": 0.7191395163536072,
944
+ "learning_rate": 6.437142857142857e-05,
945
+ "loss": 0.0474,
946
+ "step": 3250
947
+ },
948
+ {
949
+ "epoch": 2.084659452577976,
950
+ "grad_norm": 0.8346642851829529,
951
+ "learning_rate": 6.222857142857143e-05,
952
+ "loss": 0.0565,
953
+ "step": 3275
954
+ },
955
+ {
956
+ "epoch": 2.1005728835136854,
957
+ "grad_norm": 0.890232264995575,
958
+ "learning_rate": 6.008571428571428e-05,
959
+ "loss": 0.0513,
960
+ "step": 3300
961
+ },
962
+ {
963
+ "epoch": 2.1164863144493955,
964
+ "grad_norm": 0.7644281983375549,
965
+ "learning_rate": 5.794285714285714e-05,
966
+ "loss": 0.0494,
967
+ "step": 3325
968
+ },
969
+ {
970
+ "epoch": 2.132399745385105,
971
+ "grad_norm": 1.0637160539627075,
972
+ "learning_rate": 5.5799999999999994e-05,
973
+ "loss": 0.0481,
974
+ "step": 3350
975
+ },
976
+ {
977
+ "epoch": 2.1483131763208148,
978
+ "grad_norm": 0.7097823619842529,
979
+ "learning_rate": 5.3657142857142855e-05,
980
+ "loss": 0.0466,
981
+ "step": 3375
982
+ },
983
+ {
984
+ "epoch": 2.1642266072565244,
985
+ "grad_norm": 1.0402812957763672,
986
+ "learning_rate": 5.151428571428571e-05,
987
+ "loss": 0.053,
988
+ "step": 3400
989
+ },
990
+ {
991
+ "epoch": 2.1801400381922345,
992
+ "grad_norm": 1.0634698867797852,
993
+ "learning_rate": 4.937142857142856e-05,
994
+ "loss": 0.0486,
995
+ "step": 3425
996
+ },
997
+ {
998
+ "epoch": 2.196053469127944,
999
+ "grad_norm": 0.5193982720375061,
1000
+ "learning_rate": 4.722857142857142e-05,
1001
+ "loss": 0.0468,
1002
+ "step": 3450
1003
+ },
1004
+ {
1005
+ "epoch": 2.2119669000636537,
1006
+ "grad_norm": 0.6877008676528931,
1007
+ "learning_rate": 4.5085714285714275e-05,
1008
+ "loss": 0.0489,
1009
+ "step": 3475
1010
+ },
1011
+ {
1012
+ "epoch": 2.2278803309993633,
1013
+ "grad_norm": 0.7828670740127563,
1014
+ "learning_rate": 4.294285714285714e-05,
1015
+ "loss": 0.0461,
1016
+ "step": 3500
1017
+ },
1018
+ {
1019
+ "epoch": 2.2437937619350734,
1020
+ "grad_norm": 0.714133620262146,
1021
+ "learning_rate": 4.08e-05,
1022
+ "loss": 0.047,
1023
+ "step": 3525
1024
+ },
1025
+ {
1026
+ "epoch": 2.259707192870783,
1027
+ "grad_norm": 0.6755720376968384,
1028
+ "learning_rate": 3.8657142857142856e-05,
1029
+ "loss": 0.0456,
1030
+ "step": 3550
1031
+ },
1032
+ {
1033
+ "epoch": 2.2756206238064927,
1034
+ "grad_norm": 0.908721387386322,
1035
+ "learning_rate": 3.651428571428571e-05,
1036
+ "loss": 0.0427,
1037
+ "step": 3575
1038
+ },
1039
+ {
1040
+ "epoch": 2.2915340547422023,
1041
+ "grad_norm": 0.703593373298645,
1042
+ "learning_rate": 3.437142857142857e-05,
1043
+ "loss": 0.049,
1044
+ "step": 3600
1045
+ },
1046
+ {
1047
+ "epoch": 2.307447485677912,
1048
+ "grad_norm": 0.46566998958587646,
1049
+ "learning_rate": 3.222857142857142e-05,
1050
+ "loss": 0.0436,
1051
+ "step": 3625
1052
+ },
1053
+ {
1054
+ "epoch": 2.323360916613622,
1055
+ "grad_norm": 0.7065137028694153,
1056
+ "learning_rate": 3.0085714285714283e-05,
1057
+ "loss": 0.0429,
1058
+ "step": 3650
1059
+ },
1060
+ {
1061
+ "epoch": 2.3392743475493316,
1062
+ "grad_norm": 0.7245275974273682,
1063
+ "learning_rate": 2.794285714285714e-05,
1064
+ "loss": 0.0436,
1065
+ "step": 3675
1066
+ },
1067
+ {
1068
+ "epoch": 2.3551877784850412,
1069
+ "grad_norm": 0.5561261177062988,
1070
+ "learning_rate": 2.5799999999999997e-05,
1071
+ "loss": 0.0466,
1072
+ "step": 3700
1073
+ },
1074
+ {
1075
+ "epoch": 2.3711012094207513,
1076
+ "grad_norm": 0.6039161086082458,
1077
+ "learning_rate": 2.3657142857142857e-05,
1078
+ "loss": 0.0416,
1079
+ "step": 3725
1080
+ },
1081
+ {
1082
+ "epoch": 2.387014640356461,
1083
+ "grad_norm": 0.5791841149330139,
1084
+ "learning_rate": 2.1514285714285714e-05,
1085
+ "loss": 0.042,
1086
+ "step": 3750
1087
+ },
1088
+ {
1089
+ "epoch": 2.4029280712921706,
1090
+ "grad_norm": 0.5699833631515503,
1091
+ "learning_rate": 1.937142857142857e-05,
1092
+ "loss": 0.0433,
1093
+ "step": 3775
1094
+ },
1095
+ {
1096
+ "epoch": 2.41884150222788,
1097
+ "grad_norm": 0.8795793056488037,
1098
+ "learning_rate": 1.7228571428571428e-05,
1099
+ "loss": 0.0428,
1100
+ "step": 3800
1101
+ },
1102
+ {
1103
+ "epoch": 2.4347549331635903,
1104
+ "grad_norm": 0.7127372622489929,
1105
+ "learning_rate": 1.5085714285714285e-05,
1106
+ "loss": 0.0386,
1107
+ "step": 3825
1108
+ },
1109
+ {
1110
+ "epoch": 2.4506683640993,
1111
+ "grad_norm": 0.7226797342300415,
1112
+ "learning_rate": 1.2942857142857141e-05,
1113
+ "loss": 0.0443,
1114
+ "step": 3850
1115
+ },
1116
+ {
1117
+ "epoch": 2.4665817950350095,
1118
+ "grad_norm": 0.738706648349762,
1119
+ "learning_rate": 1.0799999999999998e-05,
1120
+ "loss": 0.0426,
1121
+ "step": 3875
1122
+ },
1123
+ {
1124
+ "epoch": 2.482495225970719,
1125
+ "grad_norm": 0.9381580352783203,
1126
+ "learning_rate": 8.657142857142855e-06,
1127
+ "loss": 0.0436,
1128
+ "step": 3900
1129
+ },
1130
+ {
1131
+ "epoch": 2.498408656906429,
1132
+ "grad_norm": 0.863370418548584,
1133
+ "learning_rate": 6.514285714285714e-06,
1134
+ "loss": 0.0436,
1135
+ "step": 3925
1136
+ },
1137
+ {
1138
+ "epoch": 2.514322087842139,
1139
+ "grad_norm": 0.7624787092208862,
1140
+ "learning_rate": 4.371428571428571e-06,
1141
+ "loss": 0.0427,
1142
+ "step": 3950
1143
+ },
1144
+ {
1145
+ "epoch": 2.5302355187778485,
1146
+ "grad_norm": 0.6790493726730347,
1147
+ "learning_rate": 2.228571428571428e-06,
1148
+ "loss": 0.0423,
1149
+ "step": 3975
1150
+ },
1151
+ {
1152
+ "epoch": 2.546148949713558,
1153
+ "grad_norm": 0.7205957174301147,
1154
+ "learning_rate": 8.571428571428572e-08,
1155
+ "loss": 0.046,
1156
+ "step": 4000
1157
+ },
1158
+ {
1159
+ "epoch": 2.546148949713558,
1160
+ "eval_loss": 0.10670246928930283,
1161
+ "eval_runtime": 3687.1388,
1162
+ "eval_samples_per_second": 2.265,
1163
+ "eval_steps_per_second": 0.283,
1164
+ "eval_wer": 34.549659010739205,
1165
+ "step": 4000
1166
+ }
1167
+ ],
1168
+ "logging_steps": 25,
1169
+ "max_steps": 4000,
1170
+ "num_input_tokens_seen": 0,
1171
+ "num_train_epochs": 3,
1172
+ "save_steps": 1000,
1173
+ "total_flos": 4.15026143428608e+18,
1174
+ "train_batch_size": 8,
1175
+ "trial_name": null,
1176
+ "trial_params": null
1177
+ }
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bf5b63d3f1c4d65ecbb09db96f5af94aedb9a779b82935c28e2defd51e78b2e4
3
- size 5240
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:732ebdff1db4d788549bb01f769a1897c9bcdd43f11ac888330d69d60a4f1e52
3
+ size 5112