peterhung commited on
Commit
e711ddf
1 Parent(s): 2424e21

Add best model

Browse files
config.json ADDED
@@ -0,0 +1,1089 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "xlm-roberta-large",
3
+ "architectures": [
4
+ "XLMRobertaForTokenClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 1024,
14
+ "id2label": {
15
+ "0": "LABEL_0",
16
+ "1": "LABEL_1",
17
+ "2": "LABEL_2",
18
+ "3": "LABEL_3",
19
+ "4": "LABEL_4",
20
+ "5": "LABEL_5",
21
+ "6": "LABEL_6",
22
+ "7": "LABEL_7",
23
+ "8": "LABEL_8",
24
+ "9": "LABEL_9",
25
+ "10": "LABEL_10",
26
+ "11": "LABEL_11",
27
+ "12": "LABEL_12",
28
+ "13": "LABEL_13",
29
+ "14": "LABEL_14",
30
+ "15": "LABEL_15",
31
+ "16": "LABEL_16",
32
+ "17": "LABEL_17",
33
+ "18": "LABEL_18",
34
+ "19": "LABEL_19",
35
+ "20": "LABEL_20",
36
+ "21": "LABEL_21",
37
+ "22": "LABEL_22",
38
+ "23": "LABEL_23",
39
+ "24": "LABEL_24",
40
+ "25": "LABEL_25",
41
+ "26": "LABEL_26",
42
+ "27": "LABEL_27",
43
+ "28": "LABEL_28",
44
+ "29": "LABEL_29",
45
+ "30": "LABEL_30",
46
+ "31": "LABEL_31",
47
+ "32": "LABEL_32",
48
+ "33": "LABEL_33",
49
+ "34": "LABEL_34",
50
+ "35": "LABEL_35",
51
+ "36": "LABEL_36",
52
+ "37": "LABEL_37",
53
+ "38": "LABEL_38",
54
+ "39": "LABEL_39",
55
+ "40": "LABEL_40",
56
+ "41": "LABEL_41",
57
+ "42": "LABEL_42",
58
+ "43": "LABEL_43",
59
+ "44": "LABEL_44",
60
+ "45": "LABEL_45",
61
+ "46": "LABEL_46",
62
+ "47": "LABEL_47",
63
+ "48": "LABEL_48",
64
+ "49": "LABEL_49",
65
+ "50": "LABEL_50",
66
+ "51": "LABEL_51",
67
+ "52": "LABEL_52",
68
+ "53": "LABEL_53",
69
+ "54": "LABEL_54",
70
+ "55": "LABEL_55",
71
+ "56": "LABEL_56",
72
+ "57": "LABEL_57",
73
+ "58": "LABEL_58",
74
+ "59": "LABEL_59",
75
+ "60": "LABEL_60",
76
+ "61": "LABEL_61",
77
+ "62": "LABEL_62",
78
+ "63": "LABEL_63",
79
+ "64": "LABEL_64",
80
+ "65": "LABEL_65",
81
+ "66": "LABEL_66",
82
+ "67": "LABEL_67",
83
+ "68": "LABEL_68",
84
+ "69": "LABEL_69",
85
+ "70": "LABEL_70",
86
+ "71": "LABEL_71",
87
+ "72": "LABEL_72",
88
+ "73": "LABEL_73",
89
+ "74": "LABEL_74",
90
+ "75": "LABEL_75",
91
+ "76": "LABEL_76",
92
+ "77": "LABEL_77",
93
+ "78": "LABEL_78",
94
+ "79": "LABEL_79",
95
+ "80": "LABEL_80",
96
+ "81": "LABEL_81",
97
+ "82": "LABEL_82",
98
+ "83": "LABEL_83",
99
+ "84": "LABEL_84",
100
+ "85": "LABEL_85",
101
+ "86": "LABEL_86",
102
+ "87": "LABEL_87",
103
+ "88": "LABEL_88",
104
+ "89": "LABEL_89",
105
+ "90": "LABEL_90",
106
+ "91": "LABEL_91",
107
+ "92": "LABEL_92",
108
+ "93": "LABEL_93",
109
+ "94": "LABEL_94",
110
+ "95": "LABEL_95",
111
+ "96": "LABEL_96",
112
+ "97": "LABEL_97",
113
+ "98": "LABEL_98",
114
+ "99": "LABEL_99",
115
+ "100": "LABEL_100",
116
+ "101": "LABEL_101",
117
+ "102": "LABEL_102",
118
+ "103": "LABEL_103",
119
+ "104": "LABEL_104",
120
+ "105": "LABEL_105",
121
+ "106": "LABEL_106",
122
+ "107": "LABEL_107",
123
+ "108": "LABEL_108",
124
+ "109": "LABEL_109",
125
+ "110": "LABEL_110",
126
+ "111": "LABEL_111",
127
+ "112": "LABEL_112",
128
+ "113": "LABEL_113",
129
+ "114": "LABEL_114",
130
+ "115": "LABEL_115",
131
+ "116": "LABEL_116",
132
+ "117": "LABEL_117",
133
+ "118": "LABEL_118",
134
+ "119": "LABEL_119",
135
+ "120": "LABEL_120",
136
+ "121": "LABEL_121",
137
+ "122": "LABEL_122",
138
+ "123": "LABEL_123",
139
+ "124": "LABEL_124",
140
+ "125": "LABEL_125",
141
+ "126": "LABEL_126",
142
+ "127": "LABEL_127",
143
+ "128": "LABEL_128",
144
+ "129": "LABEL_129",
145
+ "130": "LABEL_130",
146
+ "131": "LABEL_131",
147
+ "132": "LABEL_132",
148
+ "133": "LABEL_133",
149
+ "134": "LABEL_134",
150
+ "135": "LABEL_135",
151
+ "136": "LABEL_136",
152
+ "137": "LABEL_137",
153
+ "138": "LABEL_138",
154
+ "139": "LABEL_139",
155
+ "140": "LABEL_140",
156
+ "141": "LABEL_141",
157
+ "142": "LABEL_142",
158
+ "143": "LABEL_143",
159
+ "144": "LABEL_144",
160
+ "145": "LABEL_145",
161
+ "146": "LABEL_146",
162
+ "147": "LABEL_147",
163
+ "148": "LABEL_148",
164
+ "149": "LABEL_149",
165
+ "150": "LABEL_150",
166
+ "151": "LABEL_151",
167
+ "152": "LABEL_152",
168
+ "153": "LABEL_153",
169
+ "154": "LABEL_154",
170
+ "155": "LABEL_155",
171
+ "156": "LABEL_156",
172
+ "157": "LABEL_157",
173
+ "158": "LABEL_158",
174
+ "159": "LABEL_159",
175
+ "160": "LABEL_160",
176
+ "161": "LABEL_161",
177
+ "162": "LABEL_162",
178
+ "163": "LABEL_163",
179
+ "164": "LABEL_164",
180
+ "165": "LABEL_165",
181
+ "166": "LABEL_166",
182
+ "167": "LABEL_167",
183
+ "168": "LABEL_168",
184
+ "169": "LABEL_169",
185
+ "170": "LABEL_170",
186
+ "171": "LABEL_171",
187
+ "172": "LABEL_172",
188
+ "173": "LABEL_173",
189
+ "174": "LABEL_174",
190
+ "175": "LABEL_175",
191
+ "176": "LABEL_176",
192
+ "177": "LABEL_177",
193
+ "178": "LABEL_178",
194
+ "179": "LABEL_179",
195
+ "180": "LABEL_180",
196
+ "181": "LABEL_181",
197
+ "182": "LABEL_182",
198
+ "183": "LABEL_183",
199
+ "184": "LABEL_184",
200
+ "185": "LABEL_185",
201
+ "186": "LABEL_186",
202
+ "187": "LABEL_187",
203
+ "188": "LABEL_188",
204
+ "189": "LABEL_189",
205
+ "190": "LABEL_190",
206
+ "191": "LABEL_191",
207
+ "192": "LABEL_192",
208
+ "193": "LABEL_193",
209
+ "194": "LABEL_194",
210
+ "195": "LABEL_195",
211
+ "196": "LABEL_196",
212
+ "197": "LABEL_197",
213
+ "198": "LABEL_198",
214
+ "199": "LABEL_199",
215
+ "200": "LABEL_200",
216
+ "201": "LABEL_201",
217
+ "202": "LABEL_202",
218
+ "203": "LABEL_203",
219
+ "204": "LABEL_204",
220
+ "205": "LABEL_205",
221
+ "206": "LABEL_206",
222
+ "207": "LABEL_207",
223
+ "208": "LABEL_208",
224
+ "209": "LABEL_209",
225
+ "210": "LABEL_210",
226
+ "211": "LABEL_211",
227
+ "212": "LABEL_212",
228
+ "213": "LABEL_213",
229
+ "214": "LABEL_214",
230
+ "215": "LABEL_215",
231
+ "216": "LABEL_216",
232
+ "217": "LABEL_217",
233
+ "218": "LABEL_218",
234
+ "219": "LABEL_219",
235
+ "220": "LABEL_220",
236
+ "221": "LABEL_221",
237
+ "222": "LABEL_222",
238
+ "223": "LABEL_223",
239
+ "224": "LABEL_224",
240
+ "225": "LABEL_225",
241
+ "226": "LABEL_226",
242
+ "227": "LABEL_227",
243
+ "228": "LABEL_228",
244
+ "229": "LABEL_229",
245
+ "230": "LABEL_230",
246
+ "231": "LABEL_231",
247
+ "232": "LABEL_232",
248
+ "233": "LABEL_233",
249
+ "234": "LABEL_234",
250
+ "235": "LABEL_235",
251
+ "236": "LABEL_236",
252
+ "237": "LABEL_237",
253
+ "238": "LABEL_238",
254
+ "239": "LABEL_239",
255
+ "240": "LABEL_240",
256
+ "241": "LABEL_241",
257
+ "242": "LABEL_242",
258
+ "243": "LABEL_243",
259
+ "244": "LABEL_244",
260
+ "245": "LABEL_245",
261
+ "246": "LABEL_246",
262
+ "247": "LABEL_247",
263
+ "248": "LABEL_248",
264
+ "249": "LABEL_249",
265
+ "250": "LABEL_250",
266
+ "251": "LABEL_251",
267
+ "252": "LABEL_252",
268
+ "253": "LABEL_253",
269
+ "254": "LABEL_254",
270
+ "255": "LABEL_255",
271
+ "256": "LABEL_256",
272
+ "257": "LABEL_257",
273
+ "258": "LABEL_258",
274
+ "259": "LABEL_259",
275
+ "260": "LABEL_260",
276
+ "261": "LABEL_261",
277
+ "262": "LABEL_262",
278
+ "263": "LABEL_263",
279
+ "264": "LABEL_264",
280
+ "265": "LABEL_265",
281
+ "266": "LABEL_266",
282
+ "267": "LABEL_267",
283
+ "268": "LABEL_268",
284
+ "269": "LABEL_269",
285
+ "270": "LABEL_270",
286
+ "271": "LABEL_271",
287
+ "272": "LABEL_272",
288
+ "273": "LABEL_273",
289
+ "274": "LABEL_274",
290
+ "275": "LABEL_275",
291
+ "276": "LABEL_276",
292
+ "277": "LABEL_277",
293
+ "278": "LABEL_278",
294
+ "279": "LABEL_279",
295
+ "280": "LABEL_280",
296
+ "281": "LABEL_281",
297
+ "282": "LABEL_282",
298
+ "283": "LABEL_283",
299
+ "284": "LABEL_284",
300
+ "285": "LABEL_285",
301
+ "286": "LABEL_286",
302
+ "287": "LABEL_287",
303
+ "288": "LABEL_288",
304
+ "289": "LABEL_289",
305
+ "290": "LABEL_290",
306
+ "291": "LABEL_291",
307
+ "292": "LABEL_292",
308
+ "293": "LABEL_293",
309
+ "294": "LABEL_294",
310
+ "295": "LABEL_295",
311
+ "296": "LABEL_296",
312
+ "297": "LABEL_297",
313
+ "298": "LABEL_298",
314
+ "299": "LABEL_299",
315
+ "300": "LABEL_300",
316
+ "301": "LABEL_301",
317
+ "302": "LABEL_302",
318
+ "303": "LABEL_303",
319
+ "304": "LABEL_304",
320
+ "305": "LABEL_305",
321
+ "306": "LABEL_306",
322
+ "307": "LABEL_307",
323
+ "308": "LABEL_308",
324
+ "309": "LABEL_309",
325
+ "310": "LABEL_310",
326
+ "311": "LABEL_311",
327
+ "312": "LABEL_312",
328
+ "313": "LABEL_313",
329
+ "314": "LABEL_314",
330
+ "315": "LABEL_315",
331
+ "316": "LABEL_316",
332
+ "317": "LABEL_317",
333
+ "318": "LABEL_318",
334
+ "319": "LABEL_319",
335
+ "320": "LABEL_320",
336
+ "321": "LABEL_321",
337
+ "322": "LABEL_322",
338
+ "323": "LABEL_323",
339
+ "324": "LABEL_324",
340
+ "325": "LABEL_325",
341
+ "326": "LABEL_326",
342
+ "327": "LABEL_327",
343
+ "328": "LABEL_328",
344
+ "329": "LABEL_329",
345
+ "330": "LABEL_330",
346
+ "331": "LABEL_331",
347
+ "332": "LABEL_332",
348
+ "333": "LABEL_333",
349
+ "334": "LABEL_334",
350
+ "335": "LABEL_335",
351
+ "336": "LABEL_336",
352
+ "337": "LABEL_337",
353
+ "338": "LABEL_338",
354
+ "339": "LABEL_339",
355
+ "340": "LABEL_340",
356
+ "341": "LABEL_341",
357
+ "342": "LABEL_342",
358
+ "343": "LABEL_343",
359
+ "344": "LABEL_344",
360
+ "345": "LABEL_345",
361
+ "346": "LABEL_346",
362
+ "347": "LABEL_347",
363
+ "348": "LABEL_348",
364
+ "349": "LABEL_349",
365
+ "350": "LABEL_350",
366
+ "351": "LABEL_351",
367
+ "352": "LABEL_352",
368
+ "353": "LABEL_353",
369
+ "354": "LABEL_354",
370
+ "355": "LABEL_355",
371
+ "356": "LABEL_356",
372
+ "357": "LABEL_357",
373
+ "358": "LABEL_358",
374
+ "359": "LABEL_359",
375
+ "360": "LABEL_360",
376
+ "361": "LABEL_361",
377
+ "362": "LABEL_362",
378
+ "363": "LABEL_363",
379
+ "364": "LABEL_364",
380
+ "365": "LABEL_365",
381
+ "366": "LABEL_366",
382
+ "367": "LABEL_367",
383
+ "368": "LABEL_368",
384
+ "369": "LABEL_369",
385
+ "370": "LABEL_370",
386
+ "371": "LABEL_371",
387
+ "372": "LABEL_372",
388
+ "373": "LABEL_373",
389
+ "374": "LABEL_374",
390
+ "375": "LABEL_375",
391
+ "376": "LABEL_376",
392
+ "377": "LABEL_377",
393
+ "378": "LABEL_378",
394
+ "379": "LABEL_379",
395
+ "380": "LABEL_380",
396
+ "381": "LABEL_381",
397
+ "382": "LABEL_382",
398
+ "383": "LABEL_383",
399
+ "384": "LABEL_384",
400
+ "385": "LABEL_385",
401
+ "386": "LABEL_386",
402
+ "387": "LABEL_387",
403
+ "388": "LABEL_388",
404
+ "389": "LABEL_389",
405
+ "390": "LABEL_390",
406
+ "391": "LABEL_391",
407
+ "392": "LABEL_392",
408
+ "393": "LABEL_393",
409
+ "394": "LABEL_394",
410
+ "395": "LABEL_395",
411
+ "396": "LABEL_396",
412
+ "397": "LABEL_397",
413
+ "398": "LABEL_398",
414
+ "399": "LABEL_399",
415
+ "400": "LABEL_400",
416
+ "401": "LABEL_401",
417
+ "402": "LABEL_402",
418
+ "403": "LABEL_403",
419
+ "404": "LABEL_404",
420
+ "405": "LABEL_405",
421
+ "406": "LABEL_406",
422
+ "407": "LABEL_407",
423
+ "408": "LABEL_408",
424
+ "409": "LABEL_409",
425
+ "410": "LABEL_410",
426
+ "411": "LABEL_411",
427
+ "412": "LABEL_412",
428
+ "413": "LABEL_413",
429
+ "414": "LABEL_414",
430
+ "415": "LABEL_415",
431
+ "416": "LABEL_416",
432
+ "417": "LABEL_417",
433
+ "418": "LABEL_418",
434
+ "419": "LABEL_419",
435
+ "420": "LABEL_420",
436
+ "421": "LABEL_421",
437
+ "422": "LABEL_422",
438
+ "423": "LABEL_423",
439
+ "424": "LABEL_424",
440
+ "425": "LABEL_425",
441
+ "426": "LABEL_426",
442
+ "427": "LABEL_427",
443
+ "428": "LABEL_428",
444
+ "429": "LABEL_429",
445
+ "430": "LABEL_430",
446
+ "431": "LABEL_431",
447
+ "432": "LABEL_432",
448
+ "433": "LABEL_433",
449
+ "434": "LABEL_434",
450
+ "435": "LABEL_435",
451
+ "436": "LABEL_436",
452
+ "437": "LABEL_437",
453
+ "438": "LABEL_438",
454
+ "439": "LABEL_439",
455
+ "440": "LABEL_440",
456
+ "441": "LABEL_441",
457
+ "442": "LABEL_442",
458
+ "443": "LABEL_443",
459
+ "444": "LABEL_444",
460
+ "445": "LABEL_445",
461
+ "446": "LABEL_446",
462
+ "447": "LABEL_447",
463
+ "448": "LABEL_448",
464
+ "449": "LABEL_449",
465
+ "450": "LABEL_450",
466
+ "451": "LABEL_451",
467
+ "452": "LABEL_452",
468
+ "453": "LABEL_453",
469
+ "454": "LABEL_454",
470
+ "455": "LABEL_455",
471
+ "456": "LABEL_456",
472
+ "457": "LABEL_457",
473
+ "458": "LABEL_458",
474
+ "459": "LABEL_459",
475
+ "460": "LABEL_460",
476
+ "461": "LABEL_461",
477
+ "462": "LABEL_462",
478
+ "463": "LABEL_463",
479
+ "464": "LABEL_464",
480
+ "465": "LABEL_465",
481
+ "466": "LABEL_466",
482
+ "467": "LABEL_467",
483
+ "468": "LABEL_468",
484
+ "469": "LABEL_469",
485
+ "470": "LABEL_470",
486
+ "471": "LABEL_471",
487
+ "472": "LABEL_472",
488
+ "473": "LABEL_473",
489
+ "474": "LABEL_474",
490
+ "475": "LABEL_475",
491
+ "476": "LABEL_476",
492
+ "477": "LABEL_477",
493
+ "478": "LABEL_478",
494
+ "479": "LABEL_479",
495
+ "480": "LABEL_480",
496
+ "481": "LABEL_481",
497
+ "482": "LABEL_482",
498
+ "483": "LABEL_483",
499
+ "484": "LABEL_484",
500
+ "485": "LABEL_485",
501
+ "486": "LABEL_486",
502
+ "487": "LABEL_487",
503
+ "488": "LABEL_488",
504
+ "489": "LABEL_489",
505
+ "490": "LABEL_490",
506
+ "491": "LABEL_491",
507
+ "492": "LABEL_492",
508
+ "493": "LABEL_493",
509
+ "494": "LABEL_494",
510
+ "495": "LABEL_495",
511
+ "496": "LABEL_496",
512
+ "497": "LABEL_497",
513
+ "498": "LABEL_498",
514
+ "499": "LABEL_499",
515
+ "500": "LABEL_500",
516
+ "501": "LABEL_501",
517
+ "502": "LABEL_502",
518
+ "503": "LABEL_503",
519
+ "504": "LABEL_504",
520
+ "505": "LABEL_505",
521
+ "506": "LABEL_506",
522
+ "507": "LABEL_507",
523
+ "508": "LABEL_508",
524
+ "509": "LABEL_509",
525
+ "510": "LABEL_510",
526
+ "511": "LABEL_511",
527
+ "512": "LABEL_512",
528
+ "513": "LABEL_513",
529
+ "514": "LABEL_514",
530
+ "515": "LABEL_515",
531
+ "516": "LABEL_516",
532
+ "517": "LABEL_517",
533
+ "518": "LABEL_518",
534
+ "519": "LABEL_519",
535
+ "520": "LABEL_520",
536
+ "521": "LABEL_521",
537
+ "522": "LABEL_522",
538
+ "523": "LABEL_523",
539
+ "524": "LABEL_524",
540
+ "525": "LABEL_525",
541
+ "526": "LABEL_526",
542
+ "527": "LABEL_527"
543
+ },
544
+ "initializer_range": 0.02,
545
+ "intermediate_size": 4096,
546
+ "label2id": {
547
+ "LABEL_0": 0,
548
+ "LABEL_1": 1,
549
+ "LABEL_10": 10,
550
+ "LABEL_100": 100,
551
+ "LABEL_101": 101,
552
+ "LABEL_102": 102,
553
+ "LABEL_103": 103,
554
+ "LABEL_104": 104,
555
+ "LABEL_105": 105,
556
+ "LABEL_106": 106,
557
+ "LABEL_107": 107,
558
+ "LABEL_108": 108,
559
+ "LABEL_109": 109,
560
+ "LABEL_11": 11,
561
+ "LABEL_110": 110,
562
+ "LABEL_111": 111,
563
+ "LABEL_112": 112,
564
+ "LABEL_113": 113,
565
+ "LABEL_114": 114,
566
+ "LABEL_115": 115,
567
+ "LABEL_116": 116,
568
+ "LABEL_117": 117,
569
+ "LABEL_118": 118,
570
+ "LABEL_119": 119,
571
+ "LABEL_12": 12,
572
+ "LABEL_120": 120,
573
+ "LABEL_121": 121,
574
+ "LABEL_122": 122,
575
+ "LABEL_123": 123,
576
+ "LABEL_124": 124,
577
+ "LABEL_125": 125,
578
+ "LABEL_126": 126,
579
+ "LABEL_127": 127,
580
+ "LABEL_128": 128,
581
+ "LABEL_129": 129,
582
+ "LABEL_13": 13,
583
+ "LABEL_130": 130,
584
+ "LABEL_131": 131,
585
+ "LABEL_132": 132,
586
+ "LABEL_133": 133,
587
+ "LABEL_134": 134,
588
+ "LABEL_135": 135,
589
+ "LABEL_136": 136,
590
+ "LABEL_137": 137,
591
+ "LABEL_138": 138,
592
+ "LABEL_139": 139,
593
+ "LABEL_14": 14,
594
+ "LABEL_140": 140,
595
+ "LABEL_141": 141,
596
+ "LABEL_142": 142,
597
+ "LABEL_143": 143,
598
+ "LABEL_144": 144,
599
+ "LABEL_145": 145,
600
+ "LABEL_146": 146,
601
+ "LABEL_147": 147,
602
+ "LABEL_148": 148,
603
+ "LABEL_149": 149,
604
+ "LABEL_15": 15,
605
+ "LABEL_150": 150,
606
+ "LABEL_151": 151,
607
+ "LABEL_152": 152,
608
+ "LABEL_153": 153,
609
+ "LABEL_154": 154,
610
+ "LABEL_155": 155,
611
+ "LABEL_156": 156,
612
+ "LABEL_157": 157,
613
+ "LABEL_158": 158,
614
+ "LABEL_159": 159,
615
+ "LABEL_16": 16,
616
+ "LABEL_160": 160,
617
+ "LABEL_161": 161,
618
+ "LABEL_162": 162,
619
+ "LABEL_163": 163,
620
+ "LABEL_164": 164,
621
+ "LABEL_165": 165,
622
+ "LABEL_166": 166,
623
+ "LABEL_167": 167,
624
+ "LABEL_168": 168,
625
+ "LABEL_169": 169,
626
+ "LABEL_17": 17,
627
+ "LABEL_170": 170,
628
+ "LABEL_171": 171,
629
+ "LABEL_172": 172,
630
+ "LABEL_173": 173,
631
+ "LABEL_174": 174,
632
+ "LABEL_175": 175,
633
+ "LABEL_176": 176,
634
+ "LABEL_177": 177,
635
+ "LABEL_178": 178,
636
+ "LABEL_179": 179,
637
+ "LABEL_18": 18,
638
+ "LABEL_180": 180,
639
+ "LABEL_181": 181,
640
+ "LABEL_182": 182,
641
+ "LABEL_183": 183,
642
+ "LABEL_184": 184,
643
+ "LABEL_185": 185,
644
+ "LABEL_186": 186,
645
+ "LABEL_187": 187,
646
+ "LABEL_188": 188,
647
+ "LABEL_189": 189,
648
+ "LABEL_19": 19,
649
+ "LABEL_190": 190,
650
+ "LABEL_191": 191,
651
+ "LABEL_192": 192,
652
+ "LABEL_193": 193,
653
+ "LABEL_194": 194,
654
+ "LABEL_195": 195,
655
+ "LABEL_196": 196,
656
+ "LABEL_197": 197,
657
+ "LABEL_198": 198,
658
+ "LABEL_199": 199,
659
+ "LABEL_2": 2,
660
+ "LABEL_20": 20,
661
+ "LABEL_200": 200,
662
+ "LABEL_201": 201,
663
+ "LABEL_202": 202,
664
+ "LABEL_203": 203,
665
+ "LABEL_204": 204,
666
+ "LABEL_205": 205,
667
+ "LABEL_206": 206,
668
+ "LABEL_207": 207,
669
+ "LABEL_208": 208,
670
+ "LABEL_209": 209,
671
+ "LABEL_21": 21,
672
+ "LABEL_210": 210,
673
+ "LABEL_211": 211,
674
+ "LABEL_212": 212,
675
+ "LABEL_213": 213,
676
+ "LABEL_214": 214,
677
+ "LABEL_215": 215,
678
+ "LABEL_216": 216,
679
+ "LABEL_217": 217,
680
+ "LABEL_218": 218,
681
+ "LABEL_219": 219,
682
+ "LABEL_22": 22,
683
+ "LABEL_220": 220,
684
+ "LABEL_221": 221,
685
+ "LABEL_222": 222,
686
+ "LABEL_223": 223,
687
+ "LABEL_224": 224,
688
+ "LABEL_225": 225,
689
+ "LABEL_226": 226,
690
+ "LABEL_227": 227,
691
+ "LABEL_228": 228,
692
+ "LABEL_229": 229,
693
+ "LABEL_23": 23,
694
+ "LABEL_230": 230,
695
+ "LABEL_231": 231,
696
+ "LABEL_232": 232,
697
+ "LABEL_233": 233,
698
+ "LABEL_234": 234,
699
+ "LABEL_235": 235,
700
+ "LABEL_236": 236,
701
+ "LABEL_237": 237,
702
+ "LABEL_238": 238,
703
+ "LABEL_239": 239,
704
+ "LABEL_24": 24,
705
+ "LABEL_240": 240,
706
+ "LABEL_241": 241,
707
+ "LABEL_242": 242,
708
+ "LABEL_243": 243,
709
+ "LABEL_244": 244,
710
+ "LABEL_245": 245,
711
+ "LABEL_246": 246,
712
+ "LABEL_247": 247,
713
+ "LABEL_248": 248,
714
+ "LABEL_249": 249,
715
+ "LABEL_25": 25,
716
+ "LABEL_250": 250,
717
+ "LABEL_251": 251,
718
+ "LABEL_252": 252,
719
+ "LABEL_253": 253,
720
+ "LABEL_254": 254,
721
+ "LABEL_255": 255,
722
+ "LABEL_256": 256,
723
+ "LABEL_257": 257,
724
+ "LABEL_258": 258,
725
+ "LABEL_259": 259,
726
+ "LABEL_26": 26,
727
+ "LABEL_260": 260,
728
+ "LABEL_261": 261,
729
+ "LABEL_262": 262,
730
+ "LABEL_263": 263,
731
+ "LABEL_264": 264,
732
+ "LABEL_265": 265,
733
+ "LABEL_266": 266,
734
+ "LABEL_267": 267,
735
+ "LABEL_268": 268,
736
+ "LABEL_269": 269,
737
+ "LABEL_27": 27,
738
+ "LABEL_270": 270,
739
+ "LABEL_271": 271,
740
+ "LABEL_272": 272,
741
+ "LABEL_273": 273,
742
+ "LABEL_274": 274,
743
+ "LABEL_275": 275,
744
+ "LABEL_276": 276,
745
+ "LABEL_277": 277,
746
+ "LABEL_278": 278,
747
+ "LABEL_279": 279,
748
+ "LABEL_28": 28,
749
+ "LABEL_280": 280,
750
+ "LABEL_281": 281,
751
+ "LABEL_282": 282,
752
+ "LABEL_283": 283,
753
+ "LABEL_284": 284,
754
+ "LABEL_285": 285,
755
+ "LABEL_286": 286,
756
+ "LABEL_287": 287,
757
+ "LABEL_288": 288,
758
+ "LABEL_289": 289,
759
+ "LABEL_29": 29,
760
+ "LABEL_290": 290,
761
+ "LABEL_291": 291,
762
+ "LABEL_292": 292,
763
+ "LABEL_293": 293,
764
+ "LABEL_294": 294,
765
+ "LABEL_295": 295,
766
+ "LABEL_296": 296,
767
+ "LABEL_297": 297,
768
+ "LABEL_298": 298,
769
+ "LABEL_299": 299,
770
+ "LABEL_3": 3,
771
+ "LABEL_30": 30,
772
+ "LABEL_300": 300,
773
+ "LABEL_301": 301,
774
+ "LABEL_302": 302,
775
+ "LABEL_303": 303,
776
+ "LABEL_304": 304,
777
+ "LABEL_305": 305,
778
+ "LABEL_306": 306,
779
+ "LABEL_307": 307,
780
+ "LABEL_308": 308,
781
+ "LABEL_309": 309,
782
+ "LABEL_31": 31,
783
+ "LABEL_310": 310,
784
+ "LABEL_311": 311,
785
+ "LABEL_312": 312,
786
+ "LABEL_313": 313,
787
+ "LABEL_314": 314,
788
+ "LABEL_315": 315,
789
+ "LABEL_316": 316,
790
+ "LABEL_317": 317,
791
+ "LABEL_318": 318,
792
+ "LABEL_319": 319,
793
+ "LABEL_32": 32,
794
+ "LABEL_320": 320,
795
+ "LABEL_321": 321,
796
+ "LABEL_322": 322,
797
+ "LABEL_323": 323,
798
+ "LABEL_324": 324,
799
+ "LABEL_325": 325,
800
+ "LABEL_326": 326,
801
+ "LABEL_327": 327,
802
+ "LABEL_328": 328,
803
+ "LABEL_329": 329,
804
+ "LABEL_33": 33,
805
+ "LABEL_330": 330,
806
+ "LABEL_331": 331,
807
+ "LABEL_332": 332,
808
+ "LABEL_333": 333,
809
+ "LABEL_334": 334,
810
+ "LABEL_335": 335,
811
+ "LABEL_336": 336,
812
+ "LABEL_337": 337,
813
+ "LABEL_338": 338,
814
+ "LABEL_339": 339,
815
+ "LABEL_34": 34,
816
+ "LABEL_340": 340,
817
+ "LABEL_341": 341,
818
+ "LABEL_342": 342,
819
+ "LABEL_343": 343,
820
+ "LABEL_344": 344,
821
+ "LABEL_345": 345,
822
+ "LABEL_346": 346,
823
+ "LABEL_347": 347,
824
+ "LABEL_348": 348,
825
+ "LABEL_349": 349,
826
+ "LABEL_35": 35,
827
+ "LABEL_350": 350,
828
+ "LABEL_351": 351,
829
+ "LABEL_352": 352,
830
+ "LABEL_353": 353,
831
+ "LABEL_354": 354,
832
+ "LABEL_355": 355,
833
+ "LABEL_356": 356,
834
+ "LABEL_357": 357,
835
+ "LABEL_358": 358,
836
+ "LABEL_359": 359,
837
+ "LABEL_36": 36,
838
+ "LABEL_360": 360,
839
+ "LABEL_361": 361,
840
+ "LABEL_362": 362,
841
+ "LABEL_363": 363,
842
+ "LABEL_364": 364,
843
+ "LABEL_365": 365,
844
+ "LABEL_366": 366,
845
+ "LABEL_367": 367,
846
+ "LABEL_368": 368,
847
+ "LABEL_369": 369,
848
+ "LABEL_37": 37,
849
+ "LABEL_370": 370,
850
+ "LABEL_371": 371,
851
+ "LABEL_372": 372,
852
+ "LABEL_373": 373,
853
+ "LABEL_374": 374,
854
+ "LABEL_375": 375,
855
+ "LABEL_376": 376,
856
+ "LABEL_377": 377,
857
+ "LABEL_378": 378,
858
+ "LABEL_379": 379,
859
+ "LABEL_38": 38,
860
+ "LABEL_380": 380,
861
+ "LABEL_381": 381,
862
+ "LABEL_382": 382,
863
+ "LABEL_383": 383,
864
+ "LABEL_384": 384,
865
+ "LABEL_385": 385,
866
+ "LABEL_386": 386,
867
+ "LABEL_387": 387,
868
+ "LABEL_388": 388,
869
+ "LABEL_389": 389,
870
+ "LABEL_39": 39,
871
+ "LABEL_390": 390,
872
+ "LABEL_391": 391,
873
+ "LABEL_392": 392,
874
+ "LABEL_393": 393,
875
+ "LABEL_394": 394,
876
+ "LABEL_395": 395,
877
+ "LABEL_396": 396,
878
+ "LABEL_397": 397,
879
+ "LABEL_398": 398,
880
+ "LABEL_399": 399,
881
+ "LABEL_4": 4,
882
+ "LABEL_40": 40,
883
+ "LABEL_400": 400,
884
+ "LABEL_401": 401,
885
+ "LABEL_402": 402,
886
+ "LABEL_403": 403,
887
+ "LABEL_404": 404,
888
+ "LABEL_405": 405,
889
+ "LABEL_406": 406,
890
+ "LABEL_407": 407,
891
+ "LABEL_408": 408,
892
+ "LABEL_409": 409,
893
+ "LABEL_41": 41,
894
+ "LABEL_410": 410,
895
+ "LABEL_411": 411,
896
+ "LABEL_412": 412,
897
+ "LABEL_413": 413,
898
+ "LABEL_414": 414,
899
+ "LABEL_415": 415,
900
+ "LABEL_416": 416,
901
+ "LABEL_417": 417,
902
+ "LABEL_418": 418,
903
+ "LABEL_419": 419,
904
+ "LABEL_42": 42,
905
+ "LABEL_420": 420,
906
+ "LABEL_421": 421,
907
+ "LABEL_422": 422,
908
+ "LABEL_423": 423,
909
+ "LABEL_424": 424,
910
+ "LABEL_425": 425,
911
+ "LABEL_426": 426,
912
+ "LABEL_427": 427,
913
+ "LABEL_428": 428,
914
+ "LABEL_429": 429,
915
+ "LABEL_43": 43,
916
+ "LABEL_430": 430,
917
+ "LABEL_431": 431,
918
+ "LABEL_432": 432,
919
+ "LABEL_433": 433,
920
+ "LABEL_434": 434,
921
+ "LABEL_435": 435,
922
+ "LABEL_436": 436,
923
+ "LABEL_437": 437,
924
+ "LABEL_438": 438,
925
+ "LABEL_439": 439,
926
+ "LABEL_44": 44,
927
+ "LABEL_440": 440,
928
+ "LABEL_441": 441,
929
+ "LABEL_442": 442,
930
+ "LABEL_443": 443,
931
+ "LABEL_444": 444,
932
+ "LABEL_445": 445,
933
+ "LABEL_446": 446,
934
+ "LABEL_447": 447,
935
+ "LABEL_448": 448,
936
+ "LABEL_449": 449,
937
+ "LABEL_45": 45,
938
+ "LABEL_450": 450,
939
+ "LABEL_451": 451,
940
+ "LABEL_452": 452,
941
+ "LABEL_453": 453,
942
+ "LABEL_454": 454,
943
+ "LABEL_455": 455,
944
+ "LABEL_456": 456,
945
+ "LABEL_457": 457,
946
+ "LABEL_458": 458,
947
+ "LABEL_459": 459,
948
+ "LABEL_46": 46,
949
+ "LABEL_460": 460,
950
+ "LABEL_461": 461,
951
+ "LABEL_462": 462,
952
+ "LABEL_463": 463,
953
+ "LABEL_464": 464,
954
+ "LABEL_465": 465,
955
+ "LABEL_466": 466,
956
+ "LABEL_467": 467,
957
+ "LABEL_468": 468,
958
+ "LABEL_469": 469,
959
+ "LABEL_47": 47,
960
+ "LABEL_470": 470,
961
+ "LABEL_471": 471,
962
+ "LABEL_472": 472,
963
+ "LABEL_473": 473,
964
+ "LABEL_474": 474,
965
+ "LABEL_475": 475,
966
+ "LABEL_476": 476,
967
+ "LABEL_477": 477,
968
+ "LABEL_478": 478,
969
+ "LABEL_479": 479,
970
+ "LABEL_48": 48,
971
+ "LABEL_480": 480,
972
+ "LABEL_481": 481,
973
+ "LABEL_482": 482,
974
+ "LABEL_483": 483,
975
+ "LABEL_484": 484,
976
+ "LABEL_485": 485,
977
+ "LABEL_486": 486,
978
+ "LABEL_487": 487,
979
+ "LABEL_488": 488,
980
+ "LABEL_489": 489,
981
+ "LABEL_49": 49,
982
+ "LABEL_490": 490,
983
+ "LABEL_491": 491,
984
+ "LABEL_492": 492,
985
+ "LABEL_493": 493,
986
+ "LABEL_494": 494,
987
+ "LABEL_495": 495,
988
+ "LABEL_496": 496,
989
+ "LABEL_497": 497,
990
+ "LABEL_498": 498,
991
+ "LABEL_499": 499,
992
+ "LABEL_5": 5,
993
+ "LABEL_50": 50,
994
+ "LABEL_500": 500,
995
+ "LABEL_501": 501,
996
+ "LABEL_502": 502,
997
+ "LABEL_503": 503,
998
+ "LABEL_504": 504,
999
+ "LABEL_505": 505,
1000
+ "LABEL_506": 506,
1001
+ "LABEL_507": 507,
1002
+ "LABEL_508": 508,
1003
+ "LABEL_509": 509,
1004
+ "LABEL_51": 51,
1005
+ "LABEL_510": 510,
1006
+ "LABEL_511": 511,
1007
+ "LABEL_512": 512,
1008
+ "LABEL_513": 513,
1009
+ "LABEL_514": 514,
1010
+ "LABEL_515": 515,
1011
+ "LABEL_516": 516,
1012
+ "LABEL_517": 517,
1013
+ "LABEL_518": 518,
1014
+ "LABEL_519": 519,
1015
+ "LABEL_52": 52,
1016
+ "LABEL_520": 520,
1017
+ "LABEL_521": 521,
1018
+ "LABEL_522": 522,
1019
+ "LABEL_523": 523,
1020
+ "LABEL_524": 524,
1021
+ "LABEL_525": 525,
1022
+ "LABEL_526": 526,
1023
+ "LABEL_527": 527,
1024
+ "LABEL_53": 53,
1025
+ "LABEL_54": 54,
1026
+ "LABEL_55": 55,
1027
+ "LABEL_56": 56,
1028
+ "LABEL_57": 57,
1029
+ "LABEL_58": 58,
1030
+ "LABEL_59": 59,
1031
+ "LABEL_6": 6,
1032
+ "LABEL_60": 60,
1033
+ "LABEL_61": 61,
1034
+ "LABEL_62": 62,
1035
+ "LABEL_63": 63,
1036
+ "LABEL_64": 64,
1037
+ "LABEL_65": 65,
1038
+ "LABEL_66": 66,
1039
+ "LABEL_67": 67,
1040
+ "LABEL_68": 68,
1041
+ "LABEL_69": 69,
1042
+ "LABEL_7": 7,
1043
+ "LABEL_70": 70,
1044
+ "LABEL_71": 71,
1045
+ "LABEL_72": 72,
1046
+ "LABEL_73": 73,
1047
+ "LABEL_74": 74,
1048
+ "LABEL_75": 75,
1049
+ "LABEL_76": 76,
1050
+ "LABEL_77": 77,
1051
+ "LABEL_78": 78,
1052
+ "LABEL_79": 79,
1053
+ "LABEL_8": 8,
1054
+ "LABEL_80": 80,
1055
+ "LABEL_81": 81,
1056
+ "LABEL_82": 82,
1057
+ "LABEL_83": 83,
1058
+ "LABEL_84": 84,
1059
+ "LABEL_85": 85,
1060
+ "LABEL_86": 86,
1061
+ "LABEL_87": 87,
1062
+ "LABEL_88": 88,
1063
+ "LABEL_89": 89,
1064
+ "LABEL_9": 9,
1065
+ "LABEL_90": 90,
1066
+ "LABEL_91": 91,
1067
+ "LABEL_92": 92,
1068
+ "LABEL_93": 93,
1069
+ "LABEL_94": 94,
1070
+ "LABEL_95": 95,
1071
+ "LABEL_96": 96,
1072
+ "LABEL_97": 97,
1073
+ "LABEL_98": 98,
1074
+ "LABEL_99": 99
1075
+ },
1076
+ "layer_norm_eps": 1e-05,
1077
+ "max_position_embeddings": 514,
1078
+ "model_type": "xlm-roberta",
1079
+ "num_attention_heads": 16,
1080
+ "num_hidden_layers": 24,
1081
+ "output_past": true,
1082
+ "pad_token_id": 1,
1083
+ "position_embedding_type": "absolute",
1084
+ "torch_dtype": "float32",
1085
+ "transformers_version": "4.10.2",
1086
+ "type_vocab_size": 1,
1087
+ "use_cache": true,
1088
+ "vocab_size": 250002
1089
+ }
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fdb398edb23ad185a8d90e67476161390d821a2d4cc4f287752cc1b71d18600c
3
+ size 2237691505
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fa57864989b01227919481799e1ebbe166a3c52c3ec4a978460be4864de8919d
3
+ size 14503
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1294345235533773b79b8b4324a9734175859bf687a87857f18124b75bc5b8f5
3
+ size 623
selected_tags_names.txt ADDED
@@ -0,0 +1,528 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ -
2
+ a-a
3
+ a-à
4
+ a-á
5
+ a-â
6
+ a-ã
7
+ a-ă
8
+ a-ạ
9
+ a-ả
10
+ a-ấ
11
+ a-ầ
12
+ a-ẩ
13
+ a-ẫ
14
+ a-ậ
15
+ a-ắ
16
+ a-ằ
17
+ a-ẳ
18
+ a-ẵ
19
+ a-ặ
20
+ aa-aa
21
+ aaa-aaa
22
+ ae-ae
23
+ aeo-aeo
24
+ ai-ai
25
+ ai-ài
26
+ ai-ái
27
+ ai-ãi
28
+ ai-ại
29
+ ai-ải
30
+ aia-aia
31
+ aii-aii
32
+ aio-aio
33
+ ao-ao
34
+ ao-ào
35
+ ao-áo
36
+ ao-ão
37
+ ao-ạo
38
+ ao-ảo
39
+ au-au
40
+ au-àu
41
+ au-áu
42
+ au-âu
43
+ au-ấu
44
+ au-ầu
45
+ au-ẩu
46
+ au-ẫu
47
+ au-ậu
48
+ auy-auy
49
+ ay-ay
50
+ ay-ày
51
+ ay-áy
52
+ ay-ây
53
+ ay-ãy
54
+ ay-ạy
55
+ ay-ảy
56
+ ay-ấy
57
+ ay-ầy
58
+ ay-ẩy
59
+ ay-ẫy
60
+ ay-ậy
61
+ aya-aya
62
+ aye-aye
63
+ ayo-ayo
64
+ d-đ
65
+ da-đa
66
+ da-đà
67
+ da-đá
68
+ da-đâ
69
+ da-đã
70
+ da-đă
71
+ da-đạ
72
+ da-đả
73
+ da-đấ
74
+ da-đầ
75
+ da-đẫ
76
+ da-đậ
77
+ da-đắ
78
+ da-đằ
79
+ da-đẳ
80
+ da-đặ
81
+ dai-đai
82
+ dai-đài
83
+ dai-đái
84
+ dai-đãi
85
+ dai-đại
86
+ dao-đao
87
+ dao-đào
88
+ dao-đáo
89
+ dao-đạo
90
+ dao-đảo
91
+ dau-đau
92
+ dau-đáu
93
+ dau-đâu
94
+ dau-đấu
95
+ dau-đầu
96
+ dau-đẩu
97
+ dau-đậu
98
+ day-đay
99
+ day-đày
100
+ day-đáy
101
+ day-đây
102
+ day-đấy
103
+ day-đầy
104
+ day-đẩy
105
+ day-đẫy
106
+ day-đậy
107
+ de-đe
108
+ de-đè
109
+ de-đé
110
+ de-đê
111
+ de-đẹ
112
+ de-đế
113
+ de-đề
114
+ de-để
115
+ de-đệ
116
+ deo-đeo
117
+ deo-đèo
118
+ deo-đẽo
119
+ deu-đều
120
+ deu-đểu
121
+ di-đi
122
+ di-đì
123
+ di-đí
124
+ di-đỉ
125
+ di-đị
126
+ dia-đìa
127
+ dia-đĩa
128
+ dia-đỉa
129
+ dia-địa
130
+ die-điê
131
+ die-điế
132
+ die-điề
133
+ die-điể
134
+ die-điệ
135
+ diu-đìu
136
+ diu-địu
137
+ do-đo
138
+ do-đò
139
+ do-đó
140
+ do-đô
141
+ do-đơ
142
+ do-đọ
143
+ do-đỏ
144
+ do-đố
145
+ do-đồ
146
+ do-đổ
147
+ do-đỗ
148
+ do-độ
149
+ do-đớ
150
+ do-đờ
151
+ do-đỡ
152
+ do-đợ
153
+ doa-đoa
154
+ doa-đóa
155
+ doa-đọa
156
+ doi-đòi
157
+ doi-đói
158
+ doi-đôi
159
+ doi-đối
160
+ doi-đồi
161
+ doi-đổi
162
+ doi-đỗi
163
+ doi-đội
164
+ doi-đới
165
+ doi-đời
166
+ doi-đợi
167
+ du-đu
168
+ du-đù
169
+ du-đú
170
+ du-đụ
171
+ du-đủ
172
+ du-đứ
173
+ du-đừ
174
+ du-đự
175
+ dua-đua
176
+ dua-đùa
177
+ dua-đũa
178
+ dua-đưa
179
+ dua-đứa
180
+ dui-đùi
181
+ dui-đủi
182
+ duo-đuố
183
+ duo-đươ
184
+ duo-đườ
185
+ duo-đượ
186
+ e-e
187
+ e-è
188
+ e-é
189
+ e-ê
190
+ e-ẹ
191
+ e-ẻ
192
+ e-ẽ
193
+ e-ế
194
+ e-ề
195
+ e-ể
196
+ e-ễ
197
+ e-ệ
198
+ ea-ea
199
+ ee-ee
200
+ eee-eee
201
+ ei-ei
202
+ eia-eia
203
+ eo-eo
204
+ eo-èo
205
+ eo-éo
206
+ eo-ẹo
207
+ eo-ẻo
208
+ eo-ẽo
209
+ eou-eou
210
+ eu-eu
211
+ eu-êu
212
+ eu-ếu
213
+ eu-ều
214
+ eue-eue
215
+ ey-ey
216
+ eye-eye
217
+ i-i
218
+ i-ì
219
+ i-í
220
+ i-ĩ
221
+ i-ỉ
222
+ i-ị
223
+ ia-ia
224
+ ia-ià
225
+ ia-iá
226
+ ia-iã
227
+ ia-iă
228
+ ia-iả
229
+ ia-iấ
230
+ ia-iẫ
231
+ ia-iậ
232
+ ia-iắ
233
+ ia-iằ
234
+ ia-iặ
235
+ ia-ìa
236
+ ia-ía
237
+ ia-ĩa
238
+ ia-ỉa
239
+ ia-ịa
240
+ iai-iai
241
+ iai-iãi
242
+ iai-iải
243
+ iao-iao
244
+ iao-iáo
245
+ iau-iàu
246
+ iau-iấu
247
+ iay-iày
248
+ iay-iây
249
+ iay-iãy
250
+ iay-iấy
251
+ iay-iầy
252
+ ie-ie
253
+ ie-iê
254
+ ie-iẻ
255
+ ie-iẽ
256
+ ie-iế
257
+ ie-iề
258
+ ie-iể
259
+ ie-iễ
260
+ ie-iệ
261
+ iea-iea
262
+ ieo-ieo
263
+ ieu-iêu
264
+ ieu-iếu
265
+ ieu-iều
266
+ ieu-iểu
267
+ ieu-iễu
268
+ ieu-iệu
269
+ ii-ii
270
+ iii-iii
271
+ io-io
272
+ io-iò
273
+ io-ió
274
+ io-iô
275
+ io-iơ
276
+ io-iọ
277
+ io-iỏ
278
+ io-iố
279
+ io-iồ
280
+ io-iỗ
281
+ io-iờ
282
+ io-iở
283
+ io-iỡ
284
+ ioi-iòi
285
+ ioi-iỏi
286
+ ioi-iới
287
+ ioi-iời
288
+ iu-iu
289
+ iu-iù
290
+ iu-iú
291
+ iu-iụ
292
+ iu-iữ
293
+ iu-ìu
294
+ iu-íu
295
+ iu-ĩu
296
+ iu-ỉu
297
+ iu-ịu
298
+ iua-iữa
299
+ iuo-iuộ
300
+ iuo-iươ
301
+ iuo-iườ
302
+ iya-iya
303
+ o-o
304
+ o-ò
305
+ o-ó
306
+ o-ô
307
+ o-õ
308
+ o-ơ
309
+ o-ọ
310
+ o-ỏ
311
+ o-ố
312
+ o-ồ
313
+ o-ổ
314
+ o-ỗ
315
+ o-ộ
316
+ o-ớ
317
+ o-ờ
318
+ o-ở
319
+ o-ỡ
320
+ o-ợ
321
+ oa-oa
322
+ oa-oà
323
+ oa-oá
324
+ oa-oã
325
+ oa-oă
326
+ oa-oạ
327
+ oa-oả
328
+ oa-oắ
329
+ oa-oằ
330
+ oa-oặ
331
+ oa-òa
332
+ oa-óa
333
+ oa-õa
334
+ oa-ọa
335
+ oa-ỏa
336
+ oai-oai
337
+ oai-oài
338
+ oai-oái
339
+ oai-oại
340
+ oai-oải
341
+ oay-oay
342
+ oay-oáy
343
+ oe-oe
344
+ oe-oé
345
+ oe-oẹ
346
+ oe-òe
347
+ oe-óe
348
+ oe-ọe
349
+ oe-ỏe
350
+ oei-oei
351
+ oi-oi
352
+ oi-òi
353
+ oi-ói
354
+ oi-ôi
355
+ oi-õi
356
+ oi-ơi
357
+ oi-ọi
358
+ oi-ỏi
359
+ oi-ối
360
+ oi-ồi
361
+ oi-ổi
362
+ oi-ỗi
363
+ oi-ội
364
+ oi-ới
365
+ oi-ời
366
+ oi-ởi
367
+ oi-ỡi
368
+ oi-ợi
369
+ oo-oo
370
+ oo-oò
371
+ oo-oó
372
+ oo-oọ
373
+ ou-ou
374
+ oui-oui
375
+ oy-oy
376
+ oya-oya
377
+ oye-oye
378
+ oyu-oyu
379
+ u-u
380
+ u-ù
381
+ u-ú
382
+ u-ũ
383
+ u-ư
384
+ u-ụ
385
+ u-ủ
386
+ u-ứ
387
+ u-ừ
388
+ u-ử
389
+ u-ữ
390
+ u-ự
391
+ ua-ua
392
+ ua-uà
393
+ ua-uá
394
+ ua-uâ
395
+ ua-uã
396
+ ua-uă
397
+ ua-uạ
398
+ ua-uả
399
+ ua-uấ
400
+ ua-uầ
401
+ ua-uẩ
402
+ ua-uẫ
403
+ ua-uậ
404
+ ua-uắ
405
+ ua-uằ
406
+ ua-uẳ
407
+ ua-uặ
408
+ ua-ùa
409
+ ua-úa
410
+ ua-ưa
411
+ ua-ụa
412
+ ua-ủa
413
+ ua-ứa
414
+ ua-ừa
415
+ ua-ửa
416
+ ua-ữa
417
+ ua-ựa
418
+ uae-uae
419
+ uai-uai
420
+ uai-uái
421
+ uai-uại
422
+ uay-uay
423
+ uay-uây
424
+ uay-uấy
425
+ uay-uầy
426
+ uay-uẩy
427
+ uay-uậy
428
+ ue-ue
429
+ ue-uè
430
+ ue-ué
431
+ ue-uê
432
+ ue-uẹ
433
+ ue-uẻ
434
+ ue-uế
435
+ ue-uề
436
+ ue-uể
437
+ ue-uệ
438
+ uee-uee
439
+ ui-ui
440
+ ui-uí
441
+ ui-uĩ
442
+ ui-ùi
443
+ ui-úi
444
+ ui-ũi
445
+ ui-ụi
446
+ ui-ủi
447
+ ui-ửi
448
+ uo-uo
449
+ uo-uô
450
+ uo-uơ
451
+ uo-uố
452
+ uo-uồ
453
+ uo-uổ
454
+ uo-uỗ
455
+ uo-uộ
456
+ uo-uớ
457
+ uo-uở
458
+ uo-ươ
459
+ uo-ướ
460
+ uo-ườ
461
+ uo-ưở
462
+ uo-ưỡ
463
+ uo-ượ
464
+ uoi-uôi
465
+ uoi-uối
466
+ uoi-uồi
467
+ uoi-uổi
468
+ uoi-uỗi
469
+ uoi-uội
470
+ uoi-uới
471
+ uoi-uời
472
+ uoi-ươi
473
+ uoi-ưới
474
+ uoi-ười
475
+ uoi-ưởi
476
+ uoi-ưỡi
477
+ uoi-ượi
478
+ uou-ươu
479
+ uou-ướu
480
+ uou-ượu
481
+ uu-uu
482
+ uu-ưu
483
+ uu-ứu
484
+ uu-ừu
485
+ uu-ửu
486
+ uu-ữu
487
+ uu-ựu
488
+ uy-uy
489
+ uy-uý
490
+ uy-uỳ
491
+ uy-uỵ
492
+ uy-uỷ
493
+ uy-uỹ
494
+ uy-ùy
495
+ uy-úy
496
+ uy-ũy
497
+ uy-ụy
498
+ uy-ủy
499
+ uya-uya
500
+ uye-uye
501
+ uye-uyê
502
+ uye-uyế
503
+ uye-uyề
504
+ uye-uyể
505
+ uye-uyễ
506
+ uye-uyệ
507
+ uyo-uyo
508
+ y-y
509
+ y-ý
510
+ y-ỳ
511
+ y-ỵ
512
+ y-ỷ
513
+ y-ỹ
514
+ ya-ya
515
+ ye-ye
516
+ ye-yê
517
+ ye-yế
518
+ ye-yể
519
+ yea-yea
520
+ yeo-yeo
521
+ yeu-yêu
522
+ yeu-yếu
523
+ yeu-yểu
524
+ yi-yi
525
+ yo-yo
526
+ yoo-yoo
527
+ you-you
528
+ yu-yu
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"bos_token": "<s>", "eos_token": "</s>", "sep_token": "</s>", "cls_token": "<s>", "unk_token": "<unk>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "add_prefix_space": true, "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "xlm-roberta-large", "tokenizer_class": "XLMRobertaTokenizer"}
trainer_state.json ADDED
@@ -0,0 +1,2302 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 3.0,
5
+ "global_step": 187500,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.01,
12
+ "learning_rate": 1.9946666666666667e-05,
13
+ "loss": 2.0921,
14
+ "step": 500
15
+ },
16
+ {
17
+ "epoch": 0.02,
18
+ "learning_rate": 1.9893333333333335e-05,
19
+ "loss": 0.8577,
20
+ "step": 1000
21
+ },
22
+ {
23
+ "epoch": 0.02,
24
+ "learning_rate": 1.9840000000000003e-05,
25
+ "loss": 0.6953,
26
+ "step": 1500
27
+ },
28
+ {
29
+ "epoch": 0.03,
30
+ "learning_rate": 1.9786666666666668e-05,
31
+ "loss": 0.6196,
32
+ "step": 2000
33
+ },
34
+ {
35
+ "epoch": 0.04,
36
+ "learning_rate": 1.9733333333333336e-05,
37
+ "loss": 0.5401,
38
+ "step": 2500
39
+ },
40
+ {
41
+ "epoch": 0.05,
42
+ "learning_rate": 1.968e-05,
43
+ "loss": 0.4939,
44
+ "step": 3000
45
+ },
46
+ {
47
+ "epoch": 0.06,
48
+ "learning_rate": 1.9626666666666666e-05,
49
+ "loss": 0.4644,
50
+ "step": 3500
51
+ },
52
+ {
53
+ "epoch": 0.06,
54
+ "learning_rate": 1.9573333333333335e-05,
55
+ "loss": 0.4239,
56
+ "step": 4000
57
+ },
58
+ {
59
+ "epoch": 0.07,
60
+ "learning_rate": 1.9520000000000003e-05,
61
+ "loss": 0.4077,
62
+ "step": 4500
63
+ },
64
+ {
65
+ "epoch": 0.08,
66
+ "learning_rate": 1.9466666666666668e-05,
67
+ "loss": 0.3825,
68
+ "step": 5000
69
+ },
70
+ {
71
+ "epoch": 0.09,
72
+ "learning_rate": 1.9413333333333336e-05,
73
+ "loss": 0.3594,
74
+ "step": 5500
75
+ },
76
+ {
77
+ "epoch": 0.1,
78
+ "learning_rate": 1.936e-05,
79
+ "loss": 0.3506,
80
+ "step": 6000
81
+ },
82
+ {
83
+ "epoch": 0.1,
84
+ "learning_rate": 1.930666666666667e-05,
85
+ "loss": 0.3383,
86
+ "step": 6500
87
+ },
88
+ {
89
+ "epoch": 0.11,
90
+ "learning_rate": 1.9253333333333334e-05,
91
+ "loss": 0.3272,
92
+ "step": 7000
93
+ },
94
+ {
95
+ "epoch": 0.12,
96
+ "learning_rate": 1.9200000000000003e-05,
97
+ "loss": 0.3152,
98
+ "step": 7500
99
+ },
100
+ {
101
+ "epoch": 0.13,
102
+ "learning_rate": 1.9146666666666667e-05,
103
+ "loss": 0.3049,
104
+ "step": 8000
105
+ },
106
+ {
107
+ "epoch": 0.14,
108
+ "learning_rate": 1.9093333333333336e-05,
109
+ "loss": 0.2942,
110
+ "step": 8500
111
+ },
112
+ {
113
+ "epoch": 0.14,
114
+ "learning_rate": 1.904e-05,
115
+ "loss": 0.2919,
116
+ "step": 9000
117
+ },
118
+ {
119
+ "epoch": 0.15,
120
+ "learning_rate": 1.898666666666667e-05,
121
+ "loss": 0.2777,
122
+ "step": 9500
123
+ },
124
+ {
125
+ "epoch": 0.16,
126
+ "learning_rate": 1.8933333333333334e-05,
127
+ "loss": 0.2733,
128
+ "step": 10000
129
+ },
130
+ {
131
+ "epoch": 0.17,
132
+ "learning_rate": 1.8880000000000002e-05,
133
+ "loss": 0.2636,
134
+ "step": 10500
135
+ },
136
+ {
137
+ "epoch": 0.18,
138
+ "learning_rate": 1.8826666666666667e-05,
139
+ "loss": 0.2611,
140
+ "step": 11000
141
+ },
142
+ {
143
+ "epoch": 0.18,
144
+ "learning_rate": 1.8773333333333335e-05,
145
+ "loss": 0.2551,
146
+ "step": 11500
147
+ },
148
+ {
149
+ "epoch": 0.19,
150
+ "learning_rate": 1.8720000000000004e-05,
151
+ "loss": 0.2474,
152
+ "step": 12000
153
+ },
154
+ {
155
+ "epoch": 0.2,
156
+ "learning_rate": 1.866666666666667e-05,
157
+ "loss": 0.243,
158
+ "step": 12500
159
+ },
160
+ {
161
+ "epoch": 0.21,
162
+ "learning_rate": 1.8613333333333334e-05,
163
+ "loss": 0.2376,
164
+ "step": 13000
165
+ },
166
+ {
167
+ "epoch": 0.22,
168
+ "learning_rate": 1.8560000000000002e-05,
169
+ "loss": 0.2382,
170
+ "step": 13500
171
+ },
172
+ {
173
+ "epoch": 0.22,
174
+ "learning_rate": 1.8506666666666667e-05,
175
+ "loss": 0.2282,
176
+ "step": 14000
177
+ },
178
+ {
179
+ "epoch": 0.23,
180
+ "learning_rate": 1.8453333333333335e-05,
181
+ "loss": 0.2298,
182
+ "step": 14500
183
+ },
184
+ {
185
+ "epoch": 0.24,
186
+ "learning_rate": 1.8400000000000003e-05,
187
+ "loss": 0.2235,
188
+ "step": 15000
189
+ },
190
+ {
191
+ "epoch": 0.25,
192
+ "learning_rate": 1.834666666666667e-05,
193
+ "loss": 0.2246,
194
+ "step": 15500
195
+ },
196
+ {
197
+ "epoch": 0.26,
198
+ "learning_rate": 1.8293333333333333e-05,
199
+ "loss": 0.2166,
200
+ "step": 16000
201
+ },
202
+ {
203
+ "epoch": 0.26,
204
+ "learning_rate": 1.824e-05,
205
+ "loss": 0.2043,
206
+ "step": 16500
207
+ },
208
+ {
209
+ "epoch": 0.27,
210
+ "learning_rate": 1.8186666666666666e-05,
211
+ "loss": 0.2063,
212
+ "step": 17000
213
+ },
214
+ {
215
+ "epoch": 0.28,
216
+ "learning_rate": 1.8133333333333335e-05,
217
+ "loss": 0.2182,
218
+ "step": 17500
219
+ },
220
+ {
221
+ "epoch": 0.29,
222
+ "learning_rate": 1.8080000000000003e-05,
223
+ "loss": 0.1955,
224
+ "step": 18000
225
+ },
226
+ {
227
+ "epoch": 0.3,
228
+ "learning_rate": 1.8026666666666668e-05,
229
+ "loss": 0.1986,
230
+ "step": 18500
231
+ },
232
+ {
233
+ "epoch": 0.3,
234
+ "learning_rate": 1.7973333333333333e-05,
235
+ "loss": 0.1954,
236
+ "step": 19000
237
+ },
238
+ {
239
+ "epoch": 0.31,
240
+ "learning_rate": 1.792e-05,
241
+ "loss": 0.1994,
242
+ "step": 19500
243
+ },
244
+ {
245
+ "epoch": 0.32,
246
+ "learning_rate": 1.7866666666666666e-05,
247
+ "loss": 0.1928,
248
+ "step": 20000
249
+ },
250
+ {
251
+ "epoch": 0.33,
252
+ "learning_rate": 1.7813333333333334e-05,
253
+ "loss": 0.1898,
254
+ "step": 20500
255
+ },
256
+ {
257
+ "epoch": 0.34,
258
+ "learning_rate": 1.7760000000000003e-05,
259
+ "loss": 0.187,
260
+ "step": 21000
261
+ },
262
+ {
263
+ "epoch": 0.34,
264
+ "learning_rate": 1.7706666666666668e-05,
265
+ "loss": 0.1859,
266
+ "step": 21500
267
+ },
268
+ {
269
+ "epoch": 0.35,
270
+ "learning_rate": 1.7653333333333336e-05,
271
+ "loss": 0.1824,
272
+ "step": 22000
273
+ },
274
+ {
275
+ "epoch": 0.36,
276
+ "learning_rate": 1.76e-05,
277
+ "loss": 0.1815,
278
+ "step": 22500
279
+ },
280
+ {
281
+ "epoch": 0.37,
282
+ "learning_rate": 1.7546666666666666e-05,
283
+ "loss": 0.176,
284
+ "step": 23000
285
+ },
286
+ {
287
+ "epoch": 0.38,
288
+ "learning_rate": 1.7493333333333334e-05,
289
+ "loss": 0.1797,
290
+ "step": 23500
291
+ },
292
+ {
293
+ "epoch": 0.38,
294
+ "learning_rate": 1.7440000000000002e-05,
295
+ "loss": 0.176,
296
+ "step": 24000
297
+ },
298
+ {
299
+ "epoch": 0.39,
300
+ "learning_rate": 1.7386666666666667e-05,
301
+ "loss": 0.169,
302
+ "step": 24500
303
+ },
304
+ {
305
+ "epoch": 0.4,
306
+ "learning_rate": 1.7333333333333336e-05,
307
+ "loss": 0.1698,
308
+ "step": 25000
309
+ },
310
+ {
311
+ "epoch": 0.41,
312
+ "learning_rate": 1.728e-05,
313
+ "loss": 0.1679,
314
+ "step": 25500
315
+ },
316
+ {
317
+ "epoch": 0.42,
318
+ "learning_rate": 1.7226666666666665e-05,
319
+ "loss": 0.1706,
320
+ "step": 26000
321
+ },
322
+ {
323
+ "epoch": 0.42,
324
+ "learning_rate": 1.7173333333333334e-05,
325
+ "loss": 0.1632,
326
+ "step": 26500
327
+ },
328
+ {
329
+ "epoch": 0.43,
330
+ "learning_rate": 1.7120000000000002e-05,
331
+ "loss": 0.1637,
332
+ "step": 27000
333
+ },
334
+ {
335
+ "epoch": 0.44,
336
+ "learning_rate": 1.706666666666667e-05,
337
+ "loss": 0.1632,
338
+ "step": 27500
339
+ },
340
+ {
341
+ "epoch": 0.45,
342
+ "learning_rate": 1.7013333333333335e-05,
343
+ "loss": 0.1602,
344
+ "step": 28000
345
+ },
346
+ {
347
+ "epoch": 0.46,
348
+ "learning_rate": 1.696e-05,
349
+ "loss": 0.161,
350
+ "step": 28500
351
+ },
352
+ {
353
+ "epoch": 0.46,
354
+ "learning_rate": 1.690666666666667e-05,
355
+ "loss": 0.1597,
356
+ "step": 29000
357
+ },
358
+ {
359
+ "epoch": 0.47,
360
+ "learning_rate": 1.6853333333333333e-05,
361
+ "loss": 0.1553,
362
+ "step": 29500
363
+ },
364
+ {
365
+ "epoch": 0.48,
366
+ "learning_rate": 1.6800000000000002e-05,
367
+ "loss": 0.1566,
368
+ "step": 30000
369
+ },
370
+ {
371
+ "epoch": 0.49,
372
+ "learning_rate": 1.674666666666667e-05,
373
+ "loss": 0.1574,
374
+ "step": 30500
375
+ },
376
+ {
377
+ "epoch": 0.5,
378
+ "learning_rate": 1.6693333333333335e-05,
379
+ "loss": 0.1538,
380
+ "step": 31000
381
+ },
382
+ {
383
+ "epoch": 0.5,
384
+ "learning_rate": 1.664e-05,
385
+ "loss": 0.1539,
386
+ "step": 31500
387
+ },
388
+ {
389
+ "epoch": 0.51,
390
+ "learning_rate": 1.6586666666666668e-05,
391
+ "loss": 0.1493,
392
+ "step": 32000
393
+ },
394
+ {
395
+ "epoch": 0.52,
396
+ "learning_rate": 1.6533333333333333e-05,
397
+ "loss": 0.1533,
398
+ "step": 32500
399
+ },
400
+ {
401
+ "epoch": 0.53,
402
+ "learning_rate": 1.648e-05,
403
+ "loss": 0.1461,
404
+ "step": 33000
405
+ },
406
+ {
407
+ "epoch": 0.54,
408
+ "learning_rate": 1.642666666666667e-05,
409
+ "loss": 0.1478,
410
+ "step": 33500
411
+ },
412
+ {
413
+ "epoch": 0.54,
414
+ "learning_rate": 1.6373333333333335e-05,
415
+ "loss": 0.1422,
416
+ "step": 34000
417
+ },
418
+ {
419
+ "epoch": 0.55,
420
+ "learning_rate": 1.632e-05,
421
+ "loss": 0.1403,
422
+ "step": 34500
423
+ },
424
+ {
425
+ "epoch": 0.56,
426
+ "learning_rate": 1.6266666666666668e-05,
427
+ "loss": 0.1464,
428
+ "step": 35000
429
+ },
430
+ {
431
+ "epoch": 0.57,
432
+ "learning_rate": 1.6213333333333333e-05,
433
+ "loss": 0.143,
434
+ "step": 35500
435
+ },
436
+ {
437
+ "epoch": 0.58,
438
+ "learning_rate": 1.616e-05,
439
+ "loss": 0.1421,
440
+ "step": 36000
441
+ },
442
+ {
443
+ "epoch": 0.58,
444
+ "learning_rate": 1.610666666666667e-05,
445
+ "loss": 0.1429,
446
+ "step": 36500
447
+ },
448
+ {
449
+ "epoch": 0.59,
450
+ "learning_rate": 1.6053333333333334e-05,
451
+ "loss": 0.1366,
452
+ "step": 37000
453
+ },
454
+ {
455
+ "epoch": 0.6,
456
+ "learning_rate": 1.6000000000000003e-05,
457
+ "loss": 0.1356,
458
+ "step": 37500
459
+ },
460
+ {
461
+ "epoch": 0.61,
462
+ "learning_rate": 1.5946666666666668e-05,
463
+ "loss": 0.1409,
464
+ "step": 38000
465
+ },
466
+ {
467
+ "epoch": 0.62,
468
+ "learning_rate": 1.5893333333333333e-05,
469
+ "loss": 0.1386,
470
+ "step": 38500
471
+ },
472
+ {
473
+ "epoch": 0.62,
474
+ "learning_rate": 1.584e-05,
475
+ "loss": 0.1365,
476
+ "step": 39000
477
+ },
478
+ {
479
+ "epoch": 0.63,
480
+ "learning_rate": 1.578666666666667e-05,
481
+ "loss": 0.1375,
482
+ "step": 39500
483
+ },
484
+ {
485
+ "epoch": 0.64,
486
+ "learning_rate": 1.5733333333333334e-05,
487
+ "loss": 0.1307,
488
+ "step": 40000
489
+ },
490
+ {
491
+ "epoch": 0.65,
492
+ "learning_rate": 1.5680000000000002e-05,
493
+ "loss": 0.133,
494
+ "step": 40500
495
+ },
496
+ {
497
+ "epoch": 0.66,
498
+ "learning_rate": 1.5626666666666667e-05,
499
+ "loss": 0.131,
500
+ "step": 41000
501
+ },
502
+ {
503
+ "epoch": 0.66,
504
+ "learning_rate": 1.5573333333333332e-05,
505
+ "loss": 0.1369,
506
+ "step": 41500
507
+ },
508
+ {
509
+ "epoch": 0.67,
510
+ "learning_rate": 1.552e-05,
511
+ "loss": 0.1299,
512
+ "step": 42000
513
+ },
514
+ {
515
+ "epoch": 0.68,
516
+ "learning_rate": 1.546666666666667e-05,
517
+ "loss": 0.1285,
518
+ "step": 42500
519
+ },
520
+ {
521
+ "epoch": 0.69,
522
+ "learning_rate": 1.5413333333333337e-05,
523
+ "loss": 0.1239,
524
+ "step": 43000
525
+ },
526
+ {
527
+ "epoch": 0.7,
528
+ "learning_rate": 1.5360000000000002e-05,
529
+ "loss": 0.1233,
530
+ "step": 43500
531
+ },
532
+ {
533
+ "epoch": 0.7,
534
+ "learning_rate": 1.5306666666666667e-05,
535
+ "loss": 0.1237,
536
+ "step": 44000
537
+ },
538
+ {
539
+ "epoch": 0.71,
540
+ "learning_rate": 1.5253333333333335e-05,
541
+ "loss": 0.1263,
542
+ "step": 44500
543
+ },
544
+ {
545
+ "epoch": 0.72,
546
+ "learning_rate": 1.5200000000000002e-05,
547
+ "loss": 0.1251,
548
+ "step": 45000
549
+ },
550
+ {
551
+ "epoch": 0.73,
552
+ "learning_rate": 1.5146666666666667e-05,
553
+ "loss": 0.1214,
554
+ "step": 45500
555
+ },
556
+ {
557
+ "epoch": 0.74,
558
+ "learning_rate": 1.5093333333333335e-05,
559
+ "loss": 0.1262,
560
+ "step": 46000
561
+ },
562
+ {
563
+ "epoch": 0.74,
564
+ "learning_rate": 1.5040000000000002e-05,
565
+ "loss": 0.122,
566
+ "step": 46500
567
+ },
568
+ {
569
+ "epoch": 0.75,
570
+ "learning_rate": 1.4986666666666667e-05,
571
+ "loss": 0.12,
572
+ "step": 47000
573
+ },
574
+ {
575
+ "epoch": 0.76,
576
+ "learning_rate": 1.4933333333333335e-05,
577
+ "loss": 0.1245,
578
+ "step": 47500
579
+ },
580
+ {
581
+ "epoch": 0.77,
582
+ "learning_rate": 1.4880000000000002e-05,
583
+ "loss": 0.1226,
584
+ "step": 48000
585
+ },
586
+ {
587
+ "epoch": 0.78,
588
+ "learning_rate": 1.4826666666666666e-05,
589
+ "loss": 0.1193,
590
+ "step": 48500
591
+ },
592
+ {
593
+ "epoch": 0.78,
594
+ "learning_rate": 1.4773333333333335e-05,
595
+ "loss": 0.1234,
596
+ "step": 49000
597
+ },
598
+ {
599
+ "epoch": 0.79,
600
+ "learning_rate": 1.4720000000000001e-05,
601
+ "loss": 0.1171,
602
+ "step": 49500
603
+ },
604
+ {
605
+ "epoch": 0.8,
606
+ "learning_rate": 1.4666666666666666e-05,
607
+ "loss": 0.1184,
608
+ "step": 50000
609
+ },
610
+ {
611
+ "epoch": 0.81,
612
+ "learning_rate": 1.4613333333333335e-05,
613
+ "loss": 0.1179,
614
+ "step": 50500
615
+ },
616
+ {
617
+ "epoch": 0.82,
618
+ "learning_rate": 1.4560000000000001e-05,
619
+ "loss": 0.1177,
620
+ "step": 51000
621
+ },
622
+ {
623
+ "epoch": 0.82,
624
+ "learning_rate": 1.450666666666667e-05,
625
+ "loss": 0.1173,
626
+ "step": 51500
627
+ },
628
+ {
629
+ "epoch": 0.83,
630
+ "learning_rate": 1.4453333333333334e-05,
631
+ "loss": 0.1139,
632
+ "step": 52000
633
+ },
634
+ {
635
+ "epoch": 0.84,
636
+ "learning_rate": 1.4400000000000001e-05,
637
+ "loss": 0.1171,
638
+ "step": 52500
639
+ },
640
+ {
641
+ "epoch": 0.85,
642
+ "learning_rate": 1.434666666666667e-05,
643
+ "loss": 0.1132,
644
+ "step": 53000
645
+ },
646
+ {
647
+ "epoch": 0.86,
648
+ "learning_rate": 1.4293333333333334e-05,
649
+ "loss": 0.1113,
650
+ "step": 53500
651
+ },
652
+ {
653
+ "epoch": 0.86,
654
+ "learning_rate": 1.4240000000000001e-05,
655
+ "loss": 0.112,
656
+ "step": 54000
657
+ },
658
+ {
659
+ "epoch": 0.87,
660
+ "learning_rate": 1.418666666666667e-05,
661
+ "loss": 0.1165,
662
+ "step": 54500
663
+ },
664
+ {
665
+ "epoch": 0.88,
666
+ "learning_rate": 1.4133333333333334e-05,
667
+ "loss": 0.1141,
668
+ "step": 55000
669
+ },
670
+ {
671
+ "epoch": 0.89,
672
+ "learning_rate": 1.408e-05,
673
+ "loss": 0.1128,
674
+ "step": 55500
675
+ },
676
+ {
677
+ "epoch": 0.9,
678
+ "learning_rate": 1.4026666666666669e-05,
679
+ "loss": 0.1145,
680
+ "step": 56000
681
+ },
682
+ {
683
+ "epoch": 0.9,
684
+ "learning_rate": 1.3973333333333334e-05,
685
+ "loss": 0.1153,
686
+ "step": 56500
687
+ },
688
+ {
689
+ "epoch": 0.91,
690
+ "learning_rate": 1.392e-05,
691
+ "loss": 0.12,
692
+ "step": 57000
693
+ },
694
+ {
695
+ "epoch": 0.92,
696
+ "learning_rate": 1.3866666666666669e-05,
697
+ "loss": 0.1088,
698
+ "step": 57500
699
+ },
700
+ {
701
+ "epoch": 0.93,
702
+ "learning_rate": 1.3813333333333334e-05,
703
+ "loss": 0.1051,
704
+ "step": 58000
705
+ },
706
+ {
707
+ "epoch": 0.94,
708
+ "learning_rate": 1.376e-05,
709
+ "loss": 0.1113,
710
+ "step": 58500
711
+ },
712
+ {
713
+ "epoch": 0.94,
714
+ "learning_rate": 1.3706666666666669e-05,
715
+ "loss": 0.1066,
716
+ "step": 59000
717
+ },
718
+ {
719
+ "epoch": 0.95,
720
+ "learning_rate": 1.3653333333333334e-05,
721
+ "loss": 0.1066,
722
+ "step": 59500
723
+ },
724
+ {
725
+ "epoch": 0.96,
726
+ "learning_rate": 1.3600000000000002e-05,
727
+ "loss": 0.1074,
728
+ "step": 60000
729
+ },
730
+ {
731
+ "epoch": 0.97,
732
+ "learning_rate": 1.3546666666666669e-05,
733
+ "loss": 0.1081,
734
+ "step": 60500
735
+ },
736
+ {
737
+ "epoch": 0.98,
738
+ "learning_rate": 1.3493333333333333e-05,
739
+ "loss": 0.1064,
740
+ "step": 61000
741
+ },
742
+ {
743
+ "epoch": 0.98,
744
+ "learning_rate": 1.3440000000000002e-05,
745
+ "loss": 0.1051,
746
+ "step": 61500
747
+ },
748
+ {
749
+ "epoch": 0.99,
750
+ "learning_rate": 1.3386666666666668e-05,
751
+ "loss": 0.1075,
752
+ "step": 62000
753
+ },
754
+ {
755
+ "epoch": 1.0,
756
+ "learning_rate": 1.3333333333333333e-05,
757
+ "loss": 0.1055,
758
+ "step": 62500
759
+ },
760
+ {
761
+ "epoch": 1.0,
762
+ "eval_accuracy": 0.9747578045105738,
763
+ "eval_f1": 0.9651677382474034,
764
+ "eval_loss": 0.0900774672627449,
765
+ "eval_precision": 0.9647525616990678,
766
+ "eval_recall": 0.9655832722879798,
767
+ "eval_runtime": 89.4083,
768
+ "eval_samples_per_second": 165.812,
769
+ "eval_steps_per_second": 10.368,
770
+ "step": 62500
771
+ },
772
+ {
773
+ "epoch": 1.01,
774
+ "learning_rate": 1.3280000000000002e-05,
775
+ "loss": 0.093,
776
+ "step": 63000
777
+ },
778
+ {
779
+ "epoch": 1.02,
780
+ "learning_rate": 1.3226666666666668e-05,
781
+ "loss": 0.0896,
782
+ "step": 63500
783
+ },
784
+ {
785
+ "epoch": 1.02,
786
+ "learning_rate": 1.3173333333333333e-05,
787
+ "loss": 0.0932,
788
+ "step": 64000
789
+ },
790
+ {
791
+ "epoch": 1.03,
792
+ "learning_rate": 1.3120000000000001e-05,
793
+ "loss": 0.0884,
794
+ "step": 64500
795
+ },
796
+ {
797
+ "epoch": 1.04,
798
+ "learning_rate": 1.3066666666666668e-05,
799
+ "loss": 0.0898,
800
+ "step": 65000
801
+ },
802
+ {
803
+ "epoch": 1.05,
804
+ "learning_rate": 1.3013333333333333e-05,
805
+ "loss": 0.0902,
806
+ "step": 65500
807
+ },
808
+ {
809
+ "epoch": 1.06,
810
+ "learning_rate": 1.2960000000000001e-05,
811
+ "loss": 0.0836,
812
+ "step": 66000
813
+ },
814
+ {
815
+ "epoch": 1.06,
816
+ "learning_rate": 1.2906666666666668e-05,
817
+ "loss": 0.0865,
818
+ "step": 66500
819
+ },
820
+ {
821
+ "epoch": 1.07,
822
+ "learning_rate": 1.2853333333333336e-05,
823
+ "loss": 0.0867,
824
+ "step": 67000
825
+ },
826
+ {
827
+ "epoch": 1.08,
828
+ "learning_rate": 1.2800000000000001e-05,
829
+ "loss": 0.0846,
830
+ "step": 67500
831
+ },
832
+ {
833
+ "epoch": 1.09,
834
+ "learning_rate": 1.2746666666666668e-05,
835
+ "loss": 0.0854,
836
+ "step": 68000
837
+ },
838
+ {
839
+ "epoch": 1.1,
840
+ "learning_rate": 1.2693333333333336e-05,
841
+ "loss": 0.0831,
842
+ "step": 68500
843
+ },
844
+ {
845
+ "epoch": 1.1,
846
+ "learning_rate": 1.2640000000000001e-05,
847
+ "loss": 0.0869,
848
+ "step": 69000
849
+ },
850
+ {
851
+ "epoch": 1.11,
852
+ "learning_rate": 1.2586666666666668e-05,
853
+ "loss": 0.0848,
854
+ "step": 69500
855
+ },
856
+ {
857
+ "epoch": 1.12,
858
+ "learning_rate": 1.2533333333333336e-05,
859
+ "loss": 0.0843,
860
+ "step": 70000
861
+ },
862
+ {
863
+ "epoch": 1.13,
864
+ "learning_rate": 1.248e-05,
865
+ "loss": 0.0838,
866
+ "step": 70500
867
+ },
868
+ {
869
+ "epoch": 1.14,
870
+ "learning_rate": 1.2426666666666667e-05,
871
+ "loss": 0.0879,
872
+ "step": 71000
873
+ },
874
+ {
875
+ "epoch": 1.14,
876
+ "learning_rate": 1.2373333333333336e-05,
877
+ "loss": 0.0867,
878
+ "step": 71500
879
+ },
880
+ {
881
+ "epoch": 1.15,
882
+ "learning_rate": 1.232e-05,
883
+ "loss": 0.085,
884
+ "step": 72000
885
+ },
886
+ {
887
+ "epoch": 1.16,
888
+ "learning_rate": 1.2266666666666667e-05,
889
+ "loss": 0.0853,
890
+ "step": 72500
891
+ },
892
+ {
893
+ "epoch": 1.17,
894
+ "learning_rate": 1.2213333333333336e-05,
895
+ "loss": 0.0891,
896
+ "step": 73000
897
+ },
898
+ {
899
+ "epoch": 1.18,
900
+ "learning_rate": 1.216e-05,
901
+ "loss": 0.0845,
902
+ "step": 73500
903
+ },
904
+ {
905
+ "epoch": 1.18,
906
+ "learning_rate": 1.2106666666666667e-05,
907
+ "loss": 0.0865,
908
+ "step": 74000
909
+ },
910
+ {
911
+ "epoch": 1.19,
912
+ "learning_rate": 1.2053333333333335e-05,
913
+ "loss": 0.0845,
914
+ "step": 74500
915
+ },
916
+ {
917
+ "epoch": 1.2,
918
+ "learning_rate": 1.2e-05,
919
+ "loss": 0.0811,
920
+ "step": 75000
921
+ },
922
+ {
923
+ "epoch": 1.21,
924
+ "learning_rate": 1.1946666666666669e-05,
925
+ "loss": 0.0821,
926
+ "step": 75500
927
+ },
928
+ {
929
+ "epoch": 1.22,
930
+ "learning_rate": 1.1893333333333335e-05,
931
+ "loss": 0.0935,
932
+ "step": 76000
933
+ },
934
+ {
935
+ "epoch": 1.22,
936
+ "learning_rate": 1.184e-05,
937
+ "loss": 0.0824,
938
+ "step": 76500
939
+ },
940
+ {
941
+ "epoch": 1.23,
942
+ "learning_rate": 1.1786666666666668e-05,
943
+ "loss": 0.0835,
944
+ "step": 77000
945
+ },
946
+ {
947
+ "epoch": 1.24,
948
+ "learning_rate": 1.1733333333333335e-05,
949
+ "loss": 0.083,
950
+ "step": 77500
951
+ },
952
+ {
953
+ "epoch": 1.25,
954
+ "learning_rate": 1.168e-05,
955
+ "loss": 0.0815,
956
+ "step": 78000
957
+ },
958
+ {
959
+ "epoch": 1.26,
960
+ "learning_rate": 1.1626666666666668e-05,
961
+ "loss": 0.0802,
962
+ "step": 78500
963
+ },
964
+ {
965
+ "epoch": 1.26,
966
+ "learning_rate": 1.1573333333333335e-05,
967
+ "loss": 0.084,
968
+ "step": 79000
969
+ },
970
+ {
971
+ "epoch": 1.27,
972
+ "learning_rate": 1.152e-05,
973
+ "loss": 0.0798,
974
+ "step": 79500
975
+ },
976
+ {
977
+ "epoch": 1.28,
978
+ "learning_rate": 1.1466666666666668e-05,
979
+ "loss": 0.0761,
980
+ "step": 80000
981
+ },
982
+ {
983
+ "epoch": 1.29,
984
+ "learning_rate": 1.1413333333333335e-05,
985
+ "loss": 0.0787,
986
+ "step": 80500
987
+ },
988
+ {
989
+ "epoch": 1.3,
990
+ "learning_rate": 1.136e-05,
991
+ "loss": 0.0781,
992
+ "step": 81000
993
+ },
994
+ {
995
+ "epoch": 1.3,
996
+ "learning_rate": 1.1306666666666668e-05,
997
+ "loss": 0.0823,
998
+ "step": 81500
999
+ },
1000
+ {
1001
+ "epoch": 1.31,
1002
+ "learning_rate": 1.1253333333333335e-05,
1003
+ "loss": 0.0784,
1004
+ "step": 82000
1005
+ },
1006
+ {
1007
+ "epoch": 1.32,
1008
+ "learning_rate": 1.1200000000000001e-05,
1009
+ "loss": 0.0783,
1010
+ "step": 82500
1011
+ },
1012
+ {
1013
+ "epoch": 1.33,
1014
+ "learning_rate": 1.1146666666666668e-05,
1015
+ "loss": 0.0784,
1016
+ "step": 83000
1017
+ },
1018
+ {
1019
+ "epoch": 1.34,
1020
+ "learning_rate": 1.1093333333333334e-05,
1021
+ "loss": 0.081,
1022
+ "step": 83500
1023
+ },
1024
+ {
1025
+ "epoch": 1.34,
1026
+ "learning_rate": 1.1040000000000001e-05,
1027
+ "loss": 0.0778,
1028
+ "step": 84000
1029
+ },
1030
+ {
1031
+ "epoch": 1.35,
1032
+ "learning_rate": 1.0986666666666668e-05,
1033
+ "loss": 0.0787,
1034
+ "step": 84500
1035
+ },
1036
+ {
1037
+ "epoch": 1.36,
1038
+ "learning_rate": 1.0933333333333334e-05,
1039
+ "loss": 0.0797,
1040
+ "step": 85000
1041
+ },
1042
+ {
1043
+ "epoch": 1.37,
1044
+ "learning_rate": 1.0880000000000001e-05,
1045
+ "loss": 0.0797,
1046
+ "step": 85500
1047
+ },
1048
+ {
1049
+ "epoch": 1.38,
1050
+ "learning_rate": 1.0826666666666667e-05,
1051
+ "loss": 0.0809,
1052
+ "step": 86000
1053
+ },
1054
+ {
1055
+ "epoch": 1.38,
1056
+ "learning_rate": 1.0773333333333334e-05,
1057
+ "loss": 0.0769,
1058
+ "step": 86500
1059
+ },
1060
+ {
1061
+ "epoch": 1.39,
1062
+ "learning_rate": 1.072e-05,
1063
+ "loss": 0.0779,
1064
+ "step": 87000
1065
+ },
1066
+ {
1067
+ "epoch": 1.4,
1068
+ "learning_rate": 1.0666666666666667e-05,
1069
+ "loss": 0.0764,
1070
+ "step": 87500
1071
+ },
1072
+ {
1073
+ "epoch": 1.41,
1074
+ "learning_rate": 1.0613333333333334e-05,
1075
+ "loss": 0.0752,
1076
+ "step": 88000
1077
+ },
1078
+ {
1079
+ "epoch": 1.42,
1080
+ "learning_rate": 1.056e-05,
1081
+ "loss": 0.0774,
1082
+ "step": 88500
1083
+ },
1084
+ {
1085
+ "epoch": 1.42,
1086
+ "learning_rate": 1.0506666666666667e-05,
1087
+ "loss": 0.0776,
1088
+ "step": 89000
1089
+ },
1090
+ {
1091
+ "epoch": 1.43,
1092
+ "learning_rate": 1.0453333333333334e-05,
1093
+ "loss": 0.0755,
1094
+ "step": 89500
1095
+ },
1096
+ {
1097
+ "epoch": 1.44,
1098
+ "learning_rate": 1.04e-05,
1099
+ "loss": 0.075,
1100
+ "step": 90000
1101
+ },
1102
+ {
1103
+ "epoch": 1.45,
1104
+ "learning_rate": 1.0346666666666667e-05,
1105
+ "loss": 0.076,
1106
+ "step": 90500
1107
+ },
1108
+ {
1109
+ "epoch": 1.46,
1110
+ "learning_rate": 1.0293333333333335e-05,
1111
+ "loss": 0.0789,
1112
+ "step": 91000
1113
+ },
1114
+ {
1115
+ "epoch": 1.46,
1116
+ "learning_rate": 1.024e-05,
1117
+ "loss": 0.0728,
1118
+ "step": 91500
1119
+ },
1120
+ {
1121
+ "epoch": 1.47,
1122
+ "learning_rate": 1.0186666666666667e-05,
1123
+ "loss": 0.074,
1124
+ "step": 92000
1125
+ },
1126
+ {
1127
+ "epoch": 1.48,
1128
+ "learning_rate": 1.0133333333333335e-05,
1129
+ "loss": 0.0757,
1130
+ "step": 92500
1131
+ },
1132
+ {
1133
+ "epoch": 1.49,
1134
+ "learning_rate": 1.008e-05,
1135
+ "loss": 0.0714,
1136
+ "step": 93000
1137
+ },
1138
+ {
1139
+ "epoch": 1.5,
1140
+ "learning_rate": 1.0026666666666667e-05,
1141
+ "loss": 0.0753,
1142
+ "step": 93500
1143
+ },
1144
+ {
1145
+ "epoch": 1.5,
1146
+ "learning_rate": 9.973333333333333e-06,
1147
+ "loss": 0.0745,
1148
+ "step": 94000
1149
+ },
1150
+ {
1151
+ "epoch": 1.51,
1152
+ "learning_rate": 9.920000000000002e-06,
1153
+ "loss": 0.0747,
1154
+ "step": 94500
1155
+ },
1156
+ {
1157
+ "epoch": 1.52,
1158
+ "learning_rate": 9.866666666666668e-06,
1159
+ "loss": 0.0721,
1160
+ "step": 95000
1161
+ },
1162
+ {
1163
+ "epoch": 1.53,
1164
+ "learning_rate": 9.813333333333333e-06,
1165
+ "loss": 0.0723,
1166
+ "step": 95500
1167
+ },
1168
+ {
1169
+ "epoch": 1.54,
1170
+ "learning_rate": 9.760000000000001e-06,
1171
+ "loss": 0.0764,
1172
+ "step": 96000
1173
+ },
1174
+ {
1175
+ "epoch": 1.54,
1176
+ "learning_rate": 9.706666666666668e-06,
1177
+ "loss": 0.0711,
1178
+ "step": 96500
1179
+ },
1180
+ {
1181
+ "epoch": 1.55,
1182
+ "learning_rate": 9.653333333333335e-06,
1183
+ "loss": 0.0733,
1184
+ "step": 97000
1185
+ },
1186
+ {
1187
+ "epoch": 1.56,
1188
+ "learning_rate": 9.600000000000001e-06,
1189
+ "loss": 0.0709,
1190
+ "step": 97500
1191
+ },
1192
+ {
1193
+ "epoch": 1.57,
1194
+ "learning_rate": 9.546666666666668e-06,
1195
+ "loss": 0.0755,
1196
+ "step": 98000
1197
+ },
1198
+ {
1199
+ "epoch": 1.58,
1200
+ "learning_rate": 9.493333333333334e-06,
1201
+ "loss": 0.0715,
1202
+ "step": 98500
1203
+ },
1204
+ {
1205
+ "epoch": 1.58,
1206
+ "learning_rate": 9.440000000000001e-06,
1207
+ "loss": 0.074,
1208
+ "step": 99000
1209
+ },
1210
+ {
1211
+ "epoch": 1.59,
1212
+ "learning_rate": 9.386666666666668e-06,
1213
+ "loss": 0.0707,
1214
+ "step": 99500
1215
+ },
1216
+ {
1217
+ "epoch": 1.6,
1218
+ "learning_rate": 9.333333333333334e-06,
1219
+ "loss": 0.0729,
1220
+ "step": 100000
1221
+ },
1222
+ {
1223
+ "epoch": 1.61,
1224
+ "learning_rate": 9.280000000000001e-06,
1225
+ "loss": 0.0715,
1226
+ "step": 100500
1227
+ },
1228
+ {
1229
+ "epoch": 1.62,
1230
+ "learning_rate": 9.226666666666668e-06,
1231
+ "loss": 0.0711,
1232
+ "step": 101000
1233
+ },
1234
+ {
1235
+ "epoch": 1.62,
1236
+ "learning_rate": 9.173333333333334e-06,
1237
+ "loss": 0.0683,
1238
+ "step": 101500
1239
+ },
1240
+ {
1241
+ "epoch": 1.63,
1242
+ "learning_rate": 9.12e-06,
1243
+ "loss": 0.0691,
1244
+ "step": 102000
1245
+ },
1246
+ {
1247
+ "epoch": 1.64,
1248
+ "learning_rate": 9.066666666666667e-06,
1249
+ "loss": 0.0739,
1250
+ "step": 102500
1251
+ },
1252
+ {
1253
+ "epoch": 1.65,
1254
+ "learning_rate": 9.013333333333334e-06,
1255
+ "loss": 0.0733,
1256
+ "step": 103000
1257
+ },
1258
+ {
1259
+ "epoch": 1.66,
1260
+ "learning_rate": 8.96e-06,
1261
+ "loss": 0.073,
1262
+ "step": 103500
1263
+ },
1264
+ {
1265
+ "epoch": 1.66,
1266
+ "learning_rate": 8.906666666666667e-06,
1267
+ "loss": 0.0682,
1268
+ "step": 104000
1269
+ },
1270
+ {
1271
+ "epoch": 1.67,
1272
+ "learning_rate": 8.853333333333334e-06,
1273
+ "loss": 0.0688,
1274
+ "step": 104500
1275
+ },
1276
+ {
1277
+ "epoch": 1.68,
1278
+ "learning_rate": 8.8e-06,
1279
+ "loss": 0.0679,
1280
+ "step": 105000
1281
+ },
1282
+ {
1283
+ "epoch": 1.69,
1284
+ "learning_rate": 8.746666666666667e-06,
1285
+ "loss": 0.0731,
1286
+ "step": 105500
1287
+ },
1288
+ {
1289
+ "epoch": 1.7,
1290
+ "learning_rate": 8.693333333333334e-06,
1291
+ "loss": 0.0716,
1292
+ "step": 106000
1293
+ },
1294
+ {
1295
+ "epoch": 1.7,
1296
+ "learning_rate": 8.64e-06,
1297
+ "loss": 0.0674,
1298
+ "step": 106500
1299
+ },
1300
+ {
1301
+ "epoch": 1.71,
1302
+ "learning_rate": 8.586666666666667e-06,
1303
+ "loss": 0.067,
1304
+ "step": 107000
1305
+ },
1306
+ {
1307
+ "epoch": 1.72,
1308
+ "learning_rate": 8.533333333333335e-06,
1309
+ "loss": 0.0689,
1310
+ "step": 107500
1311
+ },
1312
+ {
1313
+ "epoch": 1.73,
1314
+ "learning_rate": 8.48e-06,
1315
+ "loss": 0.0731,
1316
+ "step": 108000
1317
+ },
1318
+ {
1319
+ "epoch": 1.74,
1320
+ "learning_rate": 8.426666666666667e-06,
1321
+ "loss": 0.0707,
1322
+ "step": 108500
1323
+ },
1324
+ {
1325
+ "epoch": 1.74,
1326
+ "learning_rate": 8.373333333333335e-06,
1327
+ "loss": 0.0714,
1328
+ "step": 109000
1329
+ },
1330
+ {
1331
+ "epoch": 1.75,
1332
+ "learning_rate": 8.32e-06,
1333
+ "loss": 0.0682,
1334
+ "step": 109500
1335
+ },
1336
+ {
1337
+ "epoch": 1.76,
1338
+ "learning_rate": 8.266666666666667e-06,
1339
+ "loss": 0.0684,
1340
+ "step": 110000
1341
+ },
1342
+ {
1343
+ "epoch": 1.77,
1344
+ "learning_rate": 8.213333333333335e-06,
1345
+ "loss": 0.0698,
1346
+ "step": 110500
1347
+ },
1348
+ {
1349
+ "epoch": 1.78,
1350
+ "learning_rate": 8.16e-06,
1351
+ "loss": 0.0683,
1352
+ "step": 111000
1353
+ },
1354
+ {
1355
+ "epoch": 1.78,
1356
+ "learning_rate": 8.106666666666666e-06,
1357
+ "loss": 0.068,
1358
+ "step": 111500
1359
+ },
1360
+ {
1361
+ "epoch": 1.79,
1362
+ "learning_rate": 8.053333333333335e-06,
1363
+ "loss": 0.0728,
1364
+ "step": 112000
1365
+ },
1366
+ {
1367
+ "epoch": 1.8,
1368
+ "learning_rate": 8.000000000000001e-06,
1369
+ "loss": 0.0667,
1370
+ "step": 112500
1371
+ },
1372
+ {
1373
+ "epoch": 1.81,
1374
+ "learning_rate": 7.946666666666666e-06,
1375
+ "loss": 0.0677,
1376
+ "step": 113000
1377
+ },
1378
+ {
1379
+ "epoch": 1.82,
1380
+ "learning_rate": 7.893333333333335e-06,
1381
+ "loss": 0.0699,
1382
+ "step": 113500
1383
+ },
1384
+ {
1385
+ "epoch": 1.82,
1386
+ "learning_rate": 7.840000000000001e-06,
1387
+ "loss": 0.0672,
1388
+ "step": 114000
1389
+ },
1390
+ {
1391
+ "epoch": 1.83,
1392
+ "learning_rate": 7.786666666666666e-06,
1393
+ "loss": 0.0657,
1394
+ "step": 114500
1395
+ },
1396
+ {
1397
+ "epoch": 1.84,
1398
+ "learning_rate": 7.733333333333334e-06,
1399
+ "loss": 0.0634,
1400
+ "step": 115000
1401
+ },
1402
+ {
1403
+ "epoch": 1.85,
1404
+ "learning_rate": 7.680000000000001e-06,
1405
+ "loss": 0.0654,
1406
+ "step": 115500
1407
+ },
1408
+ {
1409
+ "epoch": 1.86,
1410
+ "learning_rate": 7.626666666666668e-06,
1411
+ "loss": 0.0685,
1412
+ "step": 116000
1413
+ },
1414
+ {
1415
+ "epoch": 1.86,
1416
+ "learning_rate": 7.573333333333333e-06,
1417
+ "loss": 0.0659,
1418
+ "step": 116500
1419
+ },
1420
+ {
1421
+ "epoch": 1.87,
1422
+ "learning_rate": 7.520000000000001e-06,
1423
+ "loss": 0.0669,
1424
+ "step": 117000
1425
+ },
1426
+ {
1427
+ "epoch": 1.88,
1428
+ "learning_rate": 7.4666666666666675e-06,
1429
+ "loss": 0.0662,
1430
+ "step": 117500
1431
+ },
1432
+ {
1433
+ "epoch": 1.89,
1434
+ "learning_rate": 7.413333333333333e-06,
1435
+ "loss": 0.0659,
1436
+ "step": 118000
1437
+ },
1438
+ {
1439
+ "epoch": 1.9,
1440
+ "learning_rate": 7.360000000000001e-06,
1441
+ "loss": 0.0676,
1442
+ "step": 118500
1443
+ },
1444
+ {
1445
+ "epoch": 1.9,
1446
+ "learning_rate": 7.306666666666667e-06,
1447
+ "loss": 0.0621,
1448
+ "step": 119000
1449
+ },
1450
+ {
1451
+ "epoch": 1.91,
1452
+ "learning_rate": 7.253333333333335e-06,
1453
+ "loss": 0.0627,
1454
+ "step": 119500
1455
+ },
1456
+ {
1457
+ "epoch": 1.92,
1458
+ "learning_rate": 7.2000000000000005e-06,
1459
+ "loss": 0.0611,
1460
+ "step": 120000
1461
+ },
1462
+ {
1463
+ "epoch": 1.93,
1464
+ "learning_rate": 7.146666666666667e-06,
1465
+ "loss": 0.0652,
1466
+ "step": 120500
1467
+ },
1468
+ {
1469
+ "epoch": 1.94,
1470
+ "learning_rate": 7.093333333333335e-06,
1471
+ "loss": 0.0636,
1472
+ "step": 121000
1473
+ },
1474
+ {
1475
+ "epoch": 1.94,
1476
+ "learning_rate": 7.04e-06,
1477
+ "loss": 0.0646,
1478
+ "step": 121500
1479
+ },
1480
+ {
1481
+ "epoch": 1.95,
1482
+ "learning_rate": 6.986666666666667e-06,
1483
+ "loss": 0.0631,
1484
+ "step": 122000
1485
+ },
1486
+ {
1487
+ "epoch": 1.96,
1488
+ "learning_rate": 6.9333333333333344e-06,
1489
+ "loss": 0.0629,
1490
+ "step": 122500
1491
+ },
1492
+ {
1493
+ "epoch": 1.97,
1494
+ "learning_rate": 6.88e-06,
1495
+ "loss": 0.062,
1496
+ "step": 123000
1497
+ },
1498
+ {
1499
+ "epoch": 1.98,
1500
+ "learning_rate": 6.826666666666667e-06,
1501
+ "loss": 0.0643,
1502
+ "step": 123500
1503
+ },
1504
+ {
1505
+ "epoch": 1.98,
1506
+ "learning_rate": 6.773333333333334e-06,
1507
+ "loss": 0.0614,
1508
+ "step": 124000
1509
+ },
1510
+ {
1511
+ "epoch": 1.99,
1512
+ "learning_rate": 6.720000000000001e-06,
1513
+ "loss": 0.0628,
1514
+ "step": 124500
1515
+ },
1516
+ {
1517
+ "epoch": 2.0,
1518
+ "learning_rate": 6.666666666666667e-06,
1519
+ "loss": 0.0632,
1520
+ "step": 125000
1521
+ },
1522
+ {
1523
+ "epoch": 2.0,
1524
+ "eval_accuracy": 0.9831341384398005,
1525
+ "eval_f1": 0.9765977811895752,
1526
+ "eval_loss": 0.06304121017456055,
1527
+ "eval_precision": 0.9763030131778365,
1528
+ "eval_recall": 0.9768927272493606,
1529
+ "eval_runtime": 71.6135,
1530
+ "eval_samples_per_second": 207.014,
1531
+ "eval_steps_per_second": 12.944,
1532
+ "step": 125000
1533
+ },
1534
+ {
1535
+ "epoch": 2.01,
1536
+ "learning_rate": 6.613333333333334e-06,
1537
+ "loss": 0.0472,
1538
+ "step": 125500
1539
+ },
1540
+ {
1541
+ "epoch": 2.02,
1542
+ "learning_rate": 6.560000000000001e-06,
1543
+ "loss": 0.0487,
1544
+ "step": 126000
1545
+ },
1546
+ {
1547
+ "epoch": 2.02,
1548
+ "learning_rate": 6.5066666666666665e-06,
1549
+ "loss": 0.0451,
1550
+ "step": 126500
1551
+ },
1552
+ {
1553
+ "epoch": 2.03,
1554
+ "learning_rate": 6.453333333333334e-06,
1555
+ "loss": 0.0471,
1556
+ "step": 127000
1557
+ },
1558
+ {
1559
+ "epoch": 2.04,
1560
+ "learning_rate": 6.4000000000000006e-06,
1561
+ "loss": 0.0466,
1562
+ "step": 127500
1563
+ },
1564
+ {
1565
+ "epoch": 2.05,
1566
+ "learning_rate": 6.346666666666668e-06,
1567
+ "loss": 0.0469,
1568
+ "step": 128000
1569
+ },
1570
+ {
1571
+ "epoch": 2.06,
1572
+ "learning_rate": 6.293333333333334e-06,
1573
+ "loss": 0.045,
1574
+ "step": 128500
1575
+ },
1576
+ {
1577
+ "epoch": 2.06,
1578
+ "learning_rate": 6.24e-06,
1579
+ "loss": 0.0467,
1580
+ "step": 129000
1581
+ },
1582
+ {
1583
+ "epoch": 2.07,
1584
+ "learning_rate": 6.186666666666668e-06,
1585
+ "loss": 0.0439,
1586
+ "step": 129500
1587
+ },
1588
+ {
1589
+ "epoch": 2.08,
1590
+ "learning_rate": 6.133333333333334e-06,
1591
+ "loss": 0.0471,
1592
+ "step": 130000
1593
+ },
1594
+ {
1595
+ "epoch": 2.09,
1596
+ "learning_rate": 6.08e-06,
1597
+ "loss": 0.0452,
1598
+ "step": 130500
1599
+ },
1600
+ {
1601
+ "epoch": 2.1,
1602
+ "learning_rate": 6.026666666666668e-06,
1603
+ "loss": 0.0469,
1604
+ "step": 131000
1605
+ },
1606
+ {
1607
+ "epoch": 2.1,
1608
+ "learning_rate": 5.973333333333334e-06,
1609
+ "loss": 0.0451,
1610
+ "step": 131500
1611
+ },
1612
+ {
1613
+ "epoch": 2.11,
1614
+ "learning_rate": 5.92e-06,
1615
+ "loss": 0.0461,
1616
+ "step": 132000
1617
+ },
1618
+ {
1619
+ "epoch": 2.12,
1620
+ "learning_rate": 5.8666666666666675e-06,
1621
+ "loss": 0.0458,
1622
+ "step": 132500
1623
+ },
1624
+ {
1625
+ "epoch": 2.13,
1626
+ "learning_rate": 5.813333333333334e-06,
1627
+ "loss": 0.0461,
1628
+ "step": 133000
1629
+ },
1630
+ {
1631
+ "epoch": 2.14,
1632
+ "learning_rate": 5.76e-06,
1633
+ "loss": 0.0482,
1634
+ "step": 133500
1635
+ },
1636
+ {
1637
+ "epoch": 2.14,
1638
+ "learning_rate": 5.706666666666667e-06,
1639
+ "loss": 0.0459,
1640
+ "step": 134000
1641
+ },
1642
+ {
1643
+ "epoch": 2.15,
1644
+ "learning_rate": 5.653333333333334e-06,
1645
+ "loss": 0.0465,
1646
+ "step": 134500
1647
+ },
1648
+ {
1649
+ "epoch": 2.16,
1650
+ "learning_rate": 5.600000000000001e-06,
1651
+ "loss": 0.0482,
1652
+ "step": 135000
1653
+ },
1654
+ {
1655
+ "epoch": 2.17,
1656
+ "learning_rate": 5.546666666666667e-06,
1657
+ "loss": 0.0458,
1658
+ "step": 135500
1659
+ },
1660
+ {
1661
+ "epoch": 2.18,
1662
+ "learning_rate": 5.493333333333334e-06,
1663
+ "loss": 0.0445,
1664
+ "step": 136000
1665
+ },
1666
+ {
1667
+ "epoch": 2.18,
1668
+ "learning_rate": 5.4400000000000004e-06,
1669
+ "loss": 0.0443,
1670
+ "step": 136500
1671
+ },
1672
+ {
1673
+ "epoch": 2.19,
1674
+ "learning_rate": 5.386666666666667e-06,
1675
+ "loss": 0.0446,
1676
+ "step": 137000
1677
+ },
1678
+ {
1679
+ "epoch": 2.2,
1680
+ "learning_rate": 5.333333333333334e-06,
1681
+ "loss": 0.0475,
1682
+ "step": 137500
1683
+ },
1684
+ {
1685
+ "epoch": 2.21,
1686
+ "learning_rate": 5.28e-06,
1687
+ "loss": 0.0459,
1688
+ "step": 138000
1689
+ },
1690
+ {
1691
+ "epoch": 2.22,
1692
+ "learning_rate": 5.226666666666667e-06,
1693
+ "loss": 0.0447,
1694
+ "step": 138500
1695
+ },
1696
+ {
1697
+ "epoch": 2.22,
1698
+ "learning_rate": 5.1733333333333335e-06,
1699
+ "loss": 0.0447,
1700
+ "step": 139000
1701
+ },
1702
+ {
1703
+ "epoch": 2.23,
1704
+ "learning_rate": 5.12e-06,
1705
+ "loss": 0.0454,
1706
+ "step": 139500
1707
+ },
1708
+ {
1709
+ "epoch": 2.24,
1710
+ "learning_rate": 5.0666666666666676e-06,
1711
+ "loss": 0.0433,
1712
+ "step": 140000
1713
+ },
1714
+ {
1715
+ "epoch": 2.25,
1716
+ "learning_rate": 5.013333333333333e-06,
1717
+ "loss": 0.0464,
1718
+ "step": 140500
1719
+ },
1720
+ {
1721
+ "epoch": 2.26,
1722
+ "learning_rate": 4.960000000000001e-06,
1723
+ "loss": 0.0442,
1724
+ "step": 141000
1725
+ },
1726
+ {
1727
+ "epoch": 2.26,
1728
+ "learning_rate": 4.9066666666666666e-06,
1729
+ "loss": 0.0454,
1730
+ "step": 141500
1731
+ },
1732
+ {
1733
+ "epoch": 2.27,
1734
+ "learning_rate": 4.853333333333334e-06,
1735
+ "loss": 0.0473,
1736
+ "step": 142000
1737
+ },
1738
+ {
1739
+ "epoch": 2.28,
1740
+ "learning_rate": 4.800000000000001e-06,
1741
+ "loss": 0.0435,
1742
+ "step": 142500
1743
+ },
1744
+ {
1745
+ "epoch": 2.29,
1746
+ "learning_rate": 4.746666666666667e-06,
1747
+ "loss": 0.0445,
1748
+ "step": 143000
1749
+ },
1750
+ {
1751
+ "epoch": 2.3,
1752
+ "learning_rate": 4.693333333333334e-06,
1753
+ "loss": 0.0423,
1754
+ "step": 143500
1755
+ },
1756
+ {
1757
+ "epoch": 2.3,
1758
+ "learning_rate": 4.6400000000000005e-06,
1759
+ "loss": 0.0427,
1760
+ "step": 144000
1761
+ },
1762
+ {
1763
+ "epoch": 2.31,
1764
+ "learning_rate": 4.586666666666667e-06,
1765
+ "loss": 0.0441,
1766
+ "step": 144500
1767
+ },
1768
+ {
1769
+ "epoch": 2.32,
1770
+ "learning_rate": 4.533333333333334e-06,
1771
+ "loss": 0.0465,
1772
+ "step": 145000
1773
+ },
1774
+ {
1775
+ "epoch": 2.33,
1776
+ "learning_rate": 4.48e-06,
1777
+ "loss": 0.0446,
1778
+ "step": 145500
1779
+ },
1780
+ {
1781
+ "epoch": 2.34,
1782
+ "learning_rate": 4.426666666666667e-06,
1783
+ "loss": 0.0442,
1784
+ "step": 146000
1785
+ },
1786
+ {
1787
+ "epoch": 2.34,
1788
+ "learning_rate": 4.3733333333333335e-06,
1789
+ "loss": 0.0444,
1790
+ "step": 146500
1791
+ },
1792
+ {
1793
+ "epoch": 2.35,
1794
+ "learning_rate": 4.32e-06,
1795
+ "loss": 0.0453,
1796
+ "step": 147000
1797
+ },
1798
+ {
1799
+ "epoch": 2.36,
1800
+ "learning_rate": 4.266666666666668e-06,
1801
+ "loss": 0.0442,
1802
+ "step": 147500
1803
+ },
1804
+ {
1805
+ "epoch": 2.37,
1806
+ "learning_rate": 4.213333333333333e-06,
1807
+ "loss": 0.0428,
1808
+ "step": 148000
1809
+ },
1810
+ {
1811
+ "epoch": 2.38,
1812
+ "learning_rate": 4.16e-06,
1813
+ "loss": 0.0439,
1814
+ "step": 148500
1815
+ },
1816
+ {
1817
+ "epoch": 2.38,
1818
+ "learning_rate": 4.1066666666666674e-06,
1819
+ "loss": 0.0452,
1820
+ "step": 149000
1821
+ },
1822
+ {
1823
+ "epoch": 2.39,
1824
+ "learning_rate": 4.053333333333333e-06,
1825
+ "loss": 0.0424,
1826
+ "step": 149500
1827
+ },
1828
+ {
1829
+ "epoch": 2.4,
1830
+ "learning_rate": 4.000000000000001e-06,
1831
+ "loss": 0.0458,
1832
+ "step": 150000
1833
+ },
1834
+ {
1835
+ "epoch": 2.41,
1836
+ "learning_rate": 3.946666666666667e-06,
1837
+ "loss": 0.0416,
1838
+ "step": 150500
1839
+ },
1840
+ {
1841
+ "epoch": 2.42,
1842
+ "learning_rate": 3.893333333333333e-06,
1843
+ "loss": 0.0445,
1844
+ "step": 151000
1845
+ },
1846
+ {
1847
+ "epoch": 2.42,
1848
+ "learning_rate": 3.8400000000000005e-06,
1849
+ "loss": 0.0419,
1850
+ "step": 151500
1851
+ },
1852
+ {
1853
+ "epoch": 2.43,
1854
+ "learning_rate": 3.7866666666666667e-06,
1855
+ "loss": 0.0431,
1856
+ "step": 152000
1857
+ },
1858
+ {
1859
+ "epoch": 2.44,
1860
+ "learning_rate": 3.7333333333333337e-06,
1861
+ "loss": 0.0425,
1862
+ "step": 152500
1863
+ },
1864
+ {
1865
+ "epoch": 2.45,
1866
+ "learning_rate": 3.6800000000000003e-06,
1867
+ "loss": 0.0419,
1868
+ "step": 153000
1869
+ },
1870
+ {
1871
+ "epoch": 2.46,
1872
+ "learning_rate": 3.6266666666666674e-06,
1873
+ "loss": 0.0413,
1874
+ "step": 153500
1875
+ },
1876
+ {
1877
+ "epoch": 2.46,
1878
+ "learning_rate": 3.5733333333333336e-06,
1879
+ "loss": 0.0424,
1880
+ "step": 154000
1881
+ },
1882
+ {
1883
+ "epoch": 2.47,
1884
+ "learning_rate": 3.52e-06,
1885
+ "loss": 0.0421,
1886
+ "step": 154500
1887
+ },
1888
+ {
1889
+ "epoch": 2.48,
1890
+ "learning_rate": 3.4666666666666672e-06,
1891
+ "loss": 0.0434,
1892
+ "step": 155000
1893
+ },
1894
+ {
1895
+ "epoch": 2.49,
1896
+ "learning_rate": 3.4133333333333334e-06,
1897
+ "loss": 0.0435,
1898
+ "step": 155500
1899
+ },
1900
+ {
1901
+ "epoch": 2.5,
1902
+ "learning_rate": 3.3600000000000004e-06,
1903
+ "loss": 0.0435,
1904
+ "step": 156000
1905
+ },
1906
+ {
1907
+ "epoch": 2.5,
1908
+ "learning_rate": 3.306666666666667e-06,
1909
+ "loss": 0.0448,
1910
+ "step": 156500
1911
+ },
1912
+ {
1913
+ "epoch": 2.51,
1914
+ "learning_rate": 3.2533333333333332e-06,
1915
+ "loss": 0.0423,
1916
+ "step": 157000
1917
+ },
1918
+ {
1919
+ "epoch": 2.52,
1920
+ "learning_rate": 3.2000000000000003e-06,
1921
+ "loss": 0.0414,
1922
+ "step": 157500
1923
+ },
1924
+ {
1925
+ "epoch": 2.53,
1926
+ "learning_rate": 3.146666666666667e-06,
1927
+ "loss": 0.0418,
1928
+ "step": 158000
1929
+ },
1930
+ {
1931
+ "epoch": 2.54,
1932
+ "learning_rate": 3.093333333333334e-06,
1933
+ "loss": 0.0449,
1934
+ "step": 158500
1935
+ },
1936
+ {
1937
+ "epoch": 2.54,
1938
+ "learning_rate": 3.04e-06,
1939
+ "loss": 0.0458,
1940
+ "step": 159000
1941
+ },
1942
+ {
1943
+ "epoch": 2.55,
1944
+ "learning_rate": 2.986666666666667e-06,
1945
+ "loss": 0.0426,
1946
+ "step": 159500
1947
+ },
1948
+ {
1949
+ "epoch": 2.56,
1950
+ "learning_rate": 2.9333333333333338e-06,
1951
+ "loss": 0.0408,
1952
+ "step": 160000
1953
+ },
1954
+ {
1955
+ "epoch": 2.57,
1956
+ "learning_rate": 2.88e-06,
1957
+ "loss": 0.0395,
1958
+ "step": 160500
1959
+ },
1960
+ {
1961
+ "epoch": 2.58,
1962
+ "learning_rate": 2.826666666666667e-06,
1963
+ "loss": 0.0425,
1964
+ "step": 161000
1965
+ },
1966
+ {
1967
+ "epoch": 2.58,
1968
+ "learning_rate": 2.7733333333333336e-06,
1969
+ "loss": 0.0408,
1970
+ "step": 161500
1971
+ },
1972
+ {
1973
+ "epoch": 2.59,
1974
+ "learning_rate": 2.7200000000000002e-06,
1975
+ "loss": 0.0414,
1976
+ "step": 162000
1977
+ },
1978
+ {
1979
+ "epoch": 2.6,
1980
+ "learning_rate": 2.666666666666667e-06,
1981
+ "loss": 0.0397,
1982
+ "step": 162500
1983
+ },
1984
+ {
1985
+ "epoch": 2.61,
1986
+ "learning_rate": 2.6133333333333334e-06,
1987
+ "loss": 0.0432,
1988
+ "step": 163000
1989
+ },
1990
+ {
1991
+ "epoch": 2.62,
1992
+ "learning_rate": 2.56e-06,
1993
+ "loss": 0.0404,
1994
+ "step": 163500
1995
+ },
1996
+ {
1997
+ "epoch": 2.62,
1998
+ "learning_rate": 2.5066666666666667e-06,
1999
+ "loss": 0.0404,
2000
+ "step": 164000
2001
+ },
2002
+ {
2003
+ "epoch": 2.63,
2004
+ "learning_rate": 2.4533333333333333e-06,
2005
+ "loss": 0.038,
2006
+ "step": 164500
2007
+ },
2008
+ {
2009
+ "epoch": 2.64,
2010
+ "learning_rate": 2.4000000000000003e-06,
2011
+ "loss": 0.0441,
2012
+ "step": 165000
2013
+ },
2014
+ {
2015
+ "epoch": 2.65,
2016
+ "learning_rate": 2.346666666666667e-06,
2017
+ "loss": 0.0396,
2018
+ "step": 165500
2019
+ },
2020
+ {
2021
+ "epoch": 2.66,
2022
+ "learning_rate": 2.2933333333333335e-06,
2023
+ "loss": 0.0411,
2024
+ "step": 166000
2025
+ },
2026
+ {
2027
+ "epoch": 2.66,
2028
+ "learning_rate": 2.24e-06,
2029
+ "loss": 0.0407,
2030
+ "step": 166500
2031
+ },
2032
+ {
2033
+ "epoch": 2.67,
2034
+ "learning_rate": 2.1866666666666668e-06,
2035
+ "loss": 0.0434,
2036
+ "step": 167000
2037
+ },
2038
+ {
2039
+ "epoch": 2.68,
2040
+ "learning_rate": 2.133333333333334e-06,
2041
+ "loss": 0.0396,
2042
+ "step": 167500
2043
+ },
2044
+ {
2045
+ "epoch": 2.69,
2046
+ "learning_rate": 2.08e-06,
2047
+ "loss": 0.0428,
2048
+ "step": 168000
2049
+ },
2050
+ {
2051
+ "epoch": 2.7,
2052
+ "learning_rate": 2.0266666666666666e-06,
2053
+ "loss": 0.0408,
2054
+ "step": 168500
2055
+ },
2056
+ {
2057
+ "epoch": 2.7,
2058
+ "learning_rate": 1.9733333333333336e-06,
2059
+ "loss": 0.0403,
2060
+ "step": 169000
2061
+ },
2062
+ {
2063
+ "epoch": 2.71,
2064
+ "learning_rate": 1.9200000000000003e-06,
2065
+ "loss": 0.0433,
2066
+ "step": 169500
2067
+ },
2068
+ {
2069
+ "epoch": 2.72,
2070
+ "learning_rate": 1.8666666666666669e-06,
2071
+ "loss": 0.0425,
2072
+ "step": 170000
2073
+ },
2074
+ {
2075
+ "epoch": 2.73,
2076
+ "learning_rate": 1.8133333333333337e-06,
2077
+ "loss": 0.039,
2078
+ "step": 170500
2079
+ },
2080
+ {
2081
+ "epoch": 2.74,
2082
+ "learning_rate": 1.76e-06,
2083
+ "loss": 0.04,
2084
+ "step": 171000
2085
+ },
2086
+ {
2087
+ "epoch": 2.74,
2088
+ "learning_rate": 1.7066666666666667e-06,
2089
+ "loss": 0.0388,
2090
+ "step": 171500
2091
+ },
2092
+ {
2093
+ "epoch": 2.75,
2094
+ "learning_rate": 1.6533333333333335e-06,
2095
+ "loss": 0.0385,
2096
+ "step": 172000
2097
+ },
2098
+ {
2099
+ "epoch": 2.76,
2100
+ "learning_rate": 1.6000000000000001e-06,
2101
+ "loss": 0.0375,
2102
+ "step": 172500
2103
+ },
2104
+ {
2105
+ "epoch": 2.77,
2106
+ "learning_rate": 1.546666666666667e-06,
2107
+ "loss": 0.0429,
2108
+ "step": 173000
2109
+ },
2110
+ {
2111
+ "epoch": 2.78,
2112
+ "learning_rate": 1.4933333333333336e-06,
2113
+ "loss": 0.0412,
2114
+ "step": 173500
2115
+ },
2116
+ {
2117
+ "epoch": 2.78,
2118
+ "learning_rate": 1.44e-06,
2119
+ "loss": 0.0422,
2120
+ "step": 174000
2121
+ },
2122
+ {
2123
+ "epoch": 2.79,
2124
+ "learning_rate": 1.3866666666666668e-06,
2125
+ "loss": 0.0377,
2126
+ "step": 174500
2127
+ },
2128
+ {
2129
+ "epoch": 2.8,
2130
+ "learning_rate": 1.3333333333333334e-06,
2131
+ "loss": 0.0367,
2132
+ "step": 175000
2133
+ },
2134
+ {
2135
+ "epoch": 2.81,
2136
+ "learning_rate": 1.28e-06,
2137
+ "loss": 0.0392,
2138
+ "step": 175500
2139
+ },
2140
+ {
2141
+ "epoch": 2.82,
2142
+ "learning_rate": 1.2266666666666666e-06,
2143
+ "loss": 0.0407,
2144
+ "step": 176000
2145
+ },
2146
+ {
2147
+ "epoch": 2.82,
2148
+ "learning_rate": 1.1733333333333335e-06,
2149
+ "loss": 0.0412,
2150
+ "step": 176500
2151
+ },
2152
+ {
2153
+ "epoch": 2.83,
2154
+ "learning_rate": 1.12e-06,
2155
+ "loss": 0.0403,
2156
+ "step": 177000
2157
+ },
2158
+ {
2159
+ "epoch": 2.84,
2160
+ "learning_rate": 1.066666666666667e-06,
2161
+ "loss": 0.0379,
2162
+ "step": 177500
2163
+ },
2164
+ {
2165
+ "epoch": 2.85,
2166
+ "learning_rate": 1.0133333333333333e-06,
2167
+ "loss": 0.0404,
2168
+ "step": 178000
2169
+ },
2170
+ {
2171
+ "epoch": 2.86,
2172
+ "learning_rate": 9.600000000000001e-07,
2173
+ "loss": 0.041,
2174
+ "step": 178500
2175
+ },
2176
+ {
2177
+ "epoch": 2.86,
2178
+ "learning_rate": 9.066666666666668e-07,
2179
+ "loss": 0.0396,
2180
+ "step": 179000
2181
+ },
2182
+ {
2183
+ "epoch": 2.87,
2184
+ "learning_rate": 8.533333333333334e-07,
2185
+ "loss": 0.0402,
2186
+ "step": 179500
2187
+ },
2188
+ {
2189
+ "epoch": 2.88,
2190
+ "learning_rate": 8.000000000000001e-07,
2191
+ "loss": 0.0382,
2192
+ "step": 180000
2193
+ },
2194
+ {
2195
+ "epoch": 2.89,
2196
+ "learning_rate": 7.466666666666668e-07,
2197
+ "loss": 0.0391,
2198
+ "step": 180500
2199
+ },
2200
+ {
2201
+ "epoch": 2.9,
2202
+ "learning_rate": 6.933333333333334e-07,
2203
+ "loss": 0.0385,
2204
+ "step": 181000
2205
+ },
2206
+ {
2207
+ "epoch": 2.9,
2208
+ "learning_rate": 6.4e-07,
2209
+ "loss": 0.0393,
2210
+ "step": 181500
2211
+ },
2212
+ {
2213
+ "epoch": 2.91,
2214
+ "learning_rate": 5.866666666666667e-07,
2215
+ "loss": 0.0399,
2216
+ "step": 182000
2217
+ },
2218
+ {
2219
+ "epoch": 2.92,
2220
+ "learning_rate": 5.333333333333335e-07,
2221
+ "loss": 0.0382,
2222
+ "step": 182500
2223
+ },
2224
+ {
2225
+ "epoch": 2.93,
2226
+ "learning_rate": 4.800000000000001e-07,
2227
+ "loss": 0.037,
2228
+ "step": 183000
2229
+ },
2230
+ {
2231
+ "epoch": 2.94,
2232
+ "learning_rate": 4.266666666666667e-07,
2233
+ "loss": 0.0379,
2234
+ "step": 183500
2235
+ },
2236
+ {
2237
+ "epoch": 2.94,
2238
+ "learning_rate": 3.733333333333334e-07,
2239
+ "loss": 0.0396,
2240
+ "step": 184000
2241
+ },
2242
+ {
2243
+ "epoch": 2.95,
2244
+ "learning_rate": 3.2e-07,
2245
+ "loss": 0.0407,
2246
+ "step": 184500
2247
+ },
2248
+ {
2249
+ "epoch": 2.96,
2250
+ "learning_rate": 2.666666666666667e-07,
2251
+ "loss": 0.0397,
2252
+ "step": 185000
2253
+ },
2254
+ {
2255
+ "epoch": 2.97,
2256
+ "learning_rate": 2.1333333333333334e-07,
2257
+ "loss": 0.0425,
2258
+ "step": 185500
2259
+ },
2260
+ {
2261
+ "epoch": 2.98,
2262
+ "learning_rate": 1.6e-07,
2263
+ "loss": 0.0385,
2264
+ "step": 186000
2265
+ },
2266
+ {
2267
+ "epoch": 2.98,
2268
+ "learning_rate": 1.0666666666666667e-07,
2269
+ "loss": 0.0378,
2270
+ "step": 186500
2271
+ },
2272
+ {
2273
+ "epoch": 2.99,
2274
+ "learning_rate": 5.3333333333333334e-08,
2275
+ "loss": 0.0368,
2276
+ "step": 187000
2277
+ },
2278
+ {
2279
+ "epoch": 3.0,
2280
+ "learning_rate": 0.0,
2281
+ "loss": 0.0393,
2282
+ "step": 187500
2283
+ },
2284
+ {
2285
+ "epoch": 3.0,
2286
+ "eval_accuracy": 0.9860732714541097,
2287
+ "eval_f1": 0.9807679334924495,
2288
+ "eval_loss": 0.055527154356241226,
2289
+ "eval_precision": 0.98058208773068,
2290
+ "eval_recall": 0.9809538497127656,
2291
+ "eval_runtime": 71.7542,
2292
+ "eval_samples_per_second": 206.608,
2293
+ "eval_steps_per_second": 12.919,
2294
+ "step": 187500
2295
+ }
2296
+ ],
2297
+ "max_steps": 187500,
2298
+ "num_train_epochs": 3,
2299
+ "total_flos": 1.5994014373102387e+17,
2300
+ "trial_name": null,
2301
+ "trial_params": null
2302
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:39afdeaad163b6a2f18456d478687d7b94d0c9ff6ebc7dc70fb295d374a22f6d
3
+ size 2735