Training in progress, epoch 12, checkpoint

Browse files

Files changed (12) hide show

checkpoint-492/config.json +57 -0
checkpoint-492/merges.txt +0 -0
checkpoint-492/model.safetensors +3 -0
checkpoint-492/optimizer.pt +3 -0
checkpoint-492/rng_state.pth +3 -0
checkpoint-492/scheduler.pt +3 -0
checkpoint-492/special_tokens_map.json +15 -0
checkpoint-492/tokenizer.json +0 -0
checkpoint-492/tokenizer_config.json +57 -0
checkpoint-492/trainer_state.json +561 -0
checkpoint-492/training_args.bin +3 -0
checkpoint-492/vocab.json +0 -0

checkpoint-492/config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "_name_or_path": "allenai/longformer-base-4096",
+  "architectures": [
+    "LongformerForTokenClassification"
+  ],
+  "attention_mode": "longformer",
+  "attention_probs_dropout_prob": 0.1,
+  "attention_window": [
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700
+  ],
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "X_placeholder_X",
+    "2": "MajorClaim",
+    "3": "Claim",
+    "4": "Premise"
+  },
+  "ignore_attention_mask": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Claim": 3,
+    "MajorClaim": 2,
+    "O": 0,
+    "Premise": 4,
+    "X_placeholder_X": 1
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 4098,
+  "model_type": "longformer",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "onnx_export": false,
+  "pad_token_id": 1,
+  "sep_token_id": 2,
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.2",
+  "type_vocab_size": 1,
+  "vocab_size": 50265
+}

checkpoint-492/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-492/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f68f549d3574ddc833a1bf0e5882e856c15052aa9fd527f955a2646cb3225ed
+size 592324828

checkpoint-492/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3facc874d5ca280780eb6392396af2afb55fab003abdca8ae572d7e97cfc1329
+size 1014657786

checkpoint-492/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6e53e706c63ba0c275c9b6332ceadb76c337b40858f3ddadb0ab10622a334eb
+size 14244

checkpoint-492/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e40ce765a2db50b61afa20f73544a6db3531a7c20a21e8ebd94c0459daeb642
+size 1064

checkpoint-492/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-492/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-492/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 4096,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "LongformerTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-492/trainer_state.json ADDED Viewed

	@@ -0,0 +1,561 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 12.0,
+  "eval_steps": 500,
+  "global_step": 492,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_Claim": {
+        "f1-score": 0.4643135219309629,
+        "precision": 0.5337112171837709,
+        "recall": 0.4108865411116215,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.7490950657268052,
+        "precision": 0.6779310344827586,
+        "recall": 0.8369518944231588,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9980494407069782,
+        "precision": 0.9961064759634486,
+        "recall": 1.0,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.8811786372007365,
+        "precision": 0.868321718931475,
+        "recall": 0.8944220128607746,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.8663109802839358,
+      "eval_loss": 0.32735684514045715,
+      "eval_macro avg": {
+        "f1-score": 0.7731591663913707,
+        "precision": 0.7690176116403633,
+        "recall": 0.7855651120988888,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.4205,
+      "eval_samples_per_second": 57.022,
+      "eval_steps_per_second": 7.744,
+      "eval_weighted avg": {
+        "f1-score": 0.8609350954068932,
+        "precision": 0.8590551035257559,
+        "recall": 0.8663109802839358,
+        "support": 32613.0
+      },
+      "step": 41
+    },
+    {
+      "epoch": 2.0,
+      "eval_Claim": {
+        "f1-score": 0.5737245829782053,
+        "precision": 0.6105208603265094,
+        "recall": 0.5411116214974736,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8465994421797898,
+        "precision": 0.8533737024221453,
+        "recall": 0.8399318859088974,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9996808425756004,
+        "precision": 0.9999201915403033,
+        "recall": 0.9994416081684748,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.8958440225756799,
+        "precision": 0.8785221391604371,
+        "recall": 0.9138627187079408,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.8916689663631068,
+      "eval_loss": 0.24866953492164612,
+      "eval_macro avg": {
+        "f1-score": 0.8289622225773189,
+        "precision": 0.8355842233623487,
+        "recall": 0.8235869585706966,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.4275,
+      "eval_samples_per_second": 56.744,
+      "eval_steps_per_second": 7.706,
+      "eval_weighted avg": {
+        "f1-score": 0.8892060198210008,
+        "precision": 0.8875950468565349,
+        "recall": 0.8916689663631068,
+        "support": 32613.0
+      },
+      "step": 82
+    },
+    {
+      "epoch": 3.0,
+      "eval_Claim": {
+        "f1-score": 0.6284023668639053,
+        "precision": 0.648193359375,
+        "recall": 0.6097841065686724,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8758085381630012,
+        "precision": 0.8872870249017037,
+        "recall": 0.8646232439335888,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9998803589232302,
+        "precision": 0.9997607464710104,
+        "recall": 1.0,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9024128884454791,
+        "precision": 0.8920300971583023,
+        "recall": 0.9130402273067145,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9024928709410358,
+      "eval_loss": 0.2409481257200241,
+      "eval_macro avg": {
+        "f1-score": 0.8516260380989039,
+        "precision": 0.8568178069765041,
+        "recall": 0.8468618944522439,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.419,
+      "eval_samples_per_second": 57.082,
+      "eval_steps_per_second": 7.752,
+      "eval_weighted avg": {
+        "f1-score": 0.9013800727011249,
+        "precision": 0.900545253284536,
+        "recall": 0.9024928709410358,
+        "support": 32613.0
+      },
+      "step": 123
+    },
+    {
+      "epoch": 4.0,
+      "eval_Claim": {
+        "f1-score": 0.6302973542495903,
+        "precision": 0.6427889207258835,
+        "recall": 0.6182820395039045,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8868001634654679,
+        "precision": 0.8526522593320236,
+        "recall": 0.9237973605789698,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.999680893498205,
+        "precision": 0.9997606510292005,
+        "recall": 0.9996011486917677,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.8995508982035928,
+        "precision": 0.9004945301963135,
+        "recall": 0.8986092418124719,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9018182933186153,
+      "eval_loss": 0.23009340465068817,
+      "eval_macro avg": {
+        "f1-score": 0.854082327354214,
+        "precision": 0.8489240903208553,
+        "recall": 0.8600724476467785,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.4216,
+      "eval_samples_per_second": 56.979,
+      "eval_steps_per_second": 7.738,
+      "eval_weighted avg": {
+        "f1-score": 0.9011744291494633,
+        "precision": 0.9008001866175751,
+        "recall": 0.9018182933186153,
+        "support": 32613.0
+      },
+      "step": 164
+    },
+    {
+      "epoch": 5.0,
+      "eval_Claim": {
+        "f1-score": 0.6072607260726073,
+        "precision": 0.6787741203178207,
+        "recall": 0.5493798805695912,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.875,
+        "precision": 0.9056947608200455,
+        "recall": 0.8463175819497658,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9998404722022812,
+        "precision": 0.9997607273887382,
+        "recall": 0.9999202297383536,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9058781103498017,
+        "precision": 0.8748955140707718,
+        "recall": 0.9391356363092568,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.903780700947475,
+      "eval_loss": 0.263094037771225,
+      "eval_macro avg": {
+        "f1-score": 0.8469948271561726,
+        "precision": 0.864781280649344,
+        "recall": 0.8336883321417418,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.4217,
+      "eval_samples_per_second": 56.974,
+      "eval_steps_per_second": 7.737,
+      "eval_weighted avg": {
+        "f1-score": 0.899905013603967,
+        "precision": 0.8989271945775551,
+        "recall": 0.903780700947475,
+        "support": 32613.0
+      },
+      "step": 205
+    },
+    {
+      "epoch": 6.0,
+      "eval_Claim": {
+        "f1-score": 0.57247396566282,
+        "precision": 0.7390988372093024,
+        "recall": 0.467156637574644,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8933023452355799,
+        "precision": 0.886744966442953,
+        "recall": 0.8999574286930608,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9998005982053838,
+        "precision": 0.9996809952946806,
+        "recall": 0.9999202297383536,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9065413958745407,
+        "precision": 0.8590842147543178,
+        "recall": 0.9595483774487812,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9050378683347131,
+      "eval_loss": 0.28428906202316284,
+      "eval_macro avg": {
+        "f1-score": 0.8430295762445812,
+        "precision": 0.8711522534253133,
+        "recall": 0.8316456683637099,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.4177,
+      "eval_samples_per_second": 57.135,
+      "eval_steps_per_second": 7.759,
+      "eval_weighted avg": {
+        "f1-score": 0.896835733694634,
+        "precision": 0.8991013862116997,
+        "recall": 0.9050378683347131,
+        "support": 32613.0
+      },
+      "step": 246
+    },
+    {
+      "epoch": 7.0,
+      "eval_Claim": {
+        "f1-score": 0.6294631710362047,
+        "precision": 0.6895514223194749,
+        "recall": 0.5790078089113458,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8833069620253163,
+        "precision": 0.8248984115256742,
+        "recall": 0.9506172839506173,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9995215311004785,
+        "precision": 0.9992028061224489,
+        "recall": 0.9998404594767071,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9074593796159526,
+        "precision": 0.8964686998394864,
+        "recall": 0.9187228951697323,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9068469628675682,
+      "eval_loss": 0.2983298599720001,
+      "eval_macro avg": {
+        "f1-score": 0.854937760944488,
+        "precision": 0.8525303349517711,
+        "recall": 0.8620471118771007,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.4145,
+      "eval_samples_per_second": 57.265,
+      "eval_steps_per_second": 7.777,
+      "eval_weighted avg": {
+        "f1-score": 0.9039933265062536,
+        "precision": 0.9031788559978264,
+        "recall": 0.9068469628675682,
+        "support": 32613.0
+      },
+      "step": 287
+    },
+    {
+      "epoch": 8.0,
+      "eval_Claim": {
+        "f1-score": 0.6635588402501421,
+        "precision": 0.6570592208961945,
+        "recall": 0.6701883325677538,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.9037098791162985,
+        "precision": 0.8852592895059208,
+        "recall": 0.9229459344401874,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9997208374875374,
+        "precision": 0.9996012441183507,
+        "recall": 0.9998404594767071,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9033812787107464,
+        "precision": 0.9098907766990292,
+        "recall": 0.8969642590100194,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9081041302548064,
+      "eval_loss": 0.3042994737625122,
+      "eval_macro avg": {
+        "f1-score": 0.8675927088911811,
+        "precision": 0.8629526328048738,
+        "recall": 0.8724847463736669,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.4198,
+      "eval_samples_per_second": 57.05,
+      "eval_steps_per_second": 7.747,
+      "eval_weighted avg": {
+        "f1-score": 0.9084190763411705,
+        "precision": 0.9088458701337473,
+        "recall": 0.9081041302548064,
+        "support": 32613.0
+      },
+      "step": 328
+    },
+    {
+      "epoch": 9.0,
+      "eval_Claim": {
+        "f1-score": 0.6706725213773977,
+        "precision": 0.6748837209302325,
+        "recall": 0.6665135507579237,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.9129511677282377,
+        "precision": 0.9106310885218127,
+        "recall": 0.9152830991911451,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9996809444045626,
+        "precision": 0.9996012123145638,
+        "recall": 0.9997606892150607,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9052560848140958,
+        "precision": 0.9039063664827792,
+        "recall": 0.9066098399880365,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.910986416459694,
+      "eval_loss": 0.3104316294193268,
+      "eval_macro avg": {
+        "f1-score": 0.8721401795810735,
+        "precision": 0.8722555970623471,
+        "recall": 0.8720417947880416,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.4235,
+      "eval_samples_per_second": 56.901,
+      "eval_steps_per_second": 7.727,
+      "eval_weighted avg": {
+        "f1-score": 0.9107878958829343,
+        "precision": 0.9105988621342419,
+        "recall": 0.910986416459694,
+        "support": 32613.0
+      },
+      "step": 369
+    },
+    {
+      "epoch": 10.0,
+      "eval_Claim": {
+        "f1-score": 0.6484411354118194,
+        "precision": 0.657001414427157,
+        "recall": 0.6401010564997703,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8997963340122199,
+        "precision": 0.8625536899648575,
+        "recall": 0.9404001702852277,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9997607083034219,
+        "precision": 0.999680969851651,
+        "recall": 0.9998404594767071,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9021992043833972,
+        "precision": 0.905666063893912,
+        "recall": 0.898758785703604,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9060803973875449,
+      "eval_loss": 0.3316749632358551,
+      "eval_macro avg": {
+        "f1-score": 0.8625493455277146,
+        "precision": 0.8562255345343944,
+        "recall": 0.8697751179913272,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.4233,
+      "eval_samples_per_second": 56.909,
+      "eval_steps_per_second": 7.728,
+      "eval_weighted avg": {
+        "f1-score": 0.9056494861218845,
+        "precision": 0.905500915362609,
+        "recall": 0.9060803973875449,
+        "support": 32613.0
+      },
+      "step": 410
+    },
+    {
+      "epoch": 11.0,
+      "eval_Claim": {
+        "f1-score": 0.6478906714200832,
+        "precision": 0.6712632356562424,
+        "recall": 0.6260909508497933,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8952419848887073,
+        "precision": 0.8602825745682888,
+        "recall": 0.9331630481055768,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9997607083034219,
+        "precision": 0.999680969851651,
+        "recall": 0.9998404594767071,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9058867362146051,
+        "precision": 0.9027922174365067,
+        "recall": 0.9090025422461493,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9078894919203998,
+      "eval_loss": 0.3783251941204071,
+      "eval_macro avg": {
+        "f1-score": 0.8621950252067043,
+        "precision": 0.8585047493781722,
+        "recall": 0.8670242501695566,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.4193,
+      "eval_samples_per_second": 57.069,
+      "eval_steps_per_second": 7.75,
+      "eval_weighted avg": {
+        "f1-score": 0.9067601525554976,
+        "precision": 0.9060628476302188,
+        "recall": 0.9078894919203998,
+        "support": 32613.0
+      },
+      "step": 451
+    },
+    {
+      "epoch": 12.0,
+      "eval_Claim": {
+        "f1-score": 0.6313421644588852,
+        "precision": 0.6924342105263158,
+        "recall": 0.5801561782269178,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.9006842214389384,
+        "precision": 0.8779304769603881,
+        "recall": 0.9246487867177522,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9998005982053838,
+        "precision": 0.9996809952946806,
+        "recall": 0.9999202297383536,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9077069457659372,
+        "precision": 0.8889048165137615,
+        "recall": 0.927321668909825,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.908686720019624,
+      "eval_loss": 0.4068906903266907,
+      "eval_macro avg": {
+        "f1-score": 0.8598834824672862,
+        "precision": 0.8647376248237866,
+        "recall": 0.8580117158982121,
+        "support": 32613.0
+      },
+      "eval_runtime": 1.418,
+      "eval_samples_per_second": 57.122,
+      "eval_steps_per_second": 7.757,
+      "eval_weighted avg": {
+        "f1-score": 0.905704596694275,
+        "precision": 0.9044654345224509,
+        "recall": 0.908686720019624,
+        "support": 32613.0
+      },
+      "step": 492
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 656,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
+  "save_steps": 500,
+  "total_flos": 1720106206408800.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-492/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fa0ab387f66efa2185b605999d4a743ce5870243a43ebfb649f6fb9a993302b
+size 4664

checkpoint-492/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff