Training in progress, epoch 10, checkpoint

Browse files

Files changed (12) hide show

checkpoint-810/config.json +57 -0
checkpoint-810/merges.txt +0 -0
checkpoint-810/model.safetensors +3 -0
checkpoint-810/optimizer.pt +3 -0
checkpoint-810/rng_state.pth +3 -0
checkpoint-810/scheduler.pt +3 -0
checkpoint-810/special_tokens_map.json +15 -0
checkpoint-810/tokenizer.json +0 -0
checkpoint-810/tokenizer_config.json +57 -0
checkpoint-810/trainer_state.json +478 -0
checkpoint-810/training_args.bin +3 -0
checkpoint-810/vocab.json +0 -0

checkpoint-810/config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "_name_or_path": "allenai/longformer-base-4096",
+  "architectures": [
+    "LongformerForTokenClassification"
+  ],
+  "attention_mode": "longformer",
+  "attention_probs_dropout_prob": 0.1,
+  "attention_window": [
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700,
+    700
+  ],
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "X_placeholder_X",
+    "2": "MajorClaim",
+    "3": "Claim",
+    "4": "Premise"
+  },
+  "ignore_attention_mask": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Claim": 3,
+    "MajorClaim": 2,
+    "O": 0,
+    "Premise": 4,
+    "X_placeholder_X": 1
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 4098,
+  "model_type": "longformer",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "onnx_export": false,
+  "pad_token_id": 1,
+  "sep_token_id": 2,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 1,
+  "vocab_size": 50265
+}

checkpoint-810/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-810/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b9c516f2ecd35a5e76fe4f328ad5c5d8393c3bb70c2026ea0f6ec3df9bb6afd3
+size 592324828

checkpoint-810/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e9f991bf6876e0a61390566768d26f7f67d1e778086afcb876d1b7d57f75a82
+size 1014657786

checkpoint-810/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05f741fe22f4ca5655fda1f9ef1ecba0015571f3b8afe49bf335811d1e94a138
+size 14244

checkpoint-810/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e415b77a665cacd845500f2c1b0e83fd6d1720a5953f0905e282772d30c115c
+size 1064

checkpoint-810/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-810/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-810/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 4096,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "LongformerTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-810/trainer_state.json ADDED Viewed

	@@ -0,0 +1,478 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 810,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_Claim": {
+        "f1-score": 0.46243291592128805,
+        "precision": 0.6588785046728972,
+        "recall": 0.3562241616903996,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8342621259029929,
+        "precision": 0.8096955128205128,
+        "recall": 0.8603661132396765,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9993622448979592,
+        "precision": 0.9987253027405991,
+        "recall": 1.0,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.8941052999825083,
+        "precision": 0.8401157057392676,
+        "recall": 0.955510692388216,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.8857510808573268,
+      "eval_loss": 0.2754688858985901,
+      "eval_macro avg": {
+        "f1-score": 0.7975406466761871,
+        "precision": 0.8268537564933192,
+        "recall": 0.793025241829573,
+        "support": 32613.0
+      },
+      "eval_runtime": 4.8781,
+      "eval_samples_per_second": 16.605,
+      "eval_steps_per_second": 2.255,
+      "eval_weighted avg": {
+        "f1-score": 0.8726239240080429,
+        "precision": 0.8746959682542021,
+        "recall": 0.8857510808573268,
+        "support": 32613.0
+      },
+      "step": 81
+    },
+    {
+      "epoch": 2.0,
+      "eval_Claim": {
+        "f1-score": 0.6446312571646924,
+        "precision": 0.5518482172064115,
+        "recall": 0.77491961414791,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8912341158733577,
+        "precision": 0.9019180470793374,
+        "recall": 0.8808003405704555,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9998005504806733,
+        "precision": 0.9999202106439001,
+        "recall": 0.9996809189534142,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.8690409646250897,
+        "precision": 0.9324023303632625,
+        "recall": 0.8137430835950351,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.8848618649004998,
+      "eval_loss": 0.25178349018096924,
+      "eval_macro avg": {
+        "f1-score": 0.8511767220359533,
+        "precision": 0.8465222013232279,
+        "recall": 0.8672859893167036,
+        "support": 32613.0
+      },
+      "eval_runtime": 4.907,
+      "eval_samples_per_second": 16.507,
+      "eval_steps_per_second": 2.242,
+      "eval_weighted avg": {
+        "f1-score": 0.8909418634778542,
+        "precision": 0.9053537287957648,
+        "recall": 0.8848618649004998,
+        "support": 32613.0
+      },
+      "step": 162
+    },
+    {
+      "epoch": 3.0,
+      "eval_Claim": {
+        "f1-score": 0.6598764019226366,
+        "precision": 0.6576186131386861,
+        "recall": 0.6621497473587505,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.9062119366626066,
+        "precision": 0.8661233993015134,
+        "recall": 0.9501915708812261,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9998404722022812,
+        "precision": 0.9997607273887382,
+        "recall": 0.9999202297383536,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9007852612503775,
+        "precision": 0.9097148086014946,
+        "recall": 0.8920293106026619,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9070002759635728,
+      "eval_loss": 0.23778581619262695,
+      "eval_macro avg": {
+        "f1-score": 0.8666785180094754,
+        "precision": 0.8583043871076081,
+        "recall": 0.876072714645248,
+        "support": 32613.0
+      },
+      "eval_runtime": 4.9168,
+      "eval_samples_per_second": 16.474,
+      "eval_steps_per_second": 2.237,
+      "eval_weighted avg": {
+        "f1-score": 0.907089072967282,
+        "precision": 0.9075314026721463,
+        "recall": 0.9070002759635728,
+        "support": 32613.0
+      },
+      "step": 243
+    },
+    {
+      "epoch": 4.0,
+      "eval_Claim": {
+        "f1-score": 0.6604639922667954,
+        "precision": 0.696838347781744,
+        "recall": 0.6276986678915939,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.9140214420853479,
+        "precision": 0.9028239202657807,
+        "recall": 0.9255002128565347,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9994417862838917,
+        "precision": 0.9991230867346939,
+        "recall": 0.9997606892150607,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9084203149780549,
+        "precision": 0.8963534463934785,
+        "recall": 0.9208165096455809,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.912366234323736,
+      "eval_loss": 0.2598011791706085,
+      "eval_macro avg": {
+        "f1-score": 0.8705868839035225,
+        "precision": 0.8737847002939243,
+        "recall": 0.8684440199021926,
+        "support": 32613.0
+      },
+      "eval_runtime": 4.8872,
+      "eval_samples_per_second": 16.574,
+      "eval_steps_per_second": 2.251,
+      "eval_weighted avg": {
+        "f1-score": 0.9107077581074873,
+        "precision": 0.9096864919608297,
+        "recall": 0.912366234323736,
+        "support": 32613.0
+      },
+      "step": 324
+    },
+    {
+      "epoch": 5.0,
+      "eval_Claim": {
+        "f1-score": 0.6731001206272618,
+        "precision": 0.6440713536201469,
+        "recall": 0.7048690858980248,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8871466886734063,
+        "precision": 0.8606885508406725,
+        "recall": 0.9152830991911451,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9998005345673595,
+        "precision": 1.0,
+        "recall": 0.9996011486917677,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9039056236399038,
+        "precision": 0.9234729698104376,
+        "recall": 0.8851502916105877,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9072455769171802,
+      "eval_loss": 0.3166182339191437,
+      "eval_macro avg": {
+        "f1-score": 0.8659882418769828,
+        "precision": 0.8570582185678143,
+        "recall": 0.8762259063478812,
+        "support": 32613.0
+      },
+      "eval_runtime": 4.9018,
+      "eval_samples_per_second": 16.525,
+      "eval_steps_per_second": 2.244,
+      "eval_weighted avg": {
+        "f1-score": 0.9087455557232214,
+        "precision": 0.9110652677714914,
+        "recall": 0.9072455769171802,
+        "support": 32613.0
+      },
+      "step": 405
+    },
+    {
+      "epoch": 6.0,
+      "eval_Claim": {
+        "f1-score": 0.634920634920635,
+        "precision": 0.7171775592828225,
+        "recall": 0.5695911805236564,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.9061357171881348,
+        "precision": 0.8666925767586475,
+        "recall": 0.9493401447424435,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9998404722022812,
+        "precision": 0.9997607273887382,
+        "recall": 0.9999202297383536,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9096214165876431,
+        "precision": 0.8879236684705212,
+        "recall": 0.9324061612083147,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9111397295556987,
+      "eval_loss": 0.32181796431541443,
+      "eval_macro avg": {
+        "f1-score": 0.8626295602246735,
+        "precision": 0.8678886329751823,
+        "recall": 0.8628144290531921,
+        "support": 32613.0
+      },
+      "eval_runtime": 4.8856,
+      "eval_samples_per_second": 16.579,
+      "eval_steps_per_second": 2.252,
+      "eval_weighted avg": {
+        "f1-score": 0.907375409471386,
+        "precision": 0.9065876667768511,
+        "recall": 0.9111397295556987,
+        "support": 32613.0
+      },
+      "step": 486
+    },
+    {
+      "epoch": 6.17,
+      "grad_norm": 7.612313747406006,
+      "learning_rate": 1.7530864197530865e-05,
+      "loss": 0.2088,
+      "step": 500
+    },
+    {
+      "epoch": 7.0,
+      "eval_Claim": {
+        "f1-score": 0.6538414409998775,
+        "precision": 0.7008142894667717,
+        "recall": 0.6127698667891593,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8866711022399646,
+        "precision": 0.9254629629629629,
+        "recall": 0.8510004257130694,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.999880349379811,
+        "precision": 0.9998404722022812,
+        "recall": 0.9999202297383536,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9127824473310774,
+        "precision": 0.8890070167977886,
+        "recall": 0.9378645132346344,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9120596081317266,
+      "eval_loss": 0.4053190350532532,
+      "eval_macro avg": {
+        "f1-score": 0.8632938349876826,
+        "precision": 0.8787811853574512,
+        "recall": 0.8503887588688042,
+        "support": 32613.0
+      },
+      "eval_runtime": 4.9061,
+      "eval_samples_per_second": 16.51,
+      "eval_steps_per_second": 2.242,
+      "eval_weighted avg": {
+        "f1-score": 0.909811074225195,
+        "precision": 0.9091110268457285,
+        "recall": 0.9120596081317266,
+        "support": 32613.0
+      },
+      "step": 567
+    },
+    {
+      "epoch": 8.0,
+      "eval_Claim": {
+        "f1-score": 0.668355545764952,
+        "precision": 0.6421164021164021,
+        "recall": 0.6968305006890216,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.8960263537162857,
+        "precision": 0.8676236044657097,
+        "recall": 0.9263516389953171,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 1.0,
+        "precision": 1.0,
+        "recall": 1.0,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9012129071630178,
+        "precision": 0.9198069137340392,
+        "recall": 0.8833557649170032,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9063870235795541,
+      "eval_loss": 0.4514281749725342,
+      "eval_macro avg": {
+        "f1-score": 0.8663987016610639,
+        "precision": 0.8573867300790377,
+        "recall": 0.8766344761503355,
+        "support": 32613.0
+      },
+      "eval_runtime": 4.8816,
+      "eval_samples_per_second": 16.593,
+      "eval_steps_per_second": 2.253,
+      "eval_weighted avg": {
+        "f1-score": 0.9077241398073883,
+        "precision": 0.9098003963445191,
+        "recall": 0.9063870235795541,
+        "support": 32613.0
+      },
+      "step": 648
+    },
+    {
+      "epoch": 9.0,
+      "eval_Claim": {
+        "f1-score": 0.6913841807909605,
+        "precision": 0.7090777402221149,
+        "recall": 0.674552135966927,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.9055304497525284,
+        "precision": 0.9155787641427328,
+        "recall": 0.8957002979991485,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9998404340194671,
+        "precision": 1.0,
+        "recall": 0.9996809189534142,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9162317231167869,
+        "precision": 0.9072648632798181,
+        "recall": 0.9253775983251085,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9183147824487168,
+      "eval_loss": 0.4471658766269684,
+      "eval_macro avg": {
+        "f1-score": 0.8782466969199356,
+        "precision": 0.8829803419111664,
+        "recall": 0.8738277378111496,
+        "support": 32613.0
+      },
+      "eval_runtime": 4.8813,
+      "eval_samples_per_second": 16.594,
+      "eval_steps_per_second": 2.253,
+      "eval_weighted avg": {
+        "f1-score": 0.9175807345372852,
+        "precision": 0.9170508471898524,
+        "recall": 0.9183147824487168,
+        "support": 32613.0
+      },
+      "step": 729
+    },
+    {
+      "epoch": 10.0,
+      "eval_Claim": {
+        "f1-score": 0.6829727187206021,
+        "precision": 0.6997590361445784,
+        "recall": 0.6669728984841525,
+        "support": 4354.0
+      },
+      "eval_MajorClaim": {
+        "f1-score": 0.908567906307787,
+        "precision": 0.8780778395552026,
+        "recall": 0.9412515964240102,
+        "support": 2349.0
+      },
+      "eval_O": {
+        "f1-score": 0.9999202233745512,
+        "precision": 1.0,
+        "recall": 0.9998404594767071,
+        "support": 12536.0
+      },
+      "eval_Premise": {
+        "f1-score": 0.9131976852716073,
+        "precision": 0.9119379613749907,
+        "recall": 0.914460894272469,
+        "support": 13374.0
+      },
+      "eval_accuracy": 0.9161683991046515,
+      "eval_loss": 0.45130759477615356,
+      "eval_macro avg": {
+        "f1-score": 0.8761646334186369,
+        "precision": 0.8724437092686929,
+        "recall": 0.8806314621643347,
+        "support": 32613.0
+      },
+      "eval_runtime": 4.8986,
+      "eval_samples_per_second": 16.535,
+      "eval_steps_per_second": 2.246,
+      "eval_weighted avg": {
+        "f1-score": 0.9154630053129839,
+        "precision": 0.9150220459300829,
+        "recall": 0.9161683991046515,
+        "support": 32613.0
+      },
+      "step": 810
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4050,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "total_flos": 1433421838674000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-810/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f40e108617f6f8082cc0f1a47e89121d861cfb2e77ef6b602a909d9b6ba8d15
+size 4856

checkpoint-810/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff