Training in progress, epoch 1, checkpoint

Browse files

Files changed (10) hide show

checkpoint-375/config.json +49 -0
checkpoint-375/model.safetensors +3 -0
checkpoint-375/optimizer.pt +3 -0
checkpoint-375/rng_state.pth +3 -0
checkpoint-375/scheduler.pt +3 -0
checkpoint-375/special_tokens_map.json +51 -0
checkpoint-375/tokenizer_config.json +75 -0
checkpoint-375/trainer_state.json +250 -0
checkpoint-375/training_args.bin +3 -0
checkpoint-375/vocab.txt +0 -0

checkpoint-375/config.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "_name_or_path": "funnel-transformer/small-base",
+  "activation_dropout": 0.0,
+  "architectures": [
+    "FunnelForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "attention_type": "relative_shift",
+  "block_repeats": [
+    1,
+    1,
+    1
+  ],
+  "block_sizes": [
+    4,
+    4,
+    4
+  ],
+  "d_head": 64,
+  "d_inner": 3072,
+  "d_model": 768,
+  "hidden_act": "gelu_new",
+  "hidden_dropout": 0.1,
+  "id2label": {
+    "0": "HUMAN",
+    "1": "AI"
+  },
+  "initializer_range": 0.1,
+  "initializer_std": null,
+  "label2id": {
+    "AI": 1,
+    "HUMAN": 0
+  },
+  "layer_norm_eps": 1e-09,
+  "max_position_embeddings": 512,
+  "model_type": "funnel",
+  "n_head": 12,
+  "num_decoder_layers": 2,
+  "pool_q_only": true,
+  "pooling_type": "mean",
+  "problem_type": "single_label_classification",
+  "rel_attn_type": "factorized",
+  "separate_cls": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "truncate_seq": true,
+  "type_vocab_size": 3,
+  "vocab_size": 30522
+}

checkpoint-375/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4db909fd51e361b60643fc6f21778d5b3e2e9472548f1f86588c72ba5a98e4d4
+size 464844376

checkpoint-375/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25b4f4b22722dd06e63983529ff27cac86422c299b2469ed12d212c08d5d7a78
+size 929837114

checkpoint-375/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:130ce7b5fe76f0e2d69eba7245d93a56442c485c965a62c7f546d89bc304e719
+size 14244

checkpoint-375/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d39b9eb37cc9b77a1cd829d5986b7652e47f00c889e3135213a3bbf1688de88f
+size 1064

checkpoint-375/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<cls>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "<sep>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-375/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,75 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "96": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "97": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "<cls>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "<sep>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<cls>",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "<pad>",
+  "sep_token": "<sep>",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "FunnelTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-375/trainer_state.json ADDED Viewed

	@@ -0,0 +1,250 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 375,
+  "global_step": 375,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.866666666666668e-06,
+      "loss": 0.6931,
+      "step": 10
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.733333333333334e-06,
+      "loss": 0.6765,
+      "step": 20
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.4544,
+      "step": 30
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.48e-06,
+      "loss": 0.2259,
+      "step": 40
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.346666666666666e-06,
+      "loss": 0.1407,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.213333333333334e-06,
+      "loss": 0.1243,
+      "step": 60
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 9.080000000000001e-06,
+      "loss": 0.0641,
+      "step": 70
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 8.946666666666669e-06,
+      "loss": 0.0083,
+      "step": 80
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 8.813333333333334e-06,
+      "loss": 0.0066,
+      "step": 90
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 8.693333333333334e-06,
+      "loss": 0.0596,
+      "step": 100
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 8.560000000000001e-06,
+      "loss": 0.0792,
+      "step": 110
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 8.44e-06,
+      "loss": 0.1432,
+      "step": 120
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 8.306666666666668e-06,
+      "loss": 0.117,
+      "step": 130
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 8.173333333333334e-06,
+      "loss": 0.2646,
+      "step": 140
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 8.040000000000001e-06,
+      "loss": 0.0097,
+      "step": 150
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 7.906666666666667e-06,
+      "loss": 0.0333,
+      "step": 160
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 7.773333333333334e-06,
+      "loss": 0.0016,
+      "step": 170
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 7.640000000000001e-06,
+      "loss": 0.0038,
+      "step": 180
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 7.506666666666668e-06,
+      "loss": 0.074,
+      "step": 190
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 7.373333333333334e-06,
+      "loss": 0.1338,
+      "step": 200
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 7.24e-06,
+      "loss": 0.0035,
+      "step": 210
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 7.1066666666666675e-06,
+      "loss": 0.1519,
+      "step": 220
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 6.973333333333334e-06,
+      "loss": 0.0095,
+      "step": 230
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 6.8400000000000014e-06,
+      "loss": 0.1465,
+      "step": 240
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 6.706666666666667e-06,
+      "loss": 0.0022,
+      "step": 250
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 6.573333333333334e-06,
+      "loss": 0.0551,
+      "step": 260
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 6.440000000000001e-06,
+      "loss": 0.0028,
+      "step": 270
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 6.3066666666666676e-06,
+      "loss": 0.0566,
+      "step": 280
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 6.173333333333333e-06,
+      "loss": 0.0009,
+      "step": 290
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.040000000000001e-06,
+      "loss": 0.0902,
+      "step": 300
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 5.906666666666667e-06,
+      "loss": 0.0008,
+      "step": 310
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 5.7733333333333345e-06,
+      "loss": 0.0011,
+      "step": 320
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.64e-06,
+      "loss": 0.0196,
+      "step": 330
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 5.506666666666667e-06,
+      "loss": 0.0826,
+      "step": 340
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.373333333333334e-06,
+      "loss": 0.0408,
+      "step": 350
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 5.240000000000001e-06,
+      "loss": 0.0466,
+      "step": 360
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.106666666666667e-06,
+      "loss": 0.0013,
+      "step": 370
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.992,
+      "eval_loss": 0.05685167387127876,
+      "eval_runtime": 14.5309,
+      "eval_samples_per_second": 68.819,
+      "eval_steps_per_second": 8.602,
+      "step": 375
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 750,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 846042010023360.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-375/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c447d199ad29bb02a1c18507c2ef1baf344faf85ac1c60fba1abfb7baee9a5f1
+size 4600

checkpoint-375/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff