Model loaded

Browse files

Files changed (16) hide show

1_Pooling/config.json +10 -0
README.md +0 -0
config.json +25 -0
config_sentence_transformers.json +10 -0
model.safetensors +3 -0
modules.json +14 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
sentence_bert_config.json +4 -0
special_tokens_map.json +37 -0
tokenizer.json +0 -0
tokenizer_config.json +65 -0
trainer_state.json +333 -0
training_args.bin +3 -0
vocab.txt +0 -0

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 768,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

README.md CHANGED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "/content/drive/MyDrive/calisma/checkpoint-1500",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.4",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32000
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.0.1",
+    "transformers": "4.42.4",
+    "pytorch": "2.3.1+cu121"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": null
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d09bd3e69372be37be004f32ede469b09797649a5421eee6fabecc58b5cfc074
+size 442491744

modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68e34094347f680dacf33b99630f89d758785d58b71254ce94e1487780379600
+size 880378810

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce904aa8117d75b39279a1f89ae0c6abf8aa06a462def857c3a5adeb68893458
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:558e869d13a69d104c504c0dc3b5003c34f3ba480fa99d5956887c409f09735a
+size 1064

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "max_len": 512,
+  "max_length": 512,
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,333 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 6313,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0792016473942658,
+      "grad_norm": 0.07919532805681229,
+      "learning_rate": 3.9556962025316456e-05,
+      "loss": 0.1311,
+      "step": 500
+    },
+    {
+      "epoch": 0.0792016473942658,
+      "eval_loss": 0.014126550406217575,
+      "eval_runtime": 83.0348,
+      "eval_samples_per_second": 60.216,
+      "eval_steps_per_second": 1.891,
+      "eval_sts-dev_pearson_cosine": 0.1557480599999687,
+      "eval_sts-dev_pearson_dot": 0.13799264585261115,
+      "eval_sts-dev_pearson_euclidean": 0.18714752476831273,
+      "eval_sts-dev_pearson_manhattan": 0.18855989459573652,
+      "eval_sts-dev_pearson_max": 0.18855989459573652,
+      "eval_sts-dev_spearman_cosine": 0.20357424121861373,
+      "eval_sts-dev_spearman_dot": 0.14034776792350498,
+      "eval_sts-dev_spearman_euclidean": 0.21044421396782537,
+      "eval_sts-dev_spearman_manhattan": 0.21183531991746804,
+      "eval_sts-dev_spearman_max": 0.21183531991746804,
+      "step": 500
+    },
+    {
+      "epoch": 0.1584032947885316,
+      "grad_norm": 0.012879022397100925,
+      "learning_rate": 4.677873613800388e-05,
+      "loss": 0.0203,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1584032947885316,
+      "eval_loss": 0.015841394662857056,
+      "eval_runtime": 82.5774,
+      "eval_samples_per_second": 60.549,
+      "eval_steps_per_second": 1.901,
+      "eval_sts-dev_pearson_cosine": 0.16793876783774,
+      "eval_sts-dev_pearson_dot": 0.1481957278796634,
+      "eval_sts-dev_pearson_euclidean": 0.19722850814365245,
+      "eval_sts-dev_pearson_manhattan": 0.19617097331605537,
+      "eval_sts-dev_pearson_max": 0.19722850814365245,
+      "eval_sts-dev_spearman_cosine": 0.19966948583403588,
+      "eval_sts-dev_spearman_dot": 0.14869572921537724,
+      "eval_sts-dev_spearman_euclidean": 0.208144651870388,
+      "eval_sts-dev_spearman_manhattan": 0.20697988059772135,
+      "eval_sts-dev_spearman_max": 0.208144651870388,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2376049421827974,
+      "grad_norm": 0.007155057042837143,
+      "learning_rate": 4.2378102446752334e-05,
+      "loss": 0.0174,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2376049421827974,
+      "eval_loss": 0.01738722249865532,
+      "eval_runtime": 82.5636,
+      "eval_samples_per_second": 60.559,
+      "eval_steps_per_second": 1.902,
+      "eval_sts-dev_pearson_cosine": 0.13663702381510662,
+      "eval_sts-dev_pearson_dot": 0.11588852598989118,
+      "eval_sts-dev_pearson_euclidean": 0.16056667152911408,
+      "eval_sts-dev_pearson_manhattan": 0.15924268782656817,
+      "eval_sts-dev_pearson_max": 0.16056667152911408,
+      "eval_sts-dev_spearman_cosine": 0.16527466832006016,
+      "eval_sts-dev_spearman_dot": 0.10078185264794931,
+      "eval_sts-dev_spearman_euclidean": 0.1719215715191216,
+      "eval_sts-dev_spearman_manhattan": 0.170303502778187,
+      "eval_sts-dev_spearman_max": 0.1719215715191216,
+      "step": 1500
+    },
+    {
+      "epoch": 0.3168065895770632,
+      "grad_norm": 0.002368535613641143,
+      "learning_rate": 3.79774687555008e-05,
+      "loss": 0.0108,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3168065895770632,
+      "eval_loss": 0.013646911829710007,
+      "eval_runtime": 83.1873,
+      "eval_samples_per_second": 60.105,
+      "eval_steps_per_second": 1.887,
+      "eval_sts-dev_pearson_cosine": 0.14207290429771552,
+      "eval_sts-dev_pearson_dot": 0.12219302310028649,
+      "eval_sts-dev_pearson_euclidean": 0.15249164642806468,
+      "eval_sts-dev_pearson_manhattan": 0.15099460310457263,
+      "eval_sts-dev_pearson_max": 0.15249164642806468,
+      "eval_sts-dev_spearman_cosine": 0.14567413155731176,
+      "eval_sts-dev_spearman_dot": 0.09939489795167657,
+      "eval_sts-dev_spearman_euclidean": 0.14960035136962835,
+      "eval_sts-dev_spearman_manhattan": 0.14872808741782187,
+      "eval_sts-dev_spearman_max": 0.14960035136962835,
+      "step": 2000
+    },
+    {
+      "epoch": 0.39600823697132903,
+      "grad_norm": 0.011403551325201988,
+      "learning_rate": 3.3576835064249254e-05,
+      "loss": 0.0121,
+      "step": 2500
+    },
+    {
+      "epoch": 0.39600823697132903,
+      "eval_loss": 0.015611983835697174,
+      "eval_runtime": 82.8829,
+      "eval_samples_per_second": 60.326,
+      "eval_steps_per_second": 1.894,
+      "eval_sts-dev_pearson_cosine": 0.1786266334873075,
+      "eval_sts-dev_pearson_dot": 0.16571459472812308,
+      "eval_sts-dev_pearson_euclidean": 0.19586188718253267,
+      "eval_sts-dev_pearson_manhattan": 0.19603778309890557,
+      "eval_sts-dev_pearson_max": 0.19603778309890557,
+      "eval_sts-dev_spearman_cosine": 0.20990140220242978,
+      "eval_sts-dev_spearman_dot": 0.1668269410484095,
+      "eval_sts-dev_spearman_euclidean": 0.21443661354146873,
+      "eval_sts-dev_spearman_manhattan": 0.21529338637929912,
+      "eval_sts-dev_spearman_max": 0.21529338637929912,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4752098843655948,
+      "grad_norm": 0.004168146755546331,
+      "learning_rate": 2.9176201372997714e-05,
+      "loss": 0.0122,
+      "step": 3000
+    },
+    {
+      "epoch": 0.4752098843655948,
+      "eval_loss": 0.013952625915408134,
+      "eval_runtime": 82.7861,
+      "eval_samples_per_second": 60.397,
+      "eval_steps_per_second": 1.896,
+      "eval_sts-dev_pearson_cosine": 0.16089480397614714,
+      "eval_sts-dev_pearson_dot": 0.14333252395560012,
+      "eval_sts-dev_pearson_euclidean": 0.17458568236482797,
+      "eval_sts-dev_pearson_manhattan": 0.1736800184097837,
+      "eval_sts-dev_pearson_max": 0.17458568236482797,
+      "eval_sts-dev_spearman_cosine": 0.17227083866593193,
+      "eval_sts-dev_spearman_dot": 0.12781779851368713,
+      "eval_sts-dev_spearman_euclidean": 0.17703810710585532,
+      "eval_sts-dev_spearman_manhattan": 0.17557253669161538,
+      "eval_sts-dev_spearman_max": 0.17703810710585532,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5544115317598606,
+      "grad_norm": 0.004282405134290457,
+      "learning_rate": 2.4775567681746174e-05,
+      "loss": 0.0125,
+      "step": 3500
+    },
+    {
+      "epoch": 0.5544115317598606,
+      "eval_loss": 0.011783541180193424,
+      "eval_runtime": 82.8159,
+      "eval_samples_per_second": 60.375,
+      "eval_steps_per_second": 1.896,
+      "eval_sts-dev_pearson_cosine": 0.18448919166260044,
+      "eval_sts-dev_pearson_dot": 0.17905699568214264,
+      "eval_sts-dev_pearson_euclidean": 0.20624063360858977,
+      "eval_sts-dev_pearson_manhattan": 0.205619351099398,
+      "eval_sts-dev_pearson_max": 0.20624063360858977,
+      "eval_sts-dev_spearman_cosine": 0.22476168122019577,
+      "eval_sts-dev_spearman_dot": 0.19305224567026316,
+      "eval_sts-dev_spearman_euclidean": 0.2268539691521332,
+      "eval_sts-dev_spearman_manhattan": 0.2268021523901189,
+      "eval_sts-dev_spearman_max": 0.2268539691521332,
+      "step": 3500
+    },
+    {
+      "epoch": 0.6336131791541264,
+      "grad_norm": 0.016134686768054962,
+      "learning_rate": 2.0374933990494634e-05,
+      "loss": 0.0079,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6336131791541264,
+      "eval_loss": 0.011526196263730526,
+      "eval_runtime": 83.1812,
+      "eval_samples_per_second": 60.11,
+      "eval_steps_per_second": 1.887,
+      "eval_sts-dev_pearson_cosine": 0.16979017817169434,
+      "eval_sts-dev_pearson_dot": 0.16329193511035556,
+      "eval_sts-dev_pearson_euclidean": 0.2041557241070686,
+      "eval_sts-dev_pearson_manhattan": 0.20415667390135622,
+      "eval_sts-dev_pearson_max": 0.20415667390135622,
+      "eval_sts-dev_spearman_cosine": 0.23370816253094054,
+      "eval_sts-dev_spearman_dot": 0.19110938133669397,
+      "eval_sts-dev_spearman_euclidean": 0.23731458674719166,
+      "eval_sts-dev_spearman_manhattan": 0.2363744330684564,
+      "eval_sts-dev_spearman_max": 0.23731458674719166,
+      "step": 4000
+    },
+    {
+      "epoch": 0.7128148265483922,
+      "grad_norm": 0.10654988884925842,
+      "learning_rate": 1.5983101566625593e-05,
+      "loss": 0.0093,
+      "step": 4500
+    },
+    {
+      "epoch": 0.7128148265483922,
+      "eval_loss": 0.01042733620852232,
+      "eval_runtime": 82.4696,
+      "eval_samples_per_second": 60.628,
+      "eval_steps_per_second": 1.904,
+      "eval_sts-dev_pearson_cosine": 0.16883832363197002,
+      "eval_sts-dev_pearson_dot": 0.16172877878537467,
+      "eval_sts-dev_pearson_euclidean": 0.20343671061551505,
+      "eval_sts-dev_pearson_manhattan": 0.20269317144225543,
+      "eval_sts-dev_pearson_max": 0.20343671061551505,
+      "eval_sts-dev_spearman_cosine": 0.23314123864913222,
+      "eval_sts-dev_spearman_dot": 0.19029123486315452,
+      "eval_sts-dev_spearman_euclidean": 0.23747745874658102,
+      "eval_sts-dev_spearman_manhattan": 0.23681371095402073,
+      "eval_sts-dev_spearman_max": 0.23747745874658102,
+      "step": 4500
+    },
+    {
+      "epoch": 0.7920164739426581,
+      "grad_norm": 0.0034745726734399796,
+      "learning_rate": 1.1582467875374054e-05,
+      "loss": 0.0071,
+      "step": 5000
+    },
+    {
+      "epoch": 0.7920164739426581,
+      "eval_loss": 0.010719917714595795,
+      "eval_runtime": 82.5902,
+      "eval_samples_per_second": 60.54,
+      "eval_steps_per_second": 1.901,
+      "eval_sts-dev_pearson_cosine": 0.19565242771314767,
+      "eval_sts-dev_pearson_dot": 0.18923012649171922,
+      "eval_sts-dev_pearson_euclidean": 0.2278768429358364,
+      "eval_sts-dev_pearson_manhattan": 0.22768897126347665,
+      "eval_sts-dev_pearson_max": 0.2278768429358364,
+      "eval_sts-dev_spearman_cosine": 0.24240094548214325,
+      "eval_sts-dev_spearman_dot": 0.21284981986619678,
+      "eval_sts-dev_spearman_euclidean": 0.24732163285243935,
+      "eval_sts-dev_spearman_manhattan": 0.24736929658665446,
+      "eval_sts-dev_spearman_max": 0.24736929658665446,
+      "step": 5000
+    },
+    {
+      "epoch": 0.8712181213369238,
+      "grad_norm": 0.004818719811737537,
+      "learning_rate": 7.181834184122514e-06,
+      "loss": 0.0041,
+      "step": 5500
+    },
+    {
+      "epoch": 0.8712181213369238,
+      "eval_loss": 0.009991911239922047,
+      "eval_runtime": 82.1637,
+      "eval_samples_per_second": 60.854,
+      "eval_steps_per_second": 1.911,
+      "eval_sts-dev_pearson_cosine": 0.1892693811813182,
+      "eval_sts-dev_pearson_dot": 0.18290497740650222,
+      "eval_sts-dev_pearson_euclidean": 0.22463164519842746,
+      "eval_sts-dev_pearson_manhattan": 0.22460268853676083,
+      "eval_sts-dev_pearson_max": 0.22463164519842746,
+      "eval_sts-dev_spearman_cosine": 0.24628027091826607,
+      "eval_sts-dev_spearman_dot": 0.21127633301239485,
+      "eval_sts-dev_spearman_euclidean": 0.251238048387475,
+      "eval_sts-dev_spearman_manhattan": 0.2518403299451181,
+      "eval_sts-dev_spearman_max": 0.2518403299451181,
+      "step": 5500
+    },
+    {
+      "epoch": 0.9504197687311896,
+      "grad_norm": 0.012634661048650742,
+      "learning_rate": 2.7812004928709737e-06,
+      "loss": 0.0069,
+      "step": 6000
+    },
+    {
+      "epoch": 0.9504197687311896,
+      "eval_loss": 0.009837556630373001,
+      "eval_runtime": 83.3155,
+      "eval_samples_per_second": 60.013,
+      "eval_steps_per_second": 1.884,
+      "eval_sts-dev_pearson_cosine": 0.19373258731869963,
+      "eval_sts-dev_pearson_dot": 0.18775862207030505,
+      "eval_sts-dev_pearson_euclidean": 0.22537635202224982,
+      "eval_sts-dev_pearson_manhattan": 0.2245827911400446,
+      "eval_sts-dev_pearson_max": 0.22537635202224982,
+      "eval_sts-dev_spearman_cosine": 0.24307341815427166,
+      "eval_sts-dev_spearman_dot": 0.2124049530103558,
+      "eval_sts-dev_spearman_euclidean": 0.24695143686545143,
+      "eval_sts-dev_spearman_manhattan": 0.2468102784042943,
+      "eval_sts-dev_spearman_max": 0.24695143686545143,
+      "step": 6000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 6313,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49cd29a3f4634cde346f934be256bc249299b11b2a06ac368e70856ff7be6b50
+size 5496

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff