Telugubert for TeluguQC

Browse files

Files changed (9) hide show

README.md +16 -15
config.json +6 -6
model.safetensors +2 -2
runs/Apr08_23-42-26_8dcdf4d4de1d/events.out.tfevents.1712619768.8dcdf4d4de1d.555.0 +3 -0
runs/Apr08_23-49-01_8dcdf4d4de1d/events.out.tfevents.1712620152.8dcdf4d4de1d.555.1 +3 -0
special_tokens_map.json +35 -5
tokenizer.json +6 -1
tokenizer_config.json +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 metrics:
@@ -15,13 +17,13 @@ should probably proofread and complete it, then remove this comment. -->
 # output
-This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7144
-- Precision: 0.9059
-- Recall: 0.9049
-- Accuracy: 0.9049
-- F1-score: 0.9053
 ## Model description
@@ -46,20 +48,19 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 8
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Precision | Recall | Accuracy | F1-score |
 |:-------------:|:-----:|:----:|:---------------:|:---------:|:------:|:--------:|:--------:|
-| 0.6607        | 1.0   | 309  | 0.3826          | 0.8915    | 0.8907 | 0.8907   | 0.8905   |
-| 0.2673        | 2.0   | 618  | 0.4694          | 0.8886    | 0.8866 | 0.8866   | 0.8860   |
-| 0.1819        | 3.0   | 927  | 0.4766          | 0.9001    | 0.8988 | 0.8988   | 0.8989   |
-| 0.102         | 4.0   | 1236 | 0.6096          | 0.8945    | 0.8927 | 0.8927   | 0.8930   |
-| 0.0607        | 5.0   | 1545 | 0.6537          | 0.8971    | 0.8947 | 0.8947   | 0.8955   |
-| 0.0326        | 6.0   | 1854 | 0.6568          | 0.9127    | 0.9109 | 0.9109   | 0.9116   |
-| 0.0221        | 7.0   | 2163 | 0.7081          | 0.9045    | 0.9028 | 0.9028   | 0.9035   |
-| 0.0133        | 8.0   | 2472 | 0.7144          | 0.9059    | 0.9049 | 0.9049   | 0.9053   |
 ### Framework versions

 ---
+license: cc-by-4.0
+base_model: l3cube-pune/telugu-bert
 tags:
 - generated_from_trainer
 metrics:
 # output
+This model is a fine-tuned version of [l3cube-pune/telugu-bert](https://huggingface.co/l3cube-pune/telugu-bert) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.6017
+- Precision: 0.7825
+- Recall: 0.7870
+- Accuracy: 0.7870
+- F1-score: 0.7809
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 7
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Precision | Recall | Accuracy | F1-score |
 |:-------------:|:-----:|:----:|:---------------:|:---------:|:------:|:--------:|:--------:|
+| 1.7849        | 1.0   | 32   | 1.7769          | 0.0454    | 0.2130 | 0.2130   | 0.0748   |
+| 1.7491        | 2.0   | 64   | 1.7436          | 0.1414    | 0.3306 | 0.3306   | 0.1933   |
+| 1.7032        | 3.0   | 96   | 1.7059          | 0.2918    | 0.3043 | 0.3043   | 0.2076   |
+| 1.6498        | 4.0   | 128  | 1.6571          | 0.7274    | 0.6572 | 0.6572   | 0.6571   |
+| 1.6029        | 5.0   | 160  | 1.6236          | 0.7687    | 0.7627 | 0.7627   | 0.7576   |
+| 1.5724        | 6.0   | 192  | 1.6049          | 0.7894    | 0.7951 | 0.7951   | 0.7893   |
+| 1.556         | 7.0   | 224  | 1.6017          | 0.7825    | 0.7870 | 0.7870   | 0.7809   |
 ### Framework versions

config.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-  "_name_or_path": "google/muril-large-cased",
   "architectures": [
     "BertForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
-  "embedding_size": 1024,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 1024,
   "id2label": {
     "0": "Abbreviation",
     "1": "Description",
@@ -18,7 +18,7 @@
     "5": "Numeric"
   },
   "initializer_range": 0.02,
-  "intermediate_size": 4096,
   "label2id": {
     "Abbreviation": 0,
     "Description": 1,
@@ -30,8 +30,8 @@
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
   "model_type": "bert",
-  "num_attention_heads": 16,
-  "num_hidden_layers": 24,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",

 {
+  "_name_or_path": "l3cube-pune/telugu-bert",
   "architectures": [
     "BertForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
+  "embedding_size": 768,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
   "id2label": {
     "0": "Abbreviation",
     "1": "Description",
     "5": "Numeric"
   },
   "initializer_range": 0.02,
+  "intermediate_size": 3072,
   "label2id": {
     "Abbreviation": 0,
     "Description": 1,
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
   "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bc64af6f109935cc9432bb9b419416bdff7fe1f4140f2e1c74c90915f17ffe7
-size 2023700848

 version https://git-lfs.github.com/spec/v1
+oid sha256:aab7a751f02eea3422dd153d9de73285a746a4c7df81a6f7f561c7dd835eeb38
+size 950266896

runs/Apr08_23-42-26_8dcdf4d4de1d/events.out.tfevents.1712619768.8dcdf4d4de1d.555.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:530973ef616e4b8a0934258eed9ed878425c31c1a1da9b061bcf565fa0cf2c82
+size 10661

runs/Apr08_23-49-01_8dcdf4d4de1d/events.out.tfevents.1712620152.8dcdf4d4de1d.555.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28651a948d707300107b8f9efa6f8ebcd5f74e8b7d361a42e49f8be061f43638
+size 9972

special_tokens_map.json CHANGED Viewed

@@ -1,7 +1,37 @@
 {
-  "cls_token": "[CLS]",
-  "mask_token": "[MASK]",
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "unk_token": "[UNK]"
 }

 {
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 512,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

tokenizer_config.json CHANGED Viewed

@@ -47,7 +47,7 @@
   "do_lower_case": false,
   "lowercase": false,
   "mask_token": "[MASK]",
-  "model_max_length": 1000000000000000019884624838656,
   "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",

   "do_lower_case": false,
   "lowercase": false,
   "mask_token": "[MASK]",
+  "model_max_length": 512,
   "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80da42a4639d0fa5d3d50362fd788f0a9d4f3d24530f49c46737ec07dcddb243
 size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:bca09a3f3f95451faf3e17d022867f8113ccd6ab0ca2e5d2d6e73464c3890360
 size 4856