Upload folder using huggingface_hub

Browse files

Files changed (15) hide show

README.md +74 -0
all_results.json +16 -0
config.json +26 -0
eval_results.json +10 -0
generation_config.json +5 -0
model.safetensors +3 -0
runs/Jul09_18-29-14_c3109aa98e74/events.out.tfevents.1720550282.c3109aa98e74.7081.0 +3 -0
runs/Jul09_18-29-14_c3109aa98e74/events.out.tfevents.1720559363.c3109aa98e74.7081.1 +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
train_results.json +9 -0
trainer_state.json +266 -0
training_args.bin +3 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,74 @@

+---
+license: apache-2.0
+base_model: google/muril-base-cased
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: temp_assamese
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# temp_assamese
+This model is a fine-tuned version of [google/muril-base-cased](https://huggingface.co/google/muril-base-cased) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.4149
+- Accuracy: 0.7014
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 2.0
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step  | Validation Loss | Accuracy |
+|:-------------:|:------:|:-----:|:---------------:|:--------:|
+| 2.2163        | 0.1409 | 2000  | 1.8646          | 0.6320   |
+| 1.9456        | 0.2818 | 4000  | 1.7492          | 0.6495   |
+| 1.8391        | 0.4227 | 6000  | 1.6770          | 0.6606   |
+| 1.7704        | 0.5637 | 8000  | 1.6166          | 0.6707   |
+| 1.7213        | 0.7046 | 10000 | 1.5818          | 0.6759   |
+| 1.6802        | 0.8455 | 12000 | 1.5403          | 0.6820   |
+| 1.6432        | 0.9864 | 14000 | 1.5153          | 0.6858   |
+| 1.6074        | 1.1273 | 16000 | 1.4965          | 0.6885   |
+| 1.5833        | 1.2682 | 18000 | 1.4678          | 0.6934   |
+| 1.5649        | 1.4091 | 20000 | 1.4508          | 0.6950   |
+| 1.553         | 1.5501 | 22000 | 1.4367          | 0.6985   |
+| 1.5345        | 1.6910 | 24000 | 1.4231          | 0.7001   |
+| 1.5261        | 1.8319 | 26000 | 1.4157          | 0.7013   |
+| 1.5148        | 1.9728 | 28000 | 1.4098          | 0.7027   |
+### Framework versions
+- Transformers 4.43.0.dev0
+- Pytorch 2.3.0+cu121
+- Datasets 2.20.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 2.0,
+    "eval_accuracy": 0.7014180145490598,
+    "eval_loss": 1.4148573875427246,
+    "eval_runtime": 102.6889,
+    "eval_samples": 11967,
+    "eval_samples_per_second": 116.536,
+    "eval_steps_per_second": 7.284,
+    "perplexity": 4.115899445582212,
+    "total_flos": 1.197729267088466e+17,
+    "train_loss": 1.6903211268009264,
+    "train_runtime": 8975.6005,
+    "train_samples": 227086,
+    "train_samples_per_second": 50.601,
+    "train_steps_per_second": 3.163
+}

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "google/muril-base-cased",
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "embedding_size": 768,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.43.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 197285
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 2.0,
+    "eval_accuracy": 0.7014180145490598,
+    "eval_loss": 1.4148573875427246,
+    "eval_runtime": 102.6889,
+    "eval_samples": 11967,
+    "eval_samples_per_second": 116.536,
+    "eval_steps_per_second": 7.284,
+    "perplexity": 4.115899445582212
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "pad_token_id": 0,
+  "transformers_version": "4.43.0.dev0"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c367e91281dc25023d6a3185659ce4a7ff0b953b29b3096d4a655e704d5be21c
+size 951043900

runs/Jul09_18-29-14_c3109aa98e74/events.out.tfevents.1720550282.c3109aa98e74.7081.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40fc0dfa0241280baccbcc3fbdb0e7b254e1bc78a8730e3578f0ae444c83beb6
+size 12820

runs/Jul09_18-29-14_c3109aa98e74/events.out.tfevents.1720559363.c3109aa98e74.7081.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d4b45a85641a56f4771ade9ddf44479274f65c41d88bdf57acbd3dc8b46e2b1
+size 417

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "104": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "105": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "lowercase": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": false,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.0,
+    "total_flos": 1.197729267088466e+17,
+    "train_loss": 1.6903211268009264,
+    "train_runtime": 8975.6005,
+    "train_samples": 227086,
+    "train_samples_per_second": 50.601,
+    "train_steps_per_second": 3.163
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,266 @@

+{
+  "best_metric": 0.7026871898897578,
+  "best_model_checkpoint": "/content/temp_assamese/checkpoint-28000",
+  "epoch": 2.0,
+  "eval_steps": 2000,
+  "global_step": 28386,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.14091453533431975,
+      "grad_norm": 12.538192749023438,
+      "learning_rate": 4.648418234340873e-05,
+      "loss": 2.2163,
+      "step": 2000
+    },
+    {
+      "epoch": 0.14091453533431975,
+      "eval_accuracy": 0.6319857833787309,
+      "eval_loss": 1.8646236658096313,
+      "eval_runtime": 102.3117,
+      "eval_samples_per_second": 116.966,
+      "eval_steps_per_second": 7.311,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2818290706686395,
+      "grad_norm": 12.645801544189453,
+      "learning_rate": 4.296131896005073e-05,
+      "loss": 1.9456,
+      "step": 4000
+    },
+    {
+      "epoch": 0.2818290706686395,
+      "eval_accuracy": 0.6494802758779904,
+      "eval_loss": 1.749164342880249,
+      "eval_runtime": 102.5618,
+      "eval_samples_per_second": 116.681,
+      "eval_steps_per_second": 7.293,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4227436060029592,
+      "grad_norm": 9.79688835144043,
+      "learning_rate": 3.943845557669274e-05,
+      "loss": 1.8391,
+      "step": 6000
+    },
+    {
+      "epoch": 0.4227436060029592,
+      "eval_accuracy": 0.6606430993204072,
+      "eval_loss": 1.6770141124725342,
+      "eval_runtime": 102.5061,
+      "eval_samples_per_second": 116.744,
+      "eval_steps_per_second": 7.297,
+      "step": 6000
+    },
+    {
+      "epoch": 0.563658141337279,
+      "grad_norm": 10.446520805358887,
+      "learning_rate": 3.5917353625026426e-05,
+      "loss": 1.7704,
+      "step": 8000
+    },
+    {
+      "epoch": 0.563658141337279,
+      "eval_accuracy": 0.6706733344622967,
+      "eval_loss": 1.6165672540664673,
+      "eval_runtime": 102.6569,
+      "eval_samples_per_second": 116.573,
+      "eval_steps_per_second": 7.286,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7045726766715987,
+      "grad_norm": 9.16817569732666,
+      "learning_rate": 3.23962516733601e-05,
+      "loss": 1.7213,
+      "step": 10000
+    },
+    {
+      "epoch": 0.7045726766715987,
+      "eval_accuracy": 0.6759152415500662,
+      "eval_loss": 1.5817841291427612,
+      "eval_runtime": 102.3347,
+      "eval_samples_per_second": 116.94,
+      "eval_steps_per_second": 7.309,
+      "step": 10000
+    },
+    {
+      "epoch": 0.8454872120059184,
+      "grad_norm": 9.296396255493164,
+      "learning_rate": 2.8875149721693794e-05,
+      "loss": 1.6802,
+      "step": 12000
+    },
+    {
+      "epoch": 0.8454872120059184,
+      "eval_accuracy": 0.6820033844378066,
+      "eval_loss": 1.5402722358703613,
+      "eval_runtime": 102.6712,
+      "eval_samples_per_second": 116.557,
+      "eval_steps_per_second": 7.285,
+      "step": 12000
+    },
+    {
+      "epoch": 0.9864017473402381,
+      "grad_norm": 7.622576713562012,
+      "learning_rate": 2.5354047770027478e-05,
+      "loss": 1.6432,
+      "step": 14000
+    },
+    {
+      "epoch": 0.9864017473402381,
+      "eval_accuracy": 0.6857634747617221,
+      "eval_loss": 1.5153496265411377,
+      "eval_runtime": 102.6162,
+      "eval_samples_per_second": 116.619,
+      "eval_steps_per_second": 7.289,
+      "step": 14000
+    },
+    {
+      "epoch": 1.127316282674558,
+      "grad_norm": 11.516377449035645,
+      "learning_rate": 2.1832945818361165e-05,
+      "loss": 1.6074,
+      "step": 16000
+    },
+    {
+      "epoch": 1.127316282674558,
+      "eval_accuracy": 0.6885159496543541,
+      "eval_loss": 1.496454119682312,
+      "eval_runtime": 102.8787,
+      "eval_samples_per_second": 116.321,
+      "eval_steps_per_second": 7.271,
+      "step": 16000
+    },
+    {
+      "epoch": 1.2682308180088775,
+      "grad_norm": 9.480605125427246,
+      "learning_rate": 1.831008243500317e-05,
+      "loss": 1.5833,
+      "step": 18000
+    },
+    {
+      "epoch": 1.2682308180088775,
+      "eval_accuracy": 0.6934179945828158,
+      "eval_loss": 1.4677945375442505,
+      "eval_runtime": 102.7153,
+      "eval_samples_per_second": 116.506,
+      "eval_steps_per_second": 7.282,
+      "step": 18000
+    },
+    {
+      "epoch": 1.4091453533431975,
+      "grad_norm": 8.643658638000488,
+      "learning_rate": 1.4788980483336856e-05,
+      "loss": 1.5649,
+      "step": 20000
+    },
+    {
+      "epoch": 1.4091453533431975,
+      "eval_accuracy": 0.6950099353567151,
+      "eval_loss": 1.4508079290390015,
+      "eval_runtime": 102.6391,
+      "eval_samples_per_second": 116.593,
+      "eval_steps_per_second": 7.288,
+      "step": 20000
+    },
+    {
+      "epoch": 1.550059888677517,
+      "grad_norm": 7.6539506912231445,
+      "learning_rate": 1.1267878531670542e-05,
+      "loss": 1.553,
+      "step": 22000
+    },
+    {
+      "epoch": 1.550059888677517,
+      "eval_accuracy": 0.698540482055296,
+      "eval_loss": 1.436693787574768,
+      "eval_runtime": 102.5486,
+      "eval_samples_per_second": 116.696,
+      "eval_steps_per_second": 7.294,
+      "step": 22000
+    },
+    {
+      "epoch": 1.690974424011837,
+      "grad_norm": 8.063584327697754,
+      "learning_rate": 7.746776580004228e-06,
+      "loss": 1.5345,
+      "step": 24000
+    },
+    {
+      "epoch": 1.690974424011837,
+      "eval_accuracy": 0.7001222876777317,
+      "eval_loss": 1.4230775833129883,
+      "eval_runtime": 102.8829,
+      "eval_samples_per_second": 116.317,
+      "eval_steps_per_second": 7.27,
+      "step": 24000
+    },
+    {
+      "epoch": 1.8318889593461565,
+      "grad_norm": 8.720465660095215,
+      "learning_rate": 4.2256746283379135e-06,
+      "loss": 1.5261,
+      "step": 26000
+    },
+    {
+      "epoch": 1.8318889593461565,
+      "eval_accuracy": 0.701337358949075,
+      "eval_loss": 1.4157360792160034,
+      "eval_runtime": 102.7046,
+      "eval_samples_per_second": 116.519,
+      "eval_steps_per_second": 7.283,
+      "step": 26000
+    },
+    {
+      "epoch": 1.9728034946804764,
+      "grad_norm": 9.144937515258789,
+      "learning_rate": 7.045726766715987e-07,
+      "loss": 1.5148,
+      "step": 28000
+    },
+    {
+      "epoch": 1.9728034946804764,
+      "eval_accuracy": 0.7026871898897578,
+      "eval_loss": 1.4097787141799927,
+      "eval_runtime": 102.5398,
+      "eval_samples_per_second": 116.706,
+      "eval_steps_per_second": 7.295,
+      "step": 28000
+    },
+    {
+      "epoch": 2.0,
+      "step": 28386,
+      "total_flos": 1.197729267088466e+17,
+      "train_loss": 1.6903211268009264,
+      "train_runtime": 8975.6005,
+      "train_samples_per_second": 50.601,
+      "train_steps_per_second": 3.163
+    }
+  ],
+  "logging_steps": 2000,
+  "max_steps": 28386,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.197729267088466e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7f14d1d4ab23358fb655d6b451b96dfc8de5e4a244f655a8173f25485d49272
+size 5176

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff