kyryl-georgian commited on Feb 24

Commit

52bdbb7

•

1 Parent(s): 6da15f5

End of training

Browse files

Files changed (19) hide show

README.md +7 -19
adapter_config.json +4 -3
adapter_model.safetensors +1 -1
all_results.json +8 -8
emissions.csv +4 -0
eval_results.json +4 -4
runs/Feb24_00-04-25_bd236bb80193/events.out.tfevents.1708733095.bd236bb80193.37.0 +3 -0
runs/Feb24_00-05-16_bd236bb80193/events.out.tfevents.1708733139.bd236bb80193.413.0 +3 -0
runs/Feb24_00-05-16_bd236bb80193/events.out.tfevents.1708733153.bd236bb80193.413.1 +3 -0
runs/Feb24_00-08-06_bd236bb80193/events.out.tfevents.1708733309.bd236bb80193.988.0 +3 -0
runs/Feb24_00-08-06_bd236bb80193/events.out.tfevents.1708733322.bd236bb80193.988.1 +3 -0
runs/Feb24_00-09-32_bd236bb80193/events.out.tfevents.1708733457.bd236bb80193.1435.0 +3 -0
runs/Feb24_00-09-32_bd236bb80193/events.out.tfevents.1708733567.bd236bb80193.1435.1 +3 -0
special_tokens_map.json +3 -21
spiece.model +3 -0
tokenizer.json +2 -4
train_results.json +4 -4
trainer_state.json +16 -169
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,9 +1,8 @@
 ---
 license: apache-2.0
-library_name: peft
 tags:
 - generated_from_trainer
-base_model: google/flan-t5-small
 model-index:
 - name: flan-base-sql
   results: []
@@ -16,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/flan-t5-small](https://huggingface.co/google/flan-t5-small) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1072
 ## Model description
@@ -51,23 +50,12 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.4003        | 0.9   | 500  | 0.1629          |
-| 0.2314        | 1.81  | 1000 | 0.1386          |
-| 0.2065        | 2.71  | 1500 | 0.1289          |
-| 0.187         | 3.62  | 2000 | 0.1233          |
-| 0.1791        | 4.52  | 2500 | 0.1169          |
-| 0.1713        | 5.42  | 3000 | 0.1153          |
-| 0.1661        | 6.33  | 3500 | 0.1122          |
-| 0.1604        | 7.23  | 4000 | 0.1085          |
-| 0.1574        | 8.14  | 4500 | 0.1099          |
-| 0.1541        | 9.04  | 5000 | 0.1064          |
-| 0.1521        | 9.95  | 5500 | 0.1071          |
 ### Framework versions
-- PEFT 0.7.1
-- Transformers 4.38.0
-- Pytorch 2.1.2+cu121
-- Datasets 2.17.0
-- Tokenizers 0.15.2

 ---
 license: apache-2.0
+base_model: google/flan-t5-small
 tags:
 - generated_from_trainer
 model-index:
 - name: flan-base-sql
   results: []
 This model is a fine-tuned version of [google/flan-t5-small](https://huggingface.co/google/flan-t5-small) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1649
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.4024        | 6.33  | 500  | 0.1728          |
 ### Framework versions
+- Transformers 4.36.0.dev0
+- Pytorch 2.1.0+cu118
+- Datasets 2.14.6
+- Tokenizers 0.14.1

adapter_config.json CHANGED Viewed

@@ -19,8 +19,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v",
-    "q"
   ],
-  "task_type": "SEQ_2_SEQ_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q",
+    "v"
   ],
+  "task_type": "SEQ_2_SEQ_LM",
+  "use_rslora": false
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4af10a22bd170f6a681891351deeaa4edddd58bc62b4d0732320b6f5fcd408fd
 size 2765880

 version https://git-lfs.github.com/spec/v1
+oid sha256:41e5a6c074adf70a3081c0bd661b8d62426a9507595d7d7a2ec73bd4767e2067
 size 2765880

all_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
     "epoch": 10.0,
-    "eval_loss": 0.10718318819999695,
-    "eval_runtime": 3.0141,
-    "eval_samples_per_second": 2607.118,
-    "eval_steps_per_second": 20.57,
-    "train_loss": 0.19658087959772425,
-    "train_runtime": 755.9435,
-    "train_samples_per_second": 935.506,
-    "train_steps_per_second": 7.315
 }

 {
     "epoch": 10.0,
+    "eval_loss": 0.16487877070903778,
+    "eval_runtime": 2.8546,
+    "eval_samples_per_second": 2752.375,
+    "eval_steps_per_second": 21.719,
+    "train_loss": 0.3472654608231557,
+    "train_runtime": 106.5441,
+    "train_samples_per_second": 938.578,
+    "train_steps_per_second": 7.415
 }

emissions.csv ADDED Viewed

	@@ -0,0 +1,4 @@

+timestamp,experiment_id,project_name,duration,emissions,energy_consumed,country_name,country_iso_code,region,on_cloud,cloud_provider,cloud_region
+2024-02-24T00:05:40,16ea20c8-bcb1-453e-bce2-f6cb0599f084,codecarbon,0.3465697765350342,2.382074432305905e-05,6.453136242463374e-05,United States,USA,virginia,N,,
+2024-02-24T00:08:29,9fde16a4-8a69-4bb9-a34b-f48f907546a5,codecarbon,0.3421628475189209,2.3325881593192804e-05,6.319075922020199e-05,United States,USA,virginia,N,,
+2024-02-24T00:12:44,d9ffb887-54e6-41cc-a071-684630728cdc,codecarbon,106.2760329246521,0.012281562312257426,0.03327125038430488,United States,USA,virginia,N,,

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 10.0,
-    "eval_loss": 0.10718318819999695,
-    "eval_runtime": 3.0141,
-    "eval_samples_per_second": 2607.118,
-    "eval_steps_per_second": 20.57
 }

 {
     "epoch": 10.0,
+    "eval_loss": 0.16487877070903778,
+    "eval_runtime": 2.8546,
+    "eval_samples_per_second": 2752.375,
+    "eval_steps_per_second": 21.719
 }

runs/Feb24_00-04-25_bd236bb80193/events.out.tfevents.1708733095.bd236bb80193.37.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14bd2e3ee3c5b4adde9589d9edd0fe5032b6ac6246666af865022bb732304326
+size 5342

runs/Feb24_00-05-16_bd236bb80193/events.out.tfevents.1708733139.bd236bb80193.413.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:056ffc6ba8d477c8d7a49b8aed88ea3551315eb633fbd72eae1b4520cb6024c1
+size 5691

runs/Feb24_00-05-16_bd236bb80193/events.out.tfevents.1708733153.bd236bb80193.413.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a923660a4f2cfd27f425ca843977587f67ee4cfd04b0c3883553ba83d9fb6df
+size 354

runs/Feb24_00-08-06_bd236bb80193/events.out.tfevents.1708733309.bd236bb80193.988.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:933752e60e1039ea736004287e5574a9b6b48e73fbfb2b69c188daa264b5bcd3
+size 5691

runs/Feb24_00-08-06_bd236bb80193/events.out.tfevents.1708733322.bd236bb80193.988.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb40150c9eef6df850249faccc4638b6810165c4ff7c89209825de66112280fa
+size 354

runs/Feb24_00-09-32_bd236bb80193/events.out.tfevents.1708733457.bd236bb80193.1435.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9e14fc39e5a496ee49bb915026dd342822afd401f51a75283ac2914f25a938f
+size 6123

runs/Feb24_00-09-32_bd236bb80193/events.out.tfevents.1708733567.bd236bb80193.1435.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6f842e830a7e5b485c076d40c0993281b6b462bb67af613bd03170c51e94bfd
+size 359

special_tokens_map.json CHANGED Viewed

@@ -101,25 +101,7 @@
     "<extra_id_98>",
     "<extra_id_99>"
   ],
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
 }

     "<extra_id_98>",
     "<extra_id_99>"
   ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
 }

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

tokenizer.json CHANGED Viewed

@@ -964,8 +964,7 @@
   "pre_tokenizer": {
     "type": "Metaspace",
     "replacement": "▁",
-    "add_prefix_space": true,
-    "prepend_scheme": "always"
   },
   "post_processor": {
     "type": "TemplateProcessing",
@@ -1024,8 +1023,7 @@
   "decoder": {
     "type": "Metaspace",
     "replacement": "▁",
-    "add_prefix_space": true,
-    "prepend_scheme": "always"
   },
   "model": {
     "type": "Unigram",

   "pre_tokenizer": {
     "type": "Metaspace",
     "replacement": "▁",
+    "add_prefix_space": true
   },
   "post_processor": {
     "type": "TemplateProcessing",
   "decoder": {
     "type": "Metaspace",
     "replacement": "▁",
+    "add_prefix_space": true
   },
   "model": {
     "type": "Unigram",

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 10.0,
-    "train_loss": 0.19658087959772425,
-    "train_runtime": 755.9435,
-    "train_samples_per_second": 935.506,
-    "train_steps_per_second": 7.315
 }

 {
     "epoch": 10.0,
+    "train_loss": 0.3472654608231557,
+    "train_runtime": 106.5441,
+    "train_samples_per_second": 938.578,
+    "train_steps_per_second": 7.415
 }

trainer_state.json CHANGED Viewed

@@ -3,193 +3,40 @@
   "best_model_checkpoint": null,
   "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 5530,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.9,
-      "grad_norm": 0.1664367914199829,
-      "learning_rate": 0.0009095840867992767,
-      "loss": 0.4003,
-      "step": 500
-    },
-    {
-      "epoch": 0.9,
-      "eval_loss": 0.162927508354187,
-      "eval_runtime": 3.0318,
-      "eval_samples_per_second": 2591.854,
-      "eval_steps_per_second": 20.45,
-      "step": 500
-    },
-    {
-      "epoch": 1.81,
-      "grad_norm": 0.1386815905570984,
-      "learning_rate": 0.0008191681735985533,
-      "loss": 0.2314,
-      "step": 1000
-    },
-    {
-      "epoch": 1.81,
-      "eval_loss": 0.1386137157678604,
-      "eval_runtime": 3.0434,
-      "eval_samples_per_second": 2582.007,
-      "eval_steps_per_second": 20.372,
-      "step": 1000
-    },
-    {
-      "epoch": 2.71,
-      "grad_norm": 0.1781063824892044,
-      "learning_rate": 0.0007287522603978301,
-      "loss": 0.2065,
-      "step": 1500
-    },
-    {
-      "epoch": 2.71,
-      "eval_loss": 0.1289130598306656,
-      "eval_runtime": 3.0677,
-      "eval_samples_per_second": 2561.542,
-      "eval_steps_per_second": 20.211,
-      "step": 1500
-    },
-    {
-      "epoch": 3.62,
-      "grad_norm": 0.15570929646492004,
-      "learning_rate": 0.0006383363471971068,
-      "loss": 0.187,
-      "step": 2000
-    },
-    {
-      "epoch": 3.62,
-      "eval_loss": 0.12326223403215408,
-      "eval_runtime": 3.0605,
-      "eval_samples_per_second": 2567.579,
-      "eval_steps_per_second": 20.258,
-      "step": 2000
-    },
-    {
-      "epoch": 4.52,
-      "grad_norm": 0.16776247322559357,
-      "learning_rate": 0.0005479204339963833,
-      "loss": 0.1791,
-      "step": 2500
-    },
-    {
-      "epoch": 4.52,
-      "eval_loss": 0.1168670803308487,
-      "eval_runtime": 3.0473,
-      "eval_samples_per_second": 2578.705,
-      "eval_steps_per_second": 20.346,
-      "step": 2500
-    },
-    {
-      "epoch": 5.42,
-      "grad_norm": 0.1355486512184143,
-      "learning_rate": 0.0004575045207956601,
-      "loss": 0.1713,
-      "step": 3000
-    },
-    {
-      "epoch": 5.42,
-      "eval_loss": 0.11528698354959488,
-      "eval_runtime": 3.0013,
-      "eval_samples_per_second": 2618.163,
-      "eval_steps_per_second": 20.657,
-      "step": 3000
-    },
     {
       "epoch": 6.33,
-      "grad_norm": 0.16372531652450562,
       "learning_rate": 0.0003670886075949367,
-      "loss": 0.1661,
-      "step": 3500
     },
     {
       "epoch": 6.33,
-      "eval_loss": 0.11218289285898209,
-      "eval_runtime": 2.9586,
-      "eval_samples_per_second": 2655.959,
-      "eval_steps_per_second": 20.956,
-      "step": 3500
-    },
-    {
-      "epoch": 7.23,
-      "grad_norm": 0.1596778929233551,
-      "learning_rate": 0.0002766726943942134,
-      "loss": 0.1604,
-      "step": 4000
-    },
-    {
-      "epoch": 7.23,
-      "eval_loss": 0.1085081547498703,
-      "eval_runtime": 2.9539,
-      "eval_samples_per_second": 2660.243,
-      "eval_steps_per_second": 20.989,
-      "step": 4000
-    },
-    {
-      "epoch": 8.14,
-      "grad_norm": 0.15582768619060516,
-      "learning_rate": 0.00018625678119349006,
-      "loss": 0.1574,
-      "step": 4500
-    },
-    {
-      "epoch": 8.14,
-      "eval_loss": 0.1098729744553566,
-      "eval_runtime": 2.9739,
-      "eval_samples_per_second": 2642.311,
-      "eval_steps_per_second": 20.848,
-      "step": 4500
-    },
-    {
-      "epoch": 9.04,
-      "grad_norm": 0.15063905715942383,
-      "learning_rate": 9.584086799276672e-05,
-      "loss": 0.1541,
-      "step": 5000
-    },
-    {
-      "epoch": 9.04,
-      "eval_loss": 0.10638037323951721,
-      "eval_runtime": 3.0665,
-      "eval_samples_per_second": 2562.534,
-      "eval_steps_per_second": 20.219,
-      "step": 5000
-    },
-    {
-      "epoch": 9.95,
-      "grad_norm": 0.14130930602550507,
-      "learning_rate": 5.4249547920433995e-06,
-      "loss": 0.1521,
-      "step": 5500
-    },
-    {
-      "epoch": 9.95,
-      "eval_loss": 0.1071261540055275,
-      "eval_runtime": 3.024,
-      "eval_samples_per_second": 2598.51,
-      "eval_steps_per_second": 20.502,
-      "step": 5500
     },
     {
       "epoch": 10.0,
-      "step": 5530,
-      "total_flos": 2.2872619342626816e+16,
-      "train_loss": 0.19658087959772425,
-      "train_runtime": 755.9435,
-      "train_samples_per_second": 935.506,
-      "train_steps_per_second": 7.315
     }
   ],
   "logging_steps": 500,
-  "max_steps": 5530,
-  "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2.2872619342626816e+16,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 790,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 6.33,
       "learning_rate": 0.0003670886075949367,
+      "loss": 0.4024,
+      "step": 500
     },
     {
       "epoch": 6.33,
+      "eval_loss": 0.17280669510364532,
+      "eval_runtime": 2.8781,
+      "eval_samples_per_second": 2729.968,
+      "eval_steps_per_second": 21.542,
+      "step": 500
     },
     {
       "epoch": 10.0,
+      "step": 790,
+      "total_flos": 3267517032169472.0,
+      "train_loss": 0.3472654608231557,
+      "train_runtime": 106.5441,
+      "train_samples_per_second": 938.578,
+      "train_steps_per_second": 7.415
     }
   ],
   "logging_steps": 500,
+  "max_steps": 790,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 3267517032169472.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1791b93576383f366ada713fe62fa1a5066567f1c635c3f329bc8f36e8673a58
-size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:73516ab6f53c226d6a40128d334ce1313b9d34fdf37c818f3cb4ba28312154df
+size 4856