Model save

Browse files

Files changed (6) hide show

README.md +16 -22
adapter_model.safetensors +1 -1
all_results.json +6 -11
runs/Jun10_19-04-55_user-HP-Z8-Fury-G5-Workstation-Desktop-PC/events.out.tfevents.1718013909.user-HP-Z8-Fury-G5-Workstation-Desktop-PC.13878.0 +2 -2
train_results.json +6 -6
trainer_state.json +0 -0

README.md CHANGED Viewed

@@ -2,13 +2,12 @@
 license: gemma
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
 base_model: google/gemma-2b
 datasets:
-- llama-duo/synth_summarize_dataset_dedup
 model-index:
 - name: gemma2b-summarize-claude3sonnet-128k
   results: []
@@ -19,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 # gemma2b-summarize-claude3sonnet-128k
-This model is a fine-tuned version of [google/gemma-2b](https://huggingface.co/google/gemma-2b) on the llama-duo/synth_summarize_dataset_dedup dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.5270
 ## Model description
@@ -52,33 +51,28 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 15
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.097         | 1.0   | 402  | 2.4839          |
-| 1.0176        | 2.0   | 804  | 2.4534          |
-| 0.9746        | 3.0   | 1206 | 2.4625          |
-| 0.9525        | 4.0   | 1608 | 2.4586          |
-| 0.9361        | 5.0   | 2010 | 2.4669          |
-| 0.9077        | 6.0   | 2412 | 2.4844          |
-| 0.896         | 7.0   | 2814 | 2.4947          |
-| 0.8858        | 8.0   | 3216 | 2.5056          |
-| 0.8811        | 9.0   | 3618 | 2.5128          |
-| 0.8634        | 10.0  | 4020 | 2.5166          |
-| 0.8758        | 11.0  | 4422 | 2.5237          |
-| 0.8644        | 12.0  | 4824 | 2.5264          |
-| 0.8641        | 13.0  | 5226 | 2.5268          |
-| 0.8607        | 14.0  | 5628 | 2.5271          |
-| 0.8609        | 15.0  | 6030 | 2.5270          |
 ### Framework versions
-- PEFT 0.10.0
-- Transformers 4.40.0
 - Pytorch 2.2.2+cu121
 - Datasets 2.19.1
 - Tokenizers 0.19.1

 license: gemma
 library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
 base_model: google/gemma-2b
 datasets:
+- generator
 model-index:
 - name: gemma2b-summarize-claude3sonnet-128k
   results: []
 # gemma2b-summarize-claude3sonnet-128k
+This model is a fine-tuned version of [google/gemma-2b](https://huggingface.co/google/gemma-2b) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.6928
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 10
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.0192        | 1.0   | 402  | 2.4514          |
+| 0.9424        | 2.0   | 804  | 2.4604          |
+| 0.8955        | 3.0   | 1206 | 2.5064          |
+| 0.8659        | 4.0   | 1608 | 2.5306          |
+| 0.8359        | 5.0   | 2010 | 2.5706          |
+| 0.7986        | 6.0   | 2412 | 2.6196          |
+| 0.7778        | 7.0   | 2814 | 2.6583          |
+| 0.7562        | 8.0   | 3216 | 2.6846          |
+| 0.7563        | 9.0   | 3618 | 2.6927          |
+| 0.7461        | 10.0  | 4020 | 2.6928          |
 ### Framework versions
+- PEFT 0.11.1
+- Transformers 4.41.2
 - Pytorch 2.2.2+cu121
 - Datasets 2.19.1
 - Tokenizers 0.19.1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a10936cba622657c61f8f1925c16495d39e3996341d75997cfd9c5d0e56f4aa
 size 78480320

 version https://git-lfs.github.com/spec/v1
+oid sha256:385fda0f1efd859eb391182ef31bfe8dfc967ee95263e7d8aecc886aff4a01f2
 size 78480320

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
-    "epoch": 15.0,
-    "eval_loss": 2.5269672870635986,
-    "eval_runtime": 0.5011,
-    "eval_samples": 25,
-    "eval_samples_per_second": 19.954,
-    "eval_steps_per_second": 1.995,
-    "total_flos": 3.5418612320488653e+18,
-    "train_loss": 0.9510796088682083,
-    "train_runtime": 20707.2957,
     "train_samples": 126989,
-    "train_samples_per_second": 13.97,
-    "train_steps_per_second": 0.291
 }

 {
+    "epoch": 10.0,
+    "total_flos": 2.396116594708185e+18,
+    "train_loss": 0.875829508648583,
+    "train_runtime": 25148.6449,
     "train_samples": 126989,
+    "train_samples_per_second": 7.668,
+    "train_steps_per_second": 0.16
 }

runs/Jun10_19-04-55_user-HP-Z8-Fury-G5-Workstation-Desktop-PC/events.out.tfevents.1718013909.user-HP-Z8-Fury-G5-Workstation-Desktop-PC.13878.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca37e92d5565ae9e4f0df24056b8832ea9c852a5d328f09bccab3f39ef11bed6
-size 176979

 version https://git-lfs.github.com/spec/v1
+oid sha256:95467affcbeb77ae206036caad6420b46727bccb610ffabb294a845d0c6b3f96
+size 178448

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 15.0,
-    "total_flos": 3.5418612320488653e+18,
-    "train_loss": 0.9510796088682083,
-    "train_runtime": 20707.2957,
     "train_samples": 126989,
-    "train_samples_per_second": 13.97,
-    "train_steps_per_second": 0.291
 }

 {
+    "epoch": 10.0,
+    "total_flos": 2.396116594708185e+18,
+    "train_loss": 0.875829508648583,
+    "train_runtime": 25148.6449,
     "train_samples": 126989,
+    "train_samples_per_second": 7.668,
+    "train_steps_per_second": 0.16
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff