Model save

Browse files

Files changed (6) hide show

README.md +78 -0
adapter_model.safetensors +1 -1
all_results.json +9 -0
runs/Jun08_13-06-54_user-WS-C621E-SAGE-Series/events.out.tfevents.1717819654.user-WS-C621E-SAGE-Series.8289.0 +2 -2
train_results.json +9 -0
trainer_state.json +299 -0

README.md ADDED Viewed

	@@ -0,0 +1,78 @@

+---
+license: gemma
+library_name: peft
+tags:
+- trl
+- sft
+- generated_from_trainer
+base_model: google/gemma-7b
+datasets:
+- generator
+model-index:
+- name: gemma7b-summarize-gpt4o-2k
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gemma7b-summarize-gpt4o-2k
+This model is a fine-tuned version of [google/gemma-7b](https://huggingface.co/google/gemma-7b) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 3.2983
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 16
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 10
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 23.4809       | 1.0   | 13   | 8.2506          |
+| 7.0034        | 2.0   | 26   | 3.5645          |
+| 1.9278        | 3.0   | 39   | 2.7831          |
+| 1.3284        | 4.0   | 52   | 2.7295          |
+| 1.046         | 5.0   | 65   | 2.7647          |
+| 0.8611        | 6.0   | 78   | 2.8629          |
+| 0.7242        | 7.0   | 91   | 3.0405          |
+| 0.6192        | 8.0   | 104  | 3.1549          |
+| 0.5312        | 9.0   | 117  | 3.3041          |
+| 0.5202        | 10.0  | 130  | 3.2983          |
+### Framework versions
+- PEFT 0.10.0
+- Transformers 4.40.0
+- Pytorch 2.2.1+cu121
+- Datasets 2.18.0
+- Tokenizers 0.19.1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1645caf0248c521fa7b2eade77d65029d7571b0d0b7c7a6caac0c768bc42b880
 size 50056096

 version https://git-lfs.github.com/spec/v1
+oid sha256:d553ae6702fe97cb32e10a3ba799b7a9b102497c3e9a1c2320c4275af05e6c45
 size 50056096

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "total_flos": 9.937675599478784e+16,
+    "train_loss": 4.9734316147290745,
+    "train_runtime": 870.6795,
+    "train_samples": 1874,
+    "train_samples_per_second": 2.366,
+    "train_steps_per_second": 0.149
+}

runs/Jun08_13-06-54_user-WS-C621E-SAGE-Series/events.out.tfevents.1717819654.user-WS-C621E-SAGE-Series.8289.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73b02aab48f359567f87907eb197b7f5faa185df256365d86f6aecea2984c11a
-size 11637

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7d7053a3eeba6f9384755ab456b899b26bce72966f228d4e12bd97ad43b24d7
+size 14040

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "total_flos": 9.937675599478784e+16,
+    "train_loss": 4.9734316147290745,
+    "train_runtime": 870.6795,
+    "train_samples": 1874,
+    "train_samples_per_second": 2.366,
+    "train_steps_per_second": 0.149
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,299 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 130,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07692307692307693,
+      "grad_norm": 480.0,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 49.667,
+      "step": 1
+    },
+    {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 260.0,
+      "learning_rate": 7.692307692307693e-05,
+      "loss": 40.4711,
+      "step": 5
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 26.75,
+      "learning_rate": 0.00015384615384615385,
+      "loss": 23.4809,
+      "step": 10
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 8.250589370727539,
+      "eval_runtime": 2.0471,
+      "eval_samples_per_second": 4.885,
+      "eval_steps_per_second": 0.977,
+      "step": 13
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 15.25,
+      "learning_rate": 0.00019985583705641418,
+      "loss": 19.4813,
+      "step": 15
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 34.75,
+      "learning_rate": 0.00019823877374156647,
+      "loss": 16.6271,
+      "step": 20
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 21.875,
+      "learning_rate": 0.00019485364419471454,
+      "loss": 7.0034,
+      "step": 25
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 3.5644798278808594,
+      "eval_runtime": 2.0643,
+      "eval_samples_per_second": 4.844,
+      "eval_steps_per_second": 0.969,
+      "step": 26
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 5.5625,
+      "learning_rate": 0.0001897613727639014,
+      "loss": 2.3031,
+      "step": 30
+    },
+    {
+      "epoch": 2.6923076923076925,
+      "grad_norm": 3.09375,
+      "learning_rate": 0.00018305360832480117,
+      "loss": 1.9278,
+      "step": 35
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 2.7830893993377686,
+      "eval_runtime": 2.0487,
+      "eval_samples_per_second": 4.881,
+      "eval_steps_per_second": 0.976,
+      "step": 39
+    },
+    {
+      "epoch": 3.076923076923077,
+      "grad_norm": 1.8671875,
+      "learning_rate": 0.00017485107481711012,
+      "loss": 1.6366,
+      "step": 40
+    },
+    {
+      "epoch": 3.4615384615384617,
+      "grad_norm": 5.84375,
+      "learning_rate": 0.0001653013984983585,
+      "loss": 1.4332,
+      "step": 45
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 1.5703125,
+      "learning_rate": 0.00015457645101945046,
+      "loss": 1.3284,
+      "step": 50
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 2.7295384407043457,
+      "eval_runtime": 2.0468,
+      "eval_samples_per_second": 4.886,
+      "eval_steps_per_second": 0.977,
+      "step": 52
+    },
+    {
+      "epoch": 4.230769230769231,
+      "grad_norm": 2.0625,
+      "learning_rate": 0.00014286925614030542,
+      "loss": 1.1714,
+      "step": 55
+    },
+    {
+      "epoch": 4.615384615384615,
+      "grad_norm": 1.7578125,
+      "learning_rate": 0.0001303905157574247,
+      "loss": 1.0989,
+      "step": 60
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.921875,
+      "learning_rate": 0.00011736481776669306,
+      "loss": 1.046,
+      "step": 65
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 2.7646915912628174,
+      "eval_runtime": 2.047,
+      "eval_samples_per_second": 4.885,
+      "eval_steps_per_second": 0.977,
+      "step": 65
+    },
+    {
+      "epoch": 5.384615384615385,
+      "grad_norm": 2.65625,
+      "learning_rate": 0.00010402659401094152,
+      "loss": 0.9141,
+      "step": 70
+    },
+    {
+      "epoch": 5.769230769230769,
+      "grad_norm": 1.7734375,
+      "learning_rate": 9.061590105968208e-05,
+      "loss": 0.8611,
+      "step": 75
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 2.862928867340088,
+      "eval_runtime": 2.0464,
+      "eval_samples_per_second": 4.887,
+      "eval_steps_per_second": 0.977,
+      "step": 78
+    },
+    {
+      "epoch": 6.153846153846154,
+      "grad_norm": 11.625,
+      "learning_rate": 7.73740997570278e-05,
+      "loss": 0.7981,
+      "step": 80
+    },
+    {
+      "epoch": 6.538461538461538,
+      "grad_norm": 2.09375,
+      "learning_rate": 6.453951129574644e-05,
+      "loss": 0.7228,
+      "step": 85
+    },
+    {
+      "epoch": 6.923076923076923,
+      "grad_norm": 2.078125,
+      "learning_rate": 5.234312799786921e-05,
+      "loss": 0.7242,
+      "step": 90
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 3.040492296218872,
+      "eval_runtime": 2.0484,
+      "eval_samples_per_second": 4.882,
+      "eval_steps_per_second": 0.976,
+      "step": 91
+    },
+    {
+      "epoch": 7.3076923076923075,
+      "grad_norm": 1.421875,
+      "learning_rate": 4.100445599768774e-05,
+      "loss": 0.6348,
+      "step": 95
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 2.25,
+      "learning_rate": 3.072756464904006e-05,
+      "loss": 0.6192,
+      "step": 100
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 3.1549479961395264,
+      "eval_runtime": 2.0433,
+      "eval_samples_per_second": 4.894,
+      "eval_steps_per_second": 0.979,
+      "step": 104
+    },
+    {
+      "epoch": 8.076923076923077,
+      "grad_norm": 1.3359375,
+      "learning_rate": 2.1697413758237784e-05,
+      "loss": 0.5742,
+      "step": 105
+    },
+    {
+      "epoch": 8.461538461538462,
+      "grad_norm": 1.5703125,
+      "learning_rate": 1.4076524743778319e-05,
+      "loss": 0.5514,
+      "step": 110
+    },
+    {
+      "epoch": 8.846153846153847,
+      "grad_norm": 1.40625,
+      "learning_rate": 8.002055634117578e-06,
+      "loss": 0.5312,
+      "step": 115
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 3.3040664196014404,
+      "eval_runtime": 2.0464,
+      "eval_samples_per_second": 4.887,
+      "eval_steps_per_second": 0.977,
+      "step": 117
+    },
+    {
+      "epoch": 9.23076923076923,
+      "grad_norm": 1.265625,
+      "learning_rate": 3.5833325466437694e-06,
+      "loss": 0.5132,
+      "step": 120
+    },
+    {
+      "epoch": 9.615384615384615,
+      "grad_norm": 1.3984375,
+      "learning_rate": 8.998820754091531e-07,
+      "loss": 0.4966,
+      "step": 125
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 1.2109375,
+      "learning_rate": 0.0,
+      "loss": 0.5202,
+      "step": 130
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 3.298276901245117,
+      "eval_runtime": 2.0482,
+      "eval_samples_per_second": 4.882,
+      "eval_steps_per_second": 0.976,
+      "step": 130
+    },
+    {
+      "epoch": 10.0,
+      "step": 130,
+      "total_flos": 9.937675599478784e+16,
+      "train_loss": 4.9734316147290745,
+      "train_runtime": 870.6795,
+      "train_samples_per_second": 2.366,
+      "train_steps_per_second": 0.149
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 130,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 100,
+  "total_flos": 9.937675599478784e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}