Model save

Browse files

Files changed (3) hide show

README.md +34 -24
adapter_model.safetensors +1 -1
runs/Apr12_11-05-10_llm-a100-40/events.out.tfevents.1712919948.llm-a100-40.5211.0 +2 -2

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mixtral-8x7B-v0.1](https://huggingface.co/mistralai/Mixtral-8x7B-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9766
 ## Model description
@@ -39,7 +39,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 3e-05
 - train_batch_size: 2
 - eval_batch_size: 1
 - seed: 42
@@ -48,33 +48,43 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03
-- num_epochs: 1.5
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.3844        | 0.07  | 20   | 1.2695          |
-| 1.1368        | 0.14  | 40   | 1.0996          |
-| 1.0758        | 0.21  | 60   | 1.0459          |
-| 1.0537        | 0.28  | 80   | 1.0269          |
-| 1.0397        | 0.35  | 100  | 1.0147          |
-| 1.0075        | 0.43  | 120  | 1.0059          |
-| 1.0145        | 0.5   | 140  | 0.9990          |
-| 0.9939        | 0.57  | 160  | 0.9937          |
-| 1.0228        | 0.64  | 180  | 0.9895          |
-| 1.0056        | 0.71  | 200  | 0.9858          |
-| 0.999         | 0.78  | 220  | 0.9831          |
-| 1.0084        | 0.85  | 240  | 0.9809          |
-| 0.9957        | 0.92  | 260  | 0.9792          |
-| 1.0033        | 0.99  | 280  | 0.9781          |
-| 0.9884        | 1.06  | 300  | 0.9774          |
-| 0.9906        | 1.13  | 320  | 0.9770          |
-| 0.9893        | 1.2   | 340  | 0.9768          |
-| 1.0005        | 1.28  | 360  | 0.9766          |
-| 0.9824        | 1.35  | 380  | 0.9767          |
-| 0.9886        | 1.42  | 400  | 0.9766          |
-| 0.9828        | 1.49  | 420  | 0.9766          |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mixtral-8x7B-v0.1](https://huggingface.co/mistralai/Mixtral-8x7B-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9139
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0002
 - train_batch_size: 2
 - eval_batch_size: 1
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 2.2
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.1966        | 0.07  | 20   | 1.1074          |
+| 1.0281        | 0.14  | 40   | 1.0284          |
+| 0.9837        | 0.21  | 60   | 0.9990          |
+| 0.992         | 0.28  | 80   | 0.9808          |
+| 0.9642        | 0.35  | 100  | 0.9685          |
+| 0.9706        | 0.42  | 120  | 0.9591          |
+| 0.9355        | 0.5   | 140  | 0.9523          |
+| 0.9253        | 0.57  | 160  | 0.9468          |
+| 0.9125        | 0.64  | 180  | 0.9412          |
+| 0.9232        | 0.71  | 200  | 0.9363          |
+| 0.9183        | 0.78  | 220  | 0.9320          |
+| 0.9175        | 0.85  | 240  | 0.9284          |
+| 0.9219        | 0.92  | 260  | 0.9253          |
+| 0.9028        | 0.99  | 280  | 0.9228          |
+| 0.8405        | 1.06  | 300  | 0.9251          |
+| 0.8429        | 1.13  | 320  | 0.9238          |
+| 0.8453        | 1.2   | 340  | 0.9231          |
+| 0.8722        | 1.27  | 360  | 0.9214          |
+| 0.8511        | 1.35  | 380  | 0.9200          |
+| 0.8471        | 1.42  | 400  | 0.9186          |
+| 0.8376        | 1.49  | 420  | 0.9171          |
+| 0.8372        | 1.56  | 440  | 0.9160          |
+| 0.8517        | 1.63  | 460  | 0.9155          |
+| 0.8244        | 1.7   | 480  | 0.9147          |
+| 0.8432        | 1.77  | 500  | 0.9140          |
+| 0.8519        | 1.84  | 520  | 0.9135          |
+| 0.8128        | 1.91  | 540  | 0.9135          |
+| 0.8296        | 1.98  | 560  | 0.9134          |
+| 0.7848        | 2.05  | 580  | 0.9138          |
+| 0.8166        | 2.12  | 600  | 0.9139          |
+| 0.7963        | 2.2   | 620  | 0.9139          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daab3ab48519a5a8b68d386e3519f53e30416ac4881b6c7038a8280c3b2d1647
 size 969176736

 version https://git-lfs.github.com/spec/v1
+oid sha256:3da76e895a426afc554bea1a688050baa6508e13fa5836fb154ed1c693755103
 size 969176736

runs/Apr12_11-05-10_llm-a100-40/events.out.tfevents.1712919948.llm-a100-40.5211.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8f23a6fb3412547bc686b4d9f0f65446d3fe1434ab8dc4a2dc3f2a8b30e2c3c
-size 25829

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9b9df4311cf7ffa7cdc1575328dca7ad863bbd37521d455b08b4a64fbc6c5bd
+size 26876