End of training

Browse files

Files changed (6) hide show

README.md +20 -0
adapter_model.bin +1 -1
all_results.json +7 -0
completed +0 -0
train_results.json +7 -0
trainer_state.json +85 -0

README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.4.0.dev0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82b88445f8fad3f07749aae7ad83556dc3560bf9ad9d4201179517fde1b27002
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:85d66e5c32d92b6c8b1519a36c7646d11c74e1c053c552925d55b5f248c1b8ca
 size 500897101

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 6.34,
+    "train_loss": 0.7186767674318635,
+    "train_runtime": 12449.8782,
+    "train_samples_per_second": 0.519,
+    "train_steps_per_second": 0.008
+}

completed ADDED Viewed

File without changes

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 6.34,
+    "train_loss": 0.7186767674318635,
+    "train_runtime": 12449.8782,
+    "train_samples_per_second": 0.519,
+    "train_steps_per_second": 0.008
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,85 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.337254901960784,
+  "global_step": 101,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0002,
+      "loss": 1.0302,
+      "step": 10
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0002,
+      "loss": 0.887,
+      "step": 20
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0002,
+      "loss": 0.8287,
+      "step": 30
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0002,
+      "loss": 0.7763,
+      "step": 40
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 0.0002,
+      "loss": 0.7513,
+      "step": 50
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 0.0002,
+      "loss": 0.6717,
+      "step": 60
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 0.0002,
+      "loss": 0.6378,
+      "step": 70
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6025,
+      "step": 80
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 0.0002,
+      "loss": 0.5327,
+      "step": 90
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 0.0002,
+      "loss": 0.4946,
+      "step": 100
+    },
+    {
+      "epoch": 6.34,
+      "step": 101,
+      "total_flos": 4.4403317821771776e+17,
+      "train_loss": 0.7186767674318635,
+      "train_runtime": 12449.8782,
+      "train_samples_per_second": 0.519,
+      "train_steps_per_second": 0.008
+    }
+  ],
+  "max_steps": 101,
+  "num_train_epochs": 7,
+  "total_flos": 4.4403317821771776e+17,
+  "trial_name": null,
+  "trial_params": null
+}