Model save

Browse files

Files changed (4) hide show

README.md +3 -3
adapter_config.json +7 -169
adapter_model.safetensors +2 -2
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -33,12 +33,12 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0001
 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
-- gradient_accumulation_steps: 4
-- total_train_batch_size: 4
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 100

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-05
 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 100

adapter_config.json CHANGED Viewed

@@ -20,175 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "model.layers.7.self_attn.v_proj",
-    "model.layers.21.self_attn.k_proj",
-    "model.layers.7.mlp.down_proj",
-    "model.layers.0.mlp.up_proj",
-    "model.layers.0.mlp.down_proj",
-    "model.layers.10.self_attn.o_proj",
-    "model.layers.23.self_attn.k_proj",
-    "model.layers.11.mlp.down_proj",
-    "model.layers.4.mlp.up_proj",
-    "model.layers.9.mlp.down_proj",
-    "model.layers.14.self_attn.k_proj",
-    "model.layers.0.mlp.gate_proj",
-    "model.layers.7.mlp.up_proj",
-    "model.layers.5.self_attn.k_proj",
-    "model.layers.8.mlp.gate_proj",
-    "model.layers.11.self_attn.k_proj",
-    "model.layers.13.mlp.up_proj",
-    "model.layers.8.mlp.down_proj",
-    "model.layers.13.self_attn.q_proj",
-    "model.layers.14.mlp.up_proj",
-    "model.layers.18.self_attn.k_proj",
-    "model.layers.11.self_attn.q_proj",
-    "model.layers.7.mlp.gate_proj",
-    "model.layers.20.mlp.down_proj",
-    "model.layers.12.mlp.up_proj",
-    "model.layers.22.mlp.down_proj",
-    "model.layers.9.mlp.gate_proj",
-    "model.layers.0.self_attn.q_proj",
-    "model.layers.5.mlp.gate_proj",
-    "model.layers.22.mlp.up_proj",
-    "model.layers.1.self_attn.q_proj",
-    "model.layers.4.self_attn.v_proj",
-    "model.layers.22.self_attn.q_proj",
-    "model.layers.23.self_attn.o_proj",
-    "model.layers.1.mlp.up_proj",
-    "model.layers.21.self_attn.v_proj",
-    "model.layers.11.mlp.up_proj",
-    "model.layers.17.self_attn.q_proj",
-    "model.layers.9.mlp.up_proj",
-    "model.layers.7.self_attn.q_proj",
-    "model.layers.10.mlp.up_proj",
-    "model.layers.21.mlp.down_proj",
-    "model.layers.5.self_attn.v_proj",
-    "model.layers.19.self_attn.v_proj",
-    "model.layers.20.mlp.gate_proj",
-    "model.layers.5.mlp.down_proj",
-    "model.layers.17.mlp.up_proj",
-    "model.layers.22.self_attn.k_proj",
-    "model.layers.2.mlp.down_proj",
-    "model.layers.13.mlp.down_proj",
-    "model.layers.2.mlp.gate_proj",
-    "model.layers.9.self_attn.v_proj",
-    "model.layers.2.self_attn.o_proj",
-    "model.layers.8.self_attn.k_proj",
-    "model.layers.7.self_attn.o_proj",
-    "model.layers.8.self_attn.v_proj",
-    "model.layers.6.self_attn.o_proj",
-    "model.layers.8.mlp.up_proj",
-    "model.layers.4.self_attn.k_proj",
-    "model.layers.10.mlp.down_proj",
-    "model.layers.19.self_attn.k_proj",
-    "model.layers.23.mlp.gate_proj",
-    "model.layers.5.self_attn.q_proj",
-    "model.layers.17.mlp.gate_proj",
-    "model.layers.18.self_attn.q_proj",
-    "model.layers.16.self_attn.k_proj",
-    "model.layers.1.mlp.gate_proj",
-    "model.layers.4.self_attn.o_proj",
-    "model.layers.5.mlp.up_proj",
-    "model.layers.3.self_attn.v_proj",
-    "model.layers.16.mlp.up_proj",
-    "model.layers.3.mlp.down_proj",
-    "model.layers.1.mlp.down_proj",
-    "model.layers.10.self_attn.q_proj",
-    "model.layers.11.mlp.gate_proj",
-    "model.layers.4.self_attn.q_proj",
-    "model.layers.12.self_attn.o_proj",
-    "model.layers.19.mlp.up_proj",
-    "model.layers.21.mlp.gate_proj",
-    "model.layers.1.self_attn.v_proj",
-    "model.layers.15.mlp.gate_proj",
-    "model.layers.16.mlp.down_proj",
-    "model.layers.4.mlp.down_proj",
-    "model.layers.2.self_attn.v_proj",
-    "model.layers.4.mlp.gate_proj",
-    "model.layers.11.self_attn.v_proj",
-    "model.layers.18.mlp.down_proj",
-    "model.layers.16.self_attn.q_proj",
-    "model.layers.8.self_attn.q_proj",
-    "model.layers.22.self_attn.v_proj",
-    "model.layers.15.self_attn.o_proj",
-    "model.layers.19.self_attn.q_proj",
-    "model.layers.23.self_attn.q_proj",
-    "model.layers.15.mlp.up_proj",
-    "model.layers.13.self_attn.k_proj",
-    "model.layers.13.self_attn.o_proj",
-    "model.layers.18.self_attn.v_proj",
-    "model.layers.1.self_attn.o_proj",
-    "model.layers.12.mlp.down_proj",
-    "model.layers.20.mlp.up_proj",
-    "model.layers.8.self_attn.o_proj",
-    "model.layers.6.self_attn.k_proj",
-    "model.layers.19.mlp.gate_proj",
-    "model.layers.19.self_attn.o_proj",
-    "model.layers.18.mlp.gate_proj",
-    "model.layers.9.self_attn.o_proj",
-    "model.layers.12.self_attn.k_proj",
-    "model.layers.14.self_attn.o_proj",
-    "model.layers.3.mlp.up_proj",
-    "model.layers.16.self_attn.v_proj",
-    "model.layers.6.mlp.down_proj",
-    "model.layers.16.mlp.gate_proj",
-    "model.layers.5.self_attn.o_proj",
-    "model.layers.20.self_attn.k_proj",
-    "model.layers.21.self_attn.q_proj",
-    "model.layers.17.self_attn.v_proj",
-    "model.layers.14.mlp.gate_proj",
-    "model.layers.6.self_attn.q_proj",
-    "model.layers.9.self_attn.q_proj",
-    "model.layers.20.self_attn.o_proj",
-    "model.layers.16.self_attn.o_proj",
-    "model.layers.22.mlp.gate_proj",
-    "model.layers.14.self_attn.v_proj",
-    "model.layers.19.mlp.down_proj",
-    "model.layers.6.self_attn.v_proj",
-    "model.layers.10.self_attn.v_proj",
-    "model.layers.1.self_attn.k_proj",
-    "model.layers.0.self_attn.o_proj",
-    "model.layers.0.self_attn.v_proj",
-    "model.layers.2.self_attn.q_proj",
-    "model.layers.13.mlp.gate_proj",
-    "model.layers.23.mlp.up_proj",
-    "model.layers.9.self_attn.k_proj",
-    "model.layers.17.self_attn.k_proj",
-    "model.layers.10.self_attn.k_proj",
-    "model.layers.11.self_attn.o_proj",
-    "model.layers.2.self_attn.k_proj",
-    "model.layers.3.self_attn.k_proj",
-    "model.layers.18.mlp.up_proj",
-    "model.layers.23.mlp.down_proj",
-    "model.layers.7.self_attn.k_proj",
-    "model.layers.18.self_attn.o_proj",
-    "model.layers.6.mlp.gate_proj",
-    "model.layers.2.mlp.up_proj",
-    "model.layers.15.self_attn.k_proj",
-    "model.layers.20.self_attn.q_proj",
-    "model.layers.15.mlp.down_proj",
-    "model.layers.0.self_attn.k_proj",
-    "model.layers.13.self_attn.v_proj",
-    "model.layers.3.self_attn.q_proj",
-    "model.layers.21.mlp.up_proj",
-    "model.layers.6.mlp.up_proj",
-    "model.layers.21.self_attn.o_proj",
-    "model.layers.3.self_attn.o_proj",
-    "model.layers.17.self_attn.o_proj",
-    "model.layers.22.self_attn.o_proj",
-    "lm_head",
-    "model.layers.17.mlp.down_proj",
-    "model.layers.14.mlp.down_proj",
-    "model.layers.12.self_attn.v_proj",
-    "model.layers.15.self_attn.q_proj",
-    "model.layers.23.self_attn.v_proj",
-    "model.layers.10.mlp.gate_proj",
-    "model.layers.20.self_attn.v_proj",
-    "model.layers.15.self_attn.v_proj",
-    "model.layers.12.mlp.gate_proj",
-    "model.layers.14.self_attn.q_proj",
-    "model.layers.12.self_attn.q_proj",
-    "model.layers.3.mlp.gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "gate_proj",
+    "o_proj",
+    "v_proj",
+    "up_proj",
+    "down_proj",
+    "q_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb3c925a54aea5f73f7ad916e3184a5a2a237d6567f5c0722fab7d30dddc6752
-size 589558184

 version https://git-lfs.github.com/spec/v1
+oid sha256:b440e7424f9ef471f92c74bc797891e9191477e307f6071444b3328d6cbadbc2
+size 35237104

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f35591747e37238be30de9115dd12126eda11e464f688fedf09fe7aeb2b8db6
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee40753f89a248604ed34f32e943dfd3aa2c2a57445029b048423e703afe6c26
 size 5112