Training in progress, step 100

Browse files

Files changed (7) hide show

README.md +2 -1
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +66 -0

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 base_model: HuggingFaceTB/SmolLM2-135M-Instruct
-library_name: transformers
 model_name: HFTB-SmolLM2-135M-Instruct-OTCMedicinePHv2
 tags:
 - generated_from_trainer
@@ -33,6 +33,7 @@ This model was trained with SFT.
 ### Framework versions
 - TRL: 0.12.0
 - Transformers: 4.46.2
 - Pytorch: 2.3.0+cu121

 ---
 base_model: HuggingFaceTB/SmolLM2-135M-Instruct
+library_name: peft
 model_name: HFTB-SmolLM2-135M-Instruct-OTCMedicinePHv2
 tags:
 - generated_from_trainer
 ### Framework versions
+- PEFT 0.13.2
 - TRL: 0.12.0
 - Transformers: 4.46.2
 - Pytorch: 2.3.0+cu121

adapter_config.json CHANGED Viewed

@@ -22,11 +22,11 @@
   "target_modules": [
     "k_proj",
     "o_proj",
-    "q_proj",
-    "v_proj",
-    "gate_proj",
     "down_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "target_modules": [
     "k_proj",
     "o_proj",
     "down_proj",
+    "v_proj",
+    "q_proj",
+    "up_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1e9903521addfcb8cd9ec62491477719e3d904888a2c0c0ce2d6a165a40ed71
 size 39131224

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dbd99f50b057c2ca64df5b045da5907f6ca1180b620f814eaffc3df4f28fe17
 size 39131224

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 3.883495145631068,
+    "eval_loss": 0.12919174134731293,
+    "eval_runtime": 14.8882,
+    "eval_samples_per_second": 35.599,
+    "eval_steps_per_second": 4.5,
+    "total_flos": 255110322096000.0,
+    "train_loss": 0.48706390380859377,
+    "train_runtime": 923.0797,
+    "train_samples_per_second": 5.2,
+    "train_steps_per_second": 0.108
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 3.883495145631068,
+    "eval_loss": 0.12919174134731293,
+    "eval_runtime": 14.8882,
+    "eval_samples_per_second": 35.599,
+    "eval_steps_per_second": 4.5
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.883495145631068,
+    "total_flos": 255110322096000.0,
+    "train_loss": 0.48706390380859377,
+    "train_runtime": 923.0797,
+    "train_samples_per_second": 5.2,
+    "train_steps_per_second": 0.108
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "best_metric": 0.12923255562782288,
+  "best_model_checkpoint": "./HFTB-SmolLM2-135M-Instruct-OTCMedicinePHv2\\checkpoint-100",
+  "epoch": 3.883495145631068,
+  "eval_steps": 100,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 3.883495145631068,
+      "grad_norm": 0.22856882214546204,
+      "learning_rate": 0.0005,
+      "loss": 0.4871,
+      "step": 100
+    },
+    {
+      "epoch": 3.883495145631068,
+      "eval_loss": 0.12923255562782288,
+      "eval_runtime": 14.6836,
+      "eval_samples_per_second": 36.095,
+      "eval_steps_per_second": 4.563,
+      "step": 100
+    },
+    {
+      "epoch": 3.883495145631068,
+      "step": 100,
+      "total_flos": 255110322096000.0,
+      "train_loss": 0.48706390380859377,
+      "train_runtime": 923.0797,
+      "train_samples_per_second": 5.2,
+      "train_steps_per_second": 0.108
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.01
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 255110322096000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}