End of training

Browse files

Files changed (6) hide show

README.md +1 -1
all_results.json +11 -11
eval_results.json +6 -6
runs/Aug10_00-01-17_EMIMDGXA100GPU1/events.out.tfevents.1723262530.EMIMDGXA100GPU1.4102634.1 +3 -0
train_results.json +6 -6
trainer_state.json +110 -124

README.md CHANGED Viewed

@@ -30,7 +30,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5079
 - Accuracy: 0.8140
 ## Model description

 This model was trained from scratch on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4812
 - Accuracy: 0.8140
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.8,
-    "eval_loss": 0.5545626282691956,
-    "eval_runtime": 0.1252,
-    "eval_samples_per_second": 119.856,
-    "eval_steps_per_second": 31.962,
-    "total_flos": 9.841482681053184e+16,
-    "train_loss": 0.5487962663173676,
-    "train_runtime": 36.3019,
-    "train_samples_per_second": 34.984,
-    "train_steps_per_second": 2.204
 }

 {
+    "epoch": 9.6,
+    "eval_accuracy": 0.813953488372093,
+    "eval_loss": 0.4812479317188263,
+    "eval_runtime": 0.2934,
+    "eval_samples_per_second": 146.538,
+    "eval_steps_per_second": 37.487,
+    "total_flos": 7.3694882123477e+16,
+    "train_loss": 0.5894826014836629,
+    "train_runtime": 33.2904,
+    "train_samples_per_second": 29.738,
+    "train_steps_per_second": 1.802
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.8,
-    "eval_loss": 0.5545626282691956,
-    "eval_runtime": 0.1252,
-    "eval_samples_per_second": 119.856,
-    "eval_steps_per_second": 31.962
 }

 {
+    "epoch": 9.6,
+    "eval_accuracy": 0.813953488372093,
+    "eval_loss": 0.4812479317188263,
+    "eval_runtime": 0.2934,
+    "eval_samples_per_second": 146.538,
+    "eval_steps_per_second": 37.487
 }

runs/Aug10_00-01-17_EMIMDGXA100GPU1/events.out.tfevents.1723262530.EMIMDGXA100GPU1.4102634.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:400241db4f9f2c27eafd3ef14bc634d080fc0a6faa3eca978c73d2859223bd4d
+size 405

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "total_flos": 9.841482681053184e+16,
-    "train_loss": 0.5487962663173676,
-    "train_runtime": 36.3019,
-    "train_samples_per_second": 34.984,
-    "train_steps_per_second": 2.204
 }

 {
+    "epoch": 9.6,
+    "total_flos": 7.3694882123477e+16,
+    "train_loss": 0.5894826014836629,
+    "train_runtime": 33.2904,
+    "train_samples_per_second": 29.738,
+    "train_steps_per_second": 1.802
 }

trainer_state.json CHANGED Viewed

@@ -1,171 +1,157 @@
 {
-  "best_metric": 0.8,
-  "best_model_checkpoint": "vit-base-patch16-224/checkpoint-8",
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 80,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.5545626282691956,
-      "eval_runtime": 0.0989,
-      "eval_samples_per_second": 151.64,
-      "eval_steps_per_second": 40.437,
-      "step": 8
     },
     {
-      "epoch": 1.25,
-      "grad_norm": 4.057127952575684,
-      "learning_rate": 4.861111111111111e-06,
-      "loss": 0.5945,
       "step": 10
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.5408901572227478,
-      "eval_runtime": 0.1082,
-      "eval_samples_per_second": 138.616,
-      "eval_steps_per_second": 36.964,
-      "step": 16
     },
     {
-      "epoch": 2.5,
-      "grad_norm": 4.53317403793335,
-      "learning_rate": 4.166666666666667e-06,
-      "loss": 0.5832,
       "step": 20
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.5466590523719788,
-      "eval_runtime": 0.1022,
-      "eval_samples_per_second": 146.703,
-      "eval_steps_per_second": 39.121,
-      "step": 24
     },
     {
-      "epoch": 3.75,
-      "grad_norm": 3.683661937713623,
-      "learning_rate": 3.4722222222222224e-06,
-      "loss": 0.5338,
       "step": 30
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.551804780960083,
-      "eval_runtime": 0.0956,
-      "eval_samples_per_second": 156.964,
-      "eval_steps_per_second": 41.857,
-      "step": 32
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 4.659008979797363,
-      "learning_rate": 2.7777777777777783e-06,
-      "loss": 0.5513,
-      "step": 40
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.5602456331253052,
-      "eval_runtime": 0.0943,
-      "eval_samples_per_second": 159.134,
-      "eval_steps_per_second": 42.436,
       "step": 40
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.7333333333333333,
-      "eval_loss": 0.5607239007949829,
-      "eval_runtime": 0.1057,
-      "eval_samples_per_second": 141.965,
-      "eval_steps_per_second": 37.857,
-      "step": 48
     },
     {
-      "epoch": 6.25,
-      "grad_norm": 6.287199974060059,
-      "learning_rate": 2.0833333333333334e-06,
-      "loss": 0.5417,
       "step": 50
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy": 0.7333333333333333,
-      "eval_loss": 0.5707207322120667,
-      "eval_runtime": 0.1098,
-      "eval_samples_per_second": 136.606,
-      "eval_steps_per_second": 36.428,
-      "step": 56
-    },
-    {
-      "epoch": 7.5,
-      "grad_norm": 3.7512075901031494,
-      "learning_rate": 1.3888888888888892e-06,
-      "loss": 0.5343,
-      "step": 60
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.7333333333333333,
-      "eval_loss": 0.5747508406639099,
-      "eval_runtime": 0.0961,
-      "eval_samples_per_second": 156.038,
-      "eval_steps_per_second": 41.61,
-      "step": 64
     },
     {
-      "epoch": 8.75,
-      "grad_norm": 4.6297926902771,
-      "learning_rate": 6.944444444444446e-07,
-      "loss": 0.5379,
-      "step": 70
     },
     {
-      "epoch": 9.0,
-      "eval_accuracy": 0.7333333333333333,
-      "eval_loss": 0.5735542178153992,
-      "eval_runtime": 0.0985,
-      "eval_samples_per_second": 152.245,
-      "eval_steps_per_second": 40.599,
-      "step": 72
     },
     {
-      "epoch": 10.0,
-      "grad_norm": 2.6508984565734863,
-      "learning_rate": 0.0,
-      "loss": 0.5137,
-      "step": 80
-    },
-    {
-      "epoch": 10.0,
-      "eval_accuracy": 0.7333333333333333,
-      "eval_loss": 0.5730186700820923,
-      "eval_runtime": 0.344,
-      "eval_samples_per_second": 43.601,
-      "eval_steps_per_second": 11.627,
-      "step": 80
-    },
-    {
-      "epoch": 10.0,
-      "step": 80,
-      "total_flos": 9.841482681053184e+16,
-      "train_loss": 0.5487962663173676,
-      "train_runtime": 36.3019,
-      "train_samples_per_second": 34.984,
-      "train_steps_per_second": 2.204
     }
   ],
   "logging_steps": 10,
-  "max_steps": 80,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -181,7 +167,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.841482681053184e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.813953488372093,
+  "best_model_checkpoint": "vit-base-patch16-224/checkpoint-12",
+  "epoch": 9.6,
   "eval_steps": 500,
+  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.96,
+      "eval_accuracy": 0.7906976744186046,
+      "eval_loss": 0.4999209940433502,
+      "eval_runtime": 0.2683,
+      "eval_samples_per_second": 160.24,
+      "eval_steps_per_second": 40.992,
+      "step": 6
     },
     {
+      "epoch": 1.6,
+      "grad_norm": 3.087608575820923,
+      "learning_rate": 4.62962962962963e-06,
+      "loss": 0.5993,
       "step": 10
     },
     {
+      "epoch": 1.92,
+      "eval_accuracy": 0.813953488372093,
+      "eval_loss": 0.4812479317188263,
+      "eval_runtime": 0.3038,
+      "eval_samples_per_second": 141.519,
+      "eval_steps_per_second": 36.202,
+      "step": 12
     },
     {
+      "epoch": 2.88,
+      "eval_accuracy": 0.813953488372093,
+      "eval_loss": 0.48915746808052063,
+      "eval_runtime": 0.2696,
+      "eval_samples_per_second": 159.518,
+      "eval_steps_per_second": 40.807,
+      "step": 18
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 5.1914448738098145,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.6031,
       "step": 20
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.813953488372093,
+      "eval_loss": 0.49750375747680664,
+      "eval_runtime": 0.2506,
+      "eval_samples_per_second": 171.576,
+      "eval_steps_per_second": 43.892,
+      "step": 25
     },
     {
+      "epoch": 4.8,
+      "grad_norm": 4.207640171051025,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.5946,
       "step": 30
     },
     {
+      "epoch": 4.96,
+      "eval_accuracy": 0.813953488372093,
+      "eval_loss": 0.5062411427497864,
+      "eval_runtime": 0.263,
+      "eval_samples_per_second": 163.481,
+      "eval_steps_per_second": 41.821,
+      "step": 31
     },
     {
+      "epoch": 5.92,
+      "eval_accuracy": 0.813953488372093,
+      "eval_loss": 0.5119370222091675,
+      "eval_runtime": 0.2714,
+      "eval_samples_per_second": 158.421,
+      "eval_steps_per_second": 40.526,
+      "step": 37
     },
     {
+      "epoch": 6.4,
+      "grad_norm": 4.061374664306641,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.5557,
       "step": 40
     },
     {
+      "epoch": 6.88,
+      "eval_accuracy": 0.813953488372093,
+      "eval_loss": 0.5102289915084839,
+      "eval_runtime": 0.2732,
+      "eval_samples_per_second": 157.394,
+      "eval_steps_per_second": 40.264,
+      "step": 43
     },
     {
+      "epoch": 8.0,
+      "grad_norm": 3.359290361404419,
+      "learning_rate": 9.259259259259259e-07,
+      "loss": 0.583,
       "step": 50
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.813953488372093,
+      "eval_loss": 0.5075170993804932,
+      "eval_runtime": 0.2683,
+      "eval_samples_per_second": 160.255,
+      "eval_steps_per_second": 40.996,
+      "step": 50
     },
     {
+      "epoch": 8.96,
+      "eval_accuracy": 0.813953488372093,
+      "eval_loss": 0.5080327987670898,
+      "eval_runtime": 0.2647,
+      "eval_samples_per_second": 162.473,
+      "eval_steps_per_second": 41.563,
+      "step": 56
     },
     {
+      "epoch": 9.6,
+      "grad_norm": 4.910851001739502,
+      "learning_rate": 0.0,
+      "loss": 0.6013,
+      "step": 60
     },
     {
+      "epoch": 9.6,
+      "eval_accuracy": 0.813953488372093,
+      "eval_loss": 0.5078577399253845,
+      "eval_runtime": 0.2596,
+      "eval_samples_per_second": 165.63,
+      "eval_steps_per_second": 42.371,
+      "step": 60
     },
     {
+      "epoch": 9.6,
+      "step": 60,
+      "total_flos": 7.3694882123477e+16,
+      "train_loss": 0.5894826014836629,
+      "train_runtime": 33.2904,
+      "train_samples_per_second": 29.738,
+      "train_steps_per_second": 1.802
     }
   ],
   "logging_steps": 10,
+  "max_steps": 60,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 7.3694882123477e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null