Upload 13 files

Browse files

Files changed (10) hide show

RewardModel.ipynb +0 -0
RewardModel_emissions.csv +1 -1
config.json +1 -1
optimizer.pt +2 -2
pytorch_model.bin +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
tokenizer.json +2 -2
trainer_state.json +25 -211
training_args.bin +2 -2

RewardModel.ipynb CHANGED Viewed

The diff for this file is too large to render. See raw diff

RewardModel_emissions.csv CHANGED Viewed

	@@ -1,2 +1,2 @@
1	timestamp,project_name,run_id,duration,emissions,emissions_rate,cpu_power,gpu_power,ram_power,cpu_energy,gpu_energy,ram_energy,energy_consumed,country_name,country_iso_code,region,cloud_provider,cloud_region,os,python_version,codecarbon_version,cpu_count,cpu_model,gpu_count,gpu_model,longitude,latitude,ram_total_size,tracking_mode,on_cloud,pue
2	- 2023-06-~~13T15~~:03:57,RewardModel_emissions,~~34e3fabc~~-~~108d~~-~~42d0~~-~~8a10~~-~~d218a32c89f6~~,~~4812~~.~~4118773937225~~,0.~~17002787857474966~~,3.~~5331115230068865e~~-05,42.5,~~273~~.41,31.~~30528450012207~~,0.~~056805772867467685~~,0.~~3882571562884012~~,0.~~04180739816835735~~,0.~~4868703273242265~~,~~United States~~,~~USA,nevada,,,~~Linux-5.15.~~107~~+-x86_64-with-glibc2.31,3.10.12,2.2.3,12,Intel(R) Xeon(R) CPU @ 2.20GHz,1,1 x NVIDIA A100-SXM4-40GB~~,-115~~.~~1164~~,36.~~1685~~,83.~~48075866699219~~,machine,N,1.0


1	timestamp,project_name,run_id,duration,emissions,emissions_rate,cpu_power,gpu_power,ram_power,cpu_energy,gpu_energy,ram_energy,energy_consumed,country_name,country_iso_code,region,cloud_provider,cloud_region,os,python_version,codecarbon_version,cpu_count,cpu_model,gpu_count,gpu_model,longitude,latitude,ram_total_size,tracking_mode,on_cloud,pue
2	+ 2023-08-27T21:29:04,RewardModel_emissions,9291717a-8ff3-4969-bbfc-56d01299f93b,1671.9951930046082,0.0811242018304008,4.851939896108135e-05,42.5,230.790533112253,31.305280208587646,0.019736131072872216,0.13199262364957,0.014530827622001492,0.16625958234444363,Singapore,SGP,,,,Linux-5.15.109+-x86_64-with-glibc2.35,3.10.12,2.3.1,12,Intel(R) Xeon(R) CPU @ 2.20GHz,1,1 x NVIDIA A100-SXM4-40GB,103.8547,1.2929,83.48074722290039,machine,N,1.0

config.json CHANGED Viewed

@@ -25,7 +25,7 @@
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
-  "transformers_version": "4.30.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 28996

   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
+  "transformers_version": "4.32.0",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 28996

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c52bed61e330ec59d12c04564eb6df59e95ccd9bad6cc5adf5e754358c57566
-size 866606277

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b3d650a3141b2e0c2326bf226ade42125fe25070c17c0181b629ef58e54cd18
+size 866656005

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41545686d6ccaf2f3efe0173dacc4c4634b0ade6710f046361ab31987f195591
-size 433316981

 version https://git-lfs.github.com/spec/v1
+oid sha256:5569d11e5bad1d5aded31c9cfa2b7faca36fca2d867e8d5e971fdb9d6271a8b0
+size 433312561

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:008304bdd46c688bbf5feaf85cbcc083837da7f9be6bf363f309170ac62a6d4e
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:34328d2f695efeba4db88f7e971d7409bfd04e499cbb6e22c019df50401e0447
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24c083a5f4303f0b59a009934c6dcb05a44520e05c10e837a7e2149a6d4a68d1
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:67da5128d498ca4756021811370417b993fb803d16f9d8450b5e82ca5ddbb387
 size 627

tokenizer.json CHANGED Viewed

@@ -2,13 +2,13 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 350,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
-      "Fixed": 350
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 400,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
+      "Fixed": 400
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

trainer_state.json CHANGED Viewed

@@ -1,240 +1,54 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.901960784313726,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.33,
-      "learning_rate": 4.673202614379085e-05,
-      "loss": 0.0803,
       "step": 200
     },
     {
-      "epoch": 0.33,
-      "eval_accuracy": 0.9874985395490128,
-      "eval_loss": 0.03710582107305527,
-      "eval_runtime": 80.6999,
-      "eval_samples_per_second": 106.06,
-      "eval_steps_per_second": 2.528,
-      "step": 200
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 4.3464052287581704e-05,
-      "loss": 0.0393,
       "step": 400
     },
     {
-      "epoch": 0.65,
-      "eval_accuracy": 0.9884332281808622,
-      "eval_loss": 0.03642109036445618,
-      "eval_runtime": 80.6008,
-      "eval_samples_per_second": 106.19,
-      "eval_steps_per_second": 2.531,
-      "step": 400
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 4.0196078431372555e-05,
-      "loss": 0.0372,
-      "step": 600
-    },
-    {
-      "epoch": 0.98,
-      "eval_accuracy": 0.986447014838182,
-      "eval_loss": 0.04179869592189789,
-      "eval_runtime": 80.6457,
-      "eval_samples_per_second": 106.131,
-      "eval_steps_per_second": 2.53,
       "step": 600
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 3.6928104575163405e-05,
-      "loss": 0.0114,
       "step": 800
     },
     {
-      "epoch": 1.31,
-      "eval_accuracy": 0.9896015889706742,
-      "eval_loss": 0.0394107885658741,
-      "eval_runtime": 80.6065,
-      "eval_samples_per_second": 106.182,
-      "eval_steps_per_second": 2.531,
-      "step": 800
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 3.366013071895425e-05,
-      "loss": 0.0138,
-      "step": 1000
-    },
-    {
-      "epoch": 1.63,
-      "eval_accuracy": 0.9897184250496553,
-      "eval_loss": 0.0397811159491539,
-      "eval_runtime": 80.5677,
-      "eval_samples_per_second": 106.234,
-      "eval_steps_per_second": 2.532,
       "step": 1000
     },
     {
-      "epoch": 1.96,
-      "learning_rate": 3.0392156862745097e-05,
-      "loss": 0.0127,
-      "step": 1200
-    },
-    {
-      "epoch": 1.96,
-      "eval_accuracy": 0.9908867858394672,
-      "eval_loss": 0.034337081015110016,
-      "eval_runtime": 80.5302,
-      "eval_samples_per_second": 106.283,
-      "eval_steps_per_second": 2.533,
-      "step": 1200
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 2.7124183006535947e-05,
-      "loss": 0.0052,
-      "step": 1400
-    },
-    {
-      "epoch": 2.29,
-      "eval_accuracy": 0.9911204579974296,
-      "eval_loss": 0.037403274327516556,
-      "eval_runtime": 80.6258,
-      "eval_samples_per_second": 106.157,
-      "eval_steps_per_second": 2.53,
-      "step": 1400
-    },
-    {
-      "epoch": 2.61,
-      "learning_rate": 2.38562091503268e-05,
-      "loss": 0.0018,
-      "step": 1600
-    },
-    {
-      "epoch": 2.61,
-      "eval_accuracy": 0.9906531136815049,
-      "eval_loss": 0.04766124114394188,
-      "eval_runtime": 80.6271,
-      "eval_samples_per_second": 106.155,
-      "eval_steps_per_second": 2.53,
-      "step": 1600
-    },
-    {
-      "epoch": 2.94,
-      "learning_rate": 2.058823529411765e-05,
       "loss": 0.0009,
-      "step": 1800
-    },
-    {
-      "epoch": 2.94,
-      "eval_accuracy": 0.9912372940764108,
-      "eval_loss": 0.0513538159430027,
-      "eval_runtime": 80.6405,
-      "eval_samples_per_second": 106.138,
-      "eval_steps_per_second": 2.53,
-      "step": 1800
-    },
-    {
-      "epoch": 3.27,
-      "learning_rate": 1.7320261437908496e-05,
-      "loss": 0.001,
-      "step": 2000
-    },
-    {
-      "epoch": 3.27,
-      "eval_accuracy": 0.9904194415235424,
-      "eval_loss": 0.046223659068346024,
-      "eval_runtime": 80.5163,
-      "eval_samples_per_second": 106.301,
-      "eval_steps_per_second": 2.534,
-      "step": 2000
-    },
-    {
-      "epoch": 3.59,
-      "learning_rate": 1.4052287581699347e-05,
-      "loss": 0.0002,
-      "step": 2200
-    },
-    {
-      "epoch": 3.59,
-      "eval_accuracy": 0.9911204579974296,
-      "eval_loss": 0.04658184573054314,
-      "eval_runtime": 80.6281,
-      "eval_samples_per_second": 106.154,
-      "eval_steps_per_second": 2.53,
-      "step": 2200
-    },
-    {
-      "epoch": 3.92,
-      "learning_rate": 1.0784313725490197e-05,
-      "loss": 0.0006,
-      "step": 2400
-    },
-    {
-      "epoch": 3.92,
-      "eval_accuracy": 0.9905362776025236,
-      "eval_loss": 0.046631619334220886,
-      "eval_runtime": 80.5126,
-      "eval_samples_per_second": 106.306,
-      "eval_steps_per_second": 2.534,
-      "step": 2400
-    },
-    {
-      "epoch": 4.25,
-      "learning_rate": 7.5163398692810456e-06,
-      "loss": 0.0001,
-      "step": 2600
-    },
-    {
-      "epoch": 4.25,
-      "eval_accuracy": 0.990769949760486,
-      "eval_loss": 0.05143677070736885,
-      "eval_runtime": 80.6039,
-      "eval_samples_per_second": 106.186,
-      "eval_steps_per_second": 2.531,
-      "step": 2600
-    },
-    {
-      "epoch": 4.58,
-      "learning_rate": 4.2483660130718954e-06,
-      "loss": 0.0005,
-      "step": 2800
-    },
-    {
-      "epoch": 4.58,
-      "eval_accuracy": 0.9908867858394672,
-      "eval_loss": 0.04908544197678566,
-      "eval_runtime": 80.4782,
-      "eval_samples_per_second": 106.352,
-      "eval_steps_per_second": 2.535,
-      "step": 2800
-    },
-    {
-      "epoch": 4.9,
-      "learning_rate": 9.80392156862745e-07,
-      "loss": 0.0004,
-      "step": 3000
-    },
-    {
-      "epoch": 4.9,
-      "eval_accuracy": 0.9910036219184484,
-      "eval_loss": 0.049937766045331955,
-      "eval_runtime": 80.6026,
-      "eval_samples_per_second": 106.188,
-      "eval_steps_per_second": 2.531,
-      "step": 3000
     }
   ],
-  "max_steps": 3060,
-  "num_train_epochs": 5,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5424164524421595,
+  "eval_steps": 500,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.26,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.0423,
       "step": 200
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0085,
       "step": 400
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0069,
       "step": 600
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.005,
       "step": 800
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0012,
       "step": 1000
     },
     {
+      "epoch": 1.54,
+      "learning_rate": 0.0,
       "loss": 0.0009,
+      "step": 1200
     }
   ],
+  "logging_steps": 200,
+  "max_steps": 1200,
+  "num_train_epochs": 2,
+  "save_steps": 400,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6715260d8f8dc2d9b6f203feba5b1e85999035d08e8d456813784a2d7ce39f95
-size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:e31258ce773b88b8066de7b3863038689fcaaa25ca7099e45b4283397681f1e0
+size 4091