MHGanainy/gpt2-xl-lora-multi-512-k5-3-im-4

Browse files

Files changed (6) hide show

README.md +2 -0
all_results.json +13 -0
eval_results.json +8 -0
runs/Oct22_13-16-51_6a6876ac5cbf/events.out.tfevents.1729604688.6a6876ac5cbf.2186.1 +3 -0
train_results.json +8 -0
trainer_state.json +350 -0

README.md CHANGED Viewed

@@ -15,6 +15,8 @@ should probably proofread and complete it, then remove this comment. -->
 # gpt2-xl-lora-multi-512-k5-3-im-4
 This model is a fine-tuned version of [openai-community/gpt2-xl](https://huggingface.co/openai-community/gpt2-xl) on an unknown dataset.
 ## Model description

 # gpt2-xl-lora-multi-512-k5-3-im-4
 This model is a fine-tuned version of [openai-community/gpt2-xl](https://huggingface.co/openai-community/gpt2-xl) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.7357
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 1.0,
+    "eval_loss": 1.7357099056243896,
+    "eval_runtime": 84.3971,
+    "eval_samples_per_second": 137.908,
+    "eval_steps_per_second": 8.626,
+    "perplexity": 5.6729536363486694,
+    "total_flos": 6.449989014257664e+17,
+    "train_loss": 2.3536567902828183,
+    "train_runtime": 1585.2111,
+    "train_samples_per_second": 44.795,
+    "train_steps_per_second": 2.8
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "eval_loss": 1.7357099056243896,
+    "eval_runtime": 84.3971,
+    "eval_samples_per_second": 137.908,
+    "eval_steps_per_second": 8.626,
+    "perplexity": 5.6729536363486694
+}

runs/Oct22_13-16-51_6a6876ac5cbf/events.out.tfevents.1729604688.6a6876ac5cbf.2186.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bd11c13efcd41fc5a1e14acd662141bf129a83272d9429b626d9919c5fa72fb
+size 311

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "total_flos": 6.449989014257664e+17,
+    "train_loss": 2.3536567902828183,
+    "train_runtime": 1585.2111,
+    "train_samples_per_second": 44.795,
+    "train_steps_per_second": 2.8
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,350 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 4439,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.022527596305474205,
+      "grad_norm": 0.38304445147514343,
+      "learning_rate": 5.464788732394366e-07,
+      "loss": 4.2447,
+      "step": 100
+    },
+    {
+      "epoch": 0.04505519261094841,
+      "grad_norm": 0.4701688885688782,
+      "learning_rate": 1.098591549295775e-06,
+      "loss": 4.2227,
+      "step": 200
+    },
+    {
+      "epoch": 0.06758278891642262,
+      "grad_norm": 0.8463152050971985,
+      "learning_rate": 1.6619718309859157e-06,
+      "loss": 4.173,
+      "step": 300
+    },
+    {
+      "epoch": 0.09011038522189682,
+      "grad_norm": 0.945652425289154,
+      "learning_rate": 2.2253521126760566e-06,
+      "loss": 4.0275,
+      "step": 400
+    },
+    {
+      "epoch": 0.11263798152737103,
+      "grad_norm": 0.633182168006897,
+      "learning_rate": 2.7887323943661974e-06,
+      "loss": 3.827,
+      "step": 500
+    },
+    {
+      "epoch": 0.13516557783284525,
+      "grad_norm": 0.5879175662994385,
+      "learning_rate": 3.352112676056338e-06,
+      "loss": 3.693,
+      "step": 600
+    },
+    {
+      "epoch": 0.15769317413831943,
+      "grad_norm": 0.7559935450553894,
+      "learning_rate": 3.915492957746479e-06,
+      "loss": 3.5619,
+      "step": 700
+    },
+    {
+      "epoch": 0.18022077044379364,
+      "grad_norm": 1.0831689834594727,
+      "learning_rate": 4.4788732394366205e-06,
+      "loss": 3.3173,
+      "step": 800
+    },
+    {
+      "epoch": 0.20274836674926786,
+      "grad_norm": 1.159292459487915,
+      "learning_rate": 5.042253521126761e-06,
+      "loss": 2.9277,
+      "step": 900
+    },
+    {
+      "epoch": 0.22527596305474207,
+      "grad_norm": 0.8235029578208923,
+      "learning_rate": 5.605633802816902e-06,
+      "loss": 2.4739,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24780355936021625,
+      "grad_norm": 0.7550758719444275,
+      "learning_rate": 6.169014084507042e-06,
+      "loss": 2.3567,
+      "step": 1100
+    },
+    {
+      "epoch": 0.2703311556656905,
+      "grad_norm": 0.39695167541503906,
+      "learning_rate": 6.7323943661971836e-06,
+      "loss": 2.3004,
+      "step": 1200
+    },
+    {
+      "epoch": 0.2928587519711647,
+      "grad_norm": 0.39338722825050354,
+      "learning_rate": 7.295774647887325e-06,
+      "loss": 2.2446,
+      "step": 1300
+    },
+    {
+      "epoch": 0.31538634827663886,
+      "grad_norm": 0.485357403755188,
+      "learning_rate": 7.859154929577465e-06,
+      "loss": 2.2193,
+      "step": 1400
+    },
+    {
+      "epoch": 0.3379139445821131,
+      "grad_norm": 0.3751625120639801,
+      "learning_rate": 8.422535211267607e-06,
+      "loss": 2.1718,
+      "step": 1500
+    },
+    {
+      "epoch": 0.3604415408875873,
+      "grad_norm": 0.4635879099369049,
+      "learning_rate": 8.985915492957748e-06,
+      "loss": 2.164,
+      "step": 1600
+    },
+    {
+      "epoch": 0.3829691371930615,
+      "grad_norm": 0.34097710251808167,
+      "learning_rate": 9.549295774647888e-06,
+      "loss": 2.1225,
+      "step": 1700
+    },
+    {
+      "epoch": 0.4054967334985357,
+      "grad_norm": 0.35703760385513306,
+      "learning_rate": 1.0112676056338028e-05,
+      "loss": 2.0951,
+      "step": 1800
+    },
+    {
+      "epoch": 0.4280243298040099,
+      "grad_norm": 0.39830803871154785,
+      "learning_rate": 1.067605633802817e-05,
+      "loss": 2.0777,
+      "step": 1900
+    },
+    {
+      "epoch": 0.45055192610948414,
+      "grad_norm": 0.4066463112831116,
+      "learning_rate": 1.1239436619718311e-05,
+      "loss": 2.0564,
+      "step": 2000
+    },
+    {
+      "epoch": 0.4730795224149583,
+      "grad_norm": 0.3597283363342285,
+      "learning_rate": 1.1802816901408451e-05,
+      "loss": 2.0297,
+      "step": 2100
+    },
+    {
+      "epoch": 0.4956071187204325,
+      "grad_norm": 0.5371715426445007,
+      "learning_rate": 1.2366197183098591e-05,
+      "loss": 2.011,
+      "step": 2200
+    },
+    {
+      "epoch": 0.5181347150259067,
+      "grad_norm": 0.5351554751396179,
+      "learning_rate": 1.2929577464788734e-05,
+      "loss": 1.9888,
+      "step": 2300
+    },
+    {
+      "epoch": 0.540662311331381,
+      "grad_norm": 0.42759764194488525,
+      "learning_rate": 1.3492957746478874e-05,
+      "loss": 1.969,
+      "step": 2400
+    },
+    {
+      "epoch": 0.5631899076368552,
+      "grad_norm": 0.7073168754577637,
+      "learning_rate": 1.4056338028169014e-05,
+      "loss": 1.953,
+      "step": 2500
+    },
+    {
+      "epoch": 0.5857175039423294,
+      "grad_norm": 0.3740929365158081,
+      "learning_rate": 1.4619718309859156e-05,
+      "loss": 1.9429,
+      "step": 2600
+    },
+    {
+      "epoch": 0.6082451002478035,
+      "grad_norm": 0.38934916257858276,
+      "learning_rate": 1.5183098591549298e-05,
+      "loss": 1.9322,
+      "step": 2700
+    },
+    {
+      "epoch": 0.6307726965532777,
+      "grad_norm": 0.41777440905570984,
+      "learning_rate": 1.5746478873239437e-05,
+      "loss": 1.9141,
+      "step": 2800
+    },
+    {
+      "epoch": 0.653300292858752,
+      "grad_norm": 0.4831548035144806,
+      "learning_rate": 1.630985915492958e-05,
+      "loss": 1.9028,
+      "step": 2900
+    },
+    {
+      "epoch": 0.6758278891642262,
+      "grad_norm": 0.5036677122116089,
+      "learning_rate": 1.687323943661972e-05,
+      "loss": 1.8989,
+      "step": 3000
+    },
+    {
+      "epoch": 0.6983554854697004,
+      "grad_norm": 0.5449413061141968,
+      "learning_rate": 1.743661971830986e-05,
+      "loss": 1.9056,
+      "step": 3100
+    },
+    {
+      "epoch": 0.7208830817751746,
+      "grad_norm": 0.49423643946647644,
+      "learning_rate": 1.8e-05,
+      "loss": 1.8782,
+      "step": 3200
+    },
+    {
+      "epoch": 0.7434106780806488,
+      "grad_norm": 0.41053274273872375,
+      "learning_rate": 1.8563380281690142e-05,
+      "loss": 1.8802,
+      "step": 3300
+    },
+    {
+      "epoch": 0.765938274386123,
+      "grad_norm": 0.5655019283294678,
+      "learning_rate": 1.9126760563380284e-05,
+      "loss": 1.8609,
+      "step": 3400
+    },
+    {
+      "epoch": 0.7884658706915972,
+      "grad_norm": 0.40682417154312134,
+      "learning_rate": 1.9690140845070425e-05,
+      "loss": 1.8518,
+      "step": 3500
+    },
+    {
+      "epoch": 0.8109934669970714,
+      "grad_norm": 0.4014970064163208,
+      "learning_rate": 1.9873824264530204e-05,
+      "loss": 1.8537,
+      "step": 3600
+    },
+    {
+      "epoch": 0.8335210633025456,
+      "grad_norm": 0.7755386829376221,
+      "learning_rate": 1.8715663248272807e-05,
+      "loss": 1.8414,
+      "step": 3700
+    },
+    {
+      "epoch": 0.8560486596080198,
+      "grad_norm": 0.42806145548820496,
+      "learning_rate": 1.6480361721016053e-05,
+      "loss": 1.8389,
+      "step": 3800
+    },
+    {
+      "epoch": 0.878576255913494,
+      "grad_norm": 0.4193844795227051,
+      "learning_rate": 1.3444173337900201e-05,
+      "loss": 1.8373,
+      "step": 3900
+    },
+    {
+      "epoch": 0.9011038522189683,
+      "grad_norm": 0.5671639442443848,
+      "learning_rate": 9.982330759173782e-06,
+      "loss": 1.8399,
+      "step": 4000
+    },
+    {
+      "epoch": 0.9236314485244425,
+      "grad_norm": 0.3709975481033325,
+      "learning_rate": 6.5226718645285755e-06,
+      "loss": 1.8389,
+      "step": 4100
+    },
+    {
+      "epoch": 0.9461590448299166,
+      "grad_norm": 0.32863345742225647,
+      "learning_rate": 3.4927646592337405e-06,
+      "loss": 1.8381,
+      "step": 4200
+    },
+    {
+      "epoch": 0.9686866411353908,
+      "grad_norm": 0.49114689230918884,
+      "learning_rate": 1.2670655331731553e-06,
+      "loss": 1.8427,
+      "step": 4300
+    },
+    {
+      "epoch": 0.991214237440865,
+      "grad_norm": 0.41148802638053894,
+      "learning_rate": 1.2064141191336588e-07,
+      "loss": 1.8362,
+      "step": 4400
+    },
+    {
+      "epoch": 1.0,
+      "step": 4439,
+      "total_flos": 6.449989014257664e+17,
+      "train_loss": 2.3536567902828183,
+      "train_runtime": 1585.2111,
+      "train_samples_per_second": 44.795,
+      "train_steps_per_second": 2.8
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 4439,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.449989014257664e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}