Compatibile model codeparrot-small for code rationales (#1)

Browse files

- Compatibile model codeparrot-small for code rationales (806fe9fe4264b9f59fec340f1851163cf72ec3af)

Files changed (12) hide show

config.json +40 -0
merges.txt +0 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +828 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "codeparrot/codeparrot-small",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": true,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": true,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.11.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32768
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac06e1f8beb15229a24ed8a35eb084d4a0875056c261c86ffd77250d1c2edbfb
+size 888151601

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5747a4feaf520dceb413fba771307a1746a925a050ef16e780e388c3b424df53
+size 456677609

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e052b9a832ca9c86b049e34fb5cb7f6b8d8e4010d43a288c69c03e54c04091b
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95e902b248717ad1661f70606acf9e135032cc0946468749ebf3a54435035614
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "unk_token": "<\|endoftext\|>"}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "codeparrot/codeparrot-small", "tokenizer_class": "GPT2Tokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,828 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.002146082027547257,
+  "global_step": 29000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.6876,
+      "step": 500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.4209991693496704,
+      "eval_runtime": 29774.1937,
+      "eval_samples_per_second": 24.175,
+      "eval_steps_per_second": 6.044,
+      "step": 500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.4255,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.4117300510406494,
+      "eval_runtime": 29117.2533,
+      "eval_samples_per_second": 24.72,
+      "eval_steps_per_second": 6.18,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2975,
+      "step": 1500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3992412090301514,
+      "eval_runtime": 29718.2883,
+      "eval_samples_per_second": 24.22,
+      "eval_steps_per_second": 6.055,
+      "step": 1500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.3514,
+      "step": 2000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.4060639142990112,
+      "eval_runtime": 28900.2542,
+      "eval_samples_per_second": 24.906,
+      "eval_steps_per_second": 6.226,
+      "step": 2000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.3757,
+      "step": 2500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.399295687675476,
+      "eval_runtime": 29509.4537,
+      "eval_samples_per_second": 24.392,
+      "eval_steps_per_second": 6.098,
+      "step": 2500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.295,
+      "step": 3000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.393278956413269,
+      "eval_runtime": 28449.3173,
+      "eval_samples_per_second": 25.301,
+      "eval_steps_per_second": 6.325,
+      "step": 3000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2565,
+      "step": 3500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3863052129745483,
+      "eval_runtime": 28789.7552,
+      "eval_samples_per_second": 25.001,
+      "eval_steps_per_second": 6.25,
+      "step": 3500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.3095,
+      "step": 4000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3882980346679688,
+      "eval_runtime": 28567.3896,
+      "eval_samples_per_second": 25.196,
+      "eval_steps_per_second": 6.299,
+      "step": 4000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.3021,
+      "step": 4500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3863459825515747,
+      "eval_runtime": 28424.5337,
+      "eval_samples_per_second": 25.323,
+      "eval_steps_per_second": 6.331,
+      "step": 4500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2299,
+      "step": 5000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3776334524154663,
+      "eval_runtime": 28753.4447,
+      "eval_samples_per_second": 25.033,
+      "eval_steps_per_second": 6.258,
+      "step": 5000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2306,
+      "step": 5500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3795045614242554,
+      "eval_runtime": 28113.3911,
+      "eval_samples_per_second": 25.603,
+      "eval_steps_per_second": 6.401,
+      "step": 5500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2425,
+      "step": 6000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3737467527389526,
+      "eval_runtime": 28752.4369,
+      "eval_samples_per_second": 25.034,
+      "eval_steps_per_second": 6.258,
+      "step": 6000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1932,
+      "step": 6500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3799411058425903,
+      "eval_runtime": 27577.5799,
+      "eval_samples_per_second": 26.1,
+      "eval_steps_per_second": 6.525,
+      "step": 6500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2312,
+      "step": 7000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3715393543243408,
+      "eval_runtime": 28034.4873,
+      "eval_samples_per_second": 25.675,
+      "eval_steps_per_second": 6.419,
+      "step": 7000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2841,
+      "step": 7500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3804839849472046,
+      "eval_runtime": 28127.7804,
+      "eval_samples_per_second": 25.59,
+      "eval_steps_per_second": 6.397,
+      "step": 7500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1463,
+      "step": 8000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3776183128356934,
+      "eval_runtime": 27577.1163,
+      "eval_samples_per_second": 26.101,
+      "eval_steps_per_second": 6.525,
+      "step": 8000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1313,
+      "step": 8500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3699731826782227,
+      "eval_runtime": 28190.8614,
+      "eval_samples_per_second": 25.533,
+      "eval_steps_per_second": 6.383,
+      "step": 8500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2267,
+      "step": 9000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.366495132446289,
+      "eval_runtime": 28103.2881,
+      "eval_samples_per_second": 25.612,
+      "eval_steps_per_second": 6.403,
+      "step": 9000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1866,
+      "step": 9500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3763595819473267,
+      "eval_runtime": 27696.0614,
+      "eval_samples_per_second": 25.989,
+      "eval_steps_per_second": 6.497,
+      "step": 9500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2347,
+      "step": 10000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3777934312820435,
+      "eval_runtime": 28118.8859,
+      "eval_samples_per_second": 25.598,
+      "eval_steps_per_second": 6.399,
+      "step": 10000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1514,
+      "step": 10500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.370295763015747,
+      "eval_runtime": 27665.6655,
+      "eval_samples_per_second": 26.017,
+      "eval_steps_per_second": 6.504,
+      "step": 10500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2867,
+      "step": 11000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.372216820716858,
+      "eval_runtime": 28029.069,
+      "eval_samples_per_second": 25.68,
+      "eval_steps_per_second": 6.42,
+      "step": 11000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.3031,
+      "step": 11500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3675533533096313,
+      "eval_runtime": 28060.4111,
+      "eval_samples_per_second": 25.651,
+      "eval_steps_per_second": 6.413,
+      "step": 11500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2353,
+      "step": 12000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3742448091506958,
+      "eval_runtime": 27439.4619,
+      "eval_samples_per_second": 26.232,
+      "eval_steps_per_second": 6.558,
+      "step": 12000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2022,
+      "step": 12500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3690038919448853,
+      "eval_runtime": 28177.5616,
+      "eval_samples_per_second": 25.545,
+      "eval_steps_per_second": 6.386,
+      "step": 12500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1925,
+      "step": 13000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3660128116607666,
+      "eval_runtime": 28183.7194,
+      "eval_samples_per_second": 25.539,
+      "eval_steps_per_second": 6.385,
+      "step": 13000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2097,
+      "step": 13500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3706327676773071,
+      "eval_runtime": 27638.252,
+      "eval_samples_per_second": 26.043,
+      "eval_steps_per_second": 6.511,
+      "step": 13500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1606,
+      "step": 14000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.369661569595337,
+      "eval_runtime": 28259.5204,
+      "eval_samples_per_second": 25.47,
+      "eval_steps_per_second": 6.368,
+      "step": 14000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2216,
+      "step": 14500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.368302822113037,
+      "eval_runtime": 28149.9769,
+      "eval_samples_per_second": 25.57,
+      "eval_steps_per_second": 6.392,
+      "step": 14500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1916,
+      "step": 15000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3689770698547363,
+      "eval_runtime": 27702.5821,
+      "eval_samples_per_second": 25.983,
+      "eval_steps_per_second": 6.496,
+      "step": 15000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2369,
+      "step": 15500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3695650100708008,
+      "eval_runtime": 28082.9192,
+      "eval_samples_per_second": 25.631,
+      "eval_steps_per_second": 6.408,
+      "step": 15500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1862,
+      "step": 16000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3672432899475098,
+      "eval_runtime": 27790.3978,
+      "eval_samples_per_second": 25.9,
+      "eval_steps_per_second": 6.475,
+      "step": 16000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1875,
+      "step": 16500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.372326135635376,
+      "eval_runtime": 27957.8295,
+      "eval_samples_per_second": 25.745,
+      "eval_steps_per_second": 6.436,
+      "step": 16500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2237,
+      "step": 17000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3708332777023315,
+      "eval_runtime": 28123.0687,
+      "eval_samples_per_second": 25.594,
+      "eval_steps_per_second": 6.399,
+      "step": 17000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1123,
+      "step": 17500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3687807321548462,
+      "eval_runtime": 27597.4681,
+      "eval_samples_per_second": 26.082,
+      "eval_steps_per_second": 6.52,
+      "step": 17500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1219,
+      "step": 18000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.376206874847412,
+      "eval_runtime": 28127.0268,
+      "eval_samples_per_second": 25.59,
+      "eval_steps_per_second": 6.398,
+      "step": 18000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1776,
+      "step": 18500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.368283748626709,
+      "eval_runtime": 28116.6088,
+      "eval_samples_per_second": 25.6,
+      "eval_steps_per_second": 6.4,
+      "step": 18500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1627,
+      "step": 19000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3710017204284668,
+      "eval_runtime": 27585.1366,
+      "eval_samples_per_second": 26.093,
+      "eval_steps_per_second": 6.523,
+      "step": 19000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.0627,
+      "step": 19500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3697084188461304,
+      "eval_runtime": 28272.5185,
+      "eval_samples_per_second": 25.459,
+      "eval_steps_per_second": 6.365,
+      "step": 19500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.0632,
+      "step": 20000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3792474269866943,
+      "eval_runtime": 28381.2307,
+      "eval_samples_per_second": 25.361,
+      "eval_steps_per_second": 6.34,
+      "step": 20000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.2426,
+      "step": 20500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.373166799545288,
+      "eval_runtime": 28634.6137,
+      "eval_samples_per_second": 25.137,
+      "eval_steps_per_second": 6.284,
+      "step": 20500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1263,
+      "step": 21000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3743404150009155,
+      "eval_runtime": 28674.6776,
+      "eval_samples_per_second": 25.102,
+      "eval_steps_per_second": 6.275,
+      "step": 21000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1131,
+      "step": 21500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3682280778884888,
+      "eval_runtime": 28099.2766,
+      "eval_samples_per_second": 25.616,
+      "eval_steps_per_second": 6.404,
+      "step": 21500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.0595,
+      "step": 22000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3719111680984497,
+      "eval_runtime": 28695.4529,
+      "eval_samples_per_second": 25.084,
+      "eval_steps_per_second": 6.271,
+      "step": 22000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1468,
+      "step": 22500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3663983345031738,
+      "eval_runtime": 28026.4183,
+      "eval_samples_per_second": 25.682,
+      "eval_steps_per_second": 6.421,
+      "step": 22500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.184,
+      "step": 23000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3723489046096802,
+      "eval_runtime": 28690.9854,
+      "eval_samples_per_second": 25.087,
+      "eval_steps_per_second": 6.272,
+      "step": 23000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1262,
+      "step": 23500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3714051246643066,
+      "eval_runtime": 28156.2291,
+      "eval_samples_per_second": 25.564,
+      "eval_steps_per_second": 6.391,
+      "step": 23500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1758,
+      "step": 24000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.368726134300232,
+      "eval_runtime": 28657.2462,
+      "eval_samples_per_second": 25.117,
+      "eval_steps_per_second": 6.279,
+      "step": 24000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.0438,
+      "step": 24500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3730684518814087,
+      "eval_runtime": 28686.5378,
+      "eval_samples_per_second": 25.091,
+      "eval_steps_per_second": 6.273,
+      "step": 24500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1404,
+      "step": 25000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3706409931182861,
+      "eval_runtime": 28123.1244,
+      "eval_samples_per_second": 25.594,
+      "eval_steps_per_second": 6.399,
+      "step": 25000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1135,
+      "step": 25500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3763220310211182,
+      "eval_runtime": 28682.6176,
+      "eval_samples_per_second": 25.095,
+      "eval_steps_per_second": 6.274,
+      "step": 25500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.0536,
+      "step": 26000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3709115982055664,
+      "eval_runtime": 28032.6358,
+      "eval_samples_per_second": 25.677,
+      "eval_steps_per_second": 6.419,
+      "step": 26000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1203,
+      "step": 26500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3710169792175293,
+      "eval_runtime": 28678.3157,
+      "eval_samples_per_second": 25.099,
+      "eval_steps_per_second": 6.275,
+      "step": 26500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.0784,
+      "step": 27000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.370123028755188,
+      "eval_runtime": 28008.2176,
+      "eval_samples_per_second": 25.699,
+      "eval_steps_per_second": 6.425,
+      "step": 27000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.0521,
+      "step": 27500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3733536005020142,
+      "eval_runtime": 17990.0293,
+      "eval_samples_per_second": 40.01,
+      "eval_steps_per_second": 10.003,
+      "step": 27500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1773,
+      "step": 28000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3757646083831787,
+      "eval_runtime": 18000.6521,
+      "eval_samples_per_second": 39.987,
+      "eval_steps_per_second": 9.997,
+      "step": 28000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.1688,
+      "step": 28500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3776638507843018,
+      "eval_runtime": 17989.8584,
+      "eval_samples_per_second": 40.011,
+      "eval_steps_per_second": 10.003,
+      "step": 28500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 2.0855,
+      "step": 29000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.3749734163284302,
+      "eval_runtime": 17990.6544,
+      "eval_samples_per_second": 40.009,
+      "eval_steps_per_second": 10.002,
+      "step": 29000
+    }
+  ],
+  "max_steps": 30000,
+  "num_train_epochs": 1,
+  "total_flos": 1.5154937856e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:787e1daf7779e9459fcfaef465541d7afcd7dea8b1bf9560c3af7958defad081
+size 2735

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff