Upload 13 files

Browse files

Files changed (13) hide show

README.md +10 -10
adapter_config.json +21 -0
adapter_model.bin +3 -0
checkpoint-2000/optimizer.pt +3 -0
checkpoint-2000/pytorch_model.bin +3 -0
checkpoint-2000/rng_state_0.pth +3 -0
checkpoint-2000/rng_state_1.pth +3 -0
checkpoint-2000/rng_state_2.pth +3 -0
checkpoint-2000/rng_state_3.pth +3 -0
checkpoint-2000/scaler.pt +3 -0
checkpoint-2000/scheduler.pt +3 -0
checkpoint-2000/trainer_state.json +1296 -0
checkpoint-2000/training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,15 +1,15 @@
 ---
-license: cc-by-sa-4.0
-datasets:
-- izumi-lab/llm-japanese-dataset
-language:
-- en
-- ja
 ---
-# This model is a Llama-2-7b model finetuned with Japanese data.
-# This model is finetuned by the joint efforts of Sparticle Inc and A. I. Hakusan Inc.
-If you want to try inference, it can be used by this repository https://github.com/tloen/alpaca-lora/ .
-This model is trained by about 5% of randomly chosen izumi-lab/llm-japanese-dataset. From our experiments, it is capable of translating short sentences between Japanese and English.

 ---
+library_name: peft
 ---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+### Framework versions
+- PEFT 0.5.0.dev0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "../llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5e1621f48d9ad8feb1d6d31050275f0aafd080c5c07153301fe2f48411f4406
+size 443

checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a58041e4f6d795cb3f353df80450963aa4b0f32d4e1e4156b9938991d79e5523
+size 33661637

checkpoint-2000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a121a46c4e642163ba2e5586f5763a5066108d64453886bbd1747408fe738cbd
+size 16822989

checkpoint-2000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12fa93e4842d607a52e07ec04a7c7a0ff86f159da94c7f2aef2aef0ebd5d9996
+size 17655

checkpoint-2000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:749e8cd9700dc692ac308cb46b6ec8fa593a9a131c6b3ee076aa70b1b799fa1b
+size 17655

checkpoint-2000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db7d1e9de9f69ba6474ba9987f55e74c95679a525f64de7b59b19ba9c96b81c2
+size 17655

checkpoint-2000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:383e5edc5396e58d2ca4b2250ef823d55b8bea5c2627b02e596f583bc7952ed3
+size 17655

checkpoint-2000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd2de9749828adacdf103bf6e9592702bb7067a2c1df27dd62ab38c1eb8c070f
+size 557

checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4451a945791741a0a546642726decbbf221dd14fad4cc2a4301fdcd939a7d4a3
+size 627

checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1296 @@

+{
+  "best_metric": 0.6045754551887512,
+  "best_model_checkpoint": "../outputs/7b_lora_0.05/checkpoint-2000",
+  "epoch": 0.9643201542912246,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.9999999999999997e-05,
+      "loss": 2.1617,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 2.0808,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8.999999999999999e-05,
+      "loss": 1.795,
+      "step": 30
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00011999999999999999,
+      "loss": 1.2913,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00015,
+      "loss": 0.8985,
+      "step": 50
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 0.7331,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00020999999999999998,
+      "loss": 0.6997,
+      "step": 70
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 0.6754,
+      "step": 80
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00027,
+      "loss": 0.6741,
+      "step": 90
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0003,
+      "loss": 0.6624,
+      "step": 100
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002984802431610942,
+      "loss": 0.6457,
+      "step": 110
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00029696048632218844,
+      "loss": 0.6537,
+      "step": 120
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00029544072948328265,
+      "loss": 0.6476,
+      "step": 130
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002939209726443769,
+      "loss": 0.6591,
+      "step": 140
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002924012158054711,
+      "loss": 0.6498,
+      "step": 150
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002908814589665653,
+      "loss": 0.6567,
+      "step": 160
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00028936170212765953,
+      "loss": 0.6426,
+      "step": 170
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00028784194528875374,
+      "loss": 0.6396,
+      "step": 180
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.000286322188449848,
+      "loss": 0.6456,
+      "step": 190
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0002848024316109422,
+      "loss": 0.6498,
+      "step": 200
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.6334435939788818,
+      "eval_runtime": 25.7617,
+      "eval_samples_per_second": 77.635,
+      "eval_steps_per_second": 2.445,
+      "step": 200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00028328267477203647,
+      "loss": 0.6505,
+      "step": 210
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0002817629179331307,
+      "loss": 0.6378,
+      "step": 220
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0002802431610942249,
+      "loss": 0.6422,
+      "step": 230
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00027872340425531914,
+      "loss": 0.6333,
+      "step": 240
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00027720364741641335,
+      "loss": 0.6423,
+      "step": 250
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00027568389057750756,
+      "loss": 0.6373,
+      "step": 260
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0002741641337386018,
+      "loss": 0.6321,
+      "step": 270
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.000272644376899696,
+      "loss": 0.6402,
+      "step": 280
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0002711246200607903,
+      "loss": 0.6327,
+      "step": 290
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00026960486322188444,
+      "loss": 0.6369,
+      "step": 300
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002680851063829787,
+      "loss": 0.6336,
+      "step": 310
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002665653495440729,
+      "loss": 0.6309,
+      "step": 320
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00026504559270516717,
+      "loss": 0.6259,
+      "step": 330
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0002635258358662614,
+      "loss": 0.6341,
+      "step": 340
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002620060790273556,
+      "loss": 0.6316,
+      "step": 350
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00026048632218844984,
+      "loss": 0.6268,
+      "step": 360
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00025896656534954405,
+      "loss": 0.6362,
+      "step": 370
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00025744680851063826,
+      "loss": 0.6306,
+      "step": 380
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002559270516717325,
+      "loss": 0.628,
+      "step": 390
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002544072948328267,
+      "loss": 0.6241,
+      "step": 400
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.6207615733146667,
+      "eval_runtime": 25.8184,
+      "eval_samples_per_second": 77.464,
+      "eval_steps_per_second": 2.44,
+      "step": 400
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000252887537993921,
+      "loss": 0.6322,
+      "step": 410
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0002513677811550152,
+      "loss": 0.6339,
+      "step": 420
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002498480243161094,
+      "loss": 0.6278,
+      "step": 430
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002483282674772036,
+      "loss": 0.6305,
+      "step": 440
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00024680851063829787,
+      "loss": 0.6291,
+      "step": 450
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002452887537993921,
+      "loss": 0.6352,
+      "step": 460
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002437689969604863,
+      "loss": 0.6231,
+      "step": 470
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00024224924012158051,
+      "loss": 0.6315,
+      "step": 480
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00024072948328267475,
+      "loss": 0.637,
+      "step": 490
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00023920972644376898,
+      "loss": 0.6248,
+      "step": 500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00023768996960486322,
+      "loss": 0.6266,
+      "step": 510
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00023617021276595742,
+      "loss": 0.6268,
+      "step": 520
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00023465045592705166,
+      "loss": 0.6259,
+      "step": 530
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002331306990881459,
+      "loss": 0.6278,
+      "step": 540
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00023161094224924013,
+      "loss": 0.6188,
+      "step": 550
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002300911854103343,
+      "loss": 0.6295,
+      "step": 560
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00022857142857142854,
+      "loss": 0.6288,
+      "step": 570
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00022705167173252277,
+      "loss": 0.6191,
+      "step": 580
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00022553191489361698,
+      "loss": 0.6146,
+      "step": 590
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00022401215805471121,
+      "loss": 0.6278,
+      "step": 600
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 0.6157005429267883,
+      "eval_runtime": 25.9977,
+      "eval_samples_per_second": 76.93,
+      "eval_steps_per_second": 2.423,
+      "step": 600
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00022249240121580545,
+      "loss": 0.6281,
+      "step": 610
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00022097264437689968,
+      "loss": 0.6131,
+      "step": 620
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00021945288753799392,
+      "loss": 0.6236,
+      "step": 630
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00021793313069908812,
+      "loss": 0.6292,
+      "step": 640
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00021641337386018236,
+      "loss": 0.6263,
+      "step": 650
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002148936170212766,
+      "loss": 0.6245,
+      "step": 660
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00021337386018237083,
+      "loss": 0.6233,
+      "step": 670
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00021185410334346503,
+      "loss": 0.6185,
+      "step": 680
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00021033434650455924,
+      "loss": 0.6255,
+      "step": 690
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00020881458966565347,
+      "loss": 0.625,
+      "step": 700
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00020729483282674768,
+      "loss": 0.6155,
+      "step": 710
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00020577507598784191,
+      "loss": 0.623,
+      "step": 720
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00020425531914893615,
+      "loss": 0.6125,
+      "step": 730
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00020273556231003038,
+      "loss": 0.6244,
+      "step": 740
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002012158054711246,
+      "loss": 0.6291,
+      "step": 750
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019969604863221882,
+      "loss": 0.6165,
+      "step": 760
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019817629179331306,
+      "loss": 0.6218,
+      "step": 770
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001966565349544073,
+      "loss": 0.6331,
+      "step": 780
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019513677811550153,
+      "loss": 0.6221,
+      "step": 790
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019361702127659573,
+      "loss": 0.6172,
+      "step": 800
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.6122156977653503,
+      "eval_runtime": 25.8339,
+      "eval_samples_per_second": 77.418,
+      "eval_steps_per_second": 2.439,
+      "step": 800
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019209726443768997,
+      "loss": 0.6213,
+      "step": 810
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019057750759878417,
+      "loss": 0.6159,
+      "step": 820
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00018905775075987838,
+      "loss": 0.6175,
+      "step": 830
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00018753799392097261,
+      "loss": 0.6075,
+      "step": 840
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00018601823708206685,
+      "loss": 0.6186,
+      "step": 850
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00018449848024316108,
+      "loss": 0.6218,
+      "step": 860
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001829787234042553,
+      "loss": 0.6225,
+      "step": 870
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00018145896656534952,
+      "loss": 0.6159,
+      "step": 880
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00017993920972644376,
+      "loss": 0.6214,
+      "step": 890
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.000178419452887538,
+      "loss": 0.6255,
+      "step": 900
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001768996960486322,
+      "loss": 0.6223,
+      "step": 910
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00017537993920972643,
+      "loss": 0.6232,
+      "step": 920
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00017386018237082067,
+      "loss": 0.6118,
+      "step": 930
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0001723404255319149,
+      "loss": 0.6072,
+      "step": 940
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00017082066869300908,
+      "loss": 0.6146,
+      "step": 950
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00016930091185410331,
+      "loss": 0.625,
+      "step": 960
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00016778115501519755,
+      "loss": 0.6114,
+      "step": 970
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00016626139817629178,
+      "loss": 0.6138,
+      "step": 980
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.000164741641337386,
+      "loss": 0.6133,
+      "step": 990
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00016322188449848022,
+      "loss": 0.6175,
+      "step": 1000
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.6104798316955566,
+      "eval_runtime": 25.6748,
+      "eval_samples_per_second": 77.897,
+      "eval_steps_per_second": 2.454,
+      "step": 1000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00016170212765957446,
+      "loss": 0.6147,
+      "step": 1010
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0001601823708206687,
+      "loss": 0.615,
+      "step": 1020
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0001586626139817629,
+      "loss": 0.6174,
+      "step": 1030
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00015714285714285713,
+      "loss": 0.6128,
+      "step": 1040
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00015562310030395137,
+      "loss": 0.6075,
+      "step": 1050
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0001541033434650456,
+      "loss": 0.6108,
+      "step": 1060
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0001525835866261398,
+      "loss": 0.6246,
+      "step": 1070
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00015106382978723401,
+      "loss": 0.6159,
+      "step": 1080
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00014954407294832825,
+      "loss": 0.6197,
+      "step": 1090
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00014802431610942248,
+      "loss": 0.6234,
+      "step": 1100
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0001465045592705167,
+      "loss": 0.6148,
+      "step": 1110
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00014498480243161092,
+      "loss": 0.6218,
+      "step": 1120
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00014346504559270516,
+      "loss": 0.6067,
+      "step": 1130
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0001419452887537994,
+      "loss": 0.611,
+      "step": 1140
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0001404255319148936,
+      "loss": 0.6246,
+      "step": 1150
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00013890577507598783,
+      "loss": 0.611,
+      "step": 1160
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00013738601823708207,
+      "loss": 0.6172,
+      "step": 1170
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00013586626139817627,
+      "loss": 0.6285,
+      "step": 1180
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0001343465045592705,
+      "loss": 0.6077,
+      "step": 1190
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00013282674772036474,
+      "loss": 0.6089,
+      "step": 1200
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 0.608929455280304,
+      "eval_runtime": 25.7236,
+      "eval_samples_per_second": 77.75,
+      "eval_steps_per_second": 2.449,
+      "step": 1200
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00013130699088145895,
+      "loss": 0.6035,
+      "step": 1210
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00012978723404255318,
+      "loss": 0.6009,
+      "step": 1220
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00012826747720364742,
+      "loss": 0.6216,
+      "step": 1230
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00012674772036474162,
+      "loss": 0.6182,
+      "step": 1240
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00012522796352583586,
+      "loss": 0.6138,
+      "step": 1250
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00012370820668693006,
+      "loss": 0.6094,
+      "step": 1260
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001221884498480243,
+      "loss": 0.6141,
+      "step": 1270
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00012066869300911853,
+      "loss": 0.6146,
+      "step": 1280
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00011914893617021277,
+      "loss": 0.6085,
+      "step": 1290
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00011762917933130699,
+      "loss": 0.6122,
+      "step": 1300
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001161094224924012,
+      "loss": 0.6084,
+      "step": 1310
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00011458966565349543,
+      "loss": 0.6279,
+      "step": 1320
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00011306990881458965,
+      "loss": 0.6249,
+      "step": 1330
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00011155015197568388,
+      "loss": 0.6042,
+      "step": 1340
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001100303951367781,
+      "loss": 0.6104,
+      "step": 1350
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00010851063829787234,
+      "loss": 0.6201,
+      "step": 1360
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00010699088145896654,
+      "loss": 0.6116,
+      "step": 1370
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00010547112462006078,
+      "loss": 0.6164,
+      "step": 1380
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.000103951367781155,
+      "loss": 0.6227,
+      "step": 1390
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00010243161094224923,
+      "loss": 0.6167,
+      "step": 1400
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 0.6068873405456543,
+      "eval_runtime": 25.6936,
+      "eval_samples_per_second": 77.841,
+      "eval_steps_per_second": 2.452,
+      "step": 1400
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00010091185410334345,
+      "loss": 0.6148,
+      "step": 1410
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 9.939209726443769e-05,
+      "loss": 0.6162,
+      "step": 1420
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 9.787234042553191e-05,
+      "loss": 0.6107,
+      "step": 1430
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 9.635258358662613e-05,
+      "loss": 0.6056,
+      "step": 1440
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 9.483282674772035e-05,
+      "loss": 0.6082,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 9.331306990881458e-05,
+      "loss": 0.6127,
+      "step": 1460
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 9.17933130699088e-05,
+      "loss": 0.619,
+      "step": 1470
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 9.027355623100304e-05,
+      "loss": 0.6196,
+      "step": 1480
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 8.875379939209726e-05,
+      "loss": 0.6086,
+      "step": 1490
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 8.723404255319148e-05,
+      "loss": 0.6143,
+      "step": 1500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 8.57142857142857e-05,
+      "loss": 0.6063,
+      "step": 1510
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 8.419452887537993e-05,
+      "loss": 0.6169,
+      "step": 1520
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 8.267477203647415e-05,
+      "loss": 0.6118,
+      "step": 1530
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 8.115501519756839e-05,
+      "loss": 0.6147,
+      "step": 1540
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 7.963525835866261e-05,
+      "loss": 0.6127,
+      "step": 1550
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 7.811550151975684e-05,
+      "loss": 0.6072,
+      "step": 1560
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 7.659574468085105e-05,
+      "loss": 0.6151,
+      "step": 1570
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 7.507598784194528e-05,
+      "loss": 0.6056,
+      "step": 1580
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.35562310030395e-05,
+      "loss": 0.6207,
+      "step": 1590
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.203647416413374e-05,
+      "loss": 0.617,
+      "step": 1600
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.6056898236274719,
+      "eval_runtime": 25.6882,
+      "eval_samples_per_second": 77.857,
+      "eval_steps_per_second": 2.452,
+      "step": 1600
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.051671732522796e-05,
+      "loss": 0.6191,
+      "step": 1610
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 6.899696048632218e-05,
+      "loss": 0.608,
+      "step": 1620
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.747720364741641e-05,
+      "loss": 0.6159,
+      "step": 1630
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.595744680851063e-05,
+      "loss": 0.6116,
+      "step": 1640
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.443768996960485e-05,
+      "loss": 0.6145,
+      "step": 1650
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.291793313069909e-05,
+      "loss": 0.6106,
+      "step": 1660
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 6.139817629179331e-05,
+      "loss": 0.6136,
+      "step": 1670
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.987841945288753e-05,
+      "loss": 0.609,
+      "step": 1680
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.8358662613981756e-05,
+      "loss": 0.6081,
+      "step": 1690
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 5.683890577507598e-05,
+      "loss": 0.6099,
+      "step": 1700
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 5.5319148936170204e-05,
+      "loss": 0.6128,
+      "step": 1710
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 5.379939209726443e-05,
+      "loss": 0.6076,
+      "step": 1720
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 5.227963525835866e-05,
+      "loss": 0.6039,
+      "step": 1730
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 5.075987841945288e-05,
+      "loss": 0.6131,
+      "step": 1740
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.9240121580547106e-05,
+      "loss": 0.6124,
+      "step": 1750
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 4.772036474164133e-05,
+      "loss": 0.6155,
+      "step": 1760
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 4.620060790273556e-05,
+      "loss": 0.6129,
+      "step": 1770
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.468085106382978e-05,
+      "loss": 0.6162,
+      "step": 1780
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.316109422492401e-05,
+      "loss": 0.6095,
+      "step": 1790
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.1641337386018235e-05,
+      "loss": 0.616,
+      "step": 1800
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.6050000190734863,
+      "eval_runtime": 25.8385,
+      "eval_samples_per_second": 77.404,
+      "eval_steps_per_second": 2.438,
+      "step": 1800
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.0121580547112456e-05,
+      "loss": 0.6001,
+      "step": 1810
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3.860182370820668e-05,
+      "loss": 0.6189,
+      "step": 1820
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3.7082066869300904e-05,
+      "loss": 0.614,
+      "step": 1830
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 3.556231003039514e-05,
+      "loss": 0.6083,
+      "step": 1840
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 3.404255319148936e-05,
+      "loss": 0.6155,
+      "step": 1850
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 3.2522796352583585e-05,
+      "loss": 0.6106,
+      "step": 1860
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 3.1003039513677806e-05,
+      "loss": 0.6162,
+      "step": 1870
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 2.9483282674772033e-05,
+      "loss": 0.6099,
+      "step": 1880
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 2.796352583586626e-05,
+      "loss": 0.6161,
+      "step": 1890
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 2.6443768996960484e-05,
+      "loss": 0.602,
+      "step": 1900
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 2.492401215805471e-05,
+      "loss": 0.6088,
+      "step": 1910
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.3404255319148935e-05,
+      "loss": 0.6183,
+      "step": 1920
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.188449848024316e-05,
+      "loss": 0.6065,
+      "step": 1930
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.0364741641337387e-05,
+      "loss": 0.617,
+      "step": 1940
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.884498480243161e-05,
+      "loss": 0.6016,
+      "step": 1950
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.7325227963525834e-05,
+      "loss": 0.6173,
+      "step": 1960
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.580547112462006e-05,
+      "loss": 0.6022,
+      "step": 1970
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.4285714285714284e-05,
+      "loss": 0.6141,
+      "step": 1980
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.276595744680851e-05,
+      "loss": 0.6239,
+      "step": 1990
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.1246200607902735e-05,
+      "loss": 0.6138,
+      "step": 2000
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 0.6045754551887512,
+      "eval_runtime": 25.819,
+      "eval_samples_per_second": 77.462,
+      "eval_steps_per_second": 2.44,
+      "step": 2000
+    }
+  ],
+  "max_steps": 2074,
+  "num_train_epochs": 1,
+  "total_flos": 5.19883463363815e+18,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2241d042c0722d9601c6a5f92fde1ccd07d3c0cd5a9a3d829d9109c0c9a1a243
+size 3899