anish12 commited on Jun 12

Commit

1a0bd98

•

1 Parent(s): efe4696

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

MyBitnet_Llama2_70M.onnx +3 -0
checkpoint-1250/added_tokens.json +3 -0
checkpoint-1250/config.json +30 -0
checkpoint-1250/generation_config.json +8 -0
checkpoint-1250/model.safetensors +3 -0
checkpoint-1250/optimizer.pt +3 -0
checkpoint-1250/rng_state.pth +3 -0
checkpoint-1250/scheduler.pt +3 -0
checkpoint-1250/special_tokens_map.json +24 -0
checkpoint-1250/tokenizer.json +0 -0
checkpoint-1250/tokenizer.model +3 -0
checkpoint-1250/tokenizer_config.json +48 -0
checkpoint-1250/trainer_state.json +117 -0
checkpoint-1250/training_args.bin +3 -0
checkpoint-2500/added_tokens.json +3 -0
checkpoint-2500/config.json +30 -0
checkpoint-2500/generation_config.json +8 -0
checkpoint-2500/model.safetensors +3 -0
checkpoint-2500/optimizer.pt +3 -0
checkpoint-2500/rng_state.pth +3 -0
checkpoint-2500/scheduler.pt +3 -0
checkpoint-2500/special_tokens_map.json +24 -0
checkpoint-2500/tokenizer.json +0 -0
checkpoint-2500/tokenizer.model +3 -0
checkpoint-2500/tokenizer_config.json +48 -0
checkpoint-2500/trainer_state.json +208 -0
checkpoint-2500/training_args.bin +3 -0
checkpoint-3750/added_tokens.json +3 -0
checkpoint-3750/config.json +30 -0
checkpoint-3750/generation_config.json +8 -0
checkpoint-3750/model.safetensors +3 -0
checkpoint-3750/optimizer.pt +3 -0
checkpoint-3750/rng_state.pth +3 -0
checkpoint-3750/scheduler.pt +3 -0
checkpoint-3750/special_tokens_map.json +24 -0
checkpoint-3750/tokenizer.json +0 -0
checkpoint-3750/tokenizer.model +3 -0
checkpoint-3750/tokenizer_config.json +48 -0
checkpoint-3750/trainer_state.json +292 -0
checkpoint-3750/training_args.bin +3 -0
checkpoint-5000/added_tokens.json +3 -0
checkpoint-5000/config.json +30 -0
checkpoint-5000/generation_config.json +8 -0
checkpoint-5000/model.safetensors +3 -0
checkpoint-5000/optimizer.pt +3 -0
checkpoint-5000/rng_state.pth +3 -0
checkpoint-5000/scheduler.pt +3 -0
checkpoint-5000/special_tokens_map.json +24 -0
checkpoint-5000/tokenizer.json +0 -0
checkpoint-5000/tokenizer.model +3 -0

MyBitnet_Llama2_70M.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:511bd8116078a11909cfe4b76497210aba5cb4eb8006674e0487025fba14c59f
+size 261254825

checkpoint-1250/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<pad>": 32000
+}

checkpoint-1250/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "NousResearch/Nous-Hermes-llama-2-7b",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 768,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "use_cache": false,
+  "vocab_size": 32001
+}

checkpoint-1250/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.41.2",
+  "use_cache": false
+}

checkpoint-1250/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47de634eb309adbf96f30e096efe9128a1af8ff1417ad24f9eafed95d8227f72
+size 309887520

checkpoint-1250/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe166c66e06a5714ccc86d2ac8214f627cdeb0b66a2f1db80a5f0b0c420afb97
+size 619807162

checkpoint-1250/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
+size 14244

checkpoint-1250/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71eff3e7b3cc8cc2bfb8f1ae5551dc39ffd45a41456a501eaca6a257e2935b9a
+size 1064

checkpoint-1250/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1250/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1250/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-1250/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1250/trainer_state.json ADDED Viewed

	@@ -0,0 +1,117 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.0839095119822783,
+  "eval_steps": 500,
+  "global_step": 1250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.006712760958582265,
+      "grad_norm": 1.0528477430343628,
+      "learning_rate": 0.00014985229447149842,
+      "loss": 7.6572,
+      "step": 100
+    },
+    {
+      "epoch": 0.01342552191716453,
+      "grad_norm": 1.1515228748321533,
+      "learning_rate": 0.00014940916946874937,
+      "loss": 6.1239,
+      "step": 200
+    },
+    {
+      "epoch": 0.020138282875746795,
+      "grad_norm": 1.2438573837280273,
+      "learning_rate": 0.00014867237372557577,
+      "loss": 5.4067,
+      "step": 300
+    },
+    {
+      "epoch": 0.02685104383432906,
+      "grad_norm": 1.3082321882247925,
+      "learning_rate": 0.00014764481515444297,
+      "loss": 5.0934,
+      "step": 400
+    },
+    {
+      "epoch": 0.03356380479291132,
+      "grad_norm": 1.4851253032684326,
+      "learning_rate": 0.00014633054922174807,
+      "loss": 4.8669,
+      "step": 500
+    },
+    {
+      "epoch": 0.04027656575149359,
+      "grad_norm": 1.3247835636138916,
+      "learning_rate": 0.00014473476294210664,
+      "loss": 4.7151,
+      "step": 600
+    },
+    {
+      "epoch": 0.04698932671007586,
+      "grad_norm": 1.5466852188110352,
+      "learning_rate": 0.0001428637544067573,
+      "loss": 4.5684,
+      "step": 700
+    },
+    {
+      "epoch": 0.05370208766865812,
+      "grad_norm": 1.3418868780136108,
+      "learning_rate": 0.0001407249079268789,
+      "loss": 4.4861,
+      "step": 800
+    },
+    {
+      "epoch": 0.060414848627240385,
+      "grad_norm": 1.4495049715042114,
+      "learning_rate": 0.0001383266648899225,
+      "loss": 4.3896,
+      "step": 900
+    },
+    {
+      "epoch": 0.06712760958582265,
+      "grad_norm": 1.2629677057266235,
+      "learning_rate": 0.0001356784904439796,
+      "loss": 4.3076,
+      "step": 1000
+    },
+    {
+      "epoch": 0.07384037054440491,
+      "grad_norm": 1.382216215133667,
+      "learning_rate": 0.00013279083614167278,
+      "loss": 4.2179,
+      "step": 1100
+    },
+    {
+      "epoch": 0.08055313150298718,
+      "grad_norm": 1.2883789539337158,
+      "learning_rate": 0.00012967509869100336,
+      "loss": 4.1599,
+      "step": 1200
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1250,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3249788682240000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1250/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b0bbdca8de25bbc8bf36748f618e50f9b10fabddb7b161369a5bf65d593e10b
+size 5112

checkpoint-2500/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<pad>": 32000
+}

checkpoint-2500/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "NousResearch/Nous-Hermes-llama-2-7b",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 768,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "use_cache": false,
+  "vocab_size": 32001
+}

checkpoint-2500/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.41.2",
+  "use_cache": false
+}

checkpoint-2500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c0fa0eb7d1a057092ef6c6d1bf36375fa29218c2b034e0c7751a0614c8ce533
+size 309887520

checkpoint-2500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4fdadc199491da39c42cfbdf9dcbb479abd3edbcd872ab10563cffbc9770320
+size 619807162

checkpoint-2500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
+size 14244

checkpoint-2500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cdd43b6935ceda70a8d16b96dd9a8e3d51ed27d22e5a6c5aa441a1273a52af5
+size 1064

checkpoint-2500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2500/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-2500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-2500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.1678190239645566,
+  "eval_steps": 500,
+  "global_step": 2500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.006712760958582265,
+      "grad_norm": 1.0528477430343628,
+      "learning_rate": 0.00014985229447149842,
+      "loss": 7.6572,
+      "step": 100
+    },
+    {
+      "epoch": 0.01342552191716453,
+      "grad_norm": 1.1515228748321533,
+      "learning_rate": 0.00014940916946874937,
+      "loss": 6.1239,
+      "step": 200
+    },
+    {
+      "epoch": 0.020138282875746795,
+      "grad_norm": 1.2438573837280273,
+      "learning_rate": 0.00014867237372557577,
+      "loss": 5.4067,
+      "step": 300
+    },
+    {
+      "epoch": 0.02685104383432906,
+      "grad_norm": 1.3082321882247925,
+      "learning_rate": 0.00014764481515444297,
+      "loss": 5.0934,
+      "step": 400
+    },
+    {
+      "epoch": 0.03356380479291132,
+      "grad_norm": 1.4851253032684326,
+      "learning_rate": 0.00014633054922174807,
+      "loss": 4.8669,
+      "step": 500
+    },
+    {
+      "epoch": 0.04027656575149359,
+      "grad_norm": 1.3247835636138916,
+      "learning_rate": 0.00014473476294210664,
+      "loss": 4.7151,
+      "step": 600
+    },
+    {
+      "epoch": 0.04698932671007586,
+      "grad_norm": 1.5466852188110352,
+      "learning_rate": 0.0001428637544067573,
+      "loss": 4.5684,
+      "step": 700
+    },
+    {
+      "epoch": 0.05370208766865812,
+      "grad_norm": 1.3418868780136108,
+      "learning_rate": 0.0001407249079268789,
+      "loss": 4.4861,
+      "step": 800
+    },
+    {
+      "epoch": 0.060414848627240385,
+      "grad_norm": 1.4495049715042114,
+      "learning_rate": 0.0001383266648899225,
+      "loss": 4.3896,
+      "step": 900
+    },
+    {
+      "epoch": 0.06712760958582265,
+      "grad_norm": 1.2629677057266235,
+      "learning_rate": 0.0001356784904439796,
+      "loss": 4.3076,
+      "step": 1000
+    },
+    {
+      "epoch": 0.07384037054440491,
+      "grad_norm": 1.382216215133667,
+      "learning_rate": 0.00013279083614167278,
+      "loss": 4.2179,
+      "step": 1100
+    },
+    {
+      "epoch": 0.08055313150298718,
+      "grad_norm": 1.2883789539337158,
+      "learning_rate": 0.00012967509869100336,
+      "loss": 4.1599,
+      "step": 1200
+    },
+    {
+      "epoch": 0.08726589246156945,
+      "grad_norm": 1.3527660369873047,
+      "learning_rate": 0.00012634357497595263,
+      "loss": 4.0976,
+      "step": 1300
+    },
+    {
+      "epoch": 0.09397865342015171,
+      "grad_norm": 1.3394412994384766,
+      "learning_rate": 0.00012280941352435837,
+      "loss": 4.0805,
+      "step": 1400
+    },
+    {
+      "epoch": 0.10069141437873397,
+      "grad_norm": 1.4646199941635132,
+      "learning_rate": 0.00011908656261460721,
+      "loss": 4.0032,
+      "step": 1500
+    },
+    {
+      "epoch": 0.10740417533731624,
+      "grad_norm": 1.2548878192901611,
+      "learning_rate": 0.00011518971522595105,
+      "loss": 3.9702,
+      "step": 1600
+    },
+    {
+      "epoch": 0.1141169362958985,
+      "grad_norm": 1.363207221031189,
+      "learning_rate": 0.00011113425104971176,
+      "loss": 3.9321,
+      "step": 1700
+    },
+    {
+      "epoch": 0.12082969725448077,
+      "grad_norm": 1.3911628723144531,
+      "learning_rate": 0.00010693617579023885,
+      "loss": 3.8974,
+      "step": 1800
+    },
+    {
+      "epoch": 0.12754245821306304,
+      "grad_norm": 1.3630716800689697,
+      "learning_rate": 0.00010261205799518043,
+      "loss": 3.8514,
+      "step": 1900
+    },
+    {
+      "epoch": 0.1342552191716453,
+      "grad_norm": 1.2687169313430786,
+      "learning_rate": 9.817896366438074e-05,
+      "loss": 3.818,
+      "step": 2000
+    },
+    {
+      "epoch": 0.14096798013022757,
+      "grad_norm": 1.3437057733535767,
+      "learning_rate": 9.36543888954819e-05,
+      "loss": 3.8071,
+      "step": 2100
+    },
+    {
+      "epoch": 0.14768074108880982,
+      "grad_norm": 1.3673392534255981,
+      "learning_rate": 8.905619083205881e-05,
+      "loss": 3.7842,
+      "step": 2200
+    },
+    {
+      "epoch": 0.1543935020473921,
+      "grad_norm": 1.2775851488113403,
+      "learning_rate": 8.440251718681331e-05,
+      "loss": 3.7666,
+      "step": 2300
+    },
+    {
+      "epoch": 0.16110626300597436,
+      "grad_norm": 1.382295846939087,
+      "learning_rate": 7.971173461797922e-05,
+      "loss": 3.679,
+      "step": 2400
+    },
+    {
+      "epoch": 0.1678190239645566,
+      "grad_norm": 1.269216775894165,
+      "learning_rate": 7.500235624161463e-05,
+      "loss": 3.7059,
+      "step": 2500
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1250,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6499577364480000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b0bbdca8de25bbc8bf36748f618e50f9b10fabddb7b161369a5bf65d593e10b
+size 5112

checkpoint-3750/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<pad>": 32000
+}

checkpoint-3750/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "NousResearch/Nous-Hermes-llama-2-7b",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 768,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "use_cache": false,
+  "vocab_size": 32001
+}

checkpoint-3750/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.41.2",
+  "use_cache": false
+}

checkpoint-3750/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e75917f2449514c402ed13acd7bf1035f3c53229aac7eaf8c484596ffcd264e1
+size 309887520

checkpoint-3750/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:490896b94f7df9a21789a810628b2c82711071d533a479fda21e44180ace28a2
+size 619807162

checkpoint-3750/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
+size 14244

checkpoint-3750/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:141a9d8b8a5e4763ffd6370a8134e721cf2b1dd4f3160cd28a7c003f6056aef3
+size 1064

checkpoint-3750/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-3750/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3750/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-3750/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-3750/trainer_state.json ADDED Viewed

	@@ -0,0 +1,292 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.2517285359468349,
+  "eval_steps": 500,
+  "global_step": 3750,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.006712760958582265,
+      "grad_norm": 1.0528477430343628,
+      "learning_rate": 0.00014985229447149842,
+      "loss": 7.6572,
+      "step": 100
+    },
+    {
+      "epoch": 0.01342552191716453,
+      "grad_norm": 1.1515228748321533,
+      "learning_rate": 0.00014940916946874937,
+      "loss": 6.1239,
+      "step": 200
+    },
+    {
+      "epoch": 0.020138282875746795,
+      "grad_norm": 1.2438573837280273,
+      "learning_rate": 0.00014867237372557577,
+      "loss": 5.4067,
+      "step": 300
+    },
+    {
+      "epoch": 0.02685104383432906,
+      "grad_norm": 1.3082321882247925,
+      "learning_rate": 0.00014764481515444297,
+      "loss": 5.0934,
+      "step": 400
+    },
+    {
+      "epoch": 0.03356380479291132,
+      "grad_norm": 1.4851253032684326,
+      "learning_rate": 0.00014633054922174807,
+      "loss": 4.8669,
+      "step": 500
+    },
+    {
+      "epoch": 0.04027656575149359,
+      "grad_norm": 1.3247835636138916,
+      "learning_rate": 0.00014473476294210664,
+      "loss": 4.7151,
+      "step": 600
+    },
+    {
+      "epoch": 0.04698932671007586,
+      "grad_norm": 1.5466852188110352,
+      "learning_rate": 0.0001428637544067573,
+      "loss": 4.5684,
+      "step": 700
+    },
+    {
+      "epoch": 0.05370208766865812,
+      "grad_norm": 1.3418868780136108,
+      "learning_rate": 0.0001407249079268789,
+      "loss": 4.4861,
+      "step": 800
+    },
+    {
+      "epoch": 0.060414848627240385,
+      "grad_norm": 1.4495049715042114,
+      "learning_rate": 0.0001383266648899225,
+      "loss": 4.3896,
+      "step": 900
+    },
+    {
+      "epoch": 0.06712760958582265,
+      "grad_norm": 1.2629677057266235,
+      "learning_rate": 0.0001356784904439796,
+      "loss": 4.3076,
+      "step": 1000
+    },
+    {
+      "epoch": 0.07384037054440491,
+      "grad_norm": 1.382216215133667,
+      "learning_rate": 0.00013279083614167278,
+      "loss": 4.2179,
+      "step": 1100
+    },
+    {
+      "epoch": 0.08055313150298718,
+      "grad_norm": 1.2883789539337158,
+      "learning_rate": 0.00012967509869100336,
+      "loss": 4.1599,
+      "step": 1200
+    },
+    {
+      "epoch": 0.08726589246156945,
+      "grad_norm": 1.3527660369873047,
+      "learning_rate": 0.00012634357497595263,
+      "loss": 4.0976,
+      "step": 1300
+    },
+    {
+      "epoch": 0.09397865342015171,
+      "grad_norm": 1.3394412994384766,
+      "learning_rate": 0.00012280941352435837,
+      "loss": 4.0805,
+      "step": 1400
+    },
+    {
+      "epoch": 0.10069141437873397,
+      "grad_norm": 1.4646199941635132,
+      "learning_rate": 0.00011908656261460721,
+      "loss": 4.0032,
+      "step": 1500
+    },
+    {
+      "epoch": 0.10740417533731624,
+      "grad_norm": 1.2548878192901611,
+      "learning_rate": 0.00011518971522595105,
+      "loss": 3.9702,
+      "step": 1600
+    },
+    {
+      "epoch": 0.1141169362958985,
+      "grad_norm": 1.363207221031189,
+      "learning_rate": 0.00011113425104971176,
+      "loss": 3.9321,
+      "step": 1700
+    },
+    {
+      "epoch": 0.12082969725448077,
+      "grad_norm": 1.3911628723144531,
+      "learning_rate": 0.00010693617579023885,
+      "loss": 3.8974,
+      "step": 1800
+    },
+    {
+      "epoch": 0.12754245821306304,
+      "grad_norm": 1.3630716800689697,
+      "learning_rate": 0.00010261205799518043,
+      "loss": 3.8514,
+      "step": 1900
+    },
+    {
+      "epoch": 0.1342552191716453,
+      "grad_norm": 1.2687169313430786,
+      "learning_rate": 9.817896366438074e-05,
+      "loss": 3.818,
+      "step": 2000
+    },
+    {
+      "epoch": 0.14096798013022757,
+      "grad_norm": 1.3437057733535767,
+      "learning_rate": 9.36543888954819e-05,
+      "loss": 3.8071,
+      "step": 2100
+    },
+    {
+      "epoch": 0.14768074108880982,
+      "grad_norm": 1.3673392534255981,
+      "learning_rate": 8.905619083205881e-05,
+      "loss": 3.7842,
+      "step": 2200
+    },
+    {
+      "epoch": 0.1543935020473921,
+      "grad_norm": 1.2775851488113403,
+      "learning_rate": 8.440251718681331e-05,
+      "loss": 3.7666,
+      "step": 2300
+    },
+    {
+      "epoch": 0.16110626300597436,
+      "grad_norm": 1.382295846939087,
+      "learning_rate": 7.971173461797922e-05,
+      "loss": 3.679,
+      "step": 2400
+    },
+    {
+      "epoch": 0.1678190239645566,
+      "grad_norm": 1.269216775894165,
+      "learning_rate": 7.500235624161463e-05,
+      "loss": 3.7059,
+      "step": 2500
+    },
+    {
+      "epoch": 0.1745317849231389,
+      "grad_norm": 1.343229055404663,
+      "learning_rate": 7.029296856586897e-05,
+      "loss": 3.6681,
+      "step": 2600
+    },
+    {
+      "epoch": 0.18124454588172115,
+      "grad_norm": 1.3436596393585205,
+      "learning_rate": 6.560215813559365e-05,
+      "loss": 3.6667,
+      "step": 2700
+    },
+    {
+      "epoch": 0.18795730684030343,
+      "grad_norm": 1.3680791854858398,
+      "learning_rate": 6.094843817680749e-05,
+      "loss": 3.6359,
+      "step": 2800
+    },
+    {
+      "epoch": 0.19467006779888568,
+      "grad_norm": 1.3404663801193237,
+      "learning_rate": 5.635017553053002e-05,
+      "loss": 3.6386,
+      "step": 2900
+    },
+    {
+      "epoch": 0.20138282875746794,
+      "grad_norm": 1.2906004190444946,
+      "learning_rate": 5.1825518164352286e-05,
+      "loss": 3.6036,
+      "step": 3000
+    },
+    {
+      "epoch": 0.20809558971605022,
+      "grad_norm": 1.585774540901184,
+      "learning_rate": 4.7392323547835926e-05,
+      "loss": 3.6075,
+      "step": 3100
+    },
+    {
+      "epoch": 0.21480835067463247,
+      "grad_norm": 1.3589500188827515,
+      "learning_rate": 4.306808817442085e-05,
+      "loss": 3.5855,
+      "step": 3200
+    },
+    {
+      "epoch": 0.22152111163321475,
+      "grad_norm": 1.4228436946868896,
+      "learning_rate": 3.886987850799785e-05,
+      "loss": 3.5662,
+      "step": 3300
+    },
+    {
+      "epoch": 0.228233872591797,
+      "grad_norm": 1.4741946458816528,
+      "learning_rate": 3.481426362667913e-05,
+      "loss": 3.5487,
+      "step": 3400
+    },
+    {
+      "epoch": 0.23494663355037926,
+      "grad_norm": 1.4674755334854126,
+      "learning_rate": 3.0917249829602016e-05,
+      "loss": 3.5521,
+      "step": 3500
+    },
+    {
+      "epoch": 0.24165939450896154,
+      "grad_norm": 1.4647969007492065,
+      "learning_rate": 2.7194217464852685e-05,
+      "loss": 3.5201,
+      "step": 3600
+    },
+    {
+      "epoch": 0.2483721554675438,
+      "grad_norm": 1.427472710609436,
+      "learning_rate": 2.3659860227831684e-05,
+      "loss": 3.5241,
+      "step": 3700
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1250,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9749366046720000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3750/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b0bbdca8de25bbc8bf36748f618e50f9b10fabddb7b161369a5bf65d593e10b
+size 5112

checkpoint-5000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<pad>": 32000
+}

checkpoint-5000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "NousResearch/Nous-Hermes-llama-2-7b",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 768,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "use_cache": false,
+  "vocab_size": 32001
+}

checkpoint-5000/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.41.2",
+  "use_cache": false
+}

checkpoint-5000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc2cee91ab8d43772f4e85e899f0f02cdbc926ba3692a97fe6e1939a59421dd0
+size 309887520

checkpoint-5000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d3b1b62a7e98971082b60b8defebf3dd0ac1ef15c2360160151c0331eaad993
+size 619807162

checkpoint-5000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
+size 14244

checkpoint-5000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34931feb19b1d341b16bab599d4d16930938300aaca4565d60949ddcdcaad849
+size 1064

checkpoint-5000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-5000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-5000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723