GregorZiegltrumAA commited on 27 days ago

Commit

52f8912

•

1 Parent(s): b174439

Add Model

Browse files

Files changed (29) hide show

config.yml +101 -0
model_state_layer_0_EmbeddingInput.pt +3 -0
model_state_layer_10_TransformerLayer.pt +3 -0
model_state_layer_11_TransformerLayer.pt +3 -0
model_state_layer_12_TransformerLayer.pt +3 -0
model_state_layer_13_TransformerLayer.pt +3 -0
model_state_layer_14_TransformerLayer.pt +3 -0
model_state_layer_15_TransformerLayer.pt +3 -0
model_state_layer_16_TransformerLayer.pt +3 -0
model_state_layer_17_TransformerLayer.pt +3 -0
model_state_layer_18_TransformerLayer.pt +3 -0
model_state_layer_19_TransformerLayer.pt +3 -0
model_state_layer_1_TransformerLayer.pt +3 -0
model_state_layer_20_TransformerLayer.pt +3 -0
model_state_layer_21_TransformerLayer.pt +3 -0
model_state_layer_22_TransformerLayer.pt +3 -0
model_state_layer_23_TransformerLayer.pt +3 -0
model_state_layer_24_TransformerLayer.pt +3 -0
model_state_layer_25_LayerNormWrapper.pt +3 -0
model_state_layer_26_TransformerLMHead.pt +3 -0
model_state_layer_2_TransformerLayer.pt +3 -0
model_state_layer_3_TransformerLayer.pt +3 -0
model_state_layer_4_TransformerLayer.pt +3 -0
model_state_layer_5_TransformerLayer.pt +3 -0
model_state_layer_6_TransformerLayer.pt +3 -0
model_state_layer_7_TransformerLayer.pt +3 -0
model_state_layer_8_TransformerLayer.pt +3 -0
model_state_layer_9_TransformerLayer.pt +3 -0
vocab.json +0 -0

config.yml ADDED Viewed

	@@ -0,0 +1,101 @@

+optimizer:
+  allreduce_bucket_size: 500000000
+  beta1: 0.9
+  beta2: 0.95
+  debug_log: false
+  eps: 1e-08
+  gradient_clipping: 0.0
+  zero: true
+  zero_save_static: false
+topology:
+  activation_checkpointing_type: disabled
+  global_batch_size: 1024
+  gradient_accumulation_steps: 2
+  micro_batch_size: 2
+  model_parallel_size: 1
+  pipe_parallel_size: 1
+  pipe_partition_method: balanced
+  pipe_partition_overwrite: null
+  sequence_parallel: false
+trainer:
+  seed: 42
+  train_iterations: 72000
+training:
+  allow_missing_params_in_optimizer: true
+training_groups:
+- group_name: param_group
+  independent_weight_decay: true
+  learning_rate_scheduler:
+    learning_rate: 11.313708498984761
+    learning_rate_decay_iters: 72000
+    learning_rate_decay_style: cosine
+    learning_rate_minimum: 1.131370849898476
+    learning_rate_warmup_steps: 500
+  parameters_exclude:
+  - norm
+  weight_decay: 0.0001221
+transformer_architecture:
+  attention_bias: false
+  attention_num_kv_heads: null
+  attention_qkv_in_one: true
+  dropout_after_attention: 0.0
+  dropout_after_mlp: 0.0
+  dropout_attention_probs: 0.0
+  dropout_embedding: 0.0
+  dropout_image_encoder: 0.0
+  fp8_config_attention:
+    dtypes_forward:
+      left_dtype: e4m3
+      right_dtype: e4m3
+    dtypes_grad_input:
+      left_dtype: e5m2
+      right_dtype: e4m3
+    dtypes_grad_weight:
+      left_dtype: e4m3
+      right_dtype: e5m2
+  fp8_config_mlp:
+    dtypes_forward:
+      left_dtype: e4m3
+      right_dtype: e4m3
+    dtypes_grad_input:
+      left_dtype: e5m2
+      right_dtype: e4m3
+    dtypes_grad_weight:
+      left_dtype: e4m3
+      right_dtype: e5m2
+  hidden_size: 3072
+  image_encoder: false
+  key_query_norm: false
+  layernorm:
+    layernorm_epsilon: 1e-05
+    optimization_type: torch
+  local_attention_window_size: null
+  masked_softmax:
+    kernel: flash_attention
+    scale: 1.0
+    softmax_in_fp32: false
+  mlp_bias: false
+  mlp_factor: 2.6666666666666665
+  mlp_type: swiglu
+  norm_type: rms
+  num_attention_heads: 24
+  num_layers: 24
+  num_local_attention_heads: 0
+  precision: bfloat16
+  relative_position_embedding_type: rotary_complex
+  reset_attention_mask: false
+  reset_position_ids: false
+  rotary_embedding_base: 10000
+  rotary_percentage: 1.0
+  sequence_length: 4096
+  umup:
+    act_mult: 1.0
+    attn_mult: 1.0
+    enable: true
+    loss_mult: 1.0
+    normalize_depth_to_num_layers: true
+    residual_attn_ratio: 0.25
+    residual_mult: 1.0
+  vocab_file: null
+  vocab_size: 65536
+  weight_tying: false

model_state_layer_0_EmbeddingInput.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a901d0236a34da6bc606004f0255a30ba66d62da8dbb566fea4d4529804bcc4b
+size 402654667

model_state_layer_10_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d828f28b9d082199d826abab8b8f10bbe841ce72487927bc66e8d76bc778d35
+size 226507949

model_state_layer_11_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57d40e3a8554d1dfc5f1138379262477d68456a87dfdad41d4405727fb7e28c3
+size 226507949

model_state_layer_12_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9503d6f99647d05eec3cadcae0992d0d51ad41783334fc88e66a76ee04422c3f
+size 226507949

model_state_layer_13_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:835d76100270b439061a0cf199119cb3edda9d203a77bcd7444df5565895c525
+size 226507949

model_state_layer_14_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eaf2f8f6eb56400363feb1aa628d6fc8f3cdde4532aa68496666a7b736733730
+size 226507949

model_state_layer_15_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5b8711a96fe4b89d11ab292720a08412250dfe35caf0c699b988af61acb84a2
+size 226507949

model_state_layer_16_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fd6fd36e71f05a284e7962797541f80f2fe3ffc50f098dae565ea23742260cf
+size 226507949

model_state_layer_17_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5c43368a0042ac8febf3d99ff662597da93ac6003985f80e5335d8269f425ba
+size 226507949

model_state_layer_18_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:923f718fc9d25a45be76dde2e64ad7afbd73c40dd810b7bbd6d4cd1dfbb1060e
+size 226507949

model_state_layer_19_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59604cc1cef38e882888990aebb39010bd3504c77fff183540c1a7745d937d26
+size 226507949

model_state_layer_1_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac4c94cbab681cd212180b2670e3449273476f702f9c8b4fe9b961713ace4bac
+size 226507938

model_state_layer_20_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecbbf53e61d01f3e0e38c2cc7319993eba9c0e82bd2100096885ae5880686283
+size 226507949

model_state_layer_21_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a340c4a94c0cd87b550deb81049828725768d9ae00180168ef104846d5989f23
+size 226507949

model_state_layer_22_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9244195aa6b7133280576713117b27daa951e1053e5f2368e70ad12a027dc092
+size 226507949

model_state_layer_23_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cdd23a9ccbddb21beeee6eb59997c5d940275948b9a916d8aa8bf8dece8a1520
+size 226507949

model_state_layer_24_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffdecb077d4aaa6f84dfc4f96e56a241049804fa3097f74476f3eec6da69ae6a
+size 226507949

model_state_layer_25_LayerNormWrapper.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2b3c754dd51d475a2b59fe34562670ccffc8c8f005bffc176906fca2531106b
+size 7602

model_state_layer_26_TransformerLMHead.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:618073a4542175f11ec86cae8ee9f0fe69632ef803e40d31a7d91a35d76ea8e1
+size 402654632

model_state_layer_2_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fcfc338db6a9725e547b0f54fc8d858001e129c8e50016a15b3e65d58b43e60
+size 226507938

model_state_layer_3_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a9e2e222f89a1742b3805eb8209ed273eb24fe2abcaddb3a285de04a5614bb8
+size 226507938

model_state_layer_4_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c14971561e2bf4d4aa247f0cd4ff23cecce3c64e3383e90f1fe142d8fc253150
+size 226507938

model_state_layer_5_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80497d07209df4f4e7a60b14f4e5751b4ba3508a29cc028c7bda481b342e7384
+size 226507938

model_state_layer_6_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00dbda8871dd75c7e2c3418cd6e19956dc09e87db097840f9b10f90fbb70ff8a
+size 226507938

model_state_layer_7_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e7fe38db8e431414b119029adcf763a449b307db041117a7d44187d867247e3
+size 226507938

model_state_layer_8_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f12c5ceb054b376f1c072b64fc21c3e24d4632299325e61a98913f4b86c4f22
+size 226507938

model_state_layer_9_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b7edbd79f85f6887eda6fabc4a143593271c04a7d0790ad664407ee9035ebb3
+size 226507938

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff