tangledgroup
/

tangled-llama-t-128k-base-v0.1

Text Generation

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on 24 days ago

Commit

33265a4

•

1 Parent(s): e03ba1c

pretrain model

Files changed (1) hide show

scripts/pretrain-model.yaml +5 -4

scripts/pretrain-model.yaml CHANGED Viewed

@@ -52,7 +52,7 @@ data:
   init_args:
     data_path: "../pretrain-data/"
-    num_workers: 16
 # Training-related arguments. See ``litgpt.args.TrainArgs`` for details
 train:
@@ -77,7 +77,8 @@ train:
   # Total number of tokens to train on (type: Optional[int], default: 3000000000000)
   # max_tokens: 3000000000000
-  max_tokens: 36852166560 # 3597088 * 2049 * 5
   # Limits the number of optimizer steps to run. (type: Optional[int], default: null)
   max_steps:
@@ -114,8 +115,8 @@ eval:
 # Optimizer-related arguments
 optimizer:
   # class_path: torch.optim.AdamW
-  # class_path: grokadamw.GrokAdamW
-  class_path: bitsandbytes.optim.AdamW8bit
   # class_path: bitsandbytes.optim.PagedAdamW8bit
   init_args:

   init_args:
     data_path: "../pretrain-data/"
+    num_workers: 32
 # Training-related arguments. See ``litgpt.args.TrainArgs`` for details
 train:
   # Total number of tokens to train on (type: Optional[int], default: 3000000000000)
   # max_tokens: 3000000000000
+  # max_tokens: 36852166560 # 3597088 * 2049 * 5
+  max_tokens: 22111299936 # 3597088 * 2049 * 3
   # Limits the number of optimizer steps to run. (type: Optional[int], default: null)
   max_steps:
 # Optimizer-related arguments
 optimizer:
   # class_path: torch.optim.AdamW
+  class_path: grokadamw.GrokAdamW
+  # class_path: bitsandbytes.optim.AdamW8bit
   # class_path: bitsandbytes.optim.PagedAdamW8bit
   init_args: