tangledgroup
/

tangled-llama-v-128k-base-v0.1

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on 27 days ago

Commit

400c392

•

1 Parent(s): cbbac33

pretrain model

Files changed (1) hide show

scripts/pretrain-model.yaml +3 -3

scripts/pretrain-model.yaml CHANGED Viewed

@@ -52,7 +52,7 @@ data:
 # Training-related arguments. See ``litgpt.args.TrainArgs`` for details
 train:
   # Number of optimizer steps between saving checkpoints (type: Optional[int], default: 1000)
-  save_interval: 100
   # Number of iterations between logging calls (type: int, default: 1)
   log_interval: 1
@@ -77,7 +77,7 @@ train:
   max_steps:
   # Limits the length of samples. Off by default (type: Optional[int], default: null)
-  max_seq_length: 4096
   # Whether to tie the embedding weights with the language modeling head weights. (type: Optional[bool], default: False)
   tie_embeddings:
@@ -91,7 +91,7 @@ train:
 # Evaluation-related arguments. See ``litgpt.args.EvalArgs`` for details
 eval:
   # Number of optimizer steps between evaluation calls (type: int, default: 1000)
-  interval: 50
   # Number of tokens to generate (type: Optional[int], default: null)
   max_new_tokens:

 # Training-related arguments. See ``litgpt.args.TrainArgs`` for details
 train:
   # Number of optimizer steps between saving checkpoints (type: Optional[int], default: 1000)
+  save_interval: 500
   # Number of iterations between logging calls (type: int, default: 1)
   log_interval: 1
   max_steps:
   # Limits the length of samples. Off by default (type: Optional[int], default: null)
+  max_seq_length:
   # Whether to tie the embedding weights with the language modeling head weights. (type: Optional[bool], default: False)
   tie_embeddings:
 # Evaluation-related arguments. See ``litgpt.args.EvalArgs`` for details
 eval:
   # Number of optimizer steps between evaluation calls (type: int, default: 1000)
+  interval: 100
   # Number of tokens to generate (type: Optional[int], default: null)
   max_new_tokens: