Pretraining - a Julius-L Collection

Julius-L 's Collections

Memory Efficient Training

Model Architecture

LLM Technical Reports

Pretraining

updated 7 days ago

Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

Paper • 2409.12903 • Published Sep 19 • 21