Training in progress, step 50000

Files changed (7) hide show

babyslm/syntactic.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

blimp_results.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:155e95079e6843f30888c6a5282ee97f22589ed8f19e8b40084fd0a43b07684c
-size 80216132

 version https://git-lfs.github.com/spec/v1
+oid sha256:96c72daa6502702b5b3a679abc9d721febf71f3d2190c8a283394384750883ca
+size 80216731

config.json CHANGED Viewed

@@ -3,20 +3,20 @@
   "architectures": [
     "GPT2LMHeadModel"
   ],
-  "attn_pdrop": 0.1,
   "bos_token_id": 0,
-  "embd_pdrop": 0.1,
   "eos_token_id": 0,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt2",
-  "n_embd": 512,
-  "n_head": 8,
-  "n_inner": 2048,
-  "n_layer": 8,
   "n_positions": 256,
   "reorder_and_upcast_attn": false,
-  "resid_pdrop": 0.1,
   "scale_attn_by_inverse_layer_idx": false,
   "scale_attn_weights": true,
   "summary_activation": null,

   "architectures": [
     "GPT2LMHeadModel"
   ],
+  "attn_pdrop": 0.3,
   "bos_token_id": 0,
+  "embd_pdrop": 0.3,
   "eos_token_id": 0,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt2",
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": 3072,
+  "n_layer": 12,
   "n_positions": 256,
   "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.3,
   "scale_attn_by_inverse_layer_idx": false,
   "scale_attn_weights": true,
   "summary_activation": null,

hydra_config_1724868008.8911111.yaml ADDED Viewed

+experiment:
+  seed: 42
+  name: gpt2_85M-bpe-text-03
+  group: babylm-small
+  dry_run: false
+  offline_run: false
+  evaluate_segmentation: false
+  evaluate_babyslm: true
+  blimp_tasks: blimp_filtered,blimp_supplement
+  resume_checkpoint_path: null
+  resume_run_id: null
+dataset:
+  name: transformersegmentation/BabyLM-phonemized
+  subconfig: strict_small
+  text_column: text
+  is_phonemes: false
+  max_age: null
+tokenizer:
+  name: transformersegmentation/BabyLM-BPE-ortho-tokenizer
+data_preprocessing:
+  max_input_length: 128
+  join_utts: static
+  remove_word_boundaries: false
+  subsample: null
+  subsample_type: examples
+model:
+  name: gpt2_lm
+  model_kwargs:
+    n_layer: 12
+    n_head: 12
+    n_embd: 768
+    n_positions: 256
+    n_inner: 3072
+    resid_pdrop: 0.3
+    embd_pdrop: 0.3
+    attn_pdrop: 0.3
+trainer:
+  batch_size: 32
+  lr: 0.001
+  num_warmup_steps: 90000
+  max_training_steps: 400000
+  logging_steps: 4000
+  save_steps: 50000
+  eval_steps: 50000

hydra_config_1724870633.4511852.yaml ADDED Viewed

+experiment:
+  seed: 42
+  name: gpt2_85M-bpe-text-03
+  group: babylm-small
+  dry_run: false
+  offline_run: false
+  evaluate_segmentation: false
+  evaluate_babyslm: true
+  blimp_tasks: blimp_filtered,blimp_supplement
+  resume_checkpoint_path: null
+  resume_run_id: null
+dataset:
+  name: transformersegmentation/BabyLM-phonemized
+  subconfig: strict_small
+  text_column: text
+  is_phonemes: false
+  max_age: null
+tokenizer:
+  name: transformersegmentation/BabyLM-BPE-ortho-tokenizer
+data_preprocessing:
+  max_input_length: 128
+  join_utts: static
+  remove_word_boundaries: false
+  subsample: null
+  subsample_type: examples
+model:
+  name: gpt2_lm
+  model_kwargs:
+    n_layer: 12
+    n_head: 12
+    n_embd: 768
+    n_positions: 256
+    n_inner: 3072
+    resid_pdrop: 0.3
+    embd_pdrop: 0.3
+    attn_pdrop: 0.3
+trainer:
+  batch_size: 32
+  lr: 0.001
+  num_warmup_steps: 90000
+  max_training_steps: 400000
+  logging_steps: 4000
+  save_steps: 50000
+  eval_steps: 50000

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45b8ee841a5ba6565c3b7951bc2ea21d223f2de7b42897642a701e420133a5cc
-size 134182632

 version https://git-lfs.github.com/spec/v1
+oid sha256:49288917dcfffbd852d632836beef28c786951af373ed57e3b623517dd2d5bba
+size 390177408

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bdb9bb7a47c8d79dae8b6e300ed84f1e99318dafb96dc9dbd2c7137c0067d4e
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6bf434d08adffb63320a056f43c3d312c362758a72db108fcc5c86bb963bff1
 size 5368