End of training

Browse files

Files changed (4) hide show

README.md +3 -2
logs/learning_rate=0.0002, lr_scheduler_kwargs=__power___0.7___lr_end___2e-05_, lr_scheduler_type=polynomial, per_device_train_batch_size=8, warmup_ratio=0.1/events.out.tfevents.1726983816.1c1a426a2fee +2 -2
logs/learning_rate=0.0002, lr_scheduler_kwargs=__power___0.7___lr_end___2e-05_, lr_scheduler_type=polynomial, per_device_train_batch_size=8, warmup_ratio=0.1/events.out.tfevents.1727015278.1c1a426a2fee +3 -0
model.safetensors +1 -1

README.md CHANGED Viewed

@@ -150,6 +150,7 @@ The following hyperparameters were used during training:
 - seed: `42`
 - optimizer: `Adam with betas=(0.9,0.999) and epsilon=1e-08`
 - lr_scheduler_type: `polynomial`
 - num_epochs: `1.0`
 - distillation_objective: `DistillationObjective(
     logits_loss_component=LossComponent(
@@ -163,7 +164,7 @@ The following hyperparameters were used during training:
         weight=0
     )
 )`
-- lr_scheduler: `<torch.optim.lr_scheduler.LambdaLR object at 0x7786a35fef50>`
 - student_model_name_or_path: `None`
 - student_config_name_or_path: `None`
 - student_model_config: `{'num_hidden_layers': 15}`
@@ -187,7 +188,7 @@ The following hyperparameters were used during training:
 - gradient_accumulation_steps: `1`
 - weight_decay: `0.0`
 - max_grad_norm: `1.0`
-- warmup_ratio: `0.0`
 - warmup_steps: `0`
 - gradient_checkpointing: `True`

 - seed: `42`
 - optimizer: `Adam with betas=(0.9,0.999) and epsilon=1e-08`
 - lr_scheduler_type: `polynomial`
+- lr_scheduler_warmup_ratio: `0.1`
 - num_epochs: `1.0`
 - distillation_objective: `DistillationObjective(
     logits_loss_component=LossComponent(
         weight=0
     )
 )`
+- lr_scheduler: `<torch.optim.lr_scheduler.LambdaLR object at 0x778665672650>`
 - student_model_name_or_path: `None`
 - student_config_name_or_path: `None`
 - student_model_config: `{'num_hidden_layers': 15}`
 - gradient_accumulation_steps: `1`
 - weight_decay: `0.0`
 - max_grad_norm: `1.0`
+- warmup_ratio: `0.1`
 - warmup_steps: `0`
 - gradient_checkpointing: `True`

logs/learning_rate=0.0002, lr_scheduler_kwargs=__power___0.7___lr_end___2e-05_, lr_scheduler_type=polynomial, per_device_train_batch_size=8, warmup_ratio=0.1/events.out.tfevents.1726983816.1c1a426a2fee CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fff703151a31e96231d287db94a7a51e1b65e9efa423d01eaf7fec1c0ef57ba1
-size 3301516

 version https://git-lfs.github.com/spec/v1
+oid sha256:5119150f80c74b99fe989d96f21849facb83c524f54e9dfe779272cf3c683c68
+size 3432096

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2535e906d8815196c7061bebbef993d7a2bb3aa7cdc5757627fd6b0092587ddd
+size 529

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01d21b81253f6b55bb25753810d41ee9b31ad1d91d4ebba2f34e5fe96359ace1
 size 325669528

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7916a52bfee88fb1994cf3ebd4fa09fcdee6d685846d2f5540cb62504e44c8c
 size 325669528