phi-3-mini-128k-instruct-mix-spider-bird

This model is a fine-tuned version of microsoft/Phi-3-mini-128k-instruct on the generator dataset. It achieves the following results on the evaluation set:

Loss: 0.0528

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0002
train_batch_size: 4
eval_batch_size: 1
seed: 14
gradient_accumulation_steps: 4
total_train_batch_size: 16
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.03
num_epochs: 1
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss
0.4677	0.0845	200	0.1692
0.1405	0.1690	400	0.0834
0.0801	0.2536	600	0.0656
0.0685	0.3381	800	0.0569
0.0604	0.4226	1000	0.0529
0.06	0.5070	300	0.0528
0.0602	0.5915	350	0.0528
0.0622	0.6760	400	0.0528
0.0587	0.7605	450	0.0528
0.059	0.8450	500	0.0528
0.0619	0.9294	550	0.0528

Framework versions

PEFT 0.11.1
Transformers 4.41.2
Pytorch 2.3.1+cu118
Datasets 2.20.0
Tokenizers 0.19.1

NESPED-GEN
/

phi-3-mini-128k-instruct-mix-spider-bird

phi-3-mini-128k-instruct-mix-spider-bird

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for NESPED-GEN/phi-3-mini-128k-instruct-mix-spider-bird

Evaluation results