UTI2_L3_1000steps_1e5rate_01beta_CSFTDPO

This model is a fine-tuned version of tsavage68/UTI_L3_1000steps_1e5rate_SFT on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.6886
Rewards/chosen: 0.0009
Rewards/rejected: -0.0090
Rewards/accuracies: 0.3800
Rewards/margins: 0.0099
Logps/rejected: -28.5027
Logps/chosen: -19.1015
Logits/rejected: -1.1524
Logits/chosen: -1.1488

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-08
train_batch_size: 2
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 4
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 100
training_steps: 1000

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.6931	0.3333	25	0.6906	0.0023	-0.0031	0.1500	0.0054	-28.4908	-19.0987	-1.1522	-1.1486
0.7007	0.6667	50	0.6924	0.0053	0.0030	0.3700	0.0023	-28.4786	-19.0927	-1.1524	-1.1488
0.6983	1.0	75	0.6898	0.0086	0.0010	0.3400	0.0076	-28.4827	-19.0862	-1.1522	-1.1487
0.7149	1.3333	100	0.6929	0.0040	0.0027	0.3300	0.0013	-28.4794	-19.0953	-1.1524	-1.1488
0.6888	1.6667	125	0.6888	0.0001	-0.0095	0.3400	0.0096	-28.5036	-19.1032	-1.1522	-1.1486
0.7038	2.0	150	0.6881	-0.0003	-0.0115	0.4000	0.0112	-28.5076	-19.1038	-1.1525	-1.1489
0.6893	2.3333	175	0.6890	0.0106	0.0012	0.3500	0.0093	-28.4822	-19.0821	-1.1526	-1.1490
0.6956	2.6667	200	0.6894	0.0016	-0.0066	0.4000	0.0081	-28.4978	-19.1002	-1.1523	-1.1487
0.6947	3.0	225	0.6937	0.0022	0.0024	0.3000	-0.0003	-28.4798	-19.0990	-1.1524	-1.1488
0.6917	3.3333	250	0.6919	0.0039	0.0003	0.3400	0.0036	-28.4841	-19.0955	-1.1526	-1.1490
0.6933	3.6667	275	0.6894	0.0093	0.0005	0.3500	0.0088	-28.4836	-19.0846	-1.1521	-1.1486
0.6979	4.0	300	0.6904	-0.0023	-0.0087	0.3300	0.0064	-28.5021	-19.1080	-1.1522	-1.1486
0.6918	4.3333	325	0.6907	0.0055	0.0001	0.3600	0.0054	-28.4845	-19.0922	-1.1521	-1.1485
0.699	4.6667	350	0.6893	0.0107	0.0021	0.4100	0.0087	-28.4805	-19.0818	-1.1524	-1.1488
0.6955	5.0	375	0.6857	0.0110	-0.0051	0.3800	0.0160	-28.4948	-19.0813	-1.1525	-1.1490
0.6955	5.3333	400	0.6905	0.0051	-0.0009	0.3900	0.0060	-28.4865	-19.0931	-1.1523	-1.1487
0.6872	5.6667	425	0.6917	-0.0003	-0.0041	0.3800	0.0038	-28.4928	-19.1039	-1.1523	-1.1487
0.6826	6.0	450	0.6938	-0.0088	-0.0083	0.2800	-0.0005	-28.5014	-19.1209	-1.1524	-1.1489
0.6846	6.3333	475	0.6915	0.0050	0.0008	0.3400	0.0042	-28.4831	-19.0933	-1.1524	-1.1489
0.6894	6.6667	500	0.6911	0.0053	0.0003	0.4100	0.0050	-28.4841	-19.0927	-1.1521	-1.1485
0.6835	7.0	525	0.6901	0.0025	-0.0047	0.4000	0.0072	-28.4940	-19.0982	-1.1526	-1.1490
0.683	7.3333	550	0.6905	0.0033	-0.0028	0.3400	0.0061	-28.4903	-19.0968	-1.1523	-1.1487
0.6914	7.6667	575	0.6928	0.0000	-0.0013	0.3500	0.0013	-28.4872	-19.1032	-1.1522	-1.1487
0.6929	8.0	600	0.6879	0.0033	-0.0083	0.3400	0.0116	-28.5013	-19.0967	-1.1523	-1.1487
0.6869	8.3333	625	0.6920	0.0001	-0.0031	0.3600	0.0032	-28.4908	-19.1030	-1.1525	-1.1489
0.692	8.6667	650	0.6935	0.0041	0.0037	0.3300	0.0005	-28.4774	-19.0951	-1.1524	-1.1488
0.6907	9.0	675	0.6901	0.0020	-0.0049	0.3900	0.0069	-28.4944	-19.0993	-1.1525	-1.1489
0.6974	9.3333	700	0.6901	0.0027	-0.0045	0.3500	0.0072	-28.4936	-19.0978	-1.1525	-1.1489
0.6901	9.6667	725	0.6912	0.0019	-0.0030	0.3000	0.0049	-28.4906	-19.0995	-1.1524	-1.1489
0.699	10.0	750	0.6910	0.0010	-0.0044	0.3700	0.0054	-28.4936	-19.1013	-1.1524	-1.1489
0.6842	10.3333	775	0.6866	0.0005	-0.0135	0.3900	0.0140	-28.5117	-19.1023	-1.1525	-1.1489
0.6957	10.6667	800	0.6886	0.0016	-0.0084	0.3800	0.0100	-28.5014	-19.1001	-1.1524	-1.1489
0.7021	11.0	825	0.6885	0.0009	-0.0092	0.3800	0.0101	-28.5031	-19.1015	-1.1524	-1.1488
0.6846	11.3333	850	0.6886	0.0009	-0.0090	0.3800	0.0099	-28.5027	-19.1015	-1.1524	-1.1488
0.6951	11.6667	875	0.6886	0.0009	-0.0090	0.3800	0.0099	-28.5027	-19.1015	-1.1524	-1.1488
0.6972	12.0	900	0.6886	0.0009	-0.0090	0.3800	0.0099	-28.5027	-19.1015	-1.1524	-1.1488
0.6883	12.3333	925	0.6886	0.0009	-0.0090	0.3800	0.0099	-28.5027	-19.1015	-1.1524	-1.1488
0.6911	12.6667	950	0.6886	0.0009	-0.0090	0.3800	0.0099	-28.5027	-19.1015	-1.1524	-1.1488
0.692	13.0	975	0.6886	0.0009	-0.0090	0.3800	0.0099	-28.5027	-19.1015	-1.1524	-1.1488
0.6918	13.3333	1000	0.6886	0.0009	-0.0090	0.3800	0.0099	-28.5027	-19.1015	-1.1524	-1.1488

Framework versions

Transformers 4.41.2
Pytorch 2.0.0+cu117
Datasets 2.19.2
Tokenizers 0.19.1

tsavage68
/

UTI3_L3_1000steps_1e5rate_05beta_CSFTDPO

UTI2_L3_1000steps_1e5rate_01beta_CSFTDPO

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for tsavage68/UTI3_L3_1000steps_1e5rate_05beta_CSFTDPO

Evaluation results