UTI_L3_1000steps_1e6rate_01beta_CSFTDPO

This model is a fine-tuned version of tsavage68/UTI_L3_1000steps_1e5rate_SFT on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.0073
Rewards/chosen: 1.2662
Rewards/rejected: -9.9449
Rewards/accuracies: 0.9900
Rewards/margins: 11.2111
Logps/rejected: -162.6436
Logps/chosen: -19.8171
Logits/rejected: -1.4769
Logits/chosen: -1.4276

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-06
train_batch_size: 2
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 4
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 100
training_steps: 1000

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.6578	0.3333	25	0.5571	0.0522	-0.2527	0.9800	0.3049	-65.7218	-31.9573	-1.3240	-1.3090
0.2092	0.6667	50	0.1456	0.3413	-2.3069	0.9900	2.6482	-86.2635	-29.0656	-1.3332	-1.3147
0.0259	1.0	75	0.0237	0.8548	-5.3505	0.9900	6.2052	-116.6992	-23.9313	-1.3741	-1.3452
0.022	1.3333	100	0.0121	1.0079	-6.6623	0.9900	7.6702	-129.8176	-22.4003	-1.4059	-1.3679
0.0176	1.6667	125	0.0093	1.0152	-8.2320	0.9900	9.2472	-145.5143	-22.3270	-1.4249	-1.3830
0.0408	2.0	150	0.0082	1.0301	-8.5332	0.9900	9.5633	-148.5271	-22.1783	-1.4531	-1.4082
0.0001	2.3333	175	0.0076	1.0855	-8.9116	0.9900	9.9971	-152.3104	-21.6238	-1.4576	-1.4119
0.0014	2.6667	200	0.0090	1.3134	-8.7928	0.9900	10.1062	-151.1230	-19.3451	-1.4637	-1.4172
0.0001	3.0	225	0.0079	1.2850	-9.0072	0.9900	10.2922	-153.2668	-19.6294	-1.4656	-1.4188
0.0174	3.3333	250	0.0078	1.2789	-9.0808	0.9900	10.3597	-154.0025	-19.6896	-1.4665	-1.4195
0.0174	3.6667	275	0.0075	1.2500	-9.1806	0.9900	10.4306	-155.0005	-19.9786	-1.4670	-1.4199
0.0347	4.0	300	0.0074	1.2492	-9.2488	0.9900	10.4980	-155.6828	-19.9870	-1.4679	-1.4206
0.0	4.3333	325	0.0074	1.2533	-9.2948	0.9900	10.5481	-156.1422	-19.9456	-1.4686	-1.4211
0.0174	4.6667	350	0.0074	1.2521	-9.3471	0.9900	10.5992	-156.6662	-19.9582	-1.4691	-1.4216
0.0347	5.0	375	0.0074	1.2514	-9.4059	0.9900	10.6573	-157.2535	-19.9646	-1.4697	-1.4219
0.0174	5.3333	400	0.0074	1.2576	-9.4635	0.9900	10.7210	-157.8293	-19.9033	-1.4706	-1.4226
0.0347	5.6667	425	0.0074	1.2577	-9.5119	0.9900	10.7696	-158.3135	-19.9019	-1.4713	-1.4232
0.0174	6.0	450	0.0074	1.2547	-9.5713	0.9900	10.8260	-158.9079	-19.9318	-1.4720	-1.4237
0.0	6.3333	475	0.0073	1.2558	-9.6179	0.9900	10.8737	-159.3735	-19.9212	-1.4727	-1.4243
0.0347	6.6667	500	0.0073	1.2630	-9.6616	0.9900	10.9246	-159.8107	-19.8490	-1.4733	-1.4248
0.0	7.0	525	0.0073	1.2628	-9.7158	0.9900	10.9785	-160.3523	-19.8515	-1.4737	-1.4249
0.0	7.3333	550	0.0073	1.2618	-9.7475	0.9900	11.0093	-160.6694	-19.8605	-1.4744	-1.4256
0.0174	7.6667	575	0.0073	1.2616	-9.7931	0.9900	11.0547	-161.1260	-19.8632	-1.4749	-1.4261
0.0347	8.0	600	0.0073	1.2639	-9.8192	0.9900	11.0831	-161.3868	-19.8404	-1.4755	-1.4265
0.0347	8.3333	625	0.0073	1.2683	-9.8350	0.9900	11.1033	-161.5448	-19.7963	-1.4755	-1.4265
0.0	8.6667	650	0.0073	1.2669	-9.8617	0.9900	11.1286	-161.8117	-19.8096	-1.4760	-1.4269
0.0	9.0	675	0.0073	1.2665	-9.8881	0.9900	11.1545	-162.0752	-19.8142	-1.4762	-1.4270
0.0173	9.3333	700	0.0073	1.2686	-9.9036	0.9900	11.1722	-162.2308	-19.7932	-1.4765	-1.4272
0.0173	9.6667	725	0.0073	1.2674	-9.9155	0.9900	11.1829	-162.3497	-19.8054	-1.4767	-1.4274
0.0	10.0	750	0.0073	1.2691	-9.9274	0.9900	11.1965	-162.4688	-19.7879	-1.4768	-1.4274
0.0	10.3333	775	0.0073	1.2673	-9.9329	0.9900	11.2002	-162.5236	-19.8057	-1.4769	-1.4275
0.0173	10.6667	800	0.0073	1.2685	-9.9385	0.9900	11.2070	-162.5801	-19.7940	-1.4769	-1.4275
0.0173	11.0	825	0.0073	1.2682	-9.9411	0.9900	11.2093	-162.6058	-19.7972	-1.4769	-1.4276
0.0	11.3333	850	0.0073	1.2669	-9.9412	0.9900	11.2081	-162.6066	-19.8100	-1.4770	-1.4276
0.0347	11.6667	875	0.0073	1.2675	-9.9425	0.9900	11.2101	-162.6200	-19.8038	-1.4769	-1.4276
0.0	12.0	900	0.0073	1.2671	-9.9475	0.9900	11.2146	-162.6696	-19.8084	-1.4770	-1.4275
0.0173	12.3333	925	0.0073	1.2677	-9.9478	0.9900	11.2155	-162.6725	-19.8017	-1.4769	-1.4275
0.0173	12.6667	950	0.0073	1.2664	-9.9456	0.9900	11.2120	-162.6507	-19.8149	-1.4769	-1.4276
0.0347	13.0	975	0.0073	1.2662	-9.9449	0.9900	11.2111	-162.6436	-19.8171	-1.4769	-1.4276
0.0	13.3333	1000	0.0073	1.2662	-9.9449	0.9900	11.2111	-162.6436	-19.8171	-1.4769	-1.4276

Framework versions

Transformers 4.41.2
Pytorch 2.0.0+cu117
Datasets 2.19.2
Tokenizers 0.19.1

tsavage68
/

UTI_L3_1000steps_1e6rate_01beta_CSFTDPO

UTI_L3_1000steps_1e6rate_01beta_CSFTDPO

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for tsavage68/UTI_L3_1000steps_1e6rate_01beta_CSFTDPO

Evaluation results