sfulay
/

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo

alignment-handbook

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo / training_args.bin

Commit History

Model save

4d79451
verified

sfulay commited on 19 days ago

Model save

0a3e251
verified

sfulay commited on 20 days ago

Training in progress, step 100

242749d
verified

sfulay commited on 25 days ago