sfulay
/

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo

alignment-handbook

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo / all_results.json

Commit History

Model save

4d79451
verified

sfulay commited on 19 days ago

Model save

0a3e251
verified

sfulay commited on 20 days ago

Model save

44bba64
verified

sfulay commited on 24 days ago