sfulay
/

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo-gamma-05

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo-gamma-05 / model-00002-of-00003.safetensors

Commit History

Training in progress, step 436

85db60e
verified

sfulay commited on Sep 3

Training in progress, step 400

d30bcf8
verified

sfulay commited on Sep 3

Training in progress, step 300

7ad34e1
verified

sfulay commited on Sep 3

Training in progress, step 200

a97386d
verified

sfulay commited on Sep 3

Training in progress, step 100

51f2bed
verified

sfulay commited on Sep 3