sfulay
/

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo-gamma-05

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo-gamma-05

Commit History

Model save

fe476bf
verified

sfulay commited on Sep 3

Training in progress, step 436

85db60e
verified

sfulay commited on Sep 3

Training in progress, step 400

d30bcf8
verified

sfulay commited on Sep 3

Training in progress, step 300

7ad34e1
verified

sfulay commited on Sep 3

Training in progress, step 200

a97386d
verified

sfulay commited on Sep 3

Training in progress, step 100

51f2bed
verified

sfulay commited on Sep 3

initial commit

148eb5e
verified

sfulay commited on Sep 3