trl-lib
/

Qwen2-0.5B-DPO

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Qwen2-0.5B-DPO / model.safetensors

Commit History

End of training

623e295
verified

qgallouedec HF staff commited on Sep 27

End of training

4981722
verified

qgallouedec HF staff commited on Sep 27

Training in progress, epoch 1

55cb2ff
verified

qgallouedec HF staff commited on Sep 27

Training in progress, epoch 1

48f96ab
verified

qgallouedec HF staff commited on Sep 26

Training in progress, epoch 1

d112596
verified

qgallouedec HF staff commited on Sep 26

Training in progress, epoch 1

ecca24c
verified

qgallouedec HF staff commited on Sep 26