Step-DPO - a xinlai Collection

Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

xinlai 's Collections

Step-DPO

updated Jul 1

Resources for "Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs"

xinlai/DeepSeekMath-RL-Step-DPO

Text Generation • Updated Jun 28 • 11 • 1
xinlai/Qwen2-7B-Instruct-Step-DPO

Text Generation • Updated Jun 29 • 675 • 2
xinlai/Qwen2-72B-Instruct-Step-DPO

Text Generation • Updated Jun 28 • 26
xinlai/DeepSeekMath-Base-SFT-Step-DPO

Text Generation • Updated Jun 28 • 16
xinlai/Qwen2-7B-SFT-Step-DPO

Text Generation • Updated Jun 28 • 13
xinlai/Qwen1.5-32B-SFT-Step-DPO

Text Generation • Updated Jun 28 • 13 • 1
xinlai/Qwen2-57B-A14B-SFT-Step-DPO

Text Generation • Updated Jun 28 • 17 • 1
xinlai/Llama-3-70B-SFT-Step-DPO

Text Generation • Updated Jun 28 • 18
xinlai/Qwen2-72B-SFT-Step-DPO

Text Generation • Updated Jun 25 • 8 • 1
xinlai/Math-Step-DPO-10K

Viewer • Updated Jul 4 • 10.8k • 543 • 29
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

Paper • 2406.18629 • Published Jun 26 • 41

Collection guide
Browse collections

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs