RLHF4MATH

AI & ML interests

None defined yet.

models 8

RLHF4MATH/CodeGemma-7B-it-M-DPO

Text Generation • Updated Jul 26 • 9

RLHF4MATH/Gemma-7B-it-M-DPO

Text Generation • Updated Jul 26 • 6

RLHF4MATH/Gemma-9B-it-SFT3epoch

Text Generation • Updated Jul 26 • 12

RLHF4MATH/Mistral-7B-pt-SFT2epoch

Text Generation • Updated Jul 26 • 5

RLHF4MATH/Code-Gemma-7B-it-SFT3epoch

Text Generation • Updated Jul 26 • 5

RLHF4MATH/Gemma-7B-it-SFT3epoch

Text Generation • Updated Jul 26 • 13

RLHF4MATH/Gemma-2-9B-it-M-DPO

Text Generation • Updated Jul 15 • 8

RLHF4MATH/Mistral-7B-pt-M-DPO

Text Generation • Updated Jul 13 • 7

datasets 6

RLHF4MATH/Gemma-7B-1.1-it-iter1-random-pairs

Viewer • Updated Jul 27 • 19k • 36

RLHF4MATH/SFT_510K

Viewer • Updated Jul 25 • 512k • 33

RLHF4MATH/prompt_iter4

Viewer • Updated Jul 25 • 20.8k • 39

RLHF4MATH/prompt_iter3

Viewer • Updated Jul 25 • 20.8k • 41

RLHF4MATH/prompt_iter2

Viewer • Updated Jul 25 • 20.8k • 45

RLHF4MATH/prompt_iter1

Viewer • Updated Jul 25 • 20.8k • 76