Rui Yang's picture

9 7 17

Rui Yang

Ray2333

·

https://yangrui2015.github.io

YangRui2015

AI & ML interests

Deep Reinforcement Learning

Recent Activity

upvoted a collection 3 days ago

Papers - Math - Reasoning

upvoted a collection 3 days ago

Papers - Benchmarks - Math

New activity 6 days ago

Ray2333/GRM-Llama3.2-3B-rewardmodel-ft

Organizations

Collections 1

Papers 4

arxiv:2411.00836

arxiv:2406.10216

arxiv:2402.10207

arxiv:2310.12955

models 14

Ray2333/GRM-Llama3.2-3B-rewardmodel-ft

Text Classification • Updated 12 days ago • 1.79k • 2

Ray2333/GRM-llama3-8B-sftreg

Text Classification • Updated 28 days ago • 105 • 5

Ray2333/GRM-Gemma2-2B-sftreg

Text Classification • Updated 30 days ago • 77 • 1

Ray2333/GRM-gemma2-2B-rewardmodel-ft

Text Classification • Updated 30 days ago • 1.55k • 3

Ray2333/GRM-Gemma-2B-sftreg

Text Classification • Updated 30 days ago • 62 • 3

Ray2333/GRM-llama3.2-3B-sftreg

Text Classification • Updated 30 days ago • 112 • 1

Ray2333/GRM-Llama3-8B-rewardmodel-ft

Updated Sep 17 • 212 • 1

Ray2333/Gemma-2B-rewardmodel-ft

Updated Sep 13 • 339 • 1

Ray2333/GRM-Gemma-2B-rewardmodel-ft

Updated Sep 13 • 1.71k • 1

Ray2333/reward-model-Mistral-7B-instruct-Unified-Feedback

Text Classification • Updated Sep 1 • 672 • 11

datasets 1

Ray2333/RiC_harmless_helpful

Viewer • Updated Jul 12 • 291k • 80