2 1 6

Zhaolin Gao

GitBag

https://zhaolingao.github.io/

AI & ML interests

Reinforcement Learning from Human Feedback

Recent Activity

updated a model about 4 hours ago

GitBag/reasoning_rebel_rere_eta_1e3_lr_3e-7_1732268914

updated a model about 4 hours ago

GitBag/reasoning_rebel_rere_eta_1e2_lr_3e-7_1732249058

updated a model about 4 hours ago

GitBag/reasoning_rebel_rere_eta_1e1_lr_3e-7_1732229168

View all activity

Organizations

GitBag's activity

updated 3 models about 4 hours ago

updated 2 datasets 1 day ago

GitBag/llama3-ultrafeedback-reasoning-ReRe-armo-tokenized_harvard

Viewer • Updated 1 day ago • 229k • 3

GitBag/llama3-ultrafeedback-reasoning-ReRe-armo-tokenized

Viewer • Updated 1 day ago • 229k • 8

updated 4 models 4 days ago

GitBag/reasoning_rebel_iter_5_1731714556_eta_1e3_lr_3e-7_1731931011

Text Generation • Updated 4 days ago • 7

GitBag/reasoning_rebel_iter_5_1731714556_eta_1e2_lr_3e-7_1731926025

Text Generation • Updated 4 days ago • 7

GitBag/reasoning_rebel_iter_5_1731714556_eta_1e1_lr_3e-7_1731903957

Text Generation • Updated 4 days ago • 10

GitBag/reasoning_rebel_iter_5_1731714556_eta_1e4_lr_3e-7_1731935968

Text Generation • Updated 4 days ago • 8

updated 3 datasets 5 days ago

GitBag/llama3-ultrafeedback-reasoning-iter_5-1731714556-armo-tokenized_harvard

Viewer • Updated 5 days ago • 54.6k • 12

GitBag/llama3-ultrafeedback-reasoning-iter_5-1731714556-armo-tokenized

Viewer • Updated 5 days ago • 54.6k • 7

GitBag/llama3-ultrafeedback-reasoning-iter_5-1731714556-armo

Viewer • Updated 5 days ago • 60.8k • 10

updated a dataset 6 days ago

GitBag/llama3-ultrafeedback-reasoning-iter_5-1731714556

Viewer • Updated 6 days ago • 60.8k • 10

updated 4 models 7 days ago

GitBag/reasoning_rebel_iter_4_1731513485_eta_1e4_lr_3e-7_1731719519

Text Generation • Updated 7 days ago • 11

GitBag/reasoning_rebel_iter_4_1731513485_eta_1e3_lr_3e-7_1731714556

Text Generation • Updated 7 days ago • 43

GitBag/reasoning_rebel_iter_4_1731513485_eta_1e2_lr_3e-7_1731709582

Text Generation • Updated 7 days ago • 10

GitBag/reasoning_rebel_iter_4_1731513485_eta_1e1_lr_3e-7_1731686912

Text Generation • Updated 7 days ago • 10

updated a dataset 7 days ago

GitBag/llama3-ultrafeedback-reasoning-iter_4-1731513485-armo-tokenized_harvard

Viewer • Updated 7 days ago • 56.3k • 18

updated 2 datasets 8 days ago

GitBag/llama3-ultrafeedback-reasoning-iter_4-1731513485-armo-tokenized

Viewer • Updated 8 days ago • 56.3k • 14

GitBag/llama3-ultrafeedback-reasoning-iter_4-1731513485-armo

Viewer • Updated 8 days ago • 60.8k • 15