SPPO - a UCLA-AGI Collection

Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

UCLA-AGI 's Collections

zephyr-7b-sft-full-SPIN

SPPO

SPPO

updated Jun 29

Self-Play Preference Optimization

UCLA-AGI/Mistral7B-PairRM-SPPO

Text Generation • Updated May 7 • 3.52k • 6
UCLA-AGI/Mistral7B-PairRM-SPPO-Iter1

Text Generation • Updated May 6 • 2.9k • 1
UCLA-AGI/Mistral7B-PairRM-SPPO-Iter2

Text Generation • Updated May 6 • 5.5k • 1
UCLA-AGI/Mistral7B-PairRM-SPPO-Iter3

Text Generation • Updated May 7 • 5.49k • 5
UCLA-AGI/Llama-3-Instruct-8B-SPPO-Iter1

Text Generation • Updated Jun 25 • 4.9k
UCLA-AGI/Llama-3-Instruct-8B-SPPO-Iter2

Text Generation • Updated Jun 25 • 7.24k
UCLA-AGI/Llama-3-Instruct-8B-SPPO-Iter3

Text Generation • Updated Jun 28 • 6.95k • 77
UCLA-AGI/Gemma-2-9B-It-SPPO-Iter3

Text Generation • Updated Jul 1 • 9.03k • 117
UCLA-AGI/Gemma-2-9B-It-SPPO-Iter2

Text Generation • Updated Jul 1 • 5.2k • 2
UCLA-AGI/Gemma-2-9B-It-SPPO-Iter1

Text Generation • Updated Jul 1 • 5.2k • 3

Collection guide
Browse collections

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs