Edit Models filters

Inference status

Misc

Inference Endpoints

AutoTrain Compatible

text-generation-inference

Misc with no match

4-bit precision

text-embeddings-inference

8-bit precision

Carbon Emissions

Mixture of Experts

Models

1,978

Full-text search

Active filters: ppo

jvelja/vllm-gemma2b-llmOversight-1.0-DropSus_10

Reinforcement Learning • Updated Sep 10 • 1

jvelja/vllm-gemma2b-llmOversight-1.0-noDropSus_16

Reinforcement Learning • Updated Sep 10 • 3

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_15

Reinforcement Learning • Updated Sep 10 • 1

jvelja/vllm-gemma2b-llmOversight-1.0-noDropSus_17

Reinforcement Learning • Updated Sep 10 • 1

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_16

Reinforcement Learning • Updated Sep 10 • 3

jvelja/vllm-gemma2b-llmOversight-1.0-DropSus_11

Reinforcement Learning • Updated Sep 10 • 4

jvelja/vllm-gemma2b-llmOversight-1.0-noDropSus_18

Reinforcement Learning • Updated Sep 10 • 1

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_17

Reinforcement Learning • Updated Sep 10 • 1

yuansui/llama-160m-PPO-tuned

Reinforcement Learning • Updated Sep 11 • 5

jvelja/vllm-gemma2b-stringMatcher-newDataset_0

Reinforcement Learning • Updated Sep 10 • 4

jvelja/vllm-gemma2b-stringMatcher-newDataset_1

Reinforcement Learning • Updated Sep 10 • 4

jvelja/vllm-gemma2b-stringMatcher-newDataset_2

Reinforcement Learning • Updated Sep 10 • 4

jvelja/vllm-gemma2b-stringMatcher-newDataset_3

Reinforcement Learning • Updated Sep 10 • 4

jvelja/vllm-gemma2b-stringMatcher-newDataset_4

Reinforcement Learning • Updated Sep 11 • 1

YisusLn/ppo-unit8-LunarLancer-v2

Reinforcement Learning • Updated Sep 13

Vivek-huggingface/ppo_from_scratch

Reinforcement Learning • Updated Sep 15

mihofer/ppo_reimplement_lunarlanderv2

Reinforcement Learning • Updated Sep 16

caiiofc/ppo-fs-LunarLander-v2

Reinforcement Learning • Updated Sep 16

hug-me-please/RL_CAMEL

Reinforcement Learning • Updated Sep 19 • 3

svetaU/ppo-LunarLander-v2

Reinforcement Learning • Updated Sep 21 • 7

mkdem/ll22

Reinforcement Learning • Updated Sep 19

evgeniypark/ppo-LunarLander-v2-handmade

Reinforcement Learning • Updated Sep 19

maartenx01/ppo-CleanRL-LunarLander-v2

Reinforcement Learning • Updated Sep 19

kalmi901/ppo-CleanRL-LunarLander-v2

Reinforcement Learning • Updated Sep 22

SpyrosMitsis/ppo-LunarLander-v2-CleanRL

Reinforcement Learning • Updated Sep 26

Dorian-T/LunarLander-v2-ppo-fromScratch

Reinforcement Learning • Updated Sep 26

Khashayarrah/LunarLander-v2

Reinforcement Learning • Updated Sep 26

AkaRed13/ppo-LunarLander-v1

Reinforcement Learning • Updated Sep 27

gokuuu/CartPole-v1-ppo

Reinforcement Learning • Updated Sep 27

q-xZzz/ppo-LunarLander

Reinforcement Learning • Updated Sep 28