Jailbreak Classifier

Classifies prompts as jailbreaks or benign. This is a fine-tune checkpoint of bert-base-uncased on the jailbreak-classification dataset.

Training Details

Training Data

Fine-tuned on the jailbreak-classification dataset.

Training Procedure

Training Hyperparameters

Fine-tuning hyper-parameters:

learning_rate = 5e-5
train_batch_size = 8
eval_batch_size = 8
lr_scheduler_type = linear
num_train_epochs = 5.0

Downloads last month: 3,795

Inference API

Text Classification

This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

jackhhao
/

jailbreak-classifier

Jailbreak Classifier

Training Details

Training Data

Training Procedure

Training Hyperparameters

Datasets used to train jackhhao/jailbreak-classifier