fgs218ok
/

WikiEditBias200k

Text Classification

Inference Endpoints

Model card Files Files and versions Community

Edit model card

Model Card for distilRoberta model finetuned on WikiEditBias dataset

The distilRoberta-base model finetuned on WikiEditBias dataset on the format of edit diff data and 200k samples.

For training data, please ref: https://huggingface.co/datasets/fgs218ok/WikiEditBias/viewer/train200k_val2k_test2k_edit_diff

Uses

Input format

The input should be in diff format:

<old_text>{old_sentence1} ... {old_sentenceN}<new_text>{new_sentence1} ... {new_sentenceN}

For example:

<old_text>He is a boy.<new_text>He is a nice boy

Direct Use

model = AutoModel.from_pretrained("fgs218ok/WikiEditBias200k")
tokenizer = AutoTokenizer.from_pretrained("fgs218ok/WikiEditBias200k")

Evaluation

This model achieves the 83.45% accuracy on fgs218ok/WikiEditBias200k dataset, outperforms GPT-3.5-turbo by large margin while competitive to GPT4o:

Downloads last month: 7

Safetensors

Model size

82.1M params

Tensor type

F32

·

Inference Examples

Text Classification

This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train fgs218ok/WikiEditBias200k