HeTree
/

HeConE

@@ -1,5 +1,7 @@
-```python
 from transformers import  RobertaTokenizerFast, AutoModelForTokenClassification
 from datasets  import load_dataset
@@ -37,12 +39,22 @@ def tokenize_and_align_labels(examples):
     tokenized_inputs["labels"] = labels
     return tokenized_inputs
-model = AutoModelForTokenClassification.from_pretrained('HeTree/HeConE')  # same as bert?? so no wories
 tokenizer = RobertaTokenizerFast.from_pretrained('HeTree/HeConE')
 raw_dataset = load_dataset('HeTree/MevakerConcSen')
 window_size = 5
 raw_dataset_window = raw_dataset.map(split_into_windows, batched=True, batch_size=window_size, remove_columns=raw_dataset['train'].column_names)
 tokenized_dataset = raw_dataset_window.map(tokenize_and_align_labels, batched=False)
 ```

+## Hebrew Conclusion Extraction Model (based on token classification)
+#### How to use
+```python
 from transformers import  RobertaTokenizerFast, AutoModelForTokenClassification
 from datasets  import load_dataset
     tokenized_inputs["labels"] = labels
     return tokenized_inputs
+model = AutoModelForTokenClassification.from_pretrained('HeTree/HeConE')
 tokenizer = RobertaTokenizerFast.from_pretrained('HeTree/HeConE')
 raw_dataset = load_dataset('HeTree/MevakerConcSen')
 window_size = 5
 raw_dataset_window = raw_dataset.map(split_into_windows, batched=True, batch_size=window_size, remove_columns=raw_dataset['train'].column_names)
 tokenized_dataset = raw_dataset_window.map(tokenize_and_align_labels, batched=False)
+```
+### Citing
+If you use HeConE in your research, please cite [HeRo: RoBERTa and Longformer Hebrew Language Models](http://arxiv.org/abs/2304.11077).
+```
+@article{shalumov2023hero,
+      title={HeRo: RoBERTa and Longformer Hebrew Language Models},
+      author={Vitaly Shalumov and Harel Haskey},
+      year={2023},
+      journal={arXiv:2304.11077},
+}
 ```