File size: 6,399 Bytes
07b7842
 
 
 
 
 
 
 
 
 
 
797be4f
 
 
 
07b7842
 
 
797be4f
 
07b7842
 
 
 
797be4f
 
07b7842
 
797be4f
 
07b7842
 
 
 
 
 
 
 
 
 
 
 
 
797be4f
07b7842
797be4f
07b7842
 
 
 
 
797be4f
07b7842
 
 
797be4f
 
07b7842
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
---
base_model: Alibaba-NLP/gte-multilingual-base
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:2000
- loss:CosineSimilarityLoss
- persian
- farsi
- gpt4-translated

widget:
- source_sentence: انقلاب صنعتی چگونه جامعه را تغییر داد؟
  sentences:
  - انقلاب صنعتی منجر به شهرنشینی شد زیرا مردم به شهرها نقل مکان کردند تا در کارخانه‌ها کار کنند.
  - انقلاب صنعتی منجر به شهرنشینی شد زیرا مردم به شهرها نقل مکان کردند تا در کارخانه‌ها کار کنند.
  - انقلاب صنعتی چگونه جامعه را تغییر داد؟
- source_sentence: الکترون‌ها چه نقشی در پیوندهای شیمیایی ایفا می‌کنند؟
  sentences:
  - الکترون‌ها چه نقشی در پیوندهای شیمیایی ایفا می‌کنند؟
  - پروتون‌ها در هسته بر هویت و ویژگی‌های اتم تأثیر می‌گذارند که به طور غیرمستقیم بر نحوه‌ی تشکیل پیوندهای شیمیایی تأثیر دارد.
  - پروتون‌ها در هسته بر هویت و ویژگی‌های اتم تأثیر می‌گذارند که به طور غیرمستقیم بر نحوه‌ی تشکیل پیوندهای شیمیایی تأثیر دارد.
- source_sentence: عملکردهای اصلی سیستم ایمنی انسان چیست؟
  sentences:
  - آنتی بادی‌ها توسط سیستم ایمنی برای کمک به خنثی کردن پاتوژن‌های ایجادکننده عفونت تولید می‌شوند.
  - آنتی بادی‌ها توسط سیستم ایمنی برای کمک به خنثی کردن پاتوژن‌های ایجادکننده عفونت تولید می‌شوند.
  - عملکردهای اصلی سیستم ایمنی انسان چیست؟
- source_sentence: ماهیت بنیادی واقعیت چیست؟
  sentences:
  - مفهوم واقعیت شامل درک جهان فیزیکی و قوانین طبیعتی است که بر آن حاکم هستند.
  - مفهوم واقعیت شامل درک جهان فیزیکی و قوانین طبیعتی است که بر آن حاکم هستند.
  - ماهیت بنیادی واقعیت چیست؟
- source_sentence: شخصیت‌های اصلی در جنبش کوبیسم چه کسانی بودند؟
  sentences:
  - لئوناردو داوینچی به خاطر مشارکت‌هایش در رنسانس شناخته می‌شود، نه کوبیسم.
  - لئوناردو داوینچی به خاطر مشارکت‌هایش در رنسانس شناخته می‌شود، نه کوبیسم.
  - شخصیت‌های اصلی در جنبش کوبیسم چه کسانی بودند؟
---

# SentenceTransformer based on Alibaba-NLP/gte-multilingual-base for Persian (Farsi)

This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base). It maps Persian (Farsi) sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more in the Persian language.

## Model Details

### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base)
- **Maximum Sequence Length:** 8192 tokens
- **Output Dimensionality:** 768 tokens
- **Similarity Function:** Cosine Similarity
- **Training Dataset:** 2000 high-quality Persian sentence pairs translated from English using GPT-4
- **Language:** Persian (Farsi)

### Model Sources

- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)

### Full Model Architecture

```
SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)
```

## Usage

### Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

```bash
pip install -U sentence-transformers
```

Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("xmanii/maux-gte-persian")
# Run inference
sentences = [
    'شخصیت\u200cهای اصلی در جنبش کوبیسم چه کسانی بودند؟',
    'لئوناردو داوینچی به خاطر مشارکت\u200cهایش در رنسانس شناخته می\u200cشود، نه کوبیسم.',
    'شخصیت\u200cهای اصلی در جنبش کوبیسم چه کسانی بودند؟',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```



## Training Details

### Training Hyperparameters
#### Non-Default Hyperparameters

- `eval_strategy`: steps
- `per_device_train_batch_size`: 32
- `per_device_eval_batch_size`: 32
- `learning_rate`: 2e-05
- `warmup_ratio`: 0.1
- `fp16`: True


## Citation

### BibTeX

#### Sentence Transformers
```bibtex
@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
```