File size: 6,399 Bytes
07b7842 797be4f 07b7842 797be4f 07b7842 797be4f 07b7842 797be4f 07b7842 797be4f 07b7842 797be4f 07b7842 797be4f 07b7842 797be4f 07b7842 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 |
---
base_model: Alibaba-NLP/gte-multilingual-base
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:2000
- loss:CosineSimilarityLoss
- persian
- farsi
- gpt4-translated
widget:
- source_sentence: انقلاب صنعتی چگونه جامعه را تغییر داد؟
sentences:
- انقلاب صنعتی منجر به شهرنشینی شد زیرا مردم به شهرها نقل مکان کردند تا در کارخانهها کار کنند.
- انقلاب صنعتی منجر به شهرنشینی شد زیرا مردم به شهرها نقل مکان کردند تا در کارخانهها کار کنند.
- انقلاب صنعتی چگونه جامعه را تغییر داد؟
- source_sentence: الکترونها چه نقشی در پیوندهای شیمیایی ایفا میکنند؟
sentences:
- الکترونها چه نقشی در پیوندهای شیمیایی ایفا میکنند؟
- پروتونها در هسته بر هویت و ویژگیهای اتم تأثیر میگذارند که به طور غیرمستقیم بر نحوهی تشکیل پیوندهای شیمیایی تأثیر دارد.
- پروتونها در هسته بر هویت و ویژگیهای اتم تأثیر میگذارند که به طور غیرمستقیم بر نحوهی تشکیل پیوندهای شیمیایی تأثیر دارد.
- source_sentence: عملکردهای اصلی سیستم ایمنی انسان چیست؟
sentences:
- آنتی بادیها توسط سیستم ایمنی برای کمک به خنثی کردن پاتوژنهای ایجادکننده عفونت تولید میشوند.
- آنتی بادیها توسط سیستم ایمنی برای کمک به خنثی کردن پاتوژنهای ایجادکننده عفونت تولید میشوند.
- عملکردهای اصلی سیستم ایمنی انسان چیست؟
- source_sentence: ماهیت بنیادی واقعیت چیست؟
sentences:
- مفهوم واقعیت شامل درک جهان فیزیکی و قوانین طبیعتی است که بر آن حاکم هستند.
- مفهوم واقعیت شامل درک جهان فیزیکی و قوانین طبیعتی است که بر آن حاکم هستند.
- ماهیت بنیادی واقعیت چیست؟
- source_sentence: شخصیتهای اصلی در جنبش کوبیسم چه کسانی بودند؟
sentences:
- لئوناردو داوینچی به خاطر مشارکتهایش در رنسانس شناخته میشود، نه کوبیسم.
- لئوناردو داوینچی به خاطر مشارکتهایش در رنسانس شناخته میشود، نه کوبیسم.
- شخصیتهای اصلی در جنبش کوبیسم چه کسانی بودند؟
---
# SentenceTransformer based on Alibaba-NLP/gte-multilingual-base for Persian (Farsi)
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base). It maps Persian (Farsi) sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more in the Persian language.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base)
- **Maximum Sequence Length:** 8192 tokens
- **Output Dimensionality:** 768 tokens
- **Similarity Function:** Cosine Similarity
- **Training Dataset:** 2000 high-quality Persian sentence pairs translated from English using GPT-4
- **Language:** Persian (Farsi)
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("xmanii/maux-gte-persian")
# Run inference
sentences = [
'شخصیت\u200cهای اصلی در جنبش کوبیسم چه کسانی بودند؟',
'لئوناردو داوینچی به خاطر مشارکت\u200cهایش در رنسانس شناخته می\u200cشود، نه کوبیسم.',
'شخصیت\u200cهای اصلی در جنبش کوبیسم چه کسانی بودند؟',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Training Details
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 32
- `per_device_eval_batch_size`: 32
- `learning_rate`: 2e-05
- `warmup_ratio`: 0.1
- `fp16`: True
## Citation
### BibTeX
#### Sentence Transformers
```bibtex
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
```
|