metadata
base_model: intfloat/multilingual-e5-small
datasets: []
language: []
library_name: sentence-transformers
metrics:
- cosine_accuracy@1
- cosine_accuracy@3
- cosine_accuracy@5
- cosine_accuracy@10
- cosine_precision@1
- cosine_precision@3
- cosine_precision@5
- cosine_precision@10
- cosine_recall@1
- cosine_recall@3
- cosine_recall@5
- cosine_recall@10
- cosine_ndcg@10
- cosine_mrr@10
- cosine_map@100
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:14690
- loss:MultipleNegativesRankingLoss
widget:
- source_sentence: >-
国民健康保険の適用終了の届出を行ってください。(勤務先の保険等に加入したことにより、自動的に国民健康保険の資格の適用が終了することはありません。)【届出窓口】お住まいの区の区役所保険年金業務担当へ届け出てください。【届出人】イ.国民健康保険証の世帯主欄に記載されている世帯主ロ.代理人(世帯主からの委任状と代理人の本人確認書類要)【必要なもの】届出には、世帯主と対象者の個人番号(マイナンバー)の記入と提示が必要になります。届出の際は、個人番号の確認できるもの(マイナンバーカードなど)、本人確認できるもの(運転免許証など)及び、次のものをお持ちください。●保険証●会社などの新しい保険証(健康保険資格取得証明書でも可)△詳細はリンク先の『就職・退職に伴う国民健康保険の手続き』を参照してください。【問合せ先】◆お住まいの区の区役所保険年金業務担当電話、Fax等はリンク先の『区役所・保健福祉センター開設時間・所在地・電話番号』を参照してください。
sentences:
- >-
I have been on National Health Insurance but received health insurance
from my workplace. Do I need to apply for National Health Insurance?
- >-
What can you tell us about creating a place for sexual minorities
(LGBTQ, etc.)?
- I would like to know about delinquent county taxes.
- source_sentence: >-
■引越した日から14日以内に、お住まいの区の区役所または支所の窓口に転居届(住民異動届)を提出してください。※マイナンバーカードを利用して、マイナポータル等からオンライン申請された方は職員が事前に転居届を作成しております。詳細は関連URL「オンラインによる転出届・転入届(転居届)の事前作成サービス」をご確認ください。■届出と同時に住民票の写しも発行できますので、必要な場合は併せて申請してください。■印鑑登録の住所は、この届で自動変更されるので、改めて手続する必要はありません。※平成19年8月12日以前に、市内の引越しによって住まいの区を変更された方は、それまで登録されていた印鑑登録は廃止されています。■転居届出について≪受付窓口≫お住まいの区の区役所市民課または支所区民生活課≪届出期間≫転居した日から14日以内(お住まいになった日の翌日が1日目となります。)※住み始める前のお届けはできません≪届出人≫引越しをする本人引越しをする人と同じ世帯の人(新しい住所で同じ世帯の人に限ります。)※代理人による届出も可能ですが、その場合、委任状が必要です。委任状は関連URL「申請書・届出書のダウンロードサービス」からダウンロードできます。≪必要なもの≫○転入届(窓口にご用意しております。)〇窓口に来られる方の本人確認書類(マイナンバーカード、運転免許証、在留カード等)〇引越しをする人の在留カードまたは特別永住者証明書(外国籍の方のみ)〇引越しをする人のマイナンバーカード(取得されている方のみ)※マイナンバーカードの券面記載事項の変更及び署名用電子証明書の発行の手続きをいたします。券面記載事項の変更の際にはマイナンバーカードの暗証番号が必要となるため、転居届する方がまとめて手続きされる場合は、同じ世帯の人の暗証番号も事前にご確認ください。署名用電子証明書の発行については、同じ世帯の人が手続きする場合でも委任状が必要となります。委任状兼暗証番号記載書を本人が作成し、封筒等に入れて封をした状態で、マイナンバーカードといっしょに、転居届をする同じ世帯の人に預けてください。転居届の同日に限り、本人に代わって同じ世帯の人が文書照会不要で即日手続きを完了いただけます。※別世帯の代理の方が来られる場合は、マイナンバーカードの券面記載事項変更を委任する旨の委任状に暗証番号を記入して封筒等に入れて封をしたものを併せてお持ちください。≪注意事項≫●正確な住所(○番地か○番○号まで)を確認してきてください。●同一建物内(マンション等)で転居した場合にも届出が必要になります。ただし、住民票の住所欄にマンション名や部屋番号まで記載されていない場合は届出は不要です。●また、届書に以下の必要事項が正確に記入できるよう異動者本人からこれらの事項を確認してきていただく必要があります。○転居届に必要な事項1
異動者全員の氏名・生年月日2 正確な新住所+マンション名があれば部屋番号まで3 新住所の世帯主氏名4 新住所に住み始めた日5
正確な旧住所(○番地か○番○号まで必要)6
旧住所の世帯主氏名≪その他の手続≫○義務教育のお子さんがいる場合学区が変更になる転居届を出された場合、転入学通知書をお渡ししますので、在学証明書(前の学校で発行)と併せて転校先に提出してください。(学区に変更がない転居届の場合はこの手続はありません)○国民健康保険、後期高齢者医療、子ども医療、障害者医療、ひとり親家庭等医療、福祉給付金の対象の方は各区の保険年金課または支所区民福祉課での手続があります。旧住所の保険証をお持ちください。○介護保険に加入されている場合各区の福祉課での手続があります。○児童手当受給者の場合各区の民生子ども課で手続があります。≪問合せ先≫【各区役所市民課、各支所区民生活課】
sentences:
- >-
I want to know the procedure for moving to a new residence (moving out)
within the same ward [Moving in, moving out, moving out].
- >-
Question: 2217 Where is the Building and Development Review Section
located?
- What is the procedure for moving out of the country?
- source_sentence: >-
ふれあいプラザは、市民の福祉と交流の場の提供を目的とした施設で、ホールや会議室、福祉関係団体の事務所などがあります。また、ホールなどの貸館業務は指定管理者制度を導入し、現在は大津市社会福祉事業団が行っています。■ふれあいプラザ【貸室予約先】ふれあいプラザ電話番号:077-527-8351【担当課】福祉部
福祉政策課〒520-8575 市役所本館2階
sentences:
- >-
Q.Please explain about water purifiers and active water purifiers.
[ID:0100667
- What kind of facility is Fureai Plaza?
- I lost my "admission ticket" to the adult ceremony (A)
- source_sentence: 次のとおりです。高知県立図書館 高知市追手筋二丁目1番1号 オーテピア内電話:088-823-4946(代表)
sentences:
- If you damage or lose your physical disability certificate.
- What is the location and phone number of the Kochi Prefectural Library?
- I would like to ask about a house survey for a sewer project?
- source_sentence: >-
【貸出施設】ホール(定員300人)第1会議室(定員24人)第2会議室(定員30人)和室(1)(定員35人)和室(2)(定員15人)音楽室(定員30人)保育室として、和室(2)をご利用いただけます。【附帯設備】■ホールグランドピアノ、音響設備、マイク(有線・コードレス・ピンマイク)、反響板、照明設備、卓球台■第1会議室プロジェクター投影用スクリーン■第2会議室プロジェクター投影用スクリーン、調理器具、電子レンジ調理室としても利用できます。■音楽室アップライトピアノ■その他ラジカセ、プロジェクター、移動式マイクセット【設備】■コピー機コイン式コピー機を1階警備員室前に設置してあります。利用時間は午前8時00分~午後10時までです。用紙のサイズはB5、A4、B4、A3で、1枚10円です。■軽印刷機地域の活動やサークル活動のための資料の印刷に利用できます。A3サイズまで印刷できます。利用時間は休館日を除く、午前9時から午後9時までです。利用料金はマスター代が原稿1枚につき100円、インク代が印刷片面1000枚以上ごとに100円です。印刷用紙は利用者の持ち込みとなります。利用の際は、1階警備員室で利用のお手続きが必要です。■スピード写真撮影機証明書用スピード写真撮影機を正面玄関の手前に設置してあります。撮影料金は700円です。■その他みんなのトイレ(1階、2階)、授乳室(1階)、冷水機(1階)【関連リンク】南市民センター・施設案内(施設貸出、施設使用料金等について)https://www.city.machida.tokyo.jp/kurashi/touroku/shisetsu/03/sisetuannai.html【お問合せ先】南市民センターTEL:042-795-3165FAX:042-795-1749担当課詳細:https://www.city.machida.tokyo.jp/kurashi/touroku/shisetsu/03/accessmap.html
sentences:
- >-
Q: What facilities and equipment are available at the 3490 South Civic
Center?
- >-
Q.Please tell me about the issuance and repair of prosthetic devices.
ID: 0101154
- Please tell us about your environmental management implementation sites.
model-index:
- name: SentenceTransformer based on intfloat/multilingual-e5-small
results:
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: intfloat/multilingual e5 small
type: intfloat/multilingual-e5-small
metrics:
- type: cosine_accuracy@1
value: 0.3193574734549415
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.4976858154097468
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.5804519466376259
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.6860876667574191
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.3193574734549415
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.16589527180324892
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.11609038932752518
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.0686087666757419
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.3193574734549415
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.4976858154097468
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.5804519466376259
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.6860876667574191
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.4919699773780811
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.43113312935665177
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.4409145722895642
name: Cosine Map@100
SentenceTransformer based on intfloat/multilingual-e5-small
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-small. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-small
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 384 tokens
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Yohhei/batch32-100")
# Run inference
sentences = [
'【貸出施設】ホール(定員300人)第1会議室(定員24人)第2会議室(定員30人)和室(1)(定員35人)和室(2)(定員15人)音楽室(定員30人)保育室として、和室(2)をご利用いただけます。【附帯設備】■ホールグランドピアノ、音響設備、マイク(有線・コードレス・ピンマイク)、反響板、照明設備、卓球台■第1会議室プロジェクター投影用スクリーン■第2会議室プロジェクター投影用スクリーン、調理器具、電子レンジ調理室としても利用できます。■音楽室アップライトピアノ■その他ラジカセ、プロジェクター、移動式マイクセット【設備】■コピー機コイン式コピー機を1階警備員室前に設置してあります。利用時間は午前8時00分~午後10時までです。用紙のサイズはB5、A4、B4、A3で、1枚10円です。■軽印刷機地域の活動やサークル活動のための資料の印刷に利用できます。A3サイズまで印刷できます。利用時間は休館日を除く、午前9時から午後9時までです。利用料金はマスター代が原稿1枚につき100円、インク代が印刷片面1000枚以上ごとに100円です。印刷用紙は利用者の持ち込みとなります。利用の際は、1階警備員室で利用のお手続きが必要です。■スピード写真撮影機証明書用スピード写真撮影機を正面玄関の手前に設置してあります。撮影料金は700円です。■その他みんなのトイレ(1階、2階)、授乳室(1階)、冷水機(1階)【関連リンク】南市民センター・施設案内(施設貸出、施設使用料金等について)https://www.city.machida.tokyo.jp/kurashi/touroku/shisetsu/03/sisetuannai.html【お問合せ先】南市民センターTEL:042-795-3165FAX:042-795-1749担当課詳細:https://www.city.machida.tokyo.jp/kurashi/touroku/shisetsu/03/accessmap.html',
'Q: What facilities and equipment are available at the 3490 South Civic Center?',
'Q.Please tell me about the issuance and repair of prosthetic devices. ID: 0101154',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Information Retrieval
- Dataset:
intfloat/multilingual-e5-small
- Evaluated with
InformationRetrievalEvaluator
Metric | Value |
---|---|
cosine_accuracy@1 | 0.3194 |
cosine_accuracy@3 | 0.4977 |
cosine_accuracy@5 | 0.5805 |
cosine_accuracy@10 | 0.6861 |
cosine_precision@1 | 0.3194 |
cosine_precision@3 | 0.1659 |
cosine_precision@5 | 0.1161 |
cosine_precision@10 | 0.0686 |
cosine_recall@1 | 0.3194 |
cosine_recall@3 | 0.4977 |
cosine_recall@5 | 0.5805 |
cosine_recall@10 | 0.6861 |
cosine_ndcg@10 | 0.492 |
cosine_mrr@10 | 0.4311 |
cosine_map@100 | 0.4409 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 14,690 training samples
- Columns:
positive
andanchor
- Approximate statistics based on the first 1000 samples:
positive anchor type string string details - min: 14 tokens
- mean: 186.01 tokens
- max: 512 tokens
- min: 7 tokens
- mean: 21.95 tokens
- max: 74 tokens
- Samples:
positive anchor ■住所や名義が変わった場合は変更登録や移転登録の手続きが必要です。通知文書については軽自動車の変更手続きを行わずに転出された方を対象に送付させていただいております。★原動機付自転車(排気量125cc以下のバイク)、排気量50cc以下のミニカー、バギーカー、小型特殊自動車■原動機付自転車等を所有している方が小松市から転出した場合、原則として廃車の手続をしていただくことになります。転出先でそのまま使用する場合は、新たに転出先の市区町村で登録の手続きを行ってください。その際の手続きに必要な物については、転出先市町村にお問い合わせください。■転出先から原動機付自転車を廃車にする場合は、廃車申告書に必要事項を記入、押印したものと、返信用の封筒に切手を貼ったもの、小松市のナンバープレートを同封し、郵送で小松市へ送付してください。廃車申告書については転出先市町村の廃車申告書をご利用いただいても構いません。■転出先の市町村でも廃車の手続きができます。転出先の市町村にお問い合わせください。★軽二輪(125ccを超250cc以下)、二輪の小型自動車(250cc超)■市役所ではお取り扱いしておりませんので、北陸信越運輸局 石川運輸支局へお問い合わせください。(連絡先)〒920-8213 金沢市直江東1丁目1番北陸信越運輸局 石川運輸支局 電話050-5540-2045★軽三輪・軽四輪(660cc以下)■市役所ではお取り扱いしておりませんので、軽自動車検査協会 石川県事務所へお問い合わせくだください。(連絡先)〒920-8213 金沢市直江東2丁目123番地1軽自動車検査協会 石川県事務所 電話050-3816-1853【税務課 税総合窓口グループ】(直通)0761-24-8029(内線)3124・3135【南支所】(直通)0761-44-2535(内線)2700【小松駅前行政サービスセンター】(直通)0761-23-2323(内線)4307
I received a notice about a light car a while after I moved out of Komatsu City (A).
○市章(昭和33年10月1日制定)マチダのマの字2つをもって田の字型に図案化して、市民の和合団結を表しています。中央の鳥型は、平和と発展のしるしです。○市の木・けやき(昭和47年6月15日制定)日本原産で、武蔵野・相模を代表する落葉高木。空に向かって枝を広げ、すくすく伸びゆく風格ある姿は発展する町田市を表す木として、「市の木」選定の際にも高い人気を得ました。市内にも随所にけやき並木が整備され、市民に憩いをあたえています。○市の花・サルビア(昭和47年6月15日制定)ブラジル原産。シソ科の一年草。夏から秋にかけて、公園や街路などで鮮やかな紅色の花を咲かせます。エネルギッシュな容姿は町田市の若さとバイタリティを表しています。市内各地の花壇に植えられ、幅広く市民に愛されています。○市の鳥・カワセミ(平成14年6月15日制定)全国に分布し、青緑色とオレンジ色の体、長いくちばしと短い尾を持つ野鳥です。多摩丘陵の源流都市である町田市のシンボルとしてふさわしいことから市の鳥に選定されました。
Q: 1296 I want to know the city emblem, city tree, city flower, and city bird.
所得に応じた免除基準としています。成人健康診査・がん検診とも前年度住民税非課税世帯の方・生活保護受給者・中国残留邦人等支援給付受給者であれば、自己負担金が免除となります。ただし、胃がんリスク検診(ABC検診)は、町田市では1回限りの検診であり、受診を勧奨する年齢を定めているため、30歳および40歳の方、生活保護受給者、中国残留邦人等支援給付受給者を免除としています。※胃がんリスク検診(ABC検診)の自己負担金免除の対象年齢は、2018年度までは、40歳以上で5歳刻みの年齢でした(40歳、45歳、50歳…)。
Question: 2358What are the criteria for waiving co-payments for cancer screenings and adult health screenings?
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 32per_device_eval_batch_size
: 32learning_rate
: 2e-05num_train_epochs
: 1warmup_ratio
: 0.1fp16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 32per_device_eval_batch_size
: 32per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseeval_use_gather_object
: Falsebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | intfloat/multilingual-e5-small_cosine_map@100 |
---|---|---|---|
0 | 0 | - | 0.0959 |
0.2174 | 100 | 0.9885 | 0.3907 |
0.4348 | 200 | 0.289 | 0.4250 |
0.6522 | 300 | 0.2513 | 0.4345 |
0.8696 | 400 | 0.2187 | 0.4409 |
Framework Versions
- Python: 3.8.10
- Sentence Transformers: 3.0.1
- Transformers: 4.44.2
- PyTorch: 2.1.2+cu121
- Accelerate: 0.32.0
- Datasets: 2.19.1
- Tokenizers: 0.19.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}