GLuCoSE-base-ja / README_JA.md
akiFQC's picture
update: weight and readme
625ec27
metadata
pipeline_tag: sentence-similarity
language: ja
license: apache-2.0
tags:
  - transformers
  - sentence-similarity
  - feature-extraction
  - sentence-transformers
inference: false
datasets:
  - mc4
  - clips/mqa
  - shunk031/JGLUE
  - paws-x
  - MoritzLaurer/multilingual-NLI-26lang-2mil7
  - castorini/mr-tydi
  - hpprc/jsick

GLuCoSE (General Luke-based COntrastive Sentence Embedding)-base-Japanese

English README/英語のREADME

GLuCoSE (General LUke-based COntrastive Sentence Embedding, "ぐるこーす")はLUKEをベースにした日本語のテキスト埋め込みモデルです。汎用的で気軽に使えるテキスト埋め込みモデルを目指して、Webデータと自然言語推論や検索などの複数のデータセットを組み合わせたデータで学習されています。文ベクトルの類似度タスクだけでなく意味検索タスクにもお使いいただけます。

  • 最大トークン数: 512
  • 出力次元数: 768
  • pooling: mean pooling
  • 対応言語: 日本語

使い方

sentence-transformersを使って、このモデルを簡単に利用することができます。

下記のように、pipでsentence-transformersをインストールしてください。

pip install -U sentence-transformers

下記のようにモデルをロードして、文を密なベクトルに変換することができます。

from sentence_transformers import SentenceTransformer
sentences = [
    "PKSHA Technologyは機械学習/深層学習技術に関わるアルゴリズムソリューションを展開している。",
    "この深層学習モデルはPKSHA Technologyによって学習され、公開された。",
    "広目天は、仏教における四天王の一尊であり、サンスクリット語の「種々の眼をした者」を名前の由来とする。",
]

model = SentenceTransformer('pkshatech/GLuCoSE-base-ja')
embeddings = model.encode(sentences)
print(embeddings)

学習時の損失関数にcosine類似度を使っているため、下流のタスクでcosine類似度を類似度計算に使うことをおすすめします。

LangChainでもこのテキスト埋め込みモデルを利用することができます。こちらのページを参考にしてください。

使用したリソース

このモデルの学習に下記の資源を使用しています。

事前学習モデル

データセット

ベンチマーク

意味的類似度計算 (JSTS dev set)

Spearmanの相関係数、Pearsonの相関係数で評価

モデル Spearman Pearson
text-embedding-ada-002 0.837[^2] 0.790[^2]
pkshatech/simcse-ja-bert-base-clcmlp[^3] 0.850 0.801
pkshatech/GLuCoSE-base-ja 0.864 0.818

zero-shot 検索(第3回AI王 dev set)

top-k retrieval accuracy[^4] (検索された上位k個の文書に少なくとも1回は正解が含まれる問題の割合)で評価

モデル Top-1 Top-5 Top-10 Top-50
text-embedding-ada-002 33.50 57.80 65.10 76.60
pkshatech/simcse-ja-bert-base-clcmlp[^3] 30.60 54.50 62.50 76.70
pkshatech/GLuCoSE-base-ja 36.10 59.40 66.40 78.30

Authors

Akihiko Fukuchi, Yuichiroh Hoshino, Yotarow Watanabe

ライセンス

このモデルは Apache License, Version 2.0の下で公開されています。

[^1]: モデル学習時には、JGLUEのテストデータが公開されていなかったため、プライベートな評価データとしてJGLUEのdev setを使用していました。そのため、玉突き的にJGLUEのtrain setでcheckpointを選択しています。
[^2]: https://qiita.com/akeyhero/items/ce371bfed64399027c23
[^3]: このモデルの前にPKSHA Technologyが公開したモデルです。
[^4]: 詳しくは、https://arxiv.org/pdf/2004.04906.pdf を参照してください。