Edit model card

studio-ousia/luke-japanese-baseに対して次の変更を加えたモデルです。

  • ベースのモデルをRoBERTaから日本語BERTに切り替え、それに伴ってトークナイザがSentencepieceからWordPieceになりました
  • 2023年7月1日時点の日本語Wikipediaのデータで事前学習をおこないました
  • [UNK] (unknown) エンティティを扱えるようにしました

詳細はブログ記事をご参照ください。

使用方法

from transformers import AutoTokenizer, AutoModel

# 本モデル用のトークナイザのコードを使用するため、trust_remote_code=True の指定が必要です
tokenizer = AutoTokenizer.from_pretrained("uzabase/luke-japanese-wordpiece-base", trust_remote_code=True)

model = AutoModel.from_pretrained("uzabase/luke-japanese-wordpiece-base")

更新情報

  • 2023/11/28: 以下の更新を行いました。
    • トークナイザが transformers v4.34.0 以降で読み込み不可となっていた問題を修正しました。
    • トークナイザの出力に position_ids を含めるように変更しました。
      • 以前は LUKE のモデルが 自動的に付与 する position_ids が使われていましたが、これは RoBERTa 仕様のものであり、BERT を使った本モデルでは正しい値となっていませんでした。そこで、 BERT 向けの正しい position_ids の値がモデルに入力されるように、position_ids を明示的にトークナイザの出力に含めるようにしました。
    • トークナイザの entity_vocab の各トークン("[PAD]" 等の特殊トークンを除く)の先頭に付いていた "None:" の文字列を除去しました。
      • 例えば、 "None:聖徳太子" となっていたトークンは "聖徳太子" に修正されています。
  • 2023/09/07: モデルを公開しました。
Downloads last month
40
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.