--- language: - ja library_name: sentence-transformers tags: - sentence-transformers - feature-extraction base_model: cl-nagoya/ruri-reranker-stage1-base widget: [] pipeline_tag: text-classification license: apache-2.0 datasets: - cl-nagoya/ruri-dataset-reranker --- # Ruri-Reranker: Japanese General Reranker ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import CrossEncoder # Download from the 🤗 Hub model = CrossEncoder("cl-nagoya/ruri-reranker-base") inputs = [ [ "瑠璃色はどんな色?", "瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。", ], [ "瑠璃色はどんな色?", "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。", ], [ "ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?", "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。", ], [ "ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?", "瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。", ], ] scores = model.predict(inputs) print(scores) # [0.9999751 0.29104844 0.9993649 0.00193745] result = model.rank( query="瑠璃色はどんな色?", documents=[ "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。", "瑠璃、または琉璃(るり)は、仏教の七宝の一つ。サンスクリットの vaiḍūrya またはそのプラークリット形の音訳である。金緑石のこととも、ラピスラズリであるともいう[1]。", "瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。", ], ) print(result) # [ # {'corpus_id': 2, 'score': 0.9999751}, # {'corpus_id': 1, 'score': 0.9356678}, # {'corpus_id': 0, 'score': 0.29104844}, # ] ``` ## Benchmarks |Model|#Param.(w/oEmb.)|JQaRA|JaCWIR|MIRACL| |:-|:-:|:-:|:-:|:-:| |[hotchpotch/japanese-reranker-cross-encoder-xsmall-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-xsmall-v1)|107M(11M)|61.4|93.8|90.6| |[hotchpotch/japanese-reranker-cross-encoder-small-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-small-v1)|118M(21M)|62.5|93.9|92.2| |[hotchpotch/japanese-reranker-cross-encoder-base-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-base-v1)|111M(86M)|67.1|93.4|93.3| |[hotchpotch/japanese-reranker-cross-encoder-large-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-large-v1)|337M(303M)|71.0|93.6|91.5| |[hotchpotch/japanese-bge-reranker-v2-m3-v1](https://huggingface.co/hotchpotch/japanese-bge-reranker-v2-m3-v1)|568M(303M)|69.2|93.7|94.7| |[BAAI/bge-reranker-v2-m3](https://huggingface.co/BAAI/bge-reranker-v2-m3)|568M(303M)|67.3|93.4|94.9| |||||| |[Ruri-Reranker-Small](https://huggingface.co/cl-nagoya/ruri-reranker-small)|68M(43M)|64.5|92.6|92.3| |[**Ruri-Reranker-Base**](https://huggingface.co/cl-nagoya/ruri-reranker-base) (this model)|111M(86M)|74.3|93.5|95.6| |[Ruri-Reranker-Large](https://huggingface.co/cl-nagoya/ruri-reranker-large)|337M(303M)|**77.1**|**94.1**|**96.1**| ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [cl-nagoya/ruri-reranker-stage1-base](https://huggingface.co/cl-nagoya/ruri-reranker-stage1-base) - **Maximum Sequence Length:** 512 tokens - **Language:** Japanese - **License:** Apache 2.0 - **Paper:** https://arxiv.org/abs/2409.07737 ## Training Details ### Framework Versions - Python: 3.10.13 - Sentence Transformers: 3.0.0 - Transformers: 4.41.2 - PyTorch: 2.3.1+cu118 - Accelerate: 0.30.1 - Datasets: 2.19.1 - Tokenizers: 0.19.1 ## License This model is published under the [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0).