Spaces:

llm-jp
/

open-japanese-llm-leaderboard

Running on CPU Upgrade

App Files Files Community

sh1gechan commited on Oct 16

Commit

2d437d4

•

1 Parent(s): f673ebe

Update LLM_BENCHMARKS_TEXT_JP

Browse files

Files changed (1) hide show

src/about.py +83 -0

src/about.py CHANGED Viewed

@@ -225,6 +225,89 @@ To reproduce our results, please follow the instructions of the evalution tool,
 """
 EVALUATION_QUEUE_TEXT = """
 ## Some good practices before submitting a model

 """
+LLM_BENCHMARKS_TEXT_JP = """
+## 仕組み
+📈 私たちは評価ツール [llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) を活用し、16のタスクで日本語の大規模言語モデルを評価します。このツールは、様々な評価タスクで日本語LLMを評価するための統一的なフレームワークです。
+**NLI（自然言語推論）**
+* `Jamp`、時間推論に焦点を当てた日本語NLIベンチマーク [ソース](https://github.com/tomo-ut/temporalNLI_dataset)（ライセンス CC BY-SA 4.0）
+* `JaNLI`、日本語の敵対的推論データセット [ソース](https://github.com/verypluming/JaNLI)（ライセンス CC BY-SA 4.0）
+* `JNLI`、日本語自然言語推論（JGLUEの一部）[ソース](https://github.com/yahoojapan/JGLUE)（ライセンス CC BY-SA 4.0）
+* `JSeM`、日本語意味論テストセット [ソース](https://github.com/DaisukeBekki/JSeM)（ライセンス BSD 3-Clause）
+* `JSICK`、構成的知識を含む日本語文 [ソース](https://github.com/verypluming/JSICK)（ライセンス CC BY-SA 4.0）
+**QA（質問応答）**
+* `JEMHopQA`、日本語の説明可能なマルチホップ質問応答 [ソース](https://github.com/aiishii/JEMHopQA)（ライセンス CC BY-SA 4.0）
+* `NIILC`、NIILC質問応答データセット [ソース](https://github.com/mynlp/niilc-qa)（ライセンス CC BY-SA 4.0）
+* `JAQKET`、クイズを題材とした日本語QAデータセット [ソース](https://www.nlp.ecei.tohoku.ac.jp/projects/jaqket/)（ライセンス CC BY-SA 4.0 - 企業利用には別途ライセンスが必要）
+**RC（読解）**
+* `JSQuAD`、SQuADの日本語版（JGLUEの一部）[ソース](https://github.com/yahoojapan/JGLUE)（ライセンス CC BY-SA 4.0）
+**MC（選択式質問応答）**
+* `JCommonsenseMorality`、常識的な道徳理解を評価する日本語データセット [ソース](https://github.com/Language-Media-Lab/commonsense-moral-ja)（ライセンス MIT License）
+* `JCommonsenseQA`、CommonsenseQAの日本語版 [ソース](https://github.com/yahoojapan/JGLUE)（ライセンス CC BY-SA 4.0）
+* `KUCI`、京都大学常識推論データセット [ソース](https://github.com/ku-nlp/KUCI)（ライセンス CC BY-SA 4.0）
+**EL（エンティティリンク）**
+* `chABSA`、アスペクトベースの感情分析データセット [ソース](https://github.com/chakki-works/chABSA-dataset)（ライセンス CC BY-SA 4.0）
+**FA（基本的な分析）**
+* `Wikipedia Annotated Corpus`、[ソース](https://github.com/ku-nlp/WikipediaAnnotatedCorpus)（ライセンス CC BY-SA 4.0）
+タスク一覧：（読解予測、固有表現認識（NER）、依存構造解析、述語項構造解析（PAS）、共参照解析）
+**MR（数学的推論）**
+* `MAWPS`、MAWPS（A Math Word Problem Repository）の日本語版 [ソース](https://github.com/nlp-waseda/chain-of-thought-ja-dataset)（ライセンス Apache-2.0）
+* `MGSM`、MGSM（Multilingual Grade School Math Benchmark）の日本語部分 [ソース](https://huggingface.co/datasets/juletxara/mgsm)（ライセンス MIT License）
+**MT（機械翻訳）**
+* `ALT`、アジア言語ツリーバンク（ALT） - 並列コーパス [ソース](https://www2.nict.go.jp/astrec-att/member/mutiyama/ALT/index.html)（ライセンス CC BY-SA 4.0）
+* `WikiCorpus`、京都市に関するWikipedia記事の日本語-英語対訳コーパス [ソース](https://alaginrc.nict.go.jp/WikiCorpus/)（ライセンス CC BY-SA 3.0）
+**STS（意味的テキスト類似度）**
+このタスクはllm-jp-evalでサポートされていますが、評価スコアの平均には含まれていません。
+* `JSTS`、STS（Semantic Textual Similarity）の日本語版（JGLUEの一部）[ソース](https://github.com/yahoojapan/JGLUE)（ライセンス CC BY-SA 4.0）
+**HE（人間の試験）**
+* `MMLU`、大規模マルチタスク言語理解の測定 [ソース](https://github.com/hendrycks/test)（ライセンス MIT License）
+* `JMMLU`、日本語大規模マルチタスク言語理解ベンチマーク [ソース](https://github.com/nlp-waseda/JMMLU)（ライセンス CC BY-SA 4.0（3つのタスクはCC BY-NC-ND 4.0ライセンス）
+**CG（コード生成）**
+* `MBPP`、Mostly Basic Python Problems（MBPP）の日本語版 [ソース](https://huggingface.co/datasets/llm-jp/mbpp-ja)（ライセンス CC BY-SA 4.0）
+**SUM（要約）**
+* `XL-Sum`、44言語の大規模な多言語抽象要約 [ソース](https://github.com/csebuetnlp/xl-sum)（ライセンス CC BY-NC-SA 4.0、非商用ライセンスのため、このデータセットは使用しません。ライセンスと利用規約に明確に同意した場合を除きます）
+## 再現性
+私たちの結果を再現するには、評価ツール **llm-jp-eval** の指示に従ってください。詳細は [日本語](https://github.com/llm-jp/llm-jp-eval/blob/main/README.md) と [英語](https://github.com/llm-jp/llm-jp-eval/blob/main/README_en.md) でご覧いただけます。
+"""
 EVALUATION_QUEUE_TEXT = """
 ## Some good practices before submitting a model