Spaces:
Running
on
CPU Upgrade
Running
on
CPU Upgrade
Update LLM_BENCHMARKS_TEXT_JP
Browse files- src/about.py +83 -0
src/about.py
CHANGED
@@ -225,6 +225,89 @@ To reproduce our results, please follow the instructions of the evalution tool,
|
|
225 |
|
226 |
"""
|
227 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
228 |
EVALUATION_QUEUE_TEXT = """
|
229 |
## Some good practices before submitting a model
|
230 |
|
|
|
225 |
|
226 |
"""
|
227 |
|
228 |
+
LLM_BENCHMARKS_TEXT_JP = """
|
229 |
+
## 仕組み
|
230 |
+
📈 私たちは評価ツール [llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) を活用し、16のタスクで日本語の大規模言語モデルを評価します。このツールは、様々な評価タスクで日本語LLMを評価するための統一的なフレームワークです。
|
231 |
+
|
232 |
+
**NLI(自然言語推論)**
|
233 |
+
|
234 |
+
* `Jamp`、時間推論に焦点を当てた日本語NLIベンチマーク [ソース](https://github.com/tomo-ut/temporalNLI_dataset)(ライセンス CC BY-SA 4.0)
|
235 |
+
|
236 |
+
* `JaNLI`、日本語の敵対的推論データセット [ソース](https://github.com/verypluming/JaNLI)(ライセンス CC BY-SA 4.0)
|
237 |
+
|
238 |
+
* `JNLI`、日本語自然言語推論(JGLUEの一部)[ソース](https://github.com/yahoojapan/JGLUE)(ライセンス CC BY-SA 4.0)
|
239 |
+
|
240 |
+
* `JSeM`、日本語意味論テストセット [ソース](https://github.com/DaisukeBekki/JSeM)(ライセンス BSD 3-Clause)
|
241 |
+
|
242 |
+
* `JSICK`、構成的知識を含む日本語文 [ソース](https://github.com/verypluming/JSICK)(ライセンス CC BY-SA 4.0)
|
243 |
+
|
244 |
+
**QA(質問応答)**
|
245 |
+
|
246 |
+
* `JEMHopQA`、日本語の説明可能なマルチホップ質問応答 [ソース](https://github.com/aiishii/JEMHopQA)(ライセンス CC BY-SA 4.0)
|
247 |
+
|
248 |
+
* `NIILC`、NIILC質問応答データセット [ソース](https://github.com/mynlp/niilc-qa)(ライセンス CC BY-SA 4.0)
|
249 |
+
|
250 |
+
* `JAQKET`、クイズを題材とした日本語QAデータセット [ソース](https://www.nlp.ecei.tohoku.ac.jp/projects/jaqket/)(ライセンス CC BY-SA 4.0 - 企業利用には別途ライセンスが必要)
|
251 |
+
|
252 |
+
**RC(読解)**
|
253 |
+
|
254 |
+
* `JSQuAD`、SQuADの日本語版(JGLUEの一部)[ソース](https://github.com/yahoojapan/JGLUE)(ライセンス CC BY-SA 4.0)
|
255 |
+
|
256 |
+
**MC(選択式質問応答)**
|
257 |
+
|
258 |
+
* `JCommonsenseMorality`、常識的な道徳理解を評価する日本語データセット [ソース](https://github.com/Language-Media-Lab/commonsense-moral-ja)(ライセンス MIT License)
|
259 |
+
|
260 |
+
* `JCommonsenseQA`、CommonsenseQAの日本語版 [ソース](https://github.com/yahoojapan/JGLUE)(ライセンス CC BY-SA 4.0)
|
261 |
+
|
262 |
+
* `KUCI`、京都大学常識推論データセット [ソース](https://github.com/ku-nlp/KUCI)(ライセンス CC BY-SA 4.0)
|
263 |
+
|
264 |
+
**EL(エンティティリンク)**
|
265 |
+
|
266 |
+
* `chABSA`、アスペクトベースの感情分析データセット [ソース](https://github.com/chakki-works/chABSA-dataset)(ライセンス CC BY-SA 4.0)
|
267 |
+
|
268 |
+
**FA(基本的な分析)**
|
269 |
+
|
270 |
+
* `Wikipedia Annotated Corpus`、[ソース](https://github.com/ku-nlp/WikipediaAnnotatedCorpus)(ライセンス CC BY-SA 4.0)
|
271 |
+
|
272 |
+
タスク一覧:(読解予測、固有表現認識(NER)、依存構造解析、述語項構造解析(PAS)、共参照解析)
|
273 |
+
|
274 |
+
**MR(数学的推論)**
|
275 |
+
|
276 |
+
* `MAWPS`、MAWPS(A Math Word Problem Repository)の日本語版 [ソース](https://github.com/nlp-waseda/chain-of-thought-ja-dataset)(ライセンス Apache-2.0)
|
277 |
+
|
278 |
+
* `MGSM`、MGSM(Multilingual Grade School Math Benchmark)の日本語部分 [ソース](https://huggingface.co/datasets/juletxara/mgsm)(ライセンス MIT License)
|
279 |
+
|
280 |
+
**MT(機械翻訳)**
|
281 |
+
|
282 |
+
* `ALT`、アジア言語ツリーバンク(ALT) - 並列コーパス [ソース](https://www2.nict.go.jp/astrec-att/member/mutiyama/ALT/index.html)(ライセンス CC BY-SA 4.0)
|
283 |
+
|
284 |
+
* `WikiCorpus`、京都市に関するWikipedia記事の日本語-英語対訳コーパス [ソース](https://alaginrc.nict.go.jp/WikiCorpus/)(ライセンス CC BY-SA 3.0)
|
285 |
+
|
286 |
+
**STS(意味的テキスト類似度)**
|
287 |
+
|
288 |
+
このタスクはllm-jp-evalでサポートされていますが、評価スコアの平均には含まれていません。
|
289 |
+
|
290 |
+
* `JSTS`、STS(Semantic Textual Similarity)の日本語版(JGLUEの一部)[ソース](https://github.com/yahoojapan/JGLUE)(ライセンス CC BY-SA 4.0)
|
291 |
+
|
292 |
+
**HE(人間の試験)**
|
293 |
+
|
294 |
+
* `MMLU`、大規模マルチタスク言語理解の測定 [ソース](https://github.com/hendrycks/test)(ライセンス MIT License)
|
295 |
+
|
296 |
+
* `JMMLU`、日本語大規模マルチタスク言語理解ベンチマーク [ソース](https://github.com/nlp-waseda/JMMLU)(ライセンス CC BY-SA 4.0(3つのタスクはCC BY-NC-ND 4.0ライセンス)
|
297 |
+
|
298 |
+
**CG(コード生成)**
|
299 |
+
|
300 |
+
* `MBPP`、Mostly Basic Python Problems(MBPP)の日本語版 [ソース](https://huggingface.co/datasets/llm-jp/mbpp-ja)(ライセンス CC BY-SA 4.0)
|
301 |
+
|
302 |
+
**SUM(要約)**
|
303 |
+
|
304 |
+
* `XL-Sum`、44言語の大規模な多言語抽象要約 [ソース](https://github.com/csebuetnlp/xl-sum)(ライセンス CC BY-NC-SA 4.0、非商用ライセンスのため、このデータセットは使用しません。ライセンスと利用規約に明確に同意した場合を除きます)
|
305 |
+
|
306 |
+
## 再現性
|
307 |
+
私たちの結果を再現するには、評価ツール **llm-jp-eval** の指示に従ってください。詳細は [日本語](https://github.com/llm-jp/llm-jp-eval/blob/main/README.md) と [英語](https://github.com/llm-jp/llm-jp-eval/blob/main/README_en.md) でご覧いただけます。
|
308 |
+
"""
|
309 |
+
|
310 |
+
|
311 |
EVALUATION_QUEUE_TEXT = """
|
312 |
## Some good practices before submitting a model
|
313 |
|