sh1gechan commited on
Commit
2d437d4
1 Parent(s): f673ebe

Update LLM_BENCHMARKS_TEXT_JP

Browse files
Files changed (1) hide show
  1. src/about.py +83 -0
src/about.py CHANGED
@@ -225,6 +225,89 @@ To reproduce our results, please follow the instructions of the evalution tool,
225
 
226
  """
227
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
228
  EVALUATION_QUEUE_TEXT = """
229
  ## Some good practices before submitting a model
230
 
 
225
 
226
  """
227
 
228
+ LLM_BENCHMARKS_TEXT_JP = """
229
+ ## 仕組み
230
+ 📈 私たちは評価ツール [llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) を活用し、16のタスクで日本語の大規模言語モデルを評価します。このツールは、様々な評価タスクで日本語LLMを評価するための統一的なフレームワークです。
231
+
232
+ **NLI(自然言語推論)**
233
+
234
+ * `Jamp`、時間推論に焦点を当てた日本語NLIベンチマーク [ソース](https://github.com/tomo-ut/temporalNLI_dataset)(ライセンス CC BY-SA 4.0)
235
+
236
+ * `JaNLI`、日本語の敵対的推論データセット [ソース](https://github.com/verypluming/JaNLI)(ライセンス CC BY-SA 4.0)
237
+
238
+ * `JNLI`、日本語自然言語推論(JGLUEの一部)[ソース](https://github.com/yahoojapan/JGLUE)(ライセンス CC BY-SA 4.0)
239
+
240
+ * `JSeM`、日本語意味論テストセット [ソース](https://github.com/DaisukeBekki/JSeM)(ライセンス BSD 3-Clause)
241
+
242
+ * `JSICK`、構成的知識を含む日本語文 [ソース](https://github.com/verypluming/JSICK)(ライセンス CC BY-SA 4.0)
243
+
244
+ **QA(質問応答)**
245
+
246
+ * `JEMHopQA`、日本語の説明可能なマルチホップ質問応答 [ソース](https://github.com/aiishii/JEMHopQA)(ライセンス CC BY-SA 4.0)
247
+
248
+ * `NIILC`、NIILC質問応答データセット [ソース](https://github.com/mynlp/niilc-qa)(ライセンス CC BY-SA 4.0)
249
+
250
+ * `JAQKET`、クイズを題材とした日本語QAデータセット [ソース](https://www.nlp.ecei.tohoku.ac.jp/projects/jaqket/)(ライセンス CC BY-SA 4.0 - 企業利用には別途ライセンスが必要)
251
+
252
+ **RC(読解)**
253
+
254
+ * `JSQuAD`、SQuADの日本語版(JGLUEの一部)[ソース](https://github.com/yahoojapan/JGLUE)(ライセンス CC BY-SA 4.0)
255
+
256
+ **MC(選択式質問応答)**
257
+
258
+ * `JCommonsenseMorality`、常識的な道徳理解を評価する日本語データセット [ソース](https://github.com/Language-Media-Lab/commonsense-moral-ja)(ライセンス MIT License)
259
+
260
+ * `JCommonsenseQA`、CommonsenseQAの日本語版 [ソース](https://github.com/yahoojapan/JGLUE)(ライセンス CC BY-SA 4.0)
261
+
262
+ * `KUCI`、京都大学常識推論データセット [ソース](https://github.com/ku-nlp/KUCI)(ライセンス CC BY-SA 4.0)
263
+
264
+ **EL(エンティティリンク)**
265
+
266
+ * `chABSA`、アスペクトベースの感情分析データセット [ソース](https://github.com/chakki-works/chABSA-dataset)(ライセンス CC BY-SA 4.0)
267
+
268
+ **FA(基本的な分析)**
269
+
270
+ * `Wikipedia Annotated Corpus`、[ソース](https://github.com/ku-nlp/WikipediaAnnotatedCorpus)(ライセンス CC BY-SA 4.0)
271
+
272
+ タスク一覧:(読解予測、固有表現認識(NER)、依存構造解析、述語項構造解析(PAS)、共参照解析)
273
+
274
+ **MR(数学的推論)**
275
+
276
+ * `MAWPS`、MAWPS(A Math Word Problem Repository)の日本語版 [ソース](https://github.com/nlp-waseda/chain-of-thought-ja-dataset)(ライセンス Apache-2.0)
277
+
278
+ * `MGSM`、MGSM(Multilingual Grade School Math Benchmark)の日本語部分 [ソース](https://huggingface.co/datasets/juletxara/mgsm)(ライセンス MIT License)
279
+
280
+ **MT(機械翻訳)**
281
+
282
+ * `ALT`、アジア言語ツリーバンク(ALT) - 並列コーパス [ソース](https://www2.nict.go.jp/astrec-att/member/mutiyama/ALT/index.html)(ライセンス CC BY-SA 4.0)
283
+
284
+ * `WikiCorpus`、京都市に関するWikipedia記事の日本語-英語対訳コーパス [ソース](https://alaginrc.nict.go.jp/WikiCorpus/)(ライセンス CC BY-SA 3.0)
285
+
286
+ **STS(意味的テキスト類似度)**
287
+
288
+ このタスクはllm-jp-evalでサポートされていますが、評価スコアの平均には含まれていません。
289
+
290
+ * `JSTS`、STS(Semantic Textual Similarity)の日本語版(JGLUEの一部)[ソース](https://github.com/yahoojapan/JGLUE)(ライセンス CC BY-SA 4.0)
291
+
292
+ **HE(人間の試験)**
293
+
294
+ * `MMLU`、大規模マルチタスク言語理解の測定 [ソース](https://github.com/hendrycks/test)(ライセンス MIT License)
295
+
296
+ * `JMMLU`、日本語大規模マルチタスク言語理解ベンチマーク [ソース](https://github.com/nlp-waseda/JMMLU)(ライセンス CC BY-SA 4.0(3つのタスクはCC BY-NC-ND 4.0ライセンス)
297
+
298
+ **CG(コード生成)**
299
+
300
+ * `MBPP`、Mostly Basic Python Problems(MBPP)の日本語版 [ソース](https://huggingface.co/datasets/llm-jp/mbpp-ja)(ライセンス CC BY-SA 4.0)
301
+
302
+ **SUM(要約)**
303
+
304
+ * `XL-Sum`、44言語の大規模な多言語抽象要約 [ソース](https://github.com/csebuetnlp/xl-sum)(ライセンス CC BY-NC-SA 4.0、非商用ライセンスのため、このデータセットは使用しません。ライセンスと利用規約に明確に同意した場合を除きます)
305
+
306
+ ## 再現性
307
+ 私たちの結果を再現するには、評価ツール **llm-jp-eval** の指示に従ってください。詳細は [日本語](https://github.com/llm-jp/llm-jp-eval/blob/main/README.md) と [英語](https://github.com/llm-jp/llm-jp-eval/blob/main/README_en.md) でご覧いただけます。
308
+ """
309
+
310
+
311
  EVALUATION_QUEUE_TEXT = """
312
  ## Some good practices before submitting a model
313