Spaces:

upstage
/

open-ko-llm-leaderboard

Running on CPU Upgrade

Sean Cho commited on Sep 14, 2023

Commit

150c99b

•

1 Parent(s): f1b022c

update evaluation fields

Files changed (2) hide show

app.py CHANGED Viewed

@@ -77,6 +77,8 @@ BENCHMARK_COLS = [
         AutoEvalColumn.hellaswag,
         AutoEvalColumn.mmlu,
         AutoEvalColumn.truthfulqa,
     ]
 ]

         AutoEvalColumn.hellaswag,
         AutoEvalColumn.mmlu,
         AutoEvalColumn.truthfulqa,
+        AutoEvalColumn.commongen,
+        AutoEvalColumn.ethicalverification,
     ]
 ]

src/display_models/read_results.py CHANGED Viewed

@@ -9,13 +9,13 @@ import numpy as np
 from src.display_models.utils import AutoEvalColumn, make_clickable_model
 METRICS = ["acc_norm", "acc_norm", "acc", "mc2"]
-BENCHMARKS = ["arc:challenge", "hellaswag", "hendrycksTest", "truthfulqa:mc", "commongen", "ethicalverification"]
 BENCH_TO_NAME = {
-    "arc:challenge": AutoEvalColumn.arc.name,
-    "hellaswag": AutoEvalColumn.hellaswag.name,
-    "hendrycksTest": AutoEvalColumn.mmlu.name,
-    "truthfulqa:mc": AutoEvalColumn.truthfulqa.name,
-    "commongen": AutoEvalColumn.commongen.name,
     "ethicalverification": AutoEvalColumn.ethicalverification.name,
 }
@@ -66,10 +66,6 @@ def parse_eval_result(json_filepath: str) -> Tuple[str, list[dict]]:
     with open(json_filepath) as fp:
         data = json.load(fp)
-    for mmlu_k in ["harness|hendrycksTest-abstract_algebra|5", "hendrycksTest-abstract_algebra"]:
-        if mmlu_k in data["versions"] and data["versions"][mmlu_k] == 0:
-            return None, []  # we skip models with the wrong version
     try:
         config = data["config"]
     except KeyError:

 from src.display_models.utils import AutoEvalColumn, make_clickable_model
 METRICS = ["acc_norm", "acc_norm", "acc", "mc2"]
+BENCHMARKS = ["ko_arc_challenge", "ko_hellaswag", "ko_mmlu", "ko_truthfulqa:mc", "ko_commongen", "ethicalverification"]
 BENCH_TO_NAME = {
+    "ko_arc_challenge": AutoEvalColumn.arc.name,
+    "ko_hellaswag": AutoEvalColumn.hellaswag.name,
+    "ko_mmlu": AutoEvalColumn.mmlu.name,
+    "ko_truthfulqa:mc": AutoEvalColumn.truthfulqa.name,
+    "ko_commongen": AutoEvalColumn.commongen.name,
     "ethicalverification": AutoEvalColumn.ethicalverification.name,
 }
     with open(json_filepath) as fp:
         data = json.load(fp)
     try:
         config = data["config"]
     except KeyError: