Spaces:

upstage
/

open-ko-llm-leaderboard

Running on CPU Upgrade

jihoo-kim commited on Aug 13

Commit

1b269d7

•

1 Parent(s): e6cfe9b

fix read_evals

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -100,15 +100,14 @@ class EvalResult:
                 ko_ifeval = data["results"]["ko_ifeval"]
                 accs = np.mean([ko_ifeval["prompt_level_strict_acc,none"], ko_ifeval["inst_level_strict_acc,none"]])
                 mean_acc = np.mean(accs) * 100.0
-                results[task.benchmark] = mean_acc
             if task.benchmark in ["ko_winogrande", "ko_gsm8k", "ko_eqbench", "kornat_common", "kornat_social", "kornat_harmless", "kornat_helpful", "ko_gpqa_diamond_zeroshot"]:
                 accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if task.benchmark == k])
                 if accs.size == 0 or any([acc is None for acc in accs]):
                     continue
                 if task.benchmark not in ["ko_eqbench"]:
                     mean_acc = accs[0] * 100.0
             results[task.benchmark] = mean_acc
         return self(

                 ko_ifeval = data["results"]["ko_ifeval"]
                 accs = np.mean([ko_ifeval["prompt_level_strict_acc,none"], ko_ifeval["inst_level_strict_acc,none"]])
                 mean_acc = np.mean(accs) * 100.0
             if task.benchmark in ["ko_winogrande", "ko_gsm8k", "ko_eqbench", "kornat_common", "kornat_social", "kornat_harmless", "kornat_helpful", "ko_gpqa_diamond_zeroshot"]:
                 accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if task.benchmark == k])
                 if accs.size == 0 or any([acc is None for acc in accs]):
                     continue
                 if task.benchmark not in ["ko_eqbench"]:
                     mean_acc = accs[0] * 100.0
+                else:
+                    mean_acc = accs[0]
             results[task.benchmark] = mean_acc
         return self(