Spaces:

XufengDuan
/

HumanLikeness

Running

XufengDuan commited on Aug 19

Commit

1daafa6

•

1 Parent(s): 79cf136

update scripts

Files changed (2) hide show

src/display/about.py CHANGED Viewed

@@ -13,25 +13,25 @@ class Tasks(Enum):
     Overall = Task("overall_js_divergence", "overall_js_divergence", "Overall Humanlike %")
     Overall_ci = Task("overall_confidence_interval", "overall_confidence_interval", "Overall CI")
     E1 = Task("E1", "E1", "E1 Humanlike %")
-    E1_ci = Task("E1", "E1_ci", "E1 CI")
     E2 = Task("E2", "E2", "E2 Humanlike %")
-    E2_ci = Task("E2", "E2_ci", "E2 CI")
     E3 = Task("E3", "E3", "E3 Humanlike %")
-    E3_ci = Task("E3", "E3_ci", "E3 CI")
     E4 = Task("E4", "E4", "E4 Humanlike %")
-    E4_ci = Task("E4", "E4_ci", "E4 CI")
     E5 = Task("E5", "E5", "E5 Humanlike %")
-    E5_ci = Task("E5", "E5_ci", "E5 CI")
     E6 = Task("E6", "E6", "E6 Humanlike %")
-    E6_ci = Task("E6", "E6_ci", "E6 CI")
     E7 = Task("E7", "E7", "E7 Humanlike %")
-    E7_ci = Task("E7", "E7_ci", "E7 CI")
     E8 = Task("E8", "E8", "E8 Humanlike %")
-    E8_ci = Task("E8", "E8_ci", "E8 CI")
     E9 = Task("E9", "E9", "E9 Humanlike %")
-    E9_ci = Task("E9", "E9_ci", "E9 CI")
     E10 = Task("E10", "E10", "E10 Humanlike %")
-    E10_ci = Task("E10", "E10_ci", "E10 CI")
     # factual_consistency_rate = Task("factual_consistency_rate", "factual_consistency_rate", "Factual Consistency Rate (%)")
     # answer_rate = Task("answer_rate", "answer_rate", "Answer Rate (%)")

     Overall = Task("overall_js_divergence", "overall_js_divergence", "Overall Humanlike %")
     Overall_ci = Task("overall_confidence_interval", "overall_confidence_interval", "Overall CI")
     E1 = Task("E1", "E1", "E1 Humanlike %")
+    E1_ci = Task("E1_ci", "E1_ci", "E1 CI")
     E2 = Task("E2", "E2", "E2 Humanlike %")
+    E2_ci = Task("E2_ci", "E2_ci", "E2 CI")
     E3 = Task("E3", "E3", "E3 Humanlike %")
+    E3_ci = Task("E3_ci", "E3_ci", "E3 CI")
     E4 = Task("E4", "E4", "E4 Humanlike %")
+    E4_ci = Task("E4_ci", "E4_ci", "E4 CI")
     E5 = Task("E5", "E5", "E5 Humanlike %")
+    E5_ci = Task("E5_ci", "E5_ci", "E5 CI")
     E6 = Task("E6", "E6", "E6 Humanlike %")
+    E6_ci = Task("E6_ci", "E6_ci", "E6 CI")
     E7 = Task("E7", "E7", "E7 Humanlike %")
+    E7_ci = Task("E7_ci", "E7_ci", "E7 CI")
     E8 = Task("E8", "E8", "E8 Humanlike %")
+    E8_ci = Task("E8_ci", "E8_ci", "E8 CI")
     E9 = Task("E9", "E9", "E9 Humanlike %")
+    E9_ci = Task("E9_ci", "E9_ci", "E9 CI")
     E10 = Task("E10", "E10", "E10 Humanlike %")
+    E10_ci = Task("E10_ci", "E10_ci", "E10 CI")
     # factual_consistency_rate = Task("factual_consistency_rate", "factual_consistency_rate", "Factual Consistency Rate (%)")
     # answer_rate = Task("answer_rate", "answer_rate", "Answer Rate (%)")

src/leaderboard/read_evals.py CHANGED Viewed

@@ -77,7 +77,7 @@ class EvalResult:
             if isinstance(task.metric, str):
                 # accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if
                 #                  task.benchmark == k and isinstance(v, dict)])
-                accs = np.array([v for k, v in data["results"].items() if task.benchmark == k])
                 # 过滤掉 None 值，确保 accs 只包含有效的数值
                 accs = accs[accs != None]

             if isinstance(task.metric, str):
                 # accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if
                 #                  task.benchmark == k and isinstance(v, dict)])
+                accs = np.array([np.around(v, decimals=3) for k, v in data["results"].items() if task.benchmark == k])
                 # 过滤掉 None 值，确保 accs 只包含有效的数值
                 accs = accs[accs != None]