Spaces:

SUSTech
/

tlem

Running

Zhuoyang Song commited on Nov 25, 2023

Commit

e637e0c

•

1 Parent(s): 868c1b2

FIX: extraction func of C-Eval; logging metrics

Files changed (1) hide show

tasks.py CHANGED Viewed

@@ -149,14 +149,15 @@ class Task:
             return
         self.outputs = outputs
         try:
-            result = self.metric._compute(
-                responses=outputs, references=self.dataset[self.label_column]
-            )
         except Exception as e:
-            result = self.metric.compute(
-                responses=outputs, references=self.dataset[self.label_column]
-            )
-        finally:
             result = outputs
         # if log:
         #     name = name or pipeline.__name__
@@ -188,7 +189,7 @@ class Metrics:
     mmlu = multichoice
     def ceval(responses: list[str], answers: list[str | int]):
-        responses = [first_capital_postprocess(pred) for pred in responses]
         return responses, answers
     def winogrande(responses: list[str], answers: list[str | int]):
@@ -892,7 +893,7 @@ class CEVAL:
         prefix = (
             f"以下是中国关于{_ch_name}考试的单项选择题，请选出其中的正确答案。\n"
             if chat
-            else "问题"
         )
         prompt = prefix + f'{example["question"]}'
@@ -1043,6 +1044,7 @@ class CEVAL:
         suite = defaultdict(list)
         cls.categories = defaultdict(list)
         for task, info in cls.ceval_subject_mapping.items():
             cls.categories[info[2]].append(task)
         cls.categories["all"] = list(cls.ceval_subject_mapping.keys())
         for k, v in cls.categories.items():

             return
         self.outputs = outputs
         try:
+            try:
+                result = self.metric._compute(
+                    responses=outputs, references=self.dataset[self.label_column]
+                )
+            except Exception as e:
+                result = self.metric.compute(
+                    responses=outputs, references=self.dataset[self.label_column]
+                )
         except Exception as e:
             result = outputs
         # if log:
         #     name = name or pipeline.__name__
     mmlu = multichoice
     def ceval(responses: list[str], answers: list[str | int]):
+        responses = [extract_choice_zh(pred) for pred in responses]
         return responses, answers
     def winogrande(responses: list[str], answers: list[str | int]):
         prefix = (
             f"以下是中国关于{_ch_name}考试的单项选择题，请选出其中的正确答案。\n"
             if chat
+            else "问题："
         )
         prompt = prefix + f'{example["question"]}'
         suite = defaultdict(list)
         cls.categories = defaultdict(list)
         for task, info in cls.ceval_subject_mapping.items():
+            cls.categories[info[0]].append(task)
             cls.categories[info[2]].append(task)
         cls.categories["all"] = list(cls.ceval_subject_mapping.keys())
         for k, v in cls.categories.items():