Spaces:

sparse-generative-ai
/

open-moe-llm-leaderboard

Running

App Files Files Community

3v324v23 commited on Apr 15

Commit

4736a54

•

1 Parent(s): 7ccbd33

simple fix of columns

Browse files

Files changed (3) hide show

app.py +2 -2
src/display/utils.py +15 -8
src/populate.py +4 -4

app.py CHANGED Viewed

@@ -156,7 +156,7 @@ with demo:
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
-        with gr.TabItem("MOE-LLM-GPU-Poor-Leaderboard Benchmark", elem_id="llm-benchmark-tab-table", id=0):
             with gr.Row():
                 with gr.Column():
                     with gr.Row():
@@ -324,7 +324,7 @@ with demo:
                     value=None,
                     interactive=True,
                 )
             with gr.Row():
                 with gr.Column():
                     model_name_textbox = gr.Textbox(label="Model name")

     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
+        with gr.TabItem("open-moe-llm-leaderboard", elem_id="llm-benchmark-tab-table", id=0):
             with gr.Row():
                 with gr.Column():
                     with gr.Row():
                     value=None,
                     interactive=True,
                 )
             with gr.Row():
                 with gr.Column():
                     model_name_textbox = gr.Textbox(label="Model name")

src/display/utils.py CHANGED Viewed

@@ -7,6 +7,11 @@ import pandas as pd
 def fields(raw_class):
     return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
 @dataclass
 class Task:
@@ -46,7 +51,7 @@ class Tasks(Enum):
     # # XXX include me back at some point
     selfcheck = Task("selfcheckgpt", "max-selfcheckgpt", "SelfCheckGPT")
-    mmlu = Task("mmlu", "acc", "MMLU/Acc (5-shot)")
 # These classes are for user facing column names,
@@ -71,20 +76,22 @@ auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "ma
 # # auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Avg", "number", True)])
 # Inference framework
-auto_eval_column_dict.append(["inference_framework", ColumnContent, ColumnContent("Inference framework", "str", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
     # System performance metrics
-    auto_eval_column_dict.append([f"{task.name}_end_to_end_time", ColumnContent, ColumnContent(f"{task.value.col_name} End-to-end time (s)", "number", True)])
-    auto_eval_column_dict.append([f"{task.name}_prefilling_time", ColumnContent, ColumnContent(f"{task.value.col_name} Prefilling time (s)", "number", True)])
-    auto_eval_column_dict.append([f"{task.name}_decoding_throughput", ColumnContent, ColumnContent(f"{task.value.col_name} Decoding throughput (tok/s)", "number", True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
 auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
 auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
@@ -144,7 +151,7 @@ class InferenceFramework(Enum):
     def to_str(self):
         return self.value.name
     @staticmethod
     def from_str(inference_framework: str):
         if inference_framework in ["moe-infinity"]:
@@ -152,7 +159,7 @@ class InferenceFramework(Enum):
         if inference_framework in ["hf-chat"]:
             return InferenceFramework.HF_Chat
         return InferenceFramework.Unknown
 class WeightType(Enum):
     Adapter = ModelDetails("Adapter")

 def fields(raw_class):
     return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
+E2Es = "E2E(s)" #"End-to-end time (s)"
+PREs = "PRE(s)" #"Prefilling time (s)"
+TS = "T/s" #Decoding throughput (tok/s)
+InFrame = "Method" #"Inference framework"
+MULTIPLE_CHOICEs = ["mmlu"]
 @dataclass
 class Task:
     # # XXX include me back at some point
     selfcheck = Task("selfcheckgpt", "max-selfcheckgpt", "SelfCheckGPT")
+    mmlu = Task("mmlu", "acc", "MMLU") #MMLU/Acc (5-shot)
 # These classes are for user facing column names,
 # # auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Avg", "number", True)])
 # Inference framework
+auto_eval_column_dict.append(["inference_framework", ColumnContent, ColumnContent(f"{InFrame}", "str", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
     # System performance metrics
+    auto_eval_column_dict.append([f"{task.name}_end_to_end_time", ColumnContent, ColumnContent(f"{task.value.col_name}-{E2Es}", "number", True)])
+    if task.value.benchmark in MULTIPLE_CHOICEs:
+        continue
+    auto_eval_column_dict.append([f"{task.name}_prefilling_time", ColumnContent, ColumnContent(f"{task.value.col_name}-{PREs}", "number", True)])
+    auto_eval_column_dict.append([f"{task.name}_decoding_throughput", ColumnContent, ColumnContent(f"{task.value.col_name}-{TS}", "number", True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
+auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", True)])
 auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
 auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
     def to_str(self):
         return self.value.name
     @staticmethod
     def from_str(inference_framework: str):
         if inference_framework in ["moe-infinity"]:
         if inference_framework in ["hf-chat"]:
             return InferenceFramework.HF_Chat
         return InferenceFramework.Unknown
 class WeightType(Enum):
     Adapter = ModelDetails("Adapter")

src/populate.py CHANGED Viewed

@@ -12,7 +12,7 @@ from src.leaderboard.read_evals import get_raw_eval_results, EvalResult, update_
 from src.backend.envs import Tasks as BackendTasks
 from src.display.utils import Tasks
 def get_leaderboard_df(
     results_path: str,
@@ -47,9 +47,9 @@ def get_leaderboard_df(
     # bm_to_name_map = {bm: name for name, bm in name_to_bm_map.items()}
     system_metrics_to_name_map = {
-        "end_to_end_time": "End-to-end time (s)",
-        "prefilling_time": "Prefilling time (s)",
-        "decoding_throughput": "Decoding throughput (tok/s)",
     }
     all_data_json = []

 from src.backend.envs import Tasks as BackendTasks
 from src.display.utils import Tasks
+from src.display.utils import E2Es, PREs, TS
 def get_leaderboard_df(
     results_path: str,
     # bm_to_name_map = {bm: name for name, bm in name_to_bm_map.items()}
     system_metrics_to_name_map = {
+        "end_to_end_time": f"{E2Es}",
+        "prefilling_time": f"{PREs}",
+        "decoding_throughput": f"{TS}",
     }
     all_data_json = []