open_pl_llm_leaderboard

Running on CPU Upgrade

djstrong commited on Jun 13

Commit

45551c3

•

1 Parent(s): 28627fa

missing

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -469,12 +469,18 @@ def get_raw_eval_results(results_path: str, requests_path: str, metadata) -> lis
     print(f"Missing sbatch results:")
     for r in for_run:
-        fm=r[2].replace(',multiturn','')
         if ',chat' in fm:
             fm=fm.replace(',chat','')
-            print(f'sbatch start.sh "bash eval_model_task_bs1_chat.sh {r[0]} {r[1]} {fm}"')
-        else:
-            print(f'sbatch start.sh "bash eval_model_task_bs1.sh {r[0]} {r[1]} {fm}"')
     # print('missing_results_for_task', missing_results_for_task)
     for task, models in missing_results_for_task.items():

     print(f"Missing sbatch results:")
     for r in for_run:
+        if r[0]==5 and r[1] in ['polish_eqbench']: continue
+        fm=r[2]
+        script='bash eval_model_task_bs1.sh'
         if ',chat' in fm:
+            script='bash eval_model_task_bs1_chat.sh'
             fm=fm.replace(',chat','')
+        if ',multiturn' in fm:
+            script='bash eval_model_task_bs1_chat_few.sh'
+            fm=fm.replace(',multiturn','')
+        print(f'sbatch start.sh "bash {script} {r[0]} {r[1]} {fm}"')
     # print('missing_results_for_task', missing_results_for_task)
     for task, models in missing_results_for_task.items():