leaderboard

Running on CPU Upgrade

Quentin Gallouédec commited on Apr 7

Commit

de52ad3

•

1 Parent(s): 2339ca6

log raw results

Files changed (2) hide show

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ import os
 import pprint
 import gradio as gr
 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
 from huggingface_hub import snapshot_download
@@ -119,7 +120,7 @@ def get_leaderboard_df():
         model_id = report["config"]["model_id"]
         row = {"Agent": model_id, "Status": report["status"]}
         if report["status"] == "DONE":
-            results = {env_id: result["episodic_return_mean"] for env_id, result in report["results"].items()}
             row.update(results)
         data.append(row)

 import pprint
 import gradio as gr
+import numpy as np
 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
 from huggingface_hub import snapshot_download
         model_id = report["config"]["model_id"]
         row = {"Agent": model_id, "Status": report["status"]}
         if report["status"] == "DONE":
+            results = {env_id: np.mean(result["episodic_return"]) for env_id, result in report["results"].items()}
             row.update(results)
         data.append(row)

src/evaluation.py CHANGED Viewed

@@ -268,10 +268,8 @@ def evaluate(model_id, revision):
                 for info in infos["final_info"]:
                     if info is None or "episode" not in info:
                         continue
-                    episodic_returns.append(info["episode"]["r"])
-        mean_reward = float(np.mean(episodic_returns))
-        std_reward = float(np.std(episodic_returns))
-        results[env_id] = {"episodic_return_mean": mean_reward, "episodic_reward_std": std_reward}
-        logger.info(f"Environment {env_id}: {mean_reward} ± {std_reward}")
     return results

                 for info in infos["final_info"]:
                     if info is None or "episode" not in info:
                         continue
+                    episodic_returns.append(float(info["episode"]["r"]))
+        results[env_id] = {"episodic_returns": episodic_returns}
+        logger.info(f"Environment {env_id}: {np.mean(episodic_returns)} ± {np.mean(episodic_returns)}")
     return results