PPO playing QbertNoFrameskip-v4 from https://github.com/sgoodfriend/rl-algo-impls/tree/e47a44c4d891f48885af0b1605b30d19fc67b5af

Browse files

Files changed (5) hide show

README.md +10 -10
benchmark_publish.py +19 -2
huggingface_publish.py +7 -2
replay.meta.json +1 -1
replay.mp4 +0 -0

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 library_name: rl-algo-impls
 tags:
-- impala-QbertNoFrameskip-v4
 - ppo
 - deep-reinforcement-learning
 - reinforcement-learning
@@ -10,18 +10,18 @@ model-index:
   results:
   - metrics:
     - type: mean_reward
-      value: 15240.62 +/- 265.29
       name: mean_reward
     task:
       type: reinforcement-learning
       name: reinforcement-learning
     dataset:
-      name: impala-QbertNoFrameskip-v4
-      type: impala-QbertNoFrameskip-v4
 ---
-# **PPO** Agent playing **impala-QbertNoFrameskip-v4**
-This is a trained model of a **PPO** agent playing **impala-QbertNoFrameskip-v4** using the [/sgoodfriend/rl-algo-impls](https://github.com/sgoodfriend/rl-algo-impls) repo.
 All models trained at this commit can be found at https://api.wandb.ai/links/sgoodfriend/v4wd7cp5.
@@ -31,9 +31,9 @@ This model was trained from 3 trainings of **PPO** agents using different initia
 | algo   | env                 |   seed |   reward_mean |   reward_std |   eval_episodes | best   | wandb_url                                                                    |
 |:-------|:--------------------|-------:|--------------:|-------------:|----------------:|:-------|:-----------------------------------------------------------------------------|
-| ppo    | QbertNoFrameskip-v4 |      1 |       11943.8 |     4029.82  |              16 |        | [wandb](https://wandb.ai/sgoodfriend/rl-algo-impls-benchmarks/runs/2oimcnrm) |
-| ppo    | QbertNoFrameskip-v4 |      2 |       15240.6 |      265.294 |              16 | *      | [wandb](https://wandb.ai/sgoodfriend/rl-algo-impls-benchmarks/runs/cd50ih0p) |
-| ppo    | QbertNoFrameskip-v4 |      3 |       13973.4 |     3085.77  |              16 |        | [wandb](https://wandb.ai/sgoodfriend/rl-algo-impls-benchmarks/runs/oiccxep8) |
 ### Prerequisites: Weights & Biases (WandB)
@@ -72,7 +72,7 @@ commit the agent was trained on: [e47a44c](https://github.com/sgoodfriend/rl-alg
 training is deterministic, different hardware will give different results.
 ```
-python train.py --algo ppo --env impala-QbertNoFrameskip-v4 --seed 2
 ```
 Setup hasn't been completely worked out yet, so you might be best served by using Google

 ---
 library_name: rl-algo-impls
 tags:
+- QbertNoFrameskip-v4
 - ppo
 - deep-reinforcement-learning
 - reinforcement-learning
   results:
   - metrics:
     - type: mean_reward
+      value: 14873.44 +/- 1014.52
       name: mean_reward
     task:
       type: reinforcement-learning
       name: reinforcement-learning
     dataset:
+      name: QbertNoFrameskip-v4
+      type: QbertNoFrameskip-v4
 ---
+# **PPO** Agent playing **QbertNoFrameskip-v4**
+This is a trained model of a **PPO** agent playing **QbertNoFrameskip-v4** using the [/sgoodfriend/rl-algo-impls](https://github.com/sgoodfriend/rl-algo-impls) repo.
 All models trained at this commit can be found at https://api.wandb.ai/links/sgoodfriend/v4wd7cp5.
 | algo   | env                 |   seed |   reward_mean |   reward_std |   eval_episodes | best   | wandb_url                                                                    |
 |:-------|:--------------------|-------:|--------------:|-------------:|----------------:|:-------|:-----------------------------------------------------------------------------|
+| ppo    | QbertNoFrameskip-v4 |      1 |       12565.6 |      3873.01 |              16 |        | [wandb](https://wandb.ai/sgoodfriend/rl-algo-impls-benchmarks/runs/2oimcnrm) |
+| ppo    | QbertNoFrameskip-v4 |      2 |       14873.4 |      1014.52 |              16 | *      | [wandb](https://wandb.ai/sgoodfriend/rl-algo-impls-benchmarks/runs/cd50ih0p) |
+| ppo    | QbertNoFrameskip-v4 |      3 |       14429.7 |      3595.16 |              16 |        | [wandb](https://wandb.ai/sgoodfriend/rl-algo-impls-benchmarks/runs/oiccxep8) |
 ### Prerequisites: Weights & Biases (WandB)
 training is deterministic, different hardware will give different results.
 ```
+python train.py --algo ppo --env QbertNoFrameskip-v4 --seed 2
 ```
 Setup hasn't been completely worked out yet, so you might be best served by using Google

benchmark_publish.py CHANGED Viewed

@@ -32,6 +32,12 @@ if __name__ == "__main__":
     parser.add_argument(
         "--envs", type=str, nargs="*", help="Optional filter down to these envs"
     )
     parser.add_argument(
         "--huggingface-user",
         type=str,
@@ -44,9 +50,14 @@ if __name__ == "__main__":
         default=3,
         help="How many publish jobs can run in parallel",
     )
     # parser.set_defaults(
-    #     wandb_tags=["benchmark_5598ebc", "host_192-9-145-26"],
-    #     wandb_report_url="https://api.wandb.ai/links/sgoodfriend/6p2sjqtn",
     # )
     args = parser.parse_args()
     print(args)
@@ -65,10 +76,14 @@ if __name__ == "__main__":
     runs_paths_by_group = defaultdict(list)
     for r in runs:
         algo = r.config["algo"]
         env = r.config["env"]
         if args.envs and env not in args.envs:
             continue
         run_group = RunGroup(algo, env)
         runs_paths_by_group[run_group].append("/".join(r.path))
@@ -81,6 +96,8 @@ if __name__ == "__main__":
         if args.huggingface_user:
             publish_args.append("--huggingface-user")
             publish_args.append(args.huggingface_user)
         subprocess.run(publish_args)
     tp = ThreadPool(args.pool_size)

     parser.add_argument(
         "--envs", type=str, nargs="*", help="Optional filter down to these envs"
     )
+    parser.add_argument(
+        "--exclude-envs",
+        type=str,
+        nargs="*",
+        help="Environments to exclude from publishing",
+    )
     parser.add_argument(
         "--huggingface-user",
         type=str,
         default=3,
         help="How many publish jobs can run in parallel",
     )
+    parser.add_argument(
+        "--virtual-display", action="store_true", help="Use headless virtual display"
+    )
     # parser.set_defaults(
+    #     wandb_tags=["benchmark_e47a44c", "host_129-146-2-230"],
+    #     wandb_report_url="https://api.wandb.ai/links/sgoodfriend/v4wd7cp5",
+    #     envs=[],
+    #     exclude_envs=[],
     # )
     args = parser.parse_args()
     print(args)
     runs_paths_by_group = defaultdict(list)
     for r in runs:
+        if r.state != "finished":
+            continue
         algo = r.config["algo"]
         env = r.config["env"]
         if args.envs and env not in args.envs:
             continue
+        if args.exclude_envs and env in args.exclude_envs:
+            continue
         run_group = RunGroup(algo, env)
         runs_paths_by_group[run_group].append("/".join(r.path))
         if args.huggingface_user:
             publish_args.append("--huggingface-user")
             publish_args.append(args.huggingface_user)
+        if args.virtual_display:
+            publish_args.append("--virtual-display")
         subprocess.run(publish_args)
     tp = ThreadPool(args.pool_size)

huggingface_publish.py CHANGED Viewed

@@ -29,9 +29,11 @@ def publish(
     wandb_report_url: str,
     huggingface_user: Optional[str] = None,
     huggingface_token: Optional[str] = None,
 ) -> None:
-    virtual_display = Display(visible=False, size=(1400, 900))
-    virtual_display.start()
     api = wandb.Api()
     runs = [api.run(rp) for rp in wandb_run_paths]
@@ -178,6 +180,9 @@ if __name__ == "__main__":
         help="Huggingface user or team to upload model cards",
         default=None,
     )
     args = parser.parse_args()
     print(args)
     publish(**vars(args))

     wandb_report_url: str,
     huggingface_user: Optional[str] = None,
     huggingface_token: Optional[str] = None,
+    virtual_display: bool = False,
 ) -> None:
+    if virtual_display:
+        display = Display(visible=False, size=(1400, 900))
+        display.start()
     api = wandb.Api()
     runs = [api.run(rp) for rp in wandb_run_paths]
         help="Huggingface user or team to upload model cards",
         default=None,
     )
+    parser.add_argument(
+        "--virtual-display", action="store_true", help="Use headless virtual display"
+    )
     args = parser.parse_args()
     print(args)
     publish(**vars(args))

replay.meta.json CHANGED Viewed

@@ -1 +1 @@

- {"content_type": "video/mp4", "encoder_version": {"backend": "ffmpeg", "version": "b'ffmpeg version 5.1.2 Copyright (c) 2000-2022 the FFmpeg developers\\nbuilt with clang version 14.0.6\\nconfiguration: --prefix=/Users/runner/miniforge3/conda-bld/ffmpeg_1671040513231/_h_env_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_pl --cc=arm64-apple-darwin20.0.0-clang --cxx=arm64-apple-darwin20.0.0-clang++ --nm=arm64-apple-darwin20.0.0-nm --ar=arm64-apple-darwin20.0.0-ar --disable-doc --disable-openssl --enable-demuxer=dash --enable-hardcoded-tables --enable-libfreetype --enable-libfontconfig --enable-libopenh264 --enable-cross-compile --arch=arm64 --target-os=darwin --cross-prefix=arm64-apple-darwin20.0.0- --host-cc=/Users/runner/miniforge3/conda-bld/ffmpeg_1671040513231/_build_env/bin/x86_64-apple-darwin13.4.0-clang --enable-neon --enable-gnutls --enable-libmp3lame --enable-libvpx --enable-pthreads --enable-gpl --enable-libx264 --enable-libx265 --enable-libaom --enable-libsvtav1 --enable-libxml2 --enable-pic --enable-shared --disable-static --enable-version3 --enable-zlib --pkg-config=/Users/runner/miniforge3/conda-bld/ffmpeg_1671040513231/_build_env/bin/pkg-config\\nlibavutil 57. 28.100 / 57. 28.100\\nlibavcodec 59. 37.100 / 59. 37.100\\nlibavformat 59. 27.100 / 59. 27.100\\nlibavdevice 59. 7.100 / 59. 7.100\\nlibavfilter 8. 44.100 / 8. 44.100\\nlibswscale 6. 7.100 / 6. 7.100\\nlibswresample 4. 7.100 / 4. 7.100\\nlibpostproc 56. 6.100 / 56. 6.100\\n'", "cmdline": ["ffmpeg", "-nostats", "-loglevel", "error", "-y", "-f", "rawvideo", "-s:v", "160x210", "-pix_fmt", "rgb24", "-framerate", "30", "-i", "-", "-vf", "scale=trunc(iw/2)*2:trunc(ih/2)*2", "-vcodec", "libx264", "-pix_fmt", "yuv420p", "-r", "30", "/var/folders/9g/my5557_91xddp6lx00nkzly80000gn/T/~~tmp9phousk1~~/ppo-impala-QbertNoFrameskip-v4/replay.mp4"]}, "episode": {"r": ~~15175~~.0, "l": ~~7245~~, "t": 28.~~449924~~}}

+ {"content_type": "video/mp4", "encoder_version": {"backend": "ffmpeg", "version": "b'ffmpeg version 5.1.2 Copyright (c) 2000-2022 the FFmpeg developers\\nbuilt with clang version 14.0.6\\nconfiguration: --prefix=/Users/runner/miniforge3/conda-bld/ffmpeg_1671040513231/_h_env_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_placehold_pl --cc=arm64-apple-darwin20.0.0-clang --cxx=arm64-apple-darwin20.0.0-clang++ --nm=arm64-apple-darwin20.0.0-nm --ar=arm64-apple-darwin20.0.0-ar --disable-doc --disable-openssl --enable-demuxer=dash --enable-hardcoded-tables --enable-libfreetype --enable-libfontconfig --enable-libopenh264 --enable-cross-compile --arch=arm64 --target-os=darwin --cross-prefix=arm64-apple-darwin20.0.0- --host-cc=/Users/runner/miniforge3/conda-bld/ffmpeg_1671040513231/_build_env/bin/x86_64-apple-darwin13.4.0-clang --enable-neon --enable-gnutls --enable-libmp3lame --enable-libvpx --enable-pthreads --enable-gpl --enable-libx264 --enable-libx265 --enable-libaom --enable-libsvtav1 --enable-libxml2 --enable-pic --enable-shared --disable-static --enable-version3 --enable-zlib --pkg-config=/Users/runner/miniforge3/conda-bld/ffmpeg_1671040513231/_build_env/bin/pkg-config\\nlibavutil 57. 28.100 / 57. 28.100\\nlibavcodec 59. 37.100 / 59. 37.100\\nlibavformat 59. 27.100 / 59. 27.100\\nlibavdevice 59. 7.100 / 59. 7.100\\nlibavfilter 8. 44.100 / 8. 44.100\\nlibswscale 6. 7.100 / 6. 7.100\\nlibswresample 4. 7.100 / 4. 7.100\\nlibpostproc 56. 6.100 / 56. 6.100\\n'", "cmdline": ["ffmpeg", "-nostats", "-loglevel", "error", "-y", "-f", "rawvideo", "-s:v", "160x210", "-pix_fmt", "rgb24", "-framerate", "30", "-i", "-", "-vf", "scale=trunc(iw/2)*2:trunc(ih/2)*2", "-vcodec", "libx264", "-pix_fmt", "yuv420p", "-r", "30", "/var/folders/9g/my5557_91xddp6lx00nkzly80000gn/T/tmp35vo3ma2/ppo-impala-QbertNoFrameskip-v4/replay.mp4"]}, "episode": {"r": 14875.0, "l": 7868, "t": 30.871071}}

replay.mp4 CHANGED Viewed

Binary files a/replay.mp4 and b/replay.mp4 differ