{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "40bdc7b1",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-09T18:00:09.003413Z",
     "iopub.status.busy": "2024-05-09T18:00:09.003029Z",
     "iopub.status.idle": "2024-05-09T18:01:37.283679Z",
     "shell.execute_reply": "2024-05-09T18:01:37.282180Z"
    },
    "papermill": {
     "duration": 88.288872,
     "end_time": "2024-05-09T18:01:37.286405",
     "exception": false,
     "start_time": "2024-05-09T18:00:08.997533",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "%%capture\n",
    "!pip install stable-baselines3[extra]\n",
    "!pip install moviepy"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "11d448b7",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-09T18:01:37.295366Z",
     "iopub.status.busy": "2024-05-09T18:01:37.295016Z",
     "iopub.status.idle": "2024-05-09T18:02:03.459980Z",
     "shell.execute_reply": "2024-05-09T18:02:03.458980Z"
    },
    "papermill": {
     "duration": 26.172178,
     "end_time": "2024-05-09T18:02:03.462472",
     "exception": false,
     "start_time": "2024-05-09T18:01:37.290294",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "2024-05-09 18:01:48.527184: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered\n",
      "2024-05-09 18:01:48.527336: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered\n",
      "2024-05-09 18:01:48.802323: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered\n"
     ]
    }
   ],
   "source": [
    "from stable_baselines3 import DQN\n",
    "from stable_baselines3.common.monitor import Monitor\n",
    "from stable_baselines3.common.callbacks import BaseCallback, EvalCallback, CallbackList\n",
    "from stable_baselines3.common.logger import Video, HParam, TensorBoardOutputFormat\n",
    "from stable_baselines3.common.evaluation import evaluate_policy\n",
    "\n",
    "from typing import Any, Dict\n",
    "\n",
    "import gymnasium as gym\n",
    "import torch as th\n",
    "import numpy as np\n",
    "\n",
    "# =====File names=====\n",
    "MODEL_FILE_NAME = \"ALE-Pacman-v5\"\n",
    "BUFFER_FILE_NAME = \"dqn_replay_buffer_pacman_v1\"\n",
    "POLICY_FILE_NAME = \"dqn_policy_pacman_v1\"\n",
    "\n",
    "# =====Model Config=====\n",
    "# Evaluate in tenths\n",
    "EVAL_CALLBACK_FREQ = 150_000\n",
    "# Record in quarters (the last one won't record, will have to do manually)\n",
    "VIDEO_CALLBACK_FREQ = 375_000\n",
    "FRAMESKIP = 4\n",
    "NUM_TIMESTEPS = 1_500_000\n",
    "\n",
    "# =====Hyperparams=====\n",
    "EXPLORATION_FRACTION = 0.3\n",
    "# Buffer size needs to be less than about 60k in order to save it in a Kaggle instance\n",
    "BUFFER_SIZE = 60_000\n",
    "BATCH_SIZE = 8\n",
    "LEARNING_STARTS = 50_000\n",
    "LEARNING_RATE = 0.0002\n",
    "GAMMA = 0.999\n",
    "FINAL_EPSILON = 0.1\n",
    "# Target Update Interval is set to 10k by default and looks like it is set to \n",
    "# 4 in the Nature paper. This is a large discrepency and makes me wonder if it \n",
    "# is something different or measured differently...\n",
    "TARGET_UPDATE_INTERVAL = 1_000"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "4ba7523a",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-09T18:02:03.474643Z",
     "iopub.status.busy": "2024-05-09T18:02:03.471794Z",
     "iopub.status.idle": "2024-05-09T18:02:03.486049Z",
     "shell.execute_reply": "2024-05-09T18:02:03.485078Z"
    },
    "papermill": {
     "duration": 0.021952,
     "end_time": "2024-05-09T18:02:03.488296",
     "exception": false,
     "start_time": "2024-05-09T18:02:03.466344",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# VideoRecorderCallback\n",
    "# The VideoRecorderCallback should record a video of the agent in the evaluation environment\n",
    "# every render_freq timesteps. It will record one episode. It will also record one episode when\n",
    "# the training has been completed\n",
    "\n",
    "class VideoRecorderCallback(BaseCallback):\n",
    "    def __init__(self, eval_env: gym.Env, render_freq: int, n_eval_episodes: int = 1, deterministic: bool = True):\n",
    "        \"\"\"\n",
    "        Records a video of an agent's trajectory traversing ``eval_env`` and logs it to TensorBoard.\n",
    "        :param eval_env: A gym environment from which the trajectory is recorded\n",
    "        :param render_freq: Render the agent's trajectory every eval_freq call of the callback.\n",
    "        :param n_eval_episodes: Number of episodes to render\n",
    "        :param deterministic: Whether to use deterministic or stochastic policy\n",
    "        \"\"\"\n",
    "        super().__init__()\n",
    "        self._eval_env = eval_env\n",
    "        self._render_freq = render_freq\n",
    "        self._n_eval_episodes = n_eval_episodes\n",
    "        self._deterministic = deterministic\n",
    "\n",
    "    def _on_step(self) -> bool:\n",
    "        if self.n_calls % self._render_freq == 0:\n",
    "            screens = []\n",
    "\n",
    "            def grab_screens(_locals: Dict[str, Any], _globals: Dict[str, Any]) -> None:\n",
    "                \"\"\"\n",
    "                Renders the environment in its current state, recording the screen in the captured `screens` list\n",
    "                :param _locals: A dictionary containing all local variables of the callback's scope\n",
    "                :param _globals: A dictionary containing all global variables of the callback's scope\n",
    "                \"\"\"\n",
    "                screen = self._eval_env.render()\n",
    "                # PyTorch uses CxHxW vs HxWxC gym (and tensorflow) image convention\n",
    "                screens.append(screen.transpose(2, 0, 1))\n",
    "\n",
    "            evaluate_policy(\n",
    "                self.model,\n",
    "                self._eval_env,\n",
    "                callback=grab_screens,\n",
    "                n_eval_episodes=self._n_eval_episodes,\n",
    "                deterministic=self._deterministic,\n",
    "            )\n",
    "            self.logger.record(\n",
    "                \"trajectory/video\",\n",
    "                Video(th.from_numpy(np.array([screens])), fps=60),\n",
    "                exclude=(\"stdout\", \"log\", \"json\", \"csv\"),\n",
    "            )\n",
    "        return True"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "6e9ce6b2",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-09T18:02:03.496691Z",
     "iopub.status.busy": "2024-05-09T18:02:03.496101Z",
     "iopub.status.idle": "2024-05-09T18:02:03.508584Z",
     "shell.execute_reply": "2024-05-09T18:02:03.507632Z"
    },
    "papermill": {
     "duration": 0.019038,
     "end_time": "2024-05-09T18:02:03.510874",
     "exception": false,
     "start_time": "2024-05-09T18:02:03.491836",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# HParamCallback\n",
    "# This should log the hyperparameters specified and map the metrics that are logged to \n",
    "# the appropriate run.\n",
    "class HParamCallback(BaseCallback):\n",
    "    \"\"\"\n",
    "    Saves the hyperparameters and metrics at the start of the training, and logs them to TensorBoard.\n",
    "    \"\"\"    \n",
    "    def __init__(self):\n",
    "        super().__init__()\n",
    "        \n",
    "\n",
    "    def _on_training_start(self) -> None:\n",
    "                    \n",
    "        hparam_dict = {\n",
    "            \"algorithm\": self.model.__class__.__name__,\n",
    "            \"policy\": self.model.policy.__class__.__name__,\n",
    "            \"environment\": self.model.env.__class__.__name__,\n",
    "            \"buffer_size\": self.model.buffer_size,\n",
    "            \"batch_size\": self.model.batch_size,\n",
    "            \"tau\": self.model.tau,\n",
    "            \"gradient_steps\": self.model.gradient_steps,\n",
    "            \"target_update_interval\": self.model.target_update_interval,\n",
    "            \"exploration_fraction\": self.model.exploration_fraction,\n",
    "            \"exploration_initial_eps\": self.model.exploration_initial_eps,\n",
    "            \"exploration_final_eps\": self.model.exploration_final_eps,\n",
    "            \"max_grad_norm\": self.model.max_grad_norm,\n",
    "            \"tensorboard_log\": self.model.tensorboard_log,\n",
    "            \"seed\": self.model.seed,            \n",
    "            \"learning rate\": self.model.learning_rate,\n",
    "            \"gamma\": self.model.gamma,            \n",
    "        }\n",
    "        # define the metrics that will appear in the `HPARAMS` Tensorboard tab by referencing their tag\n",
    "        # Tensorbaord will find & display metrics from the `SCALARS` tab\n",
    "        metric_dict = {\n",
    "            \"eval/mean_ep_length\": 0,\n",
    "            \"eval/mean_reward\": 0,\n",
    "            \"rollout/ep_len_mean\": 0,\n",
    "            \"rollout/ep_rew_mean\": 0,\n",
    "            \"rollout/exploration_rate\": 0,\n",
    "            \"time/_episode_num\": 0,\n",
    "            \"time/fps\": 0,\n",
    "            \"time/total_timesteps\": 0,\n",
    "            \"train/learning_rate\": 0.0,\n",
    "            \"train/loss\": 0.0,\n",
    "            \"train/n_updates\": 0.0,\n",
    "            \"locals/rewards\": 0.0,\n",
    "            \"locals/infos_0_lives\": 0.0,\n",
    "            \"locals/num_collected_steps\": 0.0,\n",
    "            \"locals/num_collected_episodes\": 0.0\n",
    "            }\n",
    "                \n",
    "        self.logger.record(\n",
    "            \"hparams\",\n",
    "            HParam(hparam_dict, metric_dict),\n",
    "            exclude=(\"stdout\", \"log\", \"json\", \"csv\"),\n",
    "        )\n",
    "        \n",
    "    def _on_step(self) -> bool:\n",
    "        return True"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "b8ac4091",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-09T18:02:03.519233Z",
     "iopub.status.busy": "2024-05-09T18:02:03.518961Z",
     "iopub.status.idle": "2024-05-09T18:02:03.535767Z",
     "shell.execute_reply": "2024-05-09T18:02:03.534971Z"
    },
    "papermill": {
     "duration": 0.023342,
     "end_time": "2024-05-09T18:02:03.537637",
     "exception": false,
     "start_time": "2024-05-09T18:02:03.514295",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# PlotTensorboardValuesCallback\n",
    "# This callback should log values to tensorboard on every step. \n",
    "# The self.logger class should plot a new scalar value when recording.\n",
    "\n",
    "class PlotTensorboardValuesCallback(BaseCallback):\n",
    "    \"\"\"\n",
    "    Custom callback for plotting additional values in tensorboard.\n",
    "    \"\"\"\n",
    "    def __init__(self, eval_env: gym.Env, train_env: gym.Env, model: DQN, verbose=0):\n",
    "        super().__init__(verbose)\n",
    "        self._eval_env = eval_env\n",
    "        self._train_env = train_env\n",
    "        self._model = model\n",
    "\n",
    "    def _on_training_start(self) -> None:\n",
    "        output_formats = self.logger.output_formats\n",
    "        # Save reference to tensorboard formatter object\n",
    "        # note: the failure case (not formatter found) is not handled here, should be done with try/except.\n",
    "        try:\n",
    "            self.tb_formatter = next(formatter for formatter in output_formats if isinstance(formatter, TensorBoardOutputFormat))\n",
    "        except:\n",
    "            print(\"Exception thrown in tb_formatter initialization.\") \n",
    "            \n",
    "        self.tb_formatter.writer.add_text(\"metadata/eval_env\", str(self._eval_env.metadata), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()\n",
    "        self.tb_formatter.writer.add_text(\"metadata/train_env\", str(self._train_env.metadata), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()\n",
    "        self.tb_formatter.writer.add_text(\"model/q_net\", str(self._model.q_net), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()\n",
    "        self.tb_formatter.writer.add_text(\"model/q_net_target\", str(self._model.q_net_target), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()\n",
    "\n",
    "    def _on_step(self) -> bool:\n",
    "        self.logger.record(\"time/_episode_num\", self.model._episode_num, exclude=(\"stdout\", \"log\", \"json\", \"csv\"))\n",
    "        self.logger.record(\"train/n_updates\", self.model._n_updates, exclude=(\"stdout\", \"log\", \"json\", \"csv\"))\n",
    "        self.logger.record(\"locals/rewards\", self.locals[\"rewards\"], exclude=(\"stdout\", \"log\", \"json\", \"csv\"))\n",
    "        self.logger.record(\"locals/infos_0_lives\", self.locals[\"infos\"][0][\"lives\"], exclude=(\"stdout\", \"log\", \"json\", \"csv\"))\n",
    "        self.logger.record(\"locals/num_collected_steps\", self.locals[\"num_collected_steps\"], exclude=(\"stdout\", \"log\", \"json\", \"csv\"))\n",
    "        self.logger.record(\"locals/num_collected_episodes\", self.locals[\"num_collected_episodes\"], exclude=(\"stdout\", \"log\", \"json\", \"csv\"))\n",
    "                    \n",
    "        return True\n",
    "    \n",
    "    def _on_training_end(self) -> None:\n",
    "        self.tb_formatter.writer.add_text(\"metadata/eval_env\", str(self._eval_env.metadata), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()\n",
    "        self.tb_formatter.writer.add_text(\"metadata/train_env\", str(self._train_env.metadata), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()\n",
    "        self.tb_formatter.writer.add_text(\"model/q_net\", str(self._model.q_net), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()\n",
    "        self.tb_formatter.writer.add_text(\"model/q_net_target\", str(self._model.q_net_target), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "5ca046b9",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-09T18:02:03.545591Z",
     "iopub.status.busy": "2024-05-09T18:02:03.545270Z",
     "iopub.status.idle": "2024-05-09T18:02:06.280449Z",
     "shell.execute_reply": "2024-05-09T18:02:06.279259Z"
    },
    "papermill": {
     "duration": 2.741948,
     "end_time": "2024-05-09T18:02:06.283091",
     "exception": false,
     "start_time": "2024-05-09T18:02:03.541143",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "A.L.E: Arcade Learning Environment (version 0.8.1+53f58b7)\n",
      "[Powered by Stella]\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Using cuda device\n",
      "Wrapping the env with a `Monitor` wrapper\n",
      "Wrapping the env in a DummyVecEnv.\n",
      "Wrapping the env in a VecTransposeImage.\n"
     ]
    }
   ],
   "source": [
    "# make the training and evaluation environments\n",
    "eval_env = Monitor(gym.make(\"ALE/Pacman-v5\", render_mode=\"rgb_array\", frameskip=FRAMESKIP))\n",
    "train_env = gym.make(\"ALE/Pacman-v5\", render_mode=\"rgb_array\", frameskip=FRAMESKIP)\n",
    "\n",
    "# Make the model with specified hyperparams\n",
    "model = DQN(\n",
    "    \"CnnPolicy\",\n",
    "    train_env,\n",
    "    verbose=1,\n",
    "    buffer_size=BUFFER_SIZE,\n",
    "    exploration_fraction = EXPLORATION_FRACTION,\n",
    "    batch_size=BATCH_SIZE,\n",
    "    exploration_final_eps=FINAL_EPSILON,\n",
    "    gamma=GAMMA,\n",
    "    learning_starts=LEARNING_STARTS,\n",
    "    learning_rate=LEARNING_RATE,\n",
    "    target_update_interval=TARGET_UPDATE_INTERVAL,\n",
    "    tensorboard_log=\"./\",\n",
    "    )"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "1f8b3cfe",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-09T18:02:06.292074Z",
     "iopub.status.busy": "2024-05-09T18:02:06.291760Z",
     "iopub.status.idle": "2024-05-09T18:02:06.297848Z",
     "shell.execute_reply": "2024-05-09T18:02:06.296904Z"
    },
    "papermill": {
     "duration": 0.012971,
     "end_time": "2024-05-09T18:02:06.299805",
     "exception": false,
     "start_time": "2024-05-09T18:02:06.286834",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# Define the callbacks and put them in a list\n",
    "eval_callback = EvalCallback(\n",
    "    eval_env,\n",
    "    best_model_save_path=\"./best_model/\",\n",
    "    log_path=\"./evals/\",\n",
    "    eval_freq=EVAL_CALLBACK_FREQ,\n",
    "    n_eval_episodes=10,\n",
    "    deterministic=True,\n",
    "    render=False)\n",
    "\n",
    "tbplot_callback = PlotTensorboardValuesCallback(eval_env=eval_env, train_env=train_env, model=model)\n",
    "video_callback = VideoRecorderCallback(eval_env, render_freq=VIDEO_CALLBACK_FREQ)\n",
    "hparam_callback = HParamCallback()\n",
    "\n",
    "callback_list = CallbackList([hparam_callback, eval_callback, video_callback, tbplot_callback])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "2b190e66",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-09T18:02:06.308534Z",
     "iopub.status.busy": "2024-05-09T18:02:06.308235Z",
     "iopub.status.idle": "2024-05-09T20:05:47.256847Z",
     "shell.execute_reply": "2024-05-09T20:05:47.255726Z"
    },
    "papermill": {
     "duration": 7420.95558,
     "end_time": "2024-05-09T20:05:47.259228",
     "exception": false,
     "start_time": "2024-05-09T18:02:06.303648",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Logging to ././tb/_1\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/opt/conda/lib/python3.10/site-packages/stable_baselines3/common/callbacks.py:403: UserWarning: Training and eval env are not of the same type<stable_baselines3.common.vec_env.vec_transpose.VecTransposeImage object at 0x78b8446f26e0> != <stable_baselines3.common.vec_env.dummy_vec_env.DummyVecEnv object at 0x78b8446f0610>\n",
      "  warnings.warn(\"Training and eval env are not of the same type\" f\"{self.training_env} != {self.eval_env}\")\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 443      |\n",
      "|    ep_rew_mean      | 16.8     |\n",
      "|    exploration_rate | 0.996    |\n",
      "| time/               |          |\n",
      "|    episodes         | 4        |\n",
      "|    fps              | 575      |\n",
      "|    time_elapsed     | 3        |\n",
      "|    total_timesteps  | 1772     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 426      |\n",
      "|    ep_rew_mean      | 16.4     |\n",
      "|    exploration_rate | 0.993    |\n",
      "| time/               |          |\n",
      "|    episodes         | 8        |\n",
      "|    fps              | 593      |\n",
      "|    time_elapsed     | 5        |\n",
      "|    total_timesteps  | 3406     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 473      |\n",
      "|    ep_rew_mean      | 17.5     |\n",
      "|    exploration_rate | 0.989    |\n",
      "| time/               |          |\n",
      "|    episodes         | 12       |\n",
      "|    fps              | 605      |\n",
      "|    time_elapsed     | 9        |\n",
      "|    total_timesteps  | 5676     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 473      |\n",
      "|    ep_rew_mean      | 18       |\n",
      "|    exploration_rate | 0.985    |\n",
      "| time/               |          |\n",
      "|    episodes         | 16       |\n",
      "|    fps              | 608      |\n",
      "|    time_elapsed     | 12       |\n",
      "|    total_timesteps  | 7566     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 476      |\n",
      "|    ep_rew_mean      | 17.9     |\n",
      "|    exploration_rate | 0.981    |\n",
      "| time/               |          |\n",
      "|    episodes         | 20       |\n",
      "|    fps              | 610      |\n",
      "|    time_elapsed     | 15       |\n",
      "|    total_timesteps  | 9514     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 471      |\n",
      "|    ep_rew_mean      | 17.4     |\n",
      "|    exploration_rate | 0.977    |\n",
      "| time/               |          |\n",
      "|    episodes         | 24       |\n",
      "|    fps              | 611      |\n",
      "|    time_elapsed     | 18       |\n",
      "|    total_timesteps  | 11308    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 469      |\n",
      "|    ep_rew_mean      | 17.5     |\n",
      "|    exploration_rate | 0.974    |\n",
      "| time/               |          |\n",
      "|    episodes         | 28       |\n",
      "|    fps              | 613      |\n",
      "|    time_elapsed     | 21       |\n",
      "|    total_timesteps  | 13140    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 460      |\n",
      "|    ep_rew_mean      | 17       |\n",
      "|    exploration_rate | 0.971    |\n",
      "| time/               |          |\n",
      "|    episodes         | 32       |\n",
      "|    fps              | 612      |\n",
      "|    time_elapsed     | 24       |\n",
      "|    total_timesteps  | 14734    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 452      |\n",
      "|    ep_rew_mean      | 16.8     |\n",
      "|    exploration_rate | 0.967    |\n",
      "| time/               |          |\n",
      "|    episodes         | 36       |\n",
      "|    fps              | 613      |\n",
      "|    time_elapsed     | 26       |\n",
      "|    total_timesteps  | 16258    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 451      |\n",
      "|    ep_rew_mean      | 16.6     |\n",
      "|    exploration_rate | 0.964    |\n",
      "| time/               |          |\n",
      "|    episodes         | 40       |\n",
      "|    fps              | 614      |\n",
      "|    time_elapsed     | 29       |\n",
      "|    total_timesteps  | 18046    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 445      |\n",
      "|    ep_rew_mean      | 16.2     |\n",
      "|    exploration_rate | 0.961    |\n",
      "| time/               |          |\n",
      "|    episodes         | 44       |\n",
      "|    fps              | 615      |\n",
      "|    time_elapsed     | 31       |\n",
      "|    total_timesteps  | 19580    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 441      |\n",
      "|    ep_rew_mean      | 16       |\n",
      "|    exploration_rate | 0.958    |\n",
      "| time/               |          |\n",
      "|    episodes         | 48       |\n",
      "|    fps              | 614      |\n",
      "|    time_elapsed     | 34       |\n",
      "|    total_timesteps  | 21176    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 439      |\n",
      "|    ep_rew_mean      | 15.8     |\n",
      "|    exploration_rate | 0.954    |\n",
      "| time/               |          |\n",
      "|    episodes         | 52       |\n",
      "|    fps              | 615      |\n",
      "|    time_elapsed     | 37       |\n",
      "|    total_timesteps  | 22828    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 440      |\n",
      "|    ep_rew_mean      | 15.8     |\n",
      "|    exploration_rate | 0.951    |\n",
      "| time/               |          |\n",
      "|    episodes         | 56       |\n",
      "|    fps              | 616      |\n",
      "|    time_elapsed     | 39       |\n",
      "|    total_timesteps  | 24628    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 440      |\n",
      "|    ep_rew_mean      | 16       |\n",
      "|    exploration_rate | 0.947    |\n",
      "| time/               |          |\n",
      "|    episodes         | 60       |\n",
      "|    fps              | 616      |\n",
      "|    time_elapsed     | 42       |\n",
      "|    total_timesteps  | 26390    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 441      |\n",
      "|    ep_rew_mean      | 15.7     |\n",
      "|    exploration_rate | 0.944    |\n",
      "| time/               |          |\n",
      "|    episodes         | 64       |\n",
      "|    fps              | 616      |\n",
      "|    time_elapsed     | 45       |\n",
      "|    total_timesteps  | 28198    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 438      |\n",
      "|    ep_rew_mean      | 15.5     |\n",
      "|    exploration_rate | 0.94     |\n",
      "| time/               |          |\n",
      "|    episodes         | 68       |\n",
      "|    fps              | 616      |\n",
      "|    time_elapsed     | 48       |\n",
      "|    total_timesteps  | 29768    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 437      |\n",
      "|    ep_rew_mean      | 15.3     |\n",
      "|    exploration_rate | 0.937    |\n",
      "| time/               |          |\n",
      "|    episodes         | 72       |\n",
      "|    fps              | 617      |\n",
      "|    time_elapsed     | 51       |\n",
      "|    total_timesteps  | 31486    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 435      |\n",
      "|    ep_rew_mean      | 15.1     |\n",
      "|    exploration_rate | 0.934    |\n",
      "| time/               |          |\n",
      "|    episodes         | 76       |\n",
      "|    fps              | 615      |\n",
      "|    time_elapsed     | 53       |\n",
      "|    total_timesteps  | 33066    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 434      |\n",
      "|    ep_rew_mean      | 15.2     |\n",
      "|    exploration_rate | 0.931    |\n",
      "| time/               |          |\n",
      "|    episodes         | 80       |\n",
      "|    fps              | 616      |\n",
      "|    time_elapsed     | 56       |\n",
      "|    total_timesteps  | 34682    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 434      |\n",
      "|    ep_rew_mean      | 15.1     |\n",
      "|    exploration_rate | 0.927    |\n",
      "| time/               |          |\n",
      "|    episodes         | 84       |\n",
      "|    fps              | 616      |\n",
      "|    time_elapsed     | 59       |\n",
      "|    total_timesteps  | 36468    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 433      |\n",
      "|    ep_rew_mean      | 15.1     |\n",
      "|    exploration_rate | 0.924    |\n",
      "| time/               |          |\n",
      "|    episodes         | 88       |\n",
      "|    fps              | 616      |\n",
      "|    time_elapsed     | 61       |\n",
      "|    total_timesteps  | 38108    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 433      |\n",
      "|    ep_rew_mean      | 15.1     |\n",
      "|    exploration_rate | 0.92     |\n",
      "| time/               |          |\n",
      "|    episodes         | 92       |\n",
      "|    fps              | 616      |\n",
      "|    time_elapsed     | 64       |\n",
      "|    total_timesteps  | 39796    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 432      |\n",
      "|    ep_rew_mean      | 15.1     |\n",
      "|    exploration_rate | 0.917    |\n",
      "| time/               |          |\n",
      "|    episodes         | 96       |\n",
      "|    fps              | 617      |\n",
      "|    time_elapsed     | 67       |\n",
      "|    total_timesteps  | 41440    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 431      |\n",
      "|    ep_rew_mean      | 15.1     |\n",
      "|    exploration_rate | 0.914    |\n",
      "| time/               |          |\n",
      "|    episodes         | 100      |\n",
      "|    fps              | 617      |\n",
      "|    time_elapsed     | 69       |\n",
      "|    total_timesteps  | 43062    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 433      |\n",
      "|    ep_rew_mean      | 15.3     |\n",
      "|    exploration_rate | 0.91     |\n",
      "| time/               |          |\n",
      "|    episodes         | 104      |\n",
      "|    fps              | 618      |\n",
      "|    time_elapsed     | 72       |\n",
      "|    total_timesteps  | 45092    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 433      |\n",
      "|    ep_rew_mean      | 15.3     |\n",
      "|    exploration_rate | 0.906    |\n",
      "| time/               |          |\n",
      "|    episodes         | 108      |\n",
      "|    fps              | 617      |\n",
      "|    time_elapsed     | 75       |\n",
      "|    total_timesteps  | 46754    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 425      |\n",
      "|    ep_rew_mean      | 14.9     |\n",
      "|    exploration_rate | 0.904    |\n",
      "| time/               |          |\n",
      "|    episodes         | 112      |\n",
      "|    fps              | 618      |\n",
      "|    time_elapsed     | 78       |\n",
      "|    total_timesteps  | 48212    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 422      |\n",
      "|    ep_rew_mean      | 14.7     |\n",
      "|    exploration_rate | 0.901    |\n",
      "| time/               |          |\n",
      "|    episodes         | 116      |\n",
      "|    fps              | 618      |\n",
      "|    time_elapsed     | 80       |\n",
      "|    total_timesteps  | 49720    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 419      |\n",
      "|    ep_rew_mean      | 16.1     |\n",
      "|    exploration_rate | 0.897    |\n",
      "| time/               |          |\n",
      "|    episodes         | 120      |\n",
      "|    fps              | 581      |\n",
      "|    time_elapsed     | 88       |\n",
      "|    total_timesteps  | 51421    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0591   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 417      |\n",
      "|    ep_rew_mean      | 15.9     |\n",
      "|    exploration_rate | 0.894    |\n",
      "| time/               |          |\n",
      "|    episodes         | 124      |\n",
      "|    fps              | 563      |\n",
      "|    time_elapsed     | 94       |\n",
      "|    total_timesteps  | 53007    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.000477 |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 415      |\n",
      "|    ep_rew_mean      | 15.7     |\n",
      "|    exploration_rate | 0.891    |\n",
      "| time/               |          |\n",
      "|    episodes         | 128      |\n",
      "|    fps              | 546      |\n",
      "|    time_elapsed     | 99       |\n",
      "|    total_timesteps  | 54611    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 5.79e-05 |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 419      |\n",
      "|    ep_rew_mean      | 15.7     |\n",
      "|    exploration_rate | 0.887    |\n",
      "| time/               |          |\n",
      "|    episodes         | 132      |\n",
      "|    fps              | 528      |\n",
      "|    time_elapsed     | 107      |\n",
      "|    total_timesteps  | 56615    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00111  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 421      |\n",
      "|    ep_rew_mean      | 15.7     |\n",
      "|    exploration_rate | 0.883    |\n",
      "| time/               |          |\n",
      "|    episodes         | 136      |\n",
      "|    fps              | 514      |\n",
      "|    time_elapsed     | 113      |\n",
      "|    total_timesteps  | 58315    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00454  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 420      |\n",
      "|    ep_rew_mean      | 15.9     |\n",
      "|    exploration_rate | 0.88     |\n",
      "| time/               |          |\n",
      "|    episodes         | 140      |\n",
      "|    fps              | 501      |\n",
      "|    time_elapsed     | 119      |\n",
      "|    total_timesteps  | 60091    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0724   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 428      |\n",
      "|    ep_rew_mean      | 16.6     |\n",
      "|    exploration_rate | 0.875    |\n",
      "| time/               |          |\n",
      "|    episodes         | 144      |\n",
      "|    fps              | 488      |\n",
      "|    time_elapsed     | 127      |\n",
      "|    total_timesteps  | 62368    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0608   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 430      |\n",
      "|    ep_rew_mean      | 16.6     |\n",
      "|    exploration_rate | 0.872    |\n",
      "| time/               |          |\n",
      "|    episodes         | 148      |\n",
      "|    fps              | 478      |\n",
      "|    time_elapsed     | 134      |\n",
      "|    total_timesteps  | 64180    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0587   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 432      |\n",
      "|    ep_rew_mean      | 16.9     |\n",
      "|    exploration_rate | 0.868    |\n",
      "| time/               |          |\n",
      "|    episodes         | 152      |\n",
      "|    fps              | 469      |\n",
      "|    time_elapsed     | 140      |\n",
      "|    total_timesteps  | 66070    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.000597 |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 432      |\n",
      "|    ep_rew_mean      | 17       |\n",
      "|    exploration_rate | 0.864    |\n",
      "| time/               |          |\n",
      "|    episodes         | 156      |\n",
      "|    fps              | 461      |\n",
      "|    time_elapsed     | 147      |\n",
      "|    total_timesteps  | 67842    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00707  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 430      |\n",
      "|    ep_rew_mean      | 16.8     |\n",
      "|    exploration_rate | 0.861    |\n",
      "| time/               |          |\n",
      "|    episodes         | 160      |\n",
      "|    fps              | 454      |\n",
      "|    time_elapsed     | 152      |\n",
      "|    total_timesteps  | 69342    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00164  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 428      |\n",
      "|    ep_rew_mean      | 17       |\n",
      "|    exploration_rate | 0.858    |\n",
      "| time/               |          |\n",
      "|    episodes         | 164      |\n",
      "|    fps              | 448      |\n",
      "|    time_elapsed     | 158      |\n",
      "|    total_timesteps  | 71038    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00359  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 432      |\n",
      "|    ep_rew_mean      | 17.4     |\n",
      "|    exploration_rate | 0.854    |\n",
      "| time/               |          |\n",
      "|    episodes         | 168      |\n",
      "|    fps              | 441      |\n",
      "|    time_elapsed     | 165      |\n",
      "|    total_timesteps  | 72942    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00399  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 431      |\n",
      "|    ep_rew_mean      | 17.6     |\n",
      "|    exploration_rate | 0.851    |\n",
      "| time/               |          |\n",
      "|    episodes         | 172      |\n",
      "|    fps              | 435      |\n",
      "|    time_elapsed     | 171      |\n",
      "|    total_timesteps  | 74553    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0199   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 434      |\n",
      "|    ep_rew_mean      | 18       |\n",
      "|    exploration_rate | 0.847    |\n",
      "| time/               |          |\n",
      "|    episodes         | 176      |\n",
      "|    fps              | 429      |\n",
      "|    time_elapsed     | 177      |\n",
      "|    total_timesteps  | 76423    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00444  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 433      |\n",
      "|    ep_rew_mean      | 17.9     |\n",
      "|    exploration_rate | 0.844    |\n",
      "| time/               |          |\n",
      "|    episodes         | 180      |\n",
      "|    fps              | 425      |\n",
      "|    time_elapsed     | 183      |\n",
      "|    total_timesteps  | 78007    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00454  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 432      |\n",
      "|    ep_rew_mean      | 18.2     |\n",
      "|    exploration_rate | 0.841    |\n",
      "| time/               |          |\n",
      "|    episodes         | 184      |\n",
      "|    fps              | 420      |\n",
      "|    time_elapsed     | 189      |\n",
      "|    total_timesteps  | 79645    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0476   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 435      |\n",
      "|    ep_rew_mean      | 18.3     |\n",
      "|    exploration_rate | 0.837    |\n",
      "| time/               |          |\n",
      "|    episodes         | 188      |\n",
      "|    fps              | 415      |\n",
      "|    time_elapsed     | 196      |\n",
      "|    total_timesteps  | 81619    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00661  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 438      |\n",
      "|    ep_rew_mean      | 18.7     |\n",
      "|    exploration_rate | 0.833    |\n",
      "| time/               |          |\n",
      "|    episodes         | 192      |\n",
      "|    fps              | 410      |\n",
      "|    time_elapsed     | 203      |\n",
      "|    total_timesteps  | 83567    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00511  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 438      |\n",
      "|    ep_rew_mean      | 18.8     |\n",
      "|    exploration_rate | 0.83     |\n",
      "| time/               |          |\n",
      "|    episodes         | 196      |\n",
      "|    fps              | 406      |\n",
      "|    time_elapsed     | 209      |\n",
      "|    total_timesteps  | 85219    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0122   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 441      |\n",
      "|    ep_rew_mean      | 19       |\n",
      "|    exploration_rate | 0.826    |\n",
      "| time/               |          |\n",
      "|    episodes         | 200      |\n",
      "|    fps              | 402      |\n",
      "|    time_elapsed     | 216      |\n",
      "|    total_timesteps  | 87163    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00724  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 436      |\n",
      "|    ep_rew_mean      | 18.7     |\n",
      "|    exploration_rate | 0.823    |\n",
      "| time/               |          |\n",
      "|    episodes         | 204      |\n",
      "|    fps              | 399      |\n",
      "|    time_elapsed     | 222      |\n",
      "|    total_timesteps  | 88651    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0174   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 436      |\n",
      "|    ep_rew_mean      | 18.8     |\n",
      "|    exploration_rate | 0.819    |\n",
      "| time/               |          |\n",
      "|    episodes         | 208      |\n",
      "|    fps              | 395      |\n",
      "|    time_elapsed     | 228      |\n",
      "|    total_timesteps  | 90367    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00823  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 437      |\n",
      "|    ep_rew_mean      | 18.9     |\n",
      "|    exploration_rate | 0.816    |\n",
      "| time/               |          |\n",
      "|    episodes         | 212      |\n",
      "|    fps              | 392      |\n",
      "|    time_elapsed     | 234      |\n",
      "|    total_timesteps  | 91909    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00408  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 441      |\n",
      "|    ep_rew_mean      | 19.4     |\n",
      "|    exploration_rate | 0.812    |\n",
      "| time/               |          |\n",
      "|    episodes         | 216      |\n",
      "|    fps              | 389      |\n",
      "|    time_elapsed     | 241      |\n",
      "|    total_timesteps  | 93791    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0115   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 445      |\n",
      "|    ep_rew_mean      | 18.2     |\n",
      "|    exploration_rate | 0.808    |\n",
      "| time/               |          |\n",
      "|    episodes         | 220      |\n",
      "|    fps              | 385      |\n",
      "|    time_elapsed     | 248      |\n",
      "|    total_timesteps  | 95877    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0386   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 446      |\n",
      "|    ep_rew_mean      | 18.6     |\n",
      "|    exploration_rate | 0.805    |\n",
      "| time/               |          |\n",
      "|    episodes         | 224      |\n",
      "|    fps              | 382      |\n",
      "|    time_elapsed     | 255      |\n",
      "|    total_timesteps  | 97651    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00525  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 446      |\n",
      "|    ep_rew_mean      | 18.6     |\n",
      "|    exploration_rate | 0.802    |\n",
      "| time/               |          |\n",
      "|    episodes         | 228      |\n",
      "|    fps              | 379      |\n",
      "|    time_elapsed     | 261      |\n",
      "|    total_timesteps  | 99229    |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00705  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 443      |\n",
      "|    ep_rew_mean      | 18.7     |\n",
      "|    exploration_rate | 0.798    |\n",
      "| time/               |          |\n",
      "|    episodes         | 232      |\n",
      "|    fps              | 376      |\n",
      "|    time_elapsed     | 267      |\n",
      "|    total_timesteps  | 100935   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0178   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 443      |\n",
      "|    ep_rew_mean      | 18.8     |\n",
      "|    exploration_rate | 0.795    |\n",
      "| time/               |          |\n",
      "|    episodes         | 236      |\n",
      "|    fps              | 374      |\n",
      "|    time_elapsed     | 274      |\n",
      "|    total_timesteps  | 102569   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.013    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 441      |\n",
      "|    ep_rew_mean      | 18.6     |\n",
      "|    exploration_rate | 0.792    |\n",
      "| time/               |          |\n",
      "|    episodes         | 240      |\n",
      "|    fps              | 372      |\n",
      "|    time_elapsed     | 280      |\n",
      "|    total_timesteps  | 104205   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00637  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 436      |\n",
      "|    ep_rew_mean      | 18.1     |\n",
      "|    exploration_rate | 0.788    |\n",
      "| time/               |          |\n",
      "|    episodes         | 244      |\n",
      "|    fps              | 369      |\n",
      "|    time_elapsed     | 286      |\n",
      "|    total_timesteps  | 105985   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.119    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 437      |\n",
      "|    ep_rew_mean      | 18.4     |\n",
      "|    exploration_rate | 0.784    |\n",
      "| time/               |          |\n",
      "|    episodes         | 248      |\n",
      "|    fps              | 367      |\n",
      "|    time_elapsed     | 293      |\n",
      "|    total_timesteps  | 107915   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0903   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 434      |\n",
      "|    ep_rew_mean      | 18.4     |\n",
      "|    exploration_rate | 0.781    |\n",
      "| time/               |          |\n",
      "|    episodes         | 252      |\n",
      "|    fps              | 365      |\n",
      "|    time_elapsed     | 299      |\n",
      "|    total_timesteps  | 109513   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0123   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 436      |\n",
      "|    ep_rew_mean      | 18.4     |\n",
      "|    exploration_rate | 0.777    |\n",
      "| time/               |          |\n",
      "|    episodes         | 256      |\n",
      "|    fps              | 363      |\n",
      "|    time_elapsed     | 306      |\n",
      "|    total_timesteps  | 111441   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0124   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 437      |\n",
      "|    ep_rew_mean      | 18.5     |\n",
      "|    exploration_rate | 0.774    |\n",
      "| time/               |          |\n",
      "|    episodes         | 260      |\n",
      "|    fps              | 361      |\n",
      "|    time_elapsed     | 312      |\n",
      "|    total_timesteps  | 113089   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0142   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 439      |\n",
      "|    ep_rew_mean      | 18.5     |\n",
      "|    exploration_rate | 0.77     |\n",
      "| time/               |          |\n",
      "|    episodes         | 264      |\n",
      "|    fps              | 359      |\n",
      "|    time_elapsed     | 319      |\n",
      "|    total_timesteps  | 114913   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0539   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 436      |\n",
      "|    ep_rew_mean      | 18.2     |\n",
      "|    exploration_rate | 0.767    |\n",
      "| time/               |          |\n",
      "|    episodes         | 268      |\n",
      "|    fps              | 357      |\n",
      "|    time_elapsed     | 325      |\n",
      "|    total_timesteps  | 116521   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0284   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 437      |\n",
      "|    ep_rew_mean      | 18       |\n",
      "|    exploration_rate | 0.764    |\n",
      "| time/               |          |\n",
      "|    episodes         | 272      |\n",
      "|    fps              | 355      |\n",
      "|    time_elapsed     | 332      |\n",
      "|    total_timesteps  | 118229   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0398   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 435      |\n",
      "|    ep_rew_mean      | 17.8     |\n",
      "|    exploration_rate | 0.76     |\n",
      "| time/               |          |\n",
      "|    episodes         | 276      |\n",
      "|    fps              | 354      |\n",
      "|    time_elapsed     | 338      |\n",
      "|    total_timesteps  | 119919   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0184   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 442      |\n",
      "|    ep_rew_mean      | 18.5     |\n",
      "|    exploration_rate | 0.756    |\n",
      "| time/               |          |\n",
      "|    episodes         | 280      |\n",
      "|    fps              | 351      |\n",
      "|    time_elapsed     | 347      |\n",
      "|    total_timesteps  | 122163   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.153    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 449      |\n",
      "|    ep_rew_mean      | 18.6     |\n",
      "|    exploration_rate | 0.751    |\n",
      "| time/               |          |\n",
      "|    episodes         | 284      |\n",
      "|    fps              | 349      |\n",
      "|    time_elapsed     | 356      |\n",
      "|    total_timesteps  | 124503   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0226   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 448      |\n",
      "|    ep_rew_mean      | 18.6     |\n",
      "|    exploration_rate | 0.747    |\n",
      "| time/               |          |\n",
      "|    episodes         | 288      |\n",
      "|    fps              | 347      |\n",
      "|    time_elapsed     | 363      |\n",
      "|    total_timesteps  | 126413   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0175   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 449      |\n",
      "|    ep_rew_mean      | 18.4     |\n",
      "|    exploration_rate | 0.743    |\n",
      "| time/               |          |\n",
      "|    episodes         | 292      |\n",
      "|    fps              | 346      |\n",
      "|    time_elapsed     | 371      |\n",
      "|    total_timesteps  | 128449   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0328   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 453      |\n",
      "|    ep_rew_mean      | 18.5     |\n",
      "|    exploration_rate | 0.739    |\n",
      "| time/               |          |\n",
      "|    episodes         | 296      |\n",
      "|    fps              | 344      |\n",
      "|    time_elapsed     | 379      |\n",
      "|    total_timesteps  | 130529   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0163   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 453      |\n",
      "|    ep_rew_mean      | 18.7     |\n",
      "|    exploration_rate | 0.735    |\n",
      "| time/               |          |\n",
      "|    episodes         | 300      |\n",
      "|    fps              | 342      |\n",
      "|    time_elapsed     | 386      |\n",
      "|    total_timesteps  | 132443   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0782   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 458      |\n",
      "|    ep_rew_mean      | 19.3     |\n",
      "|    exploration_rate | 0.731    |\n",
      "| time/               |          |\n",
      "|    episodes         | 304      |\n",
      "|    fps              | 341      |\n",
      "|    time_elapsed     | 394      |\n",
      "|    total_timesteps  | 134435   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0151   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 461      |\n",
      "|    ep_rew_mean      | 19.6     |\n",
      "|    exploration_rate | 0.727    |\n",
      "| time/               |          |\n",
      "|    episodes         | 308      |\n",
      "|    fps              | 339      |\n",
      "|    time_elapsed     | 402      |\n",
      "|    total_timesteps  | 136499   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.108    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 464      |\n",
      "|    ep_rew_mean      | 19.7     |\n",
      "|    exploration_rate | 0.723    |\n",
      "| time/               |          |\n",
      "|    episodes         | 312      |\n",
      "|    fps              | 338      |\n",
      "|    time_elapsed     | 409      |\n",
      "|    total_timesteps  | 138325   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.024    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 464      |\n",
      "|    ep_rew_mean      | 19.3     |\n",
      "|    exploration_rate | 0.72     |\n",
      "| time/               |          |\n",
      "|    episodes         | 316      |\n",
      "|    fps              | 336      |\n",
      "|    time_elapsed     | 416      |\n",
      "|    total_timesteps  | 140203   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0209   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 463      |\n",
      "|    ep_rew_mean      | 19.8     |\n",
      "|    exploration_rate | 0.716    |\n",
      "| time/               |          |\n",
      "|    episodes         | 320      |\n",
      "|    fps              | 335      |\n",
      "|    time_elapsed     | 423      |\n",
      "|    total_timesteps  | 142177   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00814  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 463      |\n",
      "|    ep_rew_mean      | 19.9     |\n",
      "|    exploration_rate | 0.712    |\n",
      "| time/               |          |\n",
      "|    episodes         | 324      |\n",
      "|    fps              | 334      |\n",
      "|    time_elapsed     | 430      |\n",
      "|    total_timesteps  | 143985   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0202   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 466      |\n",
      "|    ep_rew_mean      | 20       |\n",
      "|    exploration_rate | 0.708    |\n",
      "| time/               |          |\n",
      "|    episodes         | 328      |\n",
      "|    fps              | 332      |\n",
      "|    time_elapsed     | 438      |\n",
      "|    total_timesteps  | 145793   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0187   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 472      |\n",
      "|    ep_rew_mean      | 21       |\n",
      "|    exploration_rate | 0.704    |\n",
      "| time/               |          |\n",
      "|    episodes         | 332      |\n",
      "|    fps              | 331      |\n",
      "|    time_elapsed     | 447      |\n",
      "|    total_timesteps  | 148175   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0245   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 474      |\n",
      "|    ep_rew_mean      | 21       |\n",
      "|    exploration_rate | 0.7      |\n",
      "| time/               |          |\n",
      "|    episodes         | 336      |\n",
      "|    fps              | 329      |\n",
      "|    time_elapsed     | 454      |\n",
      "|    total_timesteps  | 149981   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0107   |\n",
      "----------------------------------\n",
      "Eval num_timesteps=150000, episode_reward=6.00 +/- 0.00\n",
      "Episode length: 494.00 +/- 0.00\n",
      "----------------------------------\n",
      "| eval/               |          |\n",
      "|    mean_ep_length   | 494      |\n",
      "|    mean_reward      | 6        |\n",
      "| rollout/            |          |\n",
      "|    exploration_rate | 0.7      |\n",
      "| time/               |          |\n",
      "|    total_timesteps  | 150000   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0236   |\n",
      "----------------------------------\n",
      "New best mean reward!\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 477      |\n",
      "|    ep_rew_mean      | 21.3     |\n",
      "|    exploration_rate | 0.696    |\n",
      "| time/               |          |\n",
      "|    episodes         | 340      |\n",
      "|    fps              | 319      |\n",
      "|    time_elapsed     | 475      |\n",
      "|    total_timesteps  | 151867   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0045   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 477      |\n",
      "|    ep_rew_mean      | 21.3     |\n",
      "|    exploration_rate | 0.693    |\n",
      "| time/               |          |\n",
      "|    episodes         | 344      |\n",
      "|    fps              | 318      |\n",
      "|    time_elapsed     | 483      |\n",
      "|    total_timesteps  | 153719   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00971  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 477      |\n",
      "|    ep_rew_mean      | 21.5     |\n",
      "|    exploration_rate | 0.689    |\n",
      "| time/               |          |\n",
      "|    episodes         | 348      |\n",
      "|    fps              | 317      |\n",
      "|    time_elapsed     | 490      |\n",
      "|    total_timesteps  | 155651   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0383   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 478      |\n",
      "|    ep_rew_mean      | 21.6     |\n",
      "|    exploration_rate | 0.685    |\n",
      "| time/               |          |\n",
      "|    episodes         | 352      |\n",
      "|    fps              | 316      |\n",
      "|    time_elapsed     | 497      |\n",
      "|    total_timesteps  | 157311   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0187   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 476      |\n",
      "|    ep_rew_mean      | 21.5     |\n",
      "|    exploration_rate | 0.682    |\n",
      "| time/               |          |\n",
      "|    episodes         | 356      |\n",
      "|    fps              | 315      |\n",
      "|    time_elapsed     | 504      |\n",
      "|    total_timesteps  | 159037   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.805    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 479      |\n",
      "|    ep_rew_mean      | 23.1     |\n",
      "|    exploration_rate | 0.678    |\n",
      "| time/               |          |\n",
      "|    episodes         | 360      |\n",
      "|    fps              | 314      |\n",
      "|    time_elapsed     | 512      |\n",
      "|    total_timesteps  | 160999   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00944  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 478      |\n",
      "|    ep_rew_mean      | 23.1     |\n",
      "|    exploration_rate | 0.675    |\n",
      "| time/               |          |\n",
      "|    episodes         | 364      |\n",
      "|    fps              | 313      |\n",
      "|    time_elapsed     | 518      |\n",
      "|    total_timesteps  | 162727   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0278   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 483      |\n",
      "|    ep_rew_mean      | 23.7     |\n",
      "|    exploration_rate | 0.67     |\n",
      "| time/               |          |\n",
      "|    episodes         | 368      |\n",
      "|    fps              | 312      |\n",
      "|    time_elapsed     | 527      |\n",
      "|    total_timesteps  | 164841   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0161   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 482      |\n",
      "|    ep_rew_mean      | 23.9     |\n",
      "|    exploration_rate | 0.667    |\n",
      "| time/               |          |\n",
      "|    episodes         | 372      |\n",
      "|    fps              | 311      |\n",
      "|    time_elapsed     | 533      |\n",
      "|    total_timesteps  | 166403   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0671   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 484      |\n",
      "|    ep_rew_mean      | 24.2     |\n",
      "|    exploration_rate | 0.663    |\n",
      "| time/               |          |\n",
      "|    episodes         | 376      |\n",
      "|    fps              | 310      |\n",
      "|    time_elapsed     | 541      |\n",
      "|    total_timesteps  | 168309   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00674  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 483      |\n",
      "|    ep_rew_mean      | 25.7     |\n",
      "|    exploration_rate | 0.659    |\n",
      "| time/               |          |\n",
      "|    episodes         | 380      |\n",
      "|    fps              | 309      |\n",
      "|    time_elapsed     | 550      |\n",
      "|    total_timesteps  | 170495   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.159    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 482      |\n",
      "|    ep_rew_mean      | 25.6     |\n",
      "|    exploration_rate | 0.655    |\n",
      "| time/               |          |\n",
      "|    episodes         | 384      |\n",
      "|    fps              | 308      |\n",
      "|    time_elapsed     | 559      |\n",
      "|    total_timesteps  | 172679   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0183   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 482      |\n",
      "|    ep_rew_mean      | 25.8     |\n",
      "|    exploration_rate | 0.651    |\n",
      "| time/               |          |\n",
      "|    episodes         | 388      |\n",
      "|    fps              | 308      |\n",
      "|    time_elapsed     | 566      |\n",
      "|    total_timesteps  | 174661   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0113   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 481      |\n",
      "|    ep_rew_mean      | 25.8     |\n",
      "|    exploration_rate | 0.647    |\n",
      "| time/               |          |\n",
      "|    episodes         | 392      |\n",
      "|    fps              | 307      |\n",
      "|    time_elapsed     | 574      |\n",
      "|    total_timesteps  | 176505   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0158   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 481      |\n",
      "|    ep_rew_mean      | 26.5     |\n",
      "|    exploration_rate | 0.643    |\n",
      "| time/               |          |\n",
      "|    episodes         | 396      |\n",
      "|    fps              | 306      |\n",
      "|    time_elapsed     | 582      |\n",
      "|    total_timesteps  | 178612   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.016    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 480      |\n",
      "|    ep_rew_mean      | 26.6     |\n",
      "|    exploration_rate | 0.639    |\n",
      "| time/               |          |\n",
      "|    episodes         | 400      |\n",
      "|    fps              | 305      |\n",
      "|    time_elapsed     | 590      |\n",
      "|    total_timesteps  | 180395   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0459   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 478      |\n",
      "|    ep_rew_mean      | 26.3     |\n",
      "|    exploration_rate | 0.636    |\n",
      "| time/               |          |\n",
      "|    episodes         | 404      |\n",
      "|    fps              | 304      |\n",
      "|    time_elapsed     | 597      |\n",
      "|    total_timesteps  | 182223   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.118    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 478      |\n",
      "|    ep_rew_mean      | 26.2     |\n",
      "|    exploration_rate | 0.631    |\n",
      "| time/               |          |\n",
      "|    episodes         | 408      |\n",
      "|    fps              | 304      |\n",
      "|    time_elapsed     | 605      |\n",
      "|    total_timesteps  | 184295   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0165   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 478      |\n",
      "|    ep_rew_mean      | 26.6     |\n",
      "|    exploration_rate | 0.628    |\n",
      "| time/               |          |\n",
      "|    episodes         | 412      |\n",
      "|    fps              | 303      |\n",
      "|    time_elapsed     | 613      |\n",
      "|    total_timesteps  | 186091   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0339   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 479      |\n",
      "|    ep_rew_mean      | 26.9     |\n",
      "|    exploration_rate | 0.624    |\n",
      "| time/               |          |\n",
      "|    episodes         | 416      |\n",
      "|    fps              | 302      |\n",
      "|    time_elapsed     | 621      |\n",
      "|    total_timesteps  | 188082   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0386   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 478      |\n",
      "|    ep_rew_mean      | 26.9     |\n",
      "|    exploration_rate | 0.62     |\n",
      "| time/               |          |\n",
      "|    episodes         | 420      |\n",
      "|    fps              | 301      |\n",
      "|    time_elapsed     | 629      |\n",
      "|    total_timesteps  | 190018   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0216   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 479      |\n",
      "|    ep_rew_mean      | 26.9     |\n",
      "|    exploration_rate | 0.616    |\n",
      "| time/               |          |\n",
      "|    episodes         | 424      |\n",
      "|    fps              | 301      |\n",
      "|    time_elapsed     | 637      |\n",
      "|    total_timesteps  | 191866   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.175    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 480      |\n",
      "|    ep_rew_mean      | 27.2     |\n",
      "|    exploration_rate | 0.612    |\n",
      "| time/               |          |\n",
      "|    episodes         | 428      |\n",
      "|    fps              | 300      |\n",
      "|    time_elapsed     | 645      |\n",
      "|    total_timesteps  | 193754   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.775    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 478      |\n",
      "|    ep_rew_mean      | 27       |\n",
      "|    exploration_rate | 0.608    |\n",
      "| time/               |          |\n",
      "|    episodes         | 432      |\n",
      "|    fps              | 299      |\n",
      "|    time_elapsed     | 654      |\n",
      "|    total_timesteps  | 195998   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0482   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 480      |\n",
      "|    ep_rew_mean      | 27.5     |\n",
      "|    exploration_rate | 0.604    |\n",
      "| time/               |          |\n",
      "|    episodes         | 436      |\n",
      "|    fps              | 298      |\n",
      "|    time_elapsed     | 662      |\n",
      "|    total_timesteps  | 197974   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0371   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 483      |\n",
      "|    ep_rew_mean      | 27.8     |\n",
      "|    exploration_rate | 0.6      |\n",
      "| time/               |          |\n",
      "|    episodes         | 440      |\n",
      "|    fps              | 297      |\n",
      "|    time_elapsed     | 671      |\n",
      "|    total_timesteps  | 200148   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.017    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 483      |\n",
      "|    ep_rew_mean      | 28       |\n",
      "|    exploration_rate | 0.596    |\n",
      "| time/               |          |\n",
      "|    episodes         | 444      |\n",
      "|    fps              | 297      |\n",
      "|    time_elapsed     | 679      |\n",
      "|    total_timesteps  | 202028   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0131   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 486      |\n",
      "|    ep_rew_mean      | 28.6     |\n",
      "|    exploration_rate | 0.592    |\n",
      "| time/               |          |\n",
      "|    episodes         | 448      |\n",
      "|    fps              | 296      |\n",
      "|    time_elapsed     | 689      |\n",
      "|    total_timesteps  | 204204   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00997  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 487      |\n",
      "|    ep_rew_mean      | 28.7     |\n",
      "|    exploration_rate | 0.588    |\n",
      "| time/               |          |\n",
      "|    episodes         | 452      |\n",
      "|    fps              | 295      |\n",
      "|    time_elapsed     | 696      |\n",
      "|    total_timesteps  | 206022   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 1.26     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 488      |\n",
      "|    ep_rew_mean      | 28.8     |\n",
      "|    exploration_rate | 0.584    |\n",
      "| time/               |          |\n",
      "|    episodes         | 456      |\n",
      "|    fps              | 295      |\n",
      "|    time_elapsed     | 704      |\n",
      "|    total_timesteps  | 207796   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.128    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 485      |\n",
      "|    ep_rew_mean      | 27.3     |\n",
      "|    exploration_rate | 0.581    |\n",
      "| time/               |          |\n",
      "|    episodes         | 460      |\n",
      "|    fps              | 294      |\n",
      "|    time_elapsed     | 711      |\n",
      "|    total_timesteps  | 209512   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.11     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 487      |\n",
      "|    ep_rew_mean      | 27.6     |\n",
      "|    exploration_rate | 0.577    |\n",
      "| time/               |          |\n",
      "|    episodes         | 464      |\n",
      "|    fps              | 293      |\n",
      "|    time_elapsed     | 719      |\n",
      "|    total_timesteps  | 211452   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.068    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 486      |\n",
      "|    ep_rew_mean      | 27.8     |\n",
      "|    exploration_rate | 0.573    |\n",
      "| time/               |          |\n",
      "|    episodes         | 468      |\n",
      "|    fps              | 292      |\n",
      "|    time_elapsed     | 728      |\n",
      "|    total_timesteps  | 213420   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0237   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 491      |\n",
      "|    ep_rew_mean      | 27.9     |\n",
      "|    exploration_rate | 0.569    |\n",
      "| time/               |          |\n",
      "|    episodes         | 472      |\n",
      "|    fps              | 292      |\n",
      "|    time_elapsed     | 737      |\n",
      "|    total_timesteps  | 215464   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0461   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 491      |\n",
      "|    ep_rew_mean      | 28.1     |\n",
      "|    exploration_rate | 0.565    |\n",
      "| time/               |          |\n",
      "|    episodes         | 476      |\n",
      "|    fps              | 291      |\n",
      "|    time_elapsed     | 745      |\n",
      "|    total_timesteps  | 217456   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0917   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 491      |\n",
      "|    ep_rew_mean      | 27.3     |\n",
      "|    exploration_rate | 0.561    |\n",
      "| time/               |          |\n",
      "|    episodes         | 480      |\n",
      "|    fps              | 290      |\n",
      "|    time_elapsed     | 754      |\n",
      "|    total_timesteps  | 219564   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0434   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 486      |\n",
      "|    ep_rew_mean      | 27.8     |\n",
      "|    exploration_rate | 0.557    |\n",
      "| time/               |          |\n",
      "|    episodes         | 484      |\n",
      "|    fps              | 290      |\n",
      "|    time_elapsed     | 762      |\n",
      "|    total_timesteps  | 221293   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0215   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 486      |\n",
      "|    ep_rew_mean      | 28.2     |\n",
      "|    exploration_rate | 0.554    |\n",
      "| time/               |          |\n",
      "|    episodes         | 488      |\n",
      "|    fps              | 289      |\n",
      "|    time_elapsed     | 770      |\n",
      "|    total_timesteps  | 223243   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0413   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 486      |\n",
      "|    ep_rew_mean      | 28.2     |\n",
      "|    exploration_rate | 0.55     |\n",
      "| time/               |          |\n",
      "|    episodes         | 492      |\n",
      "|    fps              | 289      |\n",
      "|    time_elapsed     | 778      |\n",
      "|    total_timesteps  | 225055   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.00883  |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 484      |\n",
      "|    ep_rew_mean      | 28       |\n",
      "|    exploration_rate | 0.546    |\n",
      "| time/               |          |\n",
      "|    episodes         | 496      |\n",
      "|    fps              | 288      |\n",
      "|    time_elapsed     | 787      |\n",
      "|    total_timesteps  | 227023   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0478   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 497      |\n",
      "|    ep_rew_mean      | 28.3     |\n",
      "|    exploration_rate | 0.54     |\n",
      "| time/               |          |\n",
      "|    episodes         | 500      |\n",
      "|    fps              | 287      |\n",
      "|    time_elapsed     | 800      |\n",
      "|    total_timesteps  | 230047   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0798   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 498      |\n",
      "|    ep_rew_mean      | 28.5     |\n",
      "|    exploration_rate | 0.536    |\n",
      "| time/               |          |\n",
      "|    episodes         | 504      |\n",
      "|    fps              | 286      |\n",
      "|    time_elapsed     | 808      |\n",
      "|    total_timesteps  | 232029   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0977   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 493      |\n",
      "|    ep_rew_mean      | 28.2     |\n",
      "|    exploration_rate | 0.533    |\n",
      "| time/               |          |\n",
      "|    episodes         | 508      |\n",
      "|    fps              | 286      |\n",
      "|    time_elapsed     | 815      |\n",
      "|    total_timesteps  | 233627   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0247   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 497      |\n",
      "|    ep_rew_mean      | 28.4     |\n",
      "|    exploration_rate | 0.528    |\n",
      "| time/               |          |\n",
      "|    episodes         | 512      |\n",
      "|    fps              | 285      |\n",
      "|    time_elapsed     | 825      |\n",
      "|    total_timesteps  | 235793   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0461   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 493      |\n",
      "|    ep_rew_mean      | 28.2     |\n",
      "|    exploration_rate | 0.525    |\n",
      "| time/               |          |\n",
      "|    episodes         | 516      |\n",
      "|    fps              | 285      |\n",
      "|    time_elapsed     | 832      |\n",
      "|    total_timesteps  | 237419   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.307    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 498      |\n",
      "|    ep_rew_mean      | 28.3     |\n",
      "|    exploration_rate | 0.52     |\n",
      "| time/               |          |\n",
      "|    episodes         | 520      |\n",
      "|    fps              | 284      |\n",
      "|    time_elapsed     | 842      |\n",
      "|    total_timesteps  | 239805   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0885   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 499      |\n",
      "|    ep_rew_mean      | 28.3     |\n",
      "|    exploration_rate | 0.516    |\n",
      "| time/               |          |\n",
      "|    episodes         | 524      |\n",
      "|    fps              | 284      |\n",
      "|    time_elapsed     | 850      |\n",
      "|    total_timesteps  | 241755   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0568   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 499      |\n",
      "|    ep_rew_mean      | 28.4     |\n",
      "|    exploration_rate | 0.513    |\n",
      "| time/               |          |\n",
      "|    episodes         | 528      |\n",
      "|    fps              | 283      |\n",
      "|    time_elapsed     | 859      |\n",
      "|    total_timesteps  | 243611   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0195   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 494      |\n",
      "|    ep_rew_mean      | 28       |\n",
      "|    exploration_rate | 0.509    |\n",
      "| time/               |          |\n",
      "|    episodes         | 532      |\n",
      "|    fps              | 283      |\n",
      "|    time_elapsed     | 866      |\n",
      "|    total_timesteps  | 245393   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0613   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 498      |\n",
      "|    ep_rew_mean      | 29       |\n",
      "|    exploration_rate | 0.504    |\n",
      "| time/               |          |\n",
      "|    episodes         | 536      |\n",
      "|    fps              | 282      |\n",
      "|    time_elapsed     | 877      |\n",
      "|    total_timesteps  | 247797   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0626   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 497      |\n",
      "|    ep_rew_mean      | 29       |\n",
      "|    exploration_rate | 0.5      |\n",
      "| time/               |          |\n",
      "|    episodes         | 540      |\n",
      "|    fps              | 281      |\n",
      "|    time_elapsed     | 886      |\n",
      "|    total_timesteps  | 249841   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.197    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 499      |\n",
      "|    ep_rew_mean      | 29.3     |\n",
      "|    exploration_rate | 0.496    |\n",
      "| time/               |          |\n",
      "|    episodes         | 544      |\n",
      "|    fps              | 281      |\n",
      "|    time_elapsed     | 895      |\n",
      "|    total_timesteps  | 251903   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0392   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 495      |\n",
      "|    ep_rew_mean      | 28.6     |\n",
      "|    exploration_rate | 0.493    |\n",
      "| time/               |          |\n",
      "|    episodes         | 548      |\n",
      "|    fps              | 280      |\n",
      "|    time_elapsed     | 902      |\n",
      "|    total_timesteps  | 253685   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0961   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 500      |\n",
      "|    ep_rew_mean      | 29.3     |\n",
      "|    exploration_rate | 0.488    |\n",
      "| time/               |          |\n",
      "|    episodes         | 552      |\n",
      "|    fps              | 280      |\n",
      "|    time_elapsed     | 913      |\n",
      "|    total_timesteps  | 256019   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.043    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 506      |\n",
      "|    ep_rew_mean      | 30.1     |\n",
      "|    exploration_rate | 0.483    |\n",
      "| time/               |          |\n",
      "|    episodes         | 556      |\n",
      "|    fps              | 279      |\n",
      "|    time_elapsed     | 923      |\n",
      "|    total_timesteps  | 258398   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0206   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 513      |\n",
      "|    ep_rew_mean      | 30.7     |\n",
      "|    exploration_rate | 0.478    |\n",
      "| time/               |          |\n",
      "|    episodes         | 560      |\n",
      "|    fps              | 279      |\n",
      "|    time_elapsed     | 934      |\n",
      "|    total_timesteps  | 260842   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0362   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 513      |\n",
      "|    ep_rew_mean      | 30.8     |\n",
      "|    exploration_rate | 0.474    |\n",
      "| time/               |          |\n",
      "|    episodes         | 564      |\n",
      "|    fps              | 278      |\n",
      "|    time_elapsed     | 942      |\n",
      "|    total_timesteps  | 262785   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0334   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 511      |\n",
      "|    ep_rew_mean      | 30.3     |\n",
      "|    exploration_rate | 0.471    |\n",
      "| time/               |          |\n",
      "|    episodes         | 568      |\n",
      "|    fps              | 278      |\n",
      "|    time_elapsed     | 950      |\n",
      "|    total_timesteps  | 264561   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0484   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 510      |\n",
      "|    ep_rew_mean      | 30.7     |\n",
      "|    exploration_rate | 0.467    |\n",
      "| time/               |          |\n",
      "|    episodes         | 572      |\n",
      "|    fps              | 277      |\n",
      "|    time_elapsed     | 958      |\n",
      "|    total_timesteps  | 266447   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0831   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 507      |\n",
      "|    ep_rew_mean      | 30.6     |\n",
      "|    exploration_rate | 0.464    |\n",
      "| time/               |          |\n",
      "|    episodes         | 576      |\n",
      "|    fps              | 277      |\n",
      "|    time_elapsed     | 966      |\n",
      "|    total_timesteps  | 268190   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0244   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 505      |\n",
      "|    ep_rew_mean      | 30.3     |\n",
      "|    exploration_rate | 0.46     |\n",
      "| time/               |          |\n",
      "|    episodes         | 580      |\n",
      "|    fps              | 276      |\n",
      "|    time_elapsed     | 975      |\n",
      "|    total_timesteps  | 270074   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0523   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 511      |\n",
      "|    ep_rew_mean      | 30.5     |\n",
      "|    exploration_rate | 0.455    |\n",
      "| time/               |          |\n",
      "|    episodes         | 584      |\n",
      "|    fps              | 276      |\n",
      "|    time_elapsed     | 985      |\n",
      "|    total_timesteps  | 272352   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.024    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 510      |\n",
      "|    ep_rew_mean      | 30.2     |\n",
      "|    exploration_rate | 0.451    |\n",
      "| time/               |          |\n",
      "|    episodes         | 588      |\n",
      "|    fps              | 275      |\n",
      "|    time_elapsed     | 993      |\n",
      "|    total_timesteps  | 274274   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0954   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 511      |\n",
      "|    ep_rew_mean      | 30.6     |\n",
      "|    exploration_rate | 0.448    |\n",
      "| time/               |          |\n",
      "|    episodes         | 592      |\n",
      "|    fps              | 275      |\n",
      "|    time_elapsed     | 1002     |\n",
      "|    total_timesteps  | 276135   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0616   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 513      |\n",
      "|    ep_rew_mean      | 30.7     |\n",
      "|    exploration_rate | 0.443    |\n",
      "| time/               |          |\n",
      "|    episodes         | 596      |\n",
      "|    fps              | 275      |\n",
      "|    time_elapsed     | 1012     |\n",
      "|    total_timesteps  | 278354   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0172   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 501      |\n",
      "|    ep_rew_mean      | 30.4     |\n",
      "|    exploration_rate | 0.44     |\n",
      "| time/               |          |\n",
      "|    episodes         | 600      |\n",
      "|    fps              | 274      |\n",
      "|    time_elapsed     | 1020     |\n",
      "|    total_timesteps  | 280136   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.323    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 501      |\n",
      "|    ep_rew_mean      | 30.6     |\n",
      "|    exploration_rate | 0.436    |\n",
      "| time/               |          |\n",
      "|    episodes         | 604      |\n",
      "|    fps              | 274      |\n",
      "|    time_elapsed     | 1029     |\n",
      "|    total_timesteps  | 282164   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.151    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 511      |\n",
      "|    ep_rew_mean      | 31.7     |\n",
      "|    exploration_rate | 0.431    |\n",
      "| time/               |          |\n",
      "|    episodes         | 608      |\n",
      "|    fps              | 273      |\n",
      "|    time_elapsed     | 1041     |\n",
      "|    total_timesteps  | 284738   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.047    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 511      |\n",
      "|    ep_rew_mean      | 31.9     |\n",
      "|    exploration_rate | 0.426    |\n",
      "| time/               |          |\n",
      "|    episodes         | 612      |\n",
      "|    fps              | 273      |\n",
      "|    time_elapsed     | 1050     |\n",
      "|    total_timesteps  | 286864   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 2.4      |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 515      |\n",
      "|    ep_rew_mean      | 32.6     |\n",
      "|    exploration_rate | 0.422    |\n",
      "| time/               |          |\n",
      "|    episodes         | 616      |\n",
      "|    fps              | 272      |\n",
      "|    time_elapsed     | 1060     |\n",
      "|    total_timesteps  | 288945   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.119    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 510      |\n",
      "|    ep_rew_mean      | 32.3     |\n",
      "|    exploration_rate | 0.418    |\n",
      "| time/               |          |\n",
      "|    episodes         | 620      |\n",
      "|    fps              | 272      |\n",
      "|    time_elapsed     | 1068     |\n",
      "|    total_timesteps  | 290813   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.289    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 515      |\n",
      "|    ep_rew_mean      | 32.8     |\n",
      "|    exploration_rate | 0.414    |\n",
      "| time/               |          |\n",
      "|    episodes         | 624      |\n",
      "|    fps              | 271      |\n",
      "|    time_elapsed     | 1079     |\n",
      "|    total_timesteps  | 293217   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0921   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 520      |\n",
      "|    ep_rew_mean      | 33.4     |\n",
      "|    exploration_rate | 0.409    |\n",
      "| time/               |          |\n",
      "|    episodes         | 628      |\n",
      "|    fps              | 271      |\n",
      "|    time_elapsed     | 1090     |\n",
      "|    total_timesteps  | 295594   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0902   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 528      |\n",
      "|    ep_rew_mean      | 34       |\n",
      "|    exploration_rate | 0.404    |\n",
      "| time/               |          |\n",
      "|    episodes         | 632      |\n",
      "|    fps              | 270      |\n",
      "|    time_elapsed     | 1102     |\n",
      "|    total_timesteps  | 298232   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.188    |\n",
      "----------------------------------\n",
      "Eval num_timesteps=300000, episode_reward=22.00 +/- 3.00\n",
      "Episode length: 506.20 +/- 29.25\n",
      "----------------------------------\n",
      "| eval/               |          |\n",
      "|    mean_ep_length   | 506      |\n",
      "|    mean_reward      | 22       |\n",
      "| rollout/            |          |\n",
      "|    exploration_rate | 0.4      |\n",
      "| time/               |          |\n",
      "|    total_timesteps  | 300000   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.108    |\n",
      "----------------------------------\n",
      "New best mean reward!\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 528      |\n",
      "|    ep_rew_mean      | 33.4     |\n",
      "|    exploration_rate | 0.399    |\n",
      "| time/               |          |\n",
      "|    episodes         | 636      |\n",
      "|    fps              | 266      |\n",
      "|    time_elapsed     | 1127     |\n",
      "|    total_timesteps  | 300564   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.201    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 525      |\n",
      "|    ep_rew_mean      | 33.3     |\n",
      "|    exploration_rate | 0.395    |\n",
      "| time/               |          |\n",
      "|    episodes         | 640      |\n",
      "|    fps              | 266      |\n",
      "|    time_elapsed     | 1136     |\n",
      "|    total_timesteps  | 302382   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.122    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 525      |\n",
      "|    ep_rew_mean      | 33.6     |\n",
      "|    exploration_rate | 0.391    |\n",
      "| time/               |          |\n",
      "|    episodes         | 644      |\n",
      "|    fps              | 265      |\n",
      "|    time_elapsed     | 1145     |\n",
      "|    total_timesteps  | 304364   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.194    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 531      |\n",
      "|    ep_rew_mean      | 34.2     |\n",
      "|    exploration_rate | 0.387    |\n",
      "| time/               |          |\n",
      "|    episodes         | 648      |\n",
      "|    fps              | 265      |\n",
      "|    time_elapsed     | 1156     |\n",
      "|    total_timesteps  | 306744   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.137    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 530      |\n",
      "|    ep_rew_mean      | 34       |\n",
      "|    exploration_rate | 0.382    |\n",
      "| time/               |          |\n",
      "|    episodes         | 652      |\n",
      "|    fps              | 264      |\n",
      "|    time_elapsed     | 1166     |\n",
      "|    total_timesteps  | 309004   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0176   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 530      |\n",
      "|    ep_rew_mean      | 34.8     |\n",
      "|    exploration_rate | 0.377    |\n",
      "| time/               |          |\n",
      "|    episodes         | 656      |\n",
      "|    fps              | 264      |\n",
      "|    time_elapsed     | 1177     |\n",
      "|    total_timesteps  | 311383   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0579   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 527      |\n",
      "|    ep_rew_mean      | 34.8     |\n",
      "|    exploration_rate | 0.373    |\n",
      "| time/               |          |\n",
      "|    episodes         | 660      |\n",
      "|    fps              | 264      |\n",
      "|    time_elapsed     | 1187     |\n",
      "|    total_timesteps  | 313514   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.167    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 529      |\n",
      "|    ep_rew_mean      | 35       |\n",
      "|    exploration_rate | 0.369    |\n",
      "| time/               |          |\n",
      "|    episodes         | 664      |\n",
      "|    fps              | 263      |\n",
      "|    time_elapsed     | 1197     |\n",
      "|    total_timesteps  | 315678   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0168   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 533      |\n",
      "|    ep_rew_mean      | 35.4     |\n",
      "|    exploration_rate | 0.364    |\n",
      "| time/               |          |\n",
      "|    episodes         | 668      |\n",
      "|    fps              | 263      |\n",
      "|    time_elapsed     | 1207     |\n",
      "|    total_timesteps  | 317882   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.145    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 536      |\n",
      "|    ep_rew_mean      | 35.4     |\n",
      "|    exploration_rate | 0.36     |\n",
      "| time/               |          |\n",
      "|    episodes         | 672      |\n",
      "|    fps              | 262      |\n",
      "|    time_elapsed     | 1217     |\n",
      "|    total_timesteps  | 320020   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.13     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 538      |\n",
      "|    ep_rew_mean      | 35.6     |\n",
      "|    exploration_rate | 0.356    |\n",
      "| time/               |          |\n",
      "|    episodes         | 676      |\n",
      "|    fps              | 262      |\n",
      "|    time_elapsed     | 1227     |\n",
      "|    total_timesteps  | 322040   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.101    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 540      |\n",
      "|    ep_rew_mean      | 35.1     |\n",
      "|    exploration_rate | 0.352    |\n",
      "| time/               |          |\n",
      "|    episodes         | 680      |\n",
      "|    fps              | 262      |\n",
      "|    time_elapsed     | 1236     |\n",
      "|    total_timesteps  | 324072   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.065    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 534      |\n",
      "|    ep_rew_mean      | 34.5     |\n",
      "|    exploration_rate | 0.348    |\n",
      "| time/               |          |\n",
      "|    episodes         | 684      |\n",
      "|    fps              | 261      |\n",
      "|    time_elapsed     | 1244     |\n",
      "|    total_timesteps  | 325794   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.373    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 543      |\n",
      "|    ep_rew_mean      | 35.4     |\n",
      "|    exploration_rate | 0.343    |\n",
      "| time/               |          |\n",
      "|    episodes         | 688      |\n",
      "|    fps              | 261      |\n",
      "|    time_elapsed     | 1257     |\n",
      "|    total_timesteps  | 328532   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0285   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 551      |\n",
      "|    ep_rew_mean      | 36.9     |\n",
      "|    exploration_rate | 0.338    |\n",
      "| time/               |          |\n",
      "|    episodes         | 692      |\n",
      "|    fps              | 260      |\n",
      "|    time_elapsed     | 1270     |\n",
      "|    total_timesteps  | 331238   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0151   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 551      |\n",
      "|    ep_rew_mean      | 36.9     |\n",
      "|    exploration_rate | 0.333    |\n",
      "| time/               |          |\n",
      "|    episodes         | 696      |\n",
      "|    fps              | 260      |\n",
      "|    time_elapsed     | 1280     |\n",
      "|    total_timesteps  | 333430   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0766   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 556      |\n",
      "|    ep_rew_mean      | 37.4     |\n",
      "|    exploration_rate | 0.329    |\n",
      "| time/               |          |\n",
      "|    episodes         | 700      |\n",
      "|    fps              | 259      |\n",
      "|    time_elapsed     | 1291     |\n",
      "|    total_timesteps  | 335698   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.155    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 563      |\n",
      "|    ep_rew_mean      | 38.2     |\n",
      "|    exploration_rate | 0.323    |\n",
      "| time/               |          |\n",
      "|    episodes         | 704      |\n",
      "|    fps              | 259      |\n",
      "|    time_elapsed     | 1304     |\n",
      "|    total_timesteps  | 338476   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0938   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 555      |\n",
      "|    ep_rew_mean      | 37.4     |\n",
      "|    exploration_rate | 0.32     |\n",
      "| time/               |          |\n",
      "|    episodes         | 708      |\n",
      "|    fps              | 259      |\n",
      "|    time_elapsed     | 1312     |\n",
      "|    total_timesteps  | 340202   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.325    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 557      |\n",
      "|    ep_rew_mean      | 37.9     |\n",
      "|    exploration_rate | 0.315    |\n",
      "| time/               |          |\n",
      "|    episodes         | 712      |\n",
      "|    fps              | 258      |\n",
      "|    time_elapsed     | 1324     |\n",
      "|    total_timesteps  | 342546   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0204   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 560      |\n",
      "|    ep_rew_mean      | 37.7     |\n",
      "|    exploration_rate | 0.31     |\n",
      "| time/               |          |\n",
      "|    episodes         | 716      |\n",
      "|    fps              | 258      |\n",
      "|    time_elapsed     | 1335     |\n",
      "|    total_timesteps  | 344964   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0784   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 565      |\n",
      "|    ep_rew_mean      | 38.3     |\n",
      "|    exploration_rate | 0.305    |\n",
      "| time/               |          |\n",
      "|    episodes         | 720      |\n",
      "|    fps              | 257      |\n",
      "|    time_elapsed     | 1346     |\n",
      "|    total_timesteps  | 347332   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.262    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 563      |\n",
      "|    ep_rew_mean      | 38.4     |\n",
      "|    exploration_rate | 0.301    |\n",
      "| time/               |          |\n",
      "|    episodes         | 724      |\n",
      "|    fps              | 257      |\n",
      "|    time_elapsed     | 1357     |\n",
      "|    total_timesteps  | 349544   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.432    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 561      |\n",
      "|    ep_rew_mean      | 37.9     |\n",
      "|    exploration_rate | 0.297    |\n",
      "| time/               |          |\n",
      "|    episodes         | 728      |\n",
      "|    fps              | 257      |\n",
      "|    time_elapsed     | 1368     |\n",
      "|    total_timesteps  | 351738   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.11     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 558      |\n",
      "|    ep_rew_mean      | 38       |\n",
      "|    exploration_rate | 0.292    |\n",
      "| time/               |          |\n",
      "|    episodes         | 732      |\n",
      "|    fps              | 256      |\n",
      "|    time_elapsed     | 1379     |\n",
      "|    total_timesteps  | 354038   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0624   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 555      |\n",
      "|    ep_rew_mean      | 37.7     |\n",
      "|    exploration_rate | 0.288    |\n",
      "| time/               |          |\n",
      "|    episodes         | 736      |\n",
      "|    fps              | 256      |\n",
      "|    time_elapsed     | 1388     |\n",
      "|    total_timesteps  | 356024   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.124    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 560      |\n",
      "|    ep_rew_mean      | 38.2     |\n",
      "|    exploration_rate | 0.283    |\n",
      "| time/               |          |\n",
      "|    episodes         | 740      |\n",
      "|    fps              | 255      |\n",
      "|    time_elapsed     | 1400     |\n",
      "|    total_timesteps  | 358408   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0276   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 559      |\n",
      "|    ep_rew_mean      | 37.9     |\n",
      "|    exploration_rate | 0.279    |\n",
      "| time/               |          |\n",
      "|    episodes         | 744      |\n",
      "|    fps              | 255      |\n",
      "|    time_elapsed     | 1409     |\n",
      "|    total_timesteps  | 360286   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.148    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 555      |\n",
      "|    ep_rew_mean      | 38       |\n",
      "|    exploration_rate | 0.276    |\n",
      "| time/               |          |\n",
      "|    episodes         | 748      |\n",
      "|    fps              | 255      |\n",
      "|    time_elapsed     | 1418     |\n",
      "|    total_timesteps  | 362224   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.153    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 555      |\n",
      "|    ep_rew_mean      | 38       |\n",
      "|    exploration_rate | 0.271    |\n",
      "| time/               |          |\n",
      "|    episodes         | 752      |\n",
      "|    fps              | 254      |\n",
      "|    time_elapsed     | 1429     |\n",
      "|    total_timesteps  | 364464   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0807   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 550      |\n",
      "|    ep_rew_mean      | 36.7     |\n",
      "|    exploration_rate | 0.267    |\n",
      "| time/               |          |\n",
      "|    episodes         | 756      |\n",
      "|    fps              | 254      |\n",
      "|    time_elapsed     | 1438     |\n",
      "|    total_timesteps  | 366400   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0333   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 548      |\n",
      "|    ep_rew_mean      | 36.7     |\n",
      "|    exploration_rate | 0.263    |\n",
      "| time/               |          |\n",
      "|    episodes         | 760      |\n",
      "|    fps              | 254      |\n",
      "|    time_elapsed     | 1448     |\n",
      "|    total_timesteps  | 368338   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.159    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 551      |\n",
      "|    ep_rew_mean      | 37.9     |\n",
      "|    exploration_rate | 0.258    |\n",
      "| time/               |          |\n",
      "|    episodes         | 764      |\n",
      "|    fps              | 253      |\n",
      "|    time_elapsed     | 1460     |\n",
      "|    total_timesteps  | 370764   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.157    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 548      |\n",
      "|    ep_rew_mean      | 38.3     |\n",
      "|    exploration_rate | 0.255    |\n",
      "| time/               |          |\n",
      "|    episodes         | 768      |\n",
      "|    fps              | 253      |\n",
      "|    time_elapsed     | 1469     |\n",
      "|    total_timesteps  | 372688   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0824   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 548      |\n",
      "|    ep_rew_mean      | 38.3     |\n",
      "|    exploration_rate | 0.25     |\n",
      "| time/               |          |\n",
      "|    episodes         | 772      |\n",
      "|    fps              | 253      |\n",
      "|    time_elapsed     | 1479     |\n",
      "|    total_timesteps  | 374806   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0179   |\n",
      "----------------------------------\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/opt/conda/lib/python3.10/site-packages/gymnasium/utils/passive_env_checker.py:335: UserWarning: \u001b[33mWARN: No render fps was declared in the environment (env.metadata['render_fps'] is None or not defined), rendering may occur at inconsistent fps.\u001b[0m\n",
      "  logger.warn(\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 552      |\n",
      "|    ep_rew_mean      | 39.5     |\n",
      "|    exploration_rate | 0.246    |\n",
      "| time/               |          |\n",
      "|    episodes         | 776      |\n",
      "|    fps              | 252      |\n",
      "|    time_elapsed     | 1492     |\n",
      "|    total_timesteps  | 377212   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.017    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 550      |\n",
      "|    ep_rew_mean      | 39.5     |\n",
      "|    exploration_rate | 0.242    |\n",
      "| time/               |          |\n",
      "|    episodes         | 780      |\n",
      "|    fps              | 251      |\n",
      "|    time_elapsed     | 1505     |\n",
      "|    total_timesteps  | 379022   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0226   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 559      |\n",
      "|    ep_rew_mean      | 40.1     |\n",
      "|    exploration_rate | 0.237    |\n",
      "| time/               |          |\n",
      "|    episodes         | 784      |\n",
      "|    fps              | 251      |\n",
      "|    time_elapsed     | 1518     |\n",
      "|    total_timesteps  | 381680   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0727   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 550      |\n",
      "|    ep_rew_mean      | 39.2     |\n",
      "|    exploration_rate | 0.233    |\n",
      "| time/               |          |\n",
      "|    episodes         | 788      |\n",
      "|    fps              | 251      |\n",
      "|    time_elapsed     | 1527     |\n",
      "|    total_timesteps  | 383482   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0537   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 543      |\n",
      "|    ep_rew_mean      | 37.9     |\n",
      "|    exploration_rate | 0.229    |\n",
      "| time/               |          |\n",
      "|    episodes         | 792      |\n",
      "|    fps              | 250      |\n",
      "|    time_elapsed     | 1537     |\n",
      "|    total_timesteps  | 385546   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0176   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 540      |\n",
      "|    ep_rew_mean      | 37.7     |\n",
      "|    exploration_rate | 0.225    |\n",
      "| time/               |          |\n",
      "|    episodes         | 796      |\n",
      "|    fps              | 250      |\n",
      "|    time_elapsed     | 1547     |\n",
      "|    total_timesteps  | 387436   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.144    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 540      |\n",
      "|    ep_rew_mean      | 37.4     |\n",
      "|    exploration_rate | 0.221    |\n",
      "| time/               |          |\n",
      "|    episodes         | 800      |\n",
      "|    fps              | 250      |\n",
      "|    time_elapsed     | 1558     |\n",
      "|    total_timesteps  | 389703   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.152    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 533      |\n",
      "|    ep_rew_mean      | 36.6     |\n",
      "|    exploration_rate | 0.216    |\n",
      "| time/               |          |\n",
      "|    episodes         | 804      |\n",
      "|    fps              | 249      |\n",
      "|    time_elapsed     | 1568     |\n",
      "|    total_timesteps  | 391803   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.249    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 533      |\n",
      "|    ep_rew_mean      | 36.9     |\n",
      "|    exploration_rate | 0.213    |\n",
      "| time/               |          |\n",
      "|    episodes         | 808      |\n",
      "|    fps              | 249      |\n",
      "|    time_elapsed     | 1577     |\n",
      "|    total_timesteps  | 393543   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0722   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 530      |\n",
      "|    ep_rew_mean      | 37.8     |\n",
      "|    exploration_rate | 0.209    |\n",
      "| time/               |          |\n",
      "|    episodes         | 812      |\n",
      "|    fps              | 249      |\n",
      "|    time_elapsed     | 1587     |\n",
      "|    total_timesteps  | 395515   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.205    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 524      |\n",
      "|    ep_rew_mean      | 37.5     |\n",
      "|    exploration_rate | 0.205    |\n",
      "| time/               |          |\n",
      "|    episodes         | 816      |\n",
      "|    fps              | 248      |\n",
      "|    time_elapsed     | 1596     |\n",
      "|    total_timesteps  | 397379   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0824   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 521      |\n",
      "|    ep_rew_mean      | 37       |\n",
      "|    exploration_rate | 0.201    |\n",
      "| time/               |          |\n",
      "|    episodes         | 820      |\n",
      "|    fps              | 248      |\n",
      "|    time_elapsed     | 1607     |\n",
      "|    total_timesteps  | 399439   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0606   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 517      |\n",
      "|    ep_rew_mean      | 36.6     |\n",
      "|    exploration_rate | 0.198    |\n",
      "| time/               |          |\n",
      "|    episodes         | 824      |\n",
      "|    fps              | 248      |\n",
      "|    time_elapsed     | 1616     |\n",
      "|    total_timesteps  | 401249   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.17     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 516      |\n",
      "|    ep_rew_mean      | 37       |\n",
      "|    exploration_rate | 0.193    |\n",
      "| time/               |          |\n",
      "|    episodes         | 828      |\n",
      "|    fps              | 247      |\n",
      "|    time_elapsed     | 1626     |\n",
      "|    total_timesteps  | 403337   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0793   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 515      |\n",
      "|    ep_rew_mean      | 36.6     |\n",
      "|    exploration_rate | 0.189    |\n",
      "| time/               |          |\n",
      "|    episodes         | 832      |\n",
      "|    fps              | 247      |\n",
      "|    time_elapsed     | 1637     |\n",
      "|    total_timesteps  | 405537   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.117    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 520      |\n",
      "|    ep_rew_mean      | 40       |\n",
      "|    exploration_rate | 0.184    |\n",
      "| time/               |          |\n",
      "|    episodes         | 836      |\n",
      "|    fps              | 247      |\n",
      "|    time_elapsed     | 1650     |\n",
      "|    total_timesteps  | 408041   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0201   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 516      |\n",
      "|    ep_rew_mean      | 39.8     |\n",
      "|    exploration_rate | 0.18     |\n",
      "| time/               |          |\n",
      "|    episodes         | 840      |\n",
      "|    fps              | 246      |\n",
      "|    time_elapsed     | 1660     |\n",
      "|    total_timesteps  | 410033   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0489   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 520      |\n",
      "|    ep_rew_mean      | 40.5     |\n",
      "|    exploration_rate | 0.175    |\n",
      "| time/               |          |\n",
      "|    episodes         | 844      |\n",
      "|    fps              | 246      |\n",
      "|    time_elapsed     | 1671     |\n",
      "|    total_timesteps  | 412275   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.152    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 518      |\n",
      "|    ep_rew_mean      | 40.1     |\n",
      "|    exploration_rate | 0.172    |\n",
      "| time/               |          |\n",
      "|    episodes         | 848      |\n",
      "|    fps              | 246      |\n",
      "|    time_elapsed     | 1680     |\n",
      "|    total_timesteps  | 414001   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0418   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 512      |\n",
      "|    ep_rew_mean      | 39.5     |\n",
      "|    exploration_rate | 0.169    |\n",
      "| time/               |          |\n",
      "|    episodes         | 852      |\n",
      "|    fps              | 246      |\n",
      "|    time_elapsed     | 1689     |\n",
      "|    total_timesteps  | 415713   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.191    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 513      |\n",
      "|    ep_rew_mean      | 39.8     |\n",
      "|    exploration_rate | 0.165    |\n",
      "| time/               |          |\n",
      "|    episodes         | 856      |\n",
      "|    fps              | 245      |\n",
      "|    time_elapsed     | 1699     |\n",
      "|    total_timesteps  | 417739   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0208   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 516      |\n",
      "|    ep_rew_mean      | 39.8     |\n",
      "|    exploration_rate | 0.16     |\n",
      "| time/               |          |\n",
      "|    episodes         | 860      |\n",
      "|    fps              | 245      |\n",
      "|    time_elapsed     | 1710     |\n",
      "|    total_timesteps  | 419941   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0198   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 526      |\n",
      "|    ep_rew_mean      | 39.6     |\n",
      "|    exploration_rate | 0.153    |\n",
      "| time/               |          |\n",
      "|    episodes         | 864      |\n",
      "|    fps              | 245      |\n",
      "|    time_elapsed     | 1727     |\n",
      "|    total_timesteps  | 423349   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0236   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 525      |\n",
      "|    ep_rew_mean      | 39.2     |\n",
      "|    exploration_rate | 0.15     |\n",
      "| time/               |          |\n",
      "|    episodes         | 868      |\n",
      "|    fps              | 244      |\n",
      "|    time_elapsed     | 1737     |\n",
      "|    total_timesteps  | 425175   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0661   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 523      |\n",
      "|    ep_rew_mean      | 39.2     |\n",
      "|    exploration_rate | 0.146    |\n",
      "| time/               |          |\n",
      "|    episodes         | 872      |\n",
      "|    fps              | 244      |\n",
      "|    time_elapsed     | 1747     |\n",
      "|    total_timesteps  | 427150   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 4.2      |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 520      |\n",
      "|    ep_rew_mean      | 38.3     |\n",
      "|    exploration_rate | 0.142    |\n",
      "| time/               |          |\n",
      "|    episodes         | 876      |\n",
      "|    fps              | 244      |\n",
      "|    time_elapsed     | 1757     |\n",
      "|    total_timesteps  | 429238   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.105    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 525      |\n",
      "|    ep_rew_mean      | 39.6     |\n",
      "|    exploration_rate | 0.137    |\n",
      "| time/               |          |\n",
      "|    episodes         | 880      |\n",
      "|    fps              | 243      |\n",
      "|    time_elapsed     | 1769     |\n",
      "|    total_timesteps  | 431501   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0677   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 522      |\n",
      "|    ep_rew_mean      | 39.8     |\n",
      "|    exploration_rate | 0.132    |\n",
      "| time/               |          |\n",
      "|    episodes         | 884      |\n",
      "|    fps              | 243      |\n",
      "|    time_elapsed     | 1781     |\n",
      "|    total_timesteps  | 433897   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.112    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 523      |\n",
      "|    ep_rew_mean      | 40       |\n",
      "|    exploration_rate | 0.128    |\n",
      "| time/               |          |\n",
      "|    episodes         | 888      |\n",
      "|    fps              | 243      |\n",
      "|    time_elapsed     | 1791     |\n",
      "|    total_timesteps  | 435821   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.135    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 525      |\n",
      "|    ep_rew_mean      | 40.2     |\n",
      "|    exploration_rate | 0.124    |\n",
      "| time/               |          |\n",
      "|    episodes         | 892      |\n",
      "|    fps              | 242      |\n",
      "|    time_elapsed     | 1802     |\n",
      "|    total_timesteps  | 438015   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.127    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 527      |\n",
      "|    ep_rew_mean      | 40.7     |\n",
      "|    exploration_rate | 0.12     |\n",
      "| time/               |          |\n",
      "|    episodes         | 896      |\n",
      "|    fps              | 242      |\n",
      "|    time_elapsed     | 1813     |\n",
      "|    total_timesteps  | 440157   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.44     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 528      |\n",
      "|    ep_rew_mean      | 44       |\n",
      "|    exploration_rate | 0.115    |\n",
      "| time/               |          |\n",
      "|    episodes         | 900      |\n",
      "|    fps              | 242      |\n",
      "|    time_elapsed     | 1825     |\n",
      "|    total_timesteps  | 442531   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0226   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 529      |\n",
      "|    ep_rew_mean      | 44.2     |\n",
      "|    exploration_rate | 0.111    |\n",
      "| time/               |          |\n",
      "|    episodes         | 904      |\n",
      "|    fps              | 242      |\n",
      "|    time_elapsed     | 1836     |\n",
      "|    total_timesteps  | 444667   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.137    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 533      |\n",
      "|    ep_rew_mean      | 44.2     |\n",
      "|    exploration_rate | 0.106    |\n",
      "| time/               |          |\n",
      "|    episodes         | 908      |\n",
      "|    fps              | 241      |\n",
      "|    time_elapsed     | 1848     |\n",
      "|    total_timesteps  | 446843   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0696   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 535      |\n",
      "|    ep_rew_mean      | 43.7     |\n",
      "|    exploration_rate | 0.102    |\n",
      "| time/               |          |\n",
      "|    episodes         | 912      |\n",
      "|    fps              | 241      |\n",
      "|    time_elapsed     | 1859     |\n",
      "|    total_timesteps  | 449037   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0654   |\n",
      "----------------------------------\n",
      "Eval num_timesteps=450000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "----------------------------------\n",
      "| eval/               |          |\n",
      "|    mean_ep_length   | 420      |\n",
      "|    mean_reward      | 1        |\n",
      "| rollout/            |          |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    total_timesteps  | 450000   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0361   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 538      |\n",
      "|    ep_rew_mean      | 44       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 916      |\n",
      "|    fps              | 239      |\n",
      "|    time_elapsed     | 1882     |\n",
      "|    total_timesteps  | 451203   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.23     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 539      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 920      |\n",
      "|    fps              | 239      |\n",
      "|    time_elapsed     | 1893     |\n",
      "|    total_timesteps  | 453305   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.063    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 544      |\n",
      "|    ep_rew_mean      | 45.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 924      |\n",
      "|    fps              | 239      |\n",
      "|    time_elapsed     | 1905     |\n",
      "|    total_timesteps  | 455622   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0443   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 543      |\n",
      "|    ep_rew_mean      | 45.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 928      |\n",
      "|    fps              | 238      |\n",
      "|    time_elapsed     | 1915     |\n",
      "|    total_timesteps  | 457644   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0236   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 543      |\n",
      "|    ep_rew_mean      | 45.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 932      |\n",
      "|    fps              | 238      |\n",
      "|    time_elapsed     | 1927     |\n",
      "|    total_timesteps  | 459840   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.122    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 540      |\n",
      "|    ep_rew_mean      | 43.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 936      |\n",
      "|    fps              | 238      |\n",
      "|    time_elapsed     | 1938     |\n",
      "|    total_timesteps  | 462021   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0368   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 544      |\n",
      "|    ep_rew_mean      | 44.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 940      |\n",
      "|    fps              | 238      |\n",
      "|    time_elapsed     | 1950     |\n",
      "|    total_timesteps  | 464431   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0452   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 540      |\n",
      "|    ep_rew_mean      | 43.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 944      |\n",
      "|    fps              | 237      |\n",
      "|    time_elapsed     | 1960     |\n",
      "|    total_timesteps  | 466315   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 5.56     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 544      |\n",
      "|    ep_rew_mean      | 43.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 948      |\n",
      "|    fps              | 237      |\n",
      "|    time_elapsed     | 1971     |\n",
      "|    total_timesteps  | 468449   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.168    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 550      |\n",
      "|    ep_rew_mean      | 45.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 952      |\n",
      "|    fps              | 237      |\n",
      "|    time_elapsed     | 1983     |\n",
      "|    total_timesteps  | 470669   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.212    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 549      |\n",
      "|    ep_rew_mean      | 45.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 956      |\n",
      "|    fps              | 237      |\n",
      "|    time_elapsed     | 1993     |\n",
      "|    total_timesteps  | 472661   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.246    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 550      |\n",
      "|    ep_rew_mean      | 45.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 960      |\n",
      "|    fps              | 236      |\n",
      "|    time_elapsed     | 2005     |\n",
      "|    total_timesteps  | 474904   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0277   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 536      |\n",
      "|    ep_rew_mean      | 44.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 964      |\n",
      "|    fps              | 236      |\n",
      "|    time_elapsed     | 2015     |\n",
      "|    total_timesteps  | 476942   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0283   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 539      |\n",
      "|    ep_rew_mean      | 44.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 968      |\n",
      "|    fps              | 236      |\n",
      "|    time_elapsed     | 2026     |\n",
      "|    total_timesteps  | 479108   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0689   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 537      |\n",
      "|    ep_rew_mean      | 44.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 972      |\n",
      "|    fps              | 236      |\n",
      "|    time_elapsed     | 2036     |\n",
      "|    total_timesteps  | 480880   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0471   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 536      |\n",
      "|    ep_rew_mean      | 44.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 976      |\n",
      "|    fps              | 235      |\n",
      "|    time_elapsed     | 2046     |\n",
      "|    total_timesteps  | 482863   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.225    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 536      |\n",
      "|    ep_rew_mean      | 43.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 980      |\n",
      "|    fps              | 235      |\n",
      "|    time_elapsed     | 2057     |\n",
      "|    total_timesteps  | 485065   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0343   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 530      |\n",
      "|    ep_rew_mean      | 42.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 984      |\n",
      "|    fps              | 235      |\n",
      "|    time_elapsed     | 2066     |\n",
      "|    total_timesteps  | 486873   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0738   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 531      |\n",
      "|    ep_rew_mean      | 42.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 988      |\n",
      "|    fps              | 235      |\n",
      "|    time_elapsed     | 2077     |\n",
      "|    total_timesteps  | 488895   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0315   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 534      |\n",
      "|    ep_rew_mean      | 42.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 992      |\n",
      "|    fps              | 235      |\n",
      "|    time_elapsed     | 2090     |\n",
      "|    total_timesteps  | 491421   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.206    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 534      |\n",
      "|    ep_rew_mean      | 42.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 996      |\n",
      "|    fps              | 234      |\n",
      "|    time_elapsed     | 2101     |\n",
      "|    total_timesteps  | 493511   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0698   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 535      |\n",
      "|    ep_rew_mean      | 39.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1000     |\n",
      "|    fps              | 234      |\n",
      "|    time_elapsed     | 2114     |\n",
      "|    total_timesteps  | 496043   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.056    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 541      |\n",
      "|    ep_rew_mean      | 40.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1004     |\n",
      "|    fps              | 234      |\n",
      "|    time_elapsed     | 2128     |\n",
      "|    total_timesteps  | 498815   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.109    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 540      |\n",
      "|    ep_rew_mean      | 39.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1008     |\n",
      "|    fps              | 234      |\n",
      "|    time_elapsed     | 2138     |\n",
      "|    total_timesteps  | 500815   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0728   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 540      |\n",
      "|    ep_rew_mean      | 39       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1012     |\n",
      "|    fps              | 233      |\n",
      "|    time_elapsed     | 2150     |\n",
      "|    total_timesteps  | 503001   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.107    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 537      |\n",
      "|    ep_rew_mean      | 38.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1016     |\n",
      "|    fps              | 233      |\n",
      "|    time_elapsed     | 2160     |\n",
      "|    total_timesteps  | 504901   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0346   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 539      |\n",
      "|    ep_rew_mean      | 38.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1020     |\n",
      "|    fps              | 233      |\n",
      "|    time_elapsed     | 2172     |\n",
      "|    total_timesteps  | 507222   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0246   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 543      |\n",
      "|    ep_rew_mean      | 38.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1024     |\n",
      "|    fps              | 233      |\n",
      "|    time_elapsed     | 2186     |\n",
      "|    total_timesteps  | 509966   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0466   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 546      |\n",
      "|    ep_rew_mean      | 39.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1028     |\n",
      "|    fps              | 232      |\n",
      "|    time_elapsed     | 2198     |\n",
      "|    total_timesteps  | 512272   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0765   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 546      |\n",
      "|    ep_rew_mean      | 39.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1032     |\n",
      "|    fps              | 232      |\n",
      "|    time_elapsed     | 2209     |\n",
      "|    total_timesteps  | 514402   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0541   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 545      |\n",
      "|    ep_rew_mean      | 38.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1036     |\n",
      "|    fps              | 232      |\n",
      "|    time_elapsed     | 2221     |\n",
      "|    total_timesteps  | 516538   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0265   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 540      |\n",
      "|    ep_rew_mean      | 37.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1040     |\n",
      "|    fps              | 232      |\n",
      "|    time_elapsed     | 2231     |\n",
      "|    total_timesteps  | 518464   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0266   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 544      |\n",
      "|    ep_rew_mean      | 37.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1044     |\n",
      "|    fps              | 232      |\n",
      "|    time_elapsed     | 2242     |\n",
      "|    total_timesteps  | 520698   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0812   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 546      |\n",
      "|    ep_rew_mean      | 37.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1048     |\n",
      "|    fps              | 231      |\n",
      "|    time_elapsed     | 2255     |\n",
      "|    total_timesteps  | 523090   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.631    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 547      |\n",
      "|    ep_rew_mean      | 37       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1052     |\n",
      "|    fps              | 231      |\n",
      "|    time_elapsed     | 2266     |\n",
      "|    total_timesteps  | 525326   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0872   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 553      |\n",
      "|    ep_rew_mean      | 38.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1056     |\n",
      "|    fps              | 231      |\n",
      "|    time_elapsed     | 2280     |\n",
      "|    total_timesteps  | 528004   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0417   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 551      |\n",
      "|    ep_rew_mean      | 37.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1060     |\n",
      "|    fps              | 231      |\n",
      "|    time_elapsed     | 2290     |\n",
      "|    total_timesteps  | 529960   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0779   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 551      |\n",
      "|    ep_rew_mean      | 37.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1064     |\n",
      "|    fps              | 231      |\n",
      "|    time_elapsed     | 2301     |\n",
      "|    total_timesteps  | 532002   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0291   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 546      |\n",
      "|    ep_rew_mean      | 37.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1068     |\n",
      "|    fps              | 231      |\n",
      "|    time_elapsed     | 2310     |\n",
      "|    total_timesteps  | 533752   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0527   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 552      |\n",
      "|    ep_rew_mean      | 38.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1072     |\n",
      "|    fps              | 230      |\n",
      "|    time_elapsed     | 2322     |\n",
      "|    total_timesteps  | 536058   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.444    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 557      |\n",
      "|    ep_rew_mean      | 38.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1076     |\n",
      "|    fps              | 230      |\n",
      "|    time_elapsed     | 2335     |\n",
      "|    total_timesteps  | 538532   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.103    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 558      |\n",
      "|    ep_rew_mean      | 38.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1080     |\n",
      "|    fps              | 230      |\n",
      "|    time_elapsed     | 2347     |\n",
      "|    total_timesteps  | 540844   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0213   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 562      |\n",
      "|    ep_rew_mean      | 39       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1084     |\n",
      "|    fps              | 230      |\n",
      "|    time_elapsed     | 2358     |\n",
      "|    total_timesteps  | 543084   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0492   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 561      |\n",
      "|    ep_rew_mean      | 38.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1088     |\n",
      "|    fps              | 230      |\n",
      "|    time_elapsed     | 2368     |\n",
      "|    total_timesteps  | 544950   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.188    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 561      |\n",
      "|    ep_rew_mean      | 39       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1092     |\n",
      "|    fps              | 229      |\n",
      "|    time_elapsed     | 2381     |\n",
      "|    total_timesteps  | 547504   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.113    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 563      |\n",
      "|    ep_rew_mean      | 39.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1096     |\n",
      "|    fps              | 229      |\n",
      "|    time_elapsed     | 2393     |\n",
      "|    total_timesteps  | 549801   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.199    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 561      |\n",
      "|    ep_rew_mean      | 39.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1100     |\n",
      "|    fps              | 229      |\n",
      "|    time_elapsed     | 2405     |\n",
      "|    total_timesteps  | 552128   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0959   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 555      |\n",
      "|    ep_rew_mean      | 39.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1104     |\n",
      "|    fps              | 229      |\n",
      "|    time_elapsed     | 2417     |\n",
      "|    total_timesteps  | 554292   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0692   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 558      |\n",
      "|    ep_rew_mean      | 40.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1108     |\n",
      "|    fps              | 229      |\n",
      "|    time_elapsed     | 2429     |\n",
      "|    total_timesteps  | 556634   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.075    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 560      |\n",
      "|    ep_rew_mean      | 40.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1112     |\n",
      "|    fps              | 228      |\n",
      "|    time_elapsed     | 2441     |\n",
      "|    total_timesteps  | 558966   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.204    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 565      |\n",
      "|    ep_rew_mean      | 40.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1116     |\n",
      "|    fps              | 228      |\n",
      "|    time_elapsed     | 2454     |\n",
      "|    total_timesteps  | 561388   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0388   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 565      |\n",
      "|    ep_rew_mean      | 40.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1120     |\n",
      "|    fps              | 228      |\n",
      "|    time_elapsed     | 2466     |\n",
      "|    total_timesteps  | 563676   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.122    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 558      |\n",
      "|    ep_rew_mean      | 43.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1124     |\n",
      "|    fps              | 228      |\n",
      "|    time_elapsed     | 2476     |\n",
      "|    total_timesteps  | 565733   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0507   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 558      |\n",
      "|    ep_rew_mean      | 43.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1128     |\n",
      "|    fps              | 228      |\n",
      "|    time_elapsed     | 2489     |\n",
      "|    total_timesteps  | 568114   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0457   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 562      |\n",
      "|    ep_rew_mean      | 43.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1132     |\n",
      "|    fps              | 228      |\n",
      "|    time_elapsed     | 2502     |\n",
      "|    total_timesteps  | 570614   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.124    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 564      |\n",
      "|    ep_rew_mean      | 42.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1136     |\n",
      "|    fps              | 227      |\n",
      "|    time_elapsed     | 2514     |\n",
      "|    total_timesteps  | 572924   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0604   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 567      |\n",
      "|    ep_rew_mean      | 43.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1140     |\n",
      "|    fps              | 227      |\n",
      "|    time_elapsed     | 2525     |\n",
      "|    total_timesteps  | 575176   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0808   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 570      |\n",
      "|    ep_rew_mean      | 44.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1144     |\n",
      "|    fps              | 227      |\n",
      "|    time_elapsed     | 2538     |\n",
      "|    total_timesteps  | 577684   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.407    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 573      |\n",
      "|    ep_rew_mean      | 44.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1148     |\n",
      "|    fps              | 227      |\n",
      "|    time_elapsed     | 2553     |\n",
      "|    total_timesteps  | 580342   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.125    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 45       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1152     |\n",
      "|    fps              | 227      |\n",
      "|    time_elapsed     | 2566     |\n",
      "|    total_timesteps  | 582794   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0597   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 566      |\n",
      "|    ep_rew_mean      | 43.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1156     |\n",
      "|    fps              | 226      |\n",
      "|    time_elapsed     | 2575     |\n",
      "|    total_timesteps  | 584598   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.135    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 567      |\n",
      "|    ep_rew_mean      | 43.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1160     |\n",
      "|    fps              | 226      |\n",
      "|    time_elapsed     | 2586     |\n",
      "|    total_timesteps  | 586642   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0745   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 572      |\n",
      "|    ep_rew_mean      | 44.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1164     |\n",
      "|    fps              | 226      |\n",
      "|    time_elapsed     | 2599     |\n",
      "|    total_timesteps  | 589236   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0283   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 45.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1168     |\n",
      "|    fps              | 226      |\n",
      "|    time_elapsed     | 2615     |\n",
      "|    total_timesteps  | 592263   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.176    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 584      |\n",
      "|    ep_rew_mean      | 45.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1172     |\n",
      "|    fps              | 226      |\n",
      "|    time_elapsed     | 2627     |\n",
      "|    total_timesteps  | 594483   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0902   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 45.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1176     |\n",
      "|    fps              | 226      |\n",
      "|    time_elapsed     | 2638     |\n",
      "|    total_timesteps  | 596659   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0911   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 583      |\n",
      "|    ep_rew_mean      | 45.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1180     |\n",
      "|    fps              | 225      |\n",
      "|    time_elapsed     | 2651     |\n",
      "|    total_timesteps  | 599123   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0184   |\n",
      "----------------------------------\n",
      "Eval num_timesteps=600000, episode_reward=14.80 +/- 0.40\n",
      "Episode length: 474.40 +/- 29.36\n",
      "----------------------------------\n",
      "| eval/               |          |\n",
      "|    mean_ep_length   | 474      |\n",
      "|    mean_reward      | 14.8     |\n",
      "| rollout/            |          |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    total_timesteps  | 600000   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.103    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 45.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1184     |\n",
      "|    fps              | 224      |\n",
      "|    time_elapsed     | 2674     |\n",
      "|    total_timesteps  | 601173   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.259    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 583      |\n",
      "|    ep_rew_mean      | 45.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1188     |\n",
      "|    fps              | 224      |\n",
      "|    time_elapsed     | 2685     |\n",
      "|    total_timesteps  | 603299   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.17     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 578      |\n",
      "|    ep_rew_mean      | 45.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1192     |\n",
      "|    fps              | 224      |\n",
      "|    time_elapsed     | 2695     |\n",
      "|    total_timesteps  | 605265   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0551   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 576      |\n",
      "|    ep_rew_mean      | 45.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1196     |\n",
      "|    fps              | 224      |\n",
      "|    time_elapsed     | 2707     |\n",
      "|    total_timesteps  | 607415   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.11     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 577      |\n",
      "|    ep_rew_mean      | 45.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1200     |\n",
      "|    fps              | 224      |\n",
      "|    time_elapsed     | 2719     |\n",
      "|    total_timesteps  | 609835   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0606   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 579      |\n",
      "|    ep_rew_mean      | 45       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1204     |\n",
      "|    fps              | 224      |\n",
      "|    time_elapsed     | 2731     |\n",
      "|    total_timesteps  | 612151   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0295   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 577      |\n",
      "|    ep_rew_mean      | 45.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1208     |\n",
      "|    fps              | 223      |\n",
      "|    time_elapsed     | 2743     |\n",
      "|    total_timesteps  | 614347   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0486   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 574      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1212     |\n",
      "|    fps              | 223      |\n",
      "|    time_elapsed     | 2754     |\n",
      "|    total_timesteps  | 616415   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.105    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 570      |\n",
      "|    ep_rew_mean      | 44.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1216     |\n",
      "|    fps              | 223      |\n",
      "|    time_elapsed     | 2764     |\n",
      "|    total_timesteps  | 618363   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0673   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 567      |\n",
      "|    ep_rew_mean      | 44.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1220     |\n",
      "|    fps              | 223      |\n",
      "|    time_elapsed     | 2775     |\n",
      "|    total_timesteps  | 620419   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.486    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 567      |\n",
      "|    ep_rew_mean      | 41.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1224     |\n",
      "|    fps              | 223      |\n",
      "|    time_elapsed     | 2786     |\n",
      "|    total_timesteps  | 622479   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0544   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 563      |\n",
      "|    ep_rew_mean      | 40.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1228     |\n",
      "|    fps              | 223      |\n",
      "|    time_elapsed     | 2796     |\n",
      "|    total_timesteps  | 624421   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0258   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 560      |\n",
      "|    ep_rew_mean      | 40.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1232     |\n",
      "|    fps              | 223      |\n",
      "|    time_elapsed     | 2807     |\n",
      "|    total_timesteps  | 626603   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0965   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 563      |\n",
      "|    ep_rew_mean      | 40.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1236     |\n",
      "|    fps              | 223      |\n",
      "|    time_elapsed     | 2821     |\n",
      "|    total_timesteps  | 629223   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.139    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 563      |\n",
      "|    ep_rew_mean      | 40.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1240     |\n",
      "|    fps              | 222      |\n",
      "|    time_elapsed     | 2833     |\n",
      "|    total_timesteps  | 631479   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.15     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 560      |\n",
      "|    ep_rew_mean      | 39.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1244     |\n",
      "|    fps              | 222      |\n",
      "|    time_elapsed     | 2844     |\n",
      "|    total_timesteps  | 633709   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0805   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 558      |\n",
      "|    ep_rew_mean      | 40.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1248     |\n",
      "|    fps              | 222      |\n",
      "|    time_elapsed     | 2857     |\n",
      "|    total_timesteps  | 636094   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.168    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 559      |\n",
      "|    ep_rew_mean      | 41       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1252     |\n",
      "|    fps              | 222      |\n",
      "|    time_elapsed     | 2871     |\n",
      "|    total_timesteps  | 638716   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0451   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 565      |\n",
      "|    ep_rew_mean      | 41.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1256     |\n",
      "|    fps              | 222      |\n",
      "|    time_elapsed     | 2883     |\n",
      "|    total_timesteps  | 641112   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0272   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 567      |\n",
      "|    ep_rew_mean      | 41.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1260     |\n",
      "|    fps              | 222      |\n",
      "|    time_elapsed     | 2895     |\n",
      "|    total_timesteps  | 643326   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.239    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 566      |\n",
      "|    ep_rew_mean      | 42.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1264     |\n",
      "|    fps              | 222      |\n",
      "|    time_elapsed     | 2908     |\n",
      "|    total_timesteps  | 645870   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.152    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 560      |\n",
      "|    ep_rew_mean      | 42.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1268     |\n",
      "|    fps              | 221      |\n",
      "|    time_elapsed     | 2920     |\n",
      "|    total_timesteps  | 648288   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0574   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 562      |\n",
      "|    ep_rew_mean      | 42.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1272     |\n",
      "|    fps              | 221      |\n",
      "|    time_elapsed     | 2933     |\n",
      "|    total_timesteps  | 650700   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 8.1      |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 562      |\n",
      "|    ep_rew_mean      | 43       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1276     |\n",
      "|    fps              | 221      |\n",
      "|    time_elapsed     | 2944     |\n",
      "|    total_timesteps  | 652874   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.244    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 563      |\n",
      "|    ep_rew_mean      | 42.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1280     |\n",
      "|    fps              | 221      |\n",
      "|    time_elapsed     | 2957     |\n",
      "|    total_timesteps  | 655374   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.135    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 565      |\n",
      "|    ep_rew_mean      | 43.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1284     |\n",
      "|    fps              | 221      |\n",
      "|    time_elapsed     | 2969     |\n",
      "|    total_timesteps  | 657706   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0357   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 567      |\n",
      "|    ep_rew_mean      | 43.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1288     |\n",
      "|    fps              | 221      |\n",
      "|    time_elapsed     | 2981     |\n",
      "|    total_timesteps  | 660004   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.217    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 568      |\n",
      "|    ep_rew_mean      | 43.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1292     |\n",
      "|    fps              | 221      |\n",
      "|    time_elapsed     | 2992     |\n",
      "|    total_timesteps  | 662090   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0424   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 574      |\n",
      "|    ep_rew_mean      | 44.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1296     |\n",
      "|    fps              | 221      |\n",
      "|    time_elapsed     | 3006     |\n",
      "|    total_timesteps  | 664778   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0947   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 572      |\n",
      "|    ep_rew_mean      | 43.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1300     |\n",
      "|    fps              | 221      |\n",
      "|    time_elapsed     | 3018     |\n",
      "|    total_timesteps  | 667022   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0774   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 573      |\n",
      "|    ep_rew_mean      | 43.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1304     |\n",
      "|    fps              | 220      |\n",
      "|    time_elapsed     | 3030     |\n",
      "|    total_timesteps  | 669430   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 8.57     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 572      |\n",
      "|    ep_rew_mean      | 43.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1308     |\n",
      "|    fps              | 220      |\n",
      "|    time_elapsed     | 3041     |\n",
      "|    total_timesteps  | 671514   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.118    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 570      |\n",
      "|    ep_rew_mean      | 43.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1312     |\n",
      "|    fps              | 220      |\n",
      "|    time_elapsed     | 3051     |\n",
      "|    total_timesteps  | 673426   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0595   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1316     |\n",
      "|    fps              | 220      |\n",
      "|    time_elapsed     | 3067     |\n",
      "|    total_timesteps  | 676438   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0942   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1320     |\n",
      "|    fps              | 220      |\n",
      "|    time_elapsed     | 3080     |\n",
      "|    total_timesteps  | 678966   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.13     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 45.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1324     |\n",
      "|    fps              | 220      |\n",
      "|    time_elapsed     | 3093     |\n",
      "|    total_timesteps  | 681550   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.125    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 594      |\n",
      "|    ep_rew_mean      | 46.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1328     |\n",
      "|    fps              | 220      |\n",
      "|    time_elapsed     | 3105     |\n",
      "|    total_timesteps  | 683866   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0808   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 46.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1332     |\n",
      "|    fps              | 220      |\n",
      "|    time_elapsed     | 3116     |\n",
      "|    total_timesteps  | 685814   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0176   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1336     |\n",
      "|    fps              | 219      |\n",
      "|    time_elapsed     | 3128     |\n",
      "|    total_timesteps  | 688093   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0311   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 46.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1340     |\n",
      "|    fps              | 219      |\n",
      "|    time_elapsed     | 3141     |\n",
      "|    total_timesteps  | 690587   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.131    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 46.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1344     |\n",
      "|    fps              | 219      |\n",
      "|    time_elapsed     | 3152     |\n",
      "|    total_timesteps  | 692763   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0779   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1348     |\n",
      "|    fps              | 219      |\n",
      "|    time_elapsed     | 3165     |\n",
      "|    total_timesteps  | 695313   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0787   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 588      |\n",
      "|    ep_rew_mean      | 45.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1352     |\n",
      "|    fps              | 219      |\n",
      "|    time_elapsed     | 3177     |\n",
      "|    total_timesteps  | 697539   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.116    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 44.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1356     |\n",
      "|    fps              | 219      |\n",
      "|    time_elapsed     | 3188     |\n",
      "|    total_timesteps  | 699601   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.109    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 44.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1360     |\n",
      "|    fps              | 219      |\n",
      "|    time_elapsed     | 3199     |\n",
      "|    total_timesteps  | 701783   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.161    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 579      |\n",
      "|    ep_rew_mean      | 44.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1364     |\n",
      "|    fps              | 219      |\n",
      "|    time_elapsed     | 3210     |\n",
      "|    total_timesteps  | 703779   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.124    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 576      |\n",
      "|    ep_rew_mean      | 43.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1368     |\n",
      "|    fps              | 219      |\n",
      "|    time_elapsed     | 3221     |\n",
      "|    total_timesteps  | 705919   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0323   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 580      |\n",
      "|    ep_rew_mean      | 43.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1372     |\n",
      "|    fps              | 219      |\n",
      "|    time_elapsed     | 3235     |\n",
      "|    total_timesteps  | 708721   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0997   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 579      |\n",
      "|    ep_rew_mean      | 43.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1376     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3246     |\n",
      "|    total_timesteps  | 710759   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.167    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 43       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1380     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3257     |\n",
      "|    total_timesteps  | 712870   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.124    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 42.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1384     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3266     |\n",
      "|    total_timesteps  | 714762   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.194    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 570      |\n",
      "|    ep_rew_mean      | 42.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1388     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3278     |\n",
      "|    total_timesteps  | 716976   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.052    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 569      |\n",
      "|    ep_rew_mean      | 42.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1392     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3288     |\n",
      "|    total_timesteps  | 718956   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.134    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 565      |\n",
      "|    ep_rew_mean      | 41.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1396     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3301     |\n",
      "|    total_timesteps  | 721311   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.142    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 572      |\n",
      "|    ep_rew_mean      | 43.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1400     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3316     |\n",
      "|    total_timesteps  | 724251   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0901   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 43.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1404     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3328     |\n",
      "|    total_timesteps  | 726573   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.394    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1408     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3340     |\n",
      "|    total_timesteps  | 728966   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0398   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 577      |\n",
      "|    ep_rew_mean      | 44.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1412     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3352     |\n",
      "|    total_timesteps  | 731098   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.281    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 569      |\n",
      "|    ep_rew_mean      | 43.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1416     |\n",
      "|    fps              | 218      |\n",
      "|    time_elapsed     | 3363     |\n",
      "|    total_timesteps  | 733328   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.317    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 568      |\n",
      "|    ep_rew_mean      | 43.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1420     |\n",
      "|    fps              | 217      |\n",
      "|    time_elapsed     | 3376     |\n",
      "|    total_timesteps  | 735804   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.223    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 572      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1424     |\n",
      "|    fps              | 217      |\n",
      "|    time_elapsed     | 3391     |\n",
      "|    total_timesteps  | 738782   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0665   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 573      |\n",
      "|    ep_rew_mean      | 44.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1428     |\n",
      "|    fps              | 217      |\n",
      "|    time_elapsed     | 3404     |\n",
      "|    total_timesteps  | 741188   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.198    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 44.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1432     |\n",
      "|    fps              | 217      |\n",
      "|    time_elapsed     | 3415     |\n",
      "|    total_timesteps  | 743346   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.21     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 576      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1436     |\n",
      "|    fps              | 217      |\n",
      "|    time_elapsed     | 3427     |\n",
      "|    total_timesteps  | 745722   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.155    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 44.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1440     |\n",
      "|    fps              | 217      |\n",
      "|    time_elapsed     | 3443     |\n",
      "|    total_timesteps  | 748736   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.229    |\n",
      "----------------------------------\n",
      "Eval num_timesteps=750000, episode_reward=22.50 +/- 4.08\n",
      "Episode length: 574.80 +/- 75.56\n",
      "----------------------------------\n",
      "| eval/               |          |\n",
      "|    mean_ep_length   | 575      |\n",
      "|    mean_reward      | 22.5     |\n",
      "| rollout/            |          |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    total_timesteps  | 750000   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0603   |\n",
      "----------------------------------\n",
      "New best mean reward!\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 582      |\n",
      "|    ep_rew_mean      | 44.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1444     |\n",
      "|    fps              | 216      |\n",
      "|    time_elapsed     | 3473     |\n",
      "|    total_timesteps  | 750952   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.404    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 45.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1448     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3490     |\n",
      "|    total_timesteps  | 753372   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.125    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 583      |\n",
      "|    ep_rew_mean      | 45.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1452     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3503     |\n",
      "|    total_timesteps  | 755842   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.266    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 583      |\n",
      "|    ep_rew_mean      | 45.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1456     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3514     |\n",
      "|    total_timesteps  | 757912   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.202    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1460     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3528     |\n",
      "|    total_timesteps  | 760634   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.381    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 46.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1464     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3540     |\n",
      "|    total_timesteps  | 762948   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0905   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 45.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1468     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3551     |\n",
      "|    total_timesteps  | 765128   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.237    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 45.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1472     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3564     |\n",
      "|    total_timesteps  | 767618   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 10.6     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 45.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1476     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3575     |\n",
      "|    total_timesteps  | 769904   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.163    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 45.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1480     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3586     |\n",
      "|    total_timesteps  | 771890   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0531   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 45.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1484     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3596     |\n",
      "|    total_timesteps  | 773850   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.101    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 595      |\n",
      "|    ep_rew_mean      | 46.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1488     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3609     |\n",
      "|    total_timesteps  | 776523   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0956   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 601      |\n",
      "|    ep_rew_mean      | 47       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1492     |\n",
      "|    fps              | 215      |\n",
      "|    time_elapsed     | 3622     |\n",
      "|    total_timesteps  | 779057   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.388    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 602      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1496     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3635     |\n",
      "|    total_timesteps  | 781549   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0609   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 594      |\n",
      "|    ep_rew_mean      | 45.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1500     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3646     |\n",
      "|    total_timesteps  | 783611   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.144    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 593      |\n",
      "|    ep_rew_mean      | 45.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1504     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3657     |\n",
      "|    total_timesteps  | 785829   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.631    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 44.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1508     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3668     |\n",
      "|    total_timesteps  | 787961   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0372   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 43.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1512     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3679     |\n",
      "|    total_timesteps  | 789983   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0275   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 587      |\n",
      "|    ep_rew_mean      | 43.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1516     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3689     |\n",
      "|    total_timesteps  | 792016   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0596   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 587      |\n",
      "|    ep_rew_mean      | 43.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1520     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3702     |\n",
      "|    total_timesteps  | 794465   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0561   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 580      |\n",
      "|    ep_rew_mean      | 42.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1524     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3714     |\n",
      "|    total_timesteps  | 796775   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.178    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 578      |\n",
      "|    ep_rew_mean      | 43       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1528     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3725     |\n",
      "|    total_timesteps  | 798971   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.332    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 43.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1532     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3740     |\n",
      "|    total_timesteps  | 801815   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.072    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 584      |\n",
      "|    ep_rew_mean      | 43.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1536     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3752     |\n",
      "|    total_timesteps  | 804153   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.137    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 579      |\n",
      "|    ep_rew_mean      | 43.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1540     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3764     |\n",
      "|    total_timesteps  | 806635   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0648   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 580      |\n",
      "|    ep_rew_mean      | 43.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1544     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3776     |\n",
      "|    total_timesteps  | 808961   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0645   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 580      |\n",
      "|    ep_rew_mean      | 42.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1548     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3789     |\n",
      "|    total_timesteps  | 811417   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.158    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 42       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1552     |\n",
      "|    fps              | 214      |\n",
      "|    time_elapsed     | 3799     |\n",
      "|    total_timesteps  | 813311   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.122    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 576      |\n",
      "|    ep_rew_mean      | 42       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1556     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3810     |\n",
      "|    total_timesteps  | 815531   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.1      |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 577      |\n",
      "|    ep_rew_mean      | 42.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1560     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3825     |\n",
      "|    total_timesteps  | 818376   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0678   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 42       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1564     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3836     |\n",
      "|    total_timesteps  | 820450   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.168    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 42.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1568     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3847     |\n",
      "|    total_timesteps  | 822615   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.11     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 574      |\n",
      "|    ep_rew_mean      | 42       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1572     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3859     |\n",
      "|    total_timesteps  | 824977   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0287   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 42       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1576     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3871     |\n",
      "|    total_timesteps  | 827411   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0852   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 576      |\n",
      "|    ep_rew_mean      | 42.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1580     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3882     |\n",
      "|    total_timesteps  | 829499   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.222    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 579      |\n",
      "|    ep_rew_mean      | 42.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1584     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3893     |\n",
      "|    total_timesteps  | 831709   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.327    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 576      |\n",
      "|    ep_rew_mean      | 41.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1588     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3906     |\n",
      "|    total_timesteps  | 834119   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0591   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 40.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1592     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3916     |\n",
      "|    total_timesteps  | 836157   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.712    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 574      |\n",
      "|    ep_rew_mean      | 41.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1596     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3931     |\n",
      "|    total_timesteps  | 838983   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.16     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 579      |\n",
      "|    ep_rew_mean      | 41.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1600     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3943     |\n",
      "|    total_timesteps  | 841485   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0715   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 41.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1604     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3956     |\n",
      "|    total_timesteps  | 843927   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.259    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 583      |\n",
      "|    ep_rew_mean      | 42       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1608     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3968     |\n",
      "|    total_timesteps  | 846229   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0865   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 586      |\n",
      "|    ep_rew_mean      | 42.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1612     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3980     |\n",
      "|    total_timesteps  | 848547   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.124    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 587      |\n",
      "|    ep_rew_mean      | 42.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1616     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 3991     |\n",
      "|    total_timesteps  | 850743   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0748   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 588      |\n",
      "|    ep_rew_mean      | 42.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1620     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 4004     |\n",
      "|    total_timesteps  | 853303   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.097    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 587      |\n",
      "|    ep_rew_mean      | 42.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1624     |\n",
      "|    fps              | 213      |\n",
      "|    time_elapsed     | 4015     |\n",
      "|    total_timesteps  | 855521   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0273   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 595      |\n",
      "|    ep_rew_mean      | 42.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1628     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4030     |\n",
      "|    total_timesteps  | 858431   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.177    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 42.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1632     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4042     |\n",
      "|    total_timesteps  | 860722   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.131    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 43.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1636     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4056     |\n",
      "|    total_timesteps  | 863356   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 12       |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 44.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1640     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4067     |\n",
      "|    total_timesteps  | 865604   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0736   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 44.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1644     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4080     |\n",
      "|    total_timesteps  | 867978   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.196    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 45       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1648     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4093     |\n",
      "|    total_timesteps  | 870550   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 2.59     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 595      |\n",
      "|    ep_rew_mean      | 45.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1652     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4104     |\n",
      "|    total_timesteps  | 872812   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0834   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 593      |\n",
      "|    ep_rew_mean      | 45.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1656     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4115     |\n",
      "|    total_timesteps  | 874860   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.158    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 587      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1660     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4127     |\n",
      "|    total_timesteps  | 877072   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.159    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 44.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1664     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4136     |\n",
      "|    total_timesteps  | 878948   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.131    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 45.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1668     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4150     |\n",
      "|    total_timesteps  | 881576   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.731    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 595      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1672     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4165     |\n",
      "|    total_timesteps  | 884514   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0671   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 595      |\n",
      "|    ep_rew_mean      | 46.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1676     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4178     |\n",
      "|    total_timesteps  | 886874   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0863   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 595      |\n",
      "|    ep_rew_mean      | 46.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1680     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4189     |\n",
      "|    total_timesteps  | 889046   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.069    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 601      |\n",
      "|    ep_rew_mean      | 47.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1684     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4203     |\n",
      "|    total_timesteps  | 891794   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0329   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 601      |\n",
      "|    ep_rew_mean      | 48       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1688     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4216     |\n",
      "|    total_timesteps  | 894209   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.198    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 606      |\n",
      "|    ep_rew_mean      | 48.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1692     |\n",
      "|    fps              | 212      |\n",
      "|    time_elapsed     | 4229     |\n",
      "|    total_timesteps  | 896733   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.275    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 596      |\n",
      "|    ep_rew_mean      | 47.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1696     |\n",
      "|    fps              | 211      |\n",
      "|    time_elapsed     | 4238     |\n",
      "|    total_timesteps  | 898599   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.315    |\n",
      "----------------------------------\n",
      "Eval num_timesteps=900000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "----------------------------------\n",
      "| eval/               |          |\n",
      "|    mean_ep_length   | 420      |\n",
      "|    mean_reward      | 1        |\n",
      "| rollout/            |          |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    total_timesteps  | 900000   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.274    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 46.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1700     |\n",
      "|    fps              | 211      |\n",
      "|    time_elapsed     | 4259     |\n",
      "|    total_timesteps  | 900477   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.417    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 47.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1704     |\n",
      "|    fps              | 211      |\n",
      "|    time_elapsed     | 4273     |\n",
      "|    total_timesteps  | 903047   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 12.7     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 587      |\n",
      "|    ep_rew_mean      | 46.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1708     |\n",
      "|    fps              | 211      |\n",
      "|    time_elapsed     | 4282     |\n",
      "|    total_timesteps  | 904903   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.286    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 46.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1712     |\n",
      "|    fps              | 211      |\n",
      "|    time_elapsed     | 4293     |\n",
      "|    total_timesteps  | 907013   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.189    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 46.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1716     |\n",
      "|    fps              | 211      |\n",
      "|    time_elapsed     | 4305     |\n",
      "|    total_timesteps  | 909227   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0667   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 587      |\n",
      "|    ep_rew_mean      | 49.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1720     |\n",
      "|    fps              | 211      |\n",
      "|    time_elapsed     | 4319     |\n",
      "|    total_timesteps  | 911963   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0765   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 593      |\n",
      "|    ep_rew_mean      | 50       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1724     |\n",
      "|    fps              | 211      |\n",
      "|    time_elapsed     | 4334     |\n",
      "|    total_timesteps  | 914869   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.057    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 588      |\n",
      "|    ep_rew_mean      | 49.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1728     |\n",
      "|    fps              | 211      |\n",
      "|    time_elapsed     | 4346     |\n",
      "|    total_timesteps  | 917209   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.196    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 48.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1732     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4356     |\n",
      "|    total_timesteps  | 919181   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.187    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 47.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1736     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4370     |\n",
      "|    total_timesteps  | 921877   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.506    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 586      |\n",
      "|    ep_rew_mean      | 46.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1740     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4382     |\n",
      "|    total_timesteps  | 924222   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.15     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 593      |\n",
      "|    ep_rew_mean      | 47.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1744     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4397     |\n",
      "|    total_timesteps  | 927252   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.226    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 46.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1748     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4409     |\n",
      "|    total_timesteps  | 929408   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.102    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1752     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4420     |\n",
      "|    total_timesteps  | 931700   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.159    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 588      |\n",
      "|    ep_rew_mean      | 46.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1756     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4430     |\n",
      "|    total_timesteps  | 933656   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.515    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 47       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1760     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4443     |\n",
      "|    total_timesteps  | 936134   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0463   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 597      |\n",
      "|    ep_rew_mean      | 47.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1764     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4456     |\n",
      "|    total_timesteps  | 938692   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 13.5     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 599      |\n",
      "|    ep_rew_mean      | 48.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1768     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4470     |\n",
      "|    total_timesteps  | 941428   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.185    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 47.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1772     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4481     |\n",
      "|    total_timesteps  | 943468   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.076    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 47.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1776     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4494     |\n",
      "|    total_timesteps  | 945952   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.331    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 48.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1780     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4505     |\n",
      "|    total_timesteps  | 948220   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.129    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 47.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1784     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4518     |\n",
      "|    total_timesteps  | 950766   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.251    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 48.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1788     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4530     |\n",
      "|    total_timesteps  | 953098   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.11     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 586      |\n",
      "|    ep_rew_mean      | 48.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1792     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4542     |\n",
      "|    total_timesteps  | 955292   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.149    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 588      |\n",
      "|    ep_rew_mean      | 48.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1796     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4553     |\n",
      "|    total_timesteps  | 957426   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.106    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 593      |\n",
      "|    ep_rew_mean      | 49.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1800     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4565     |\n",
      "|    total_timesteps  | 959733   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.219    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 594      |\n",
      "|    ep_rew_mean      | 48.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1804     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4579     |\n",
      "|    total_timesteps  | 962423   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.726    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 600      |\n",
      "|    ep_rew_mean      | 49.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1808     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4591     |\n",
      "|    total_timesteps  | 964873   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0554   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 601      |\n",
      "|    ep_rew_mean      | 50       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1812     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4603     |\n",
      "|    total_timesteps  | 967109   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.303    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 603      |\n",
      "|    ep_rew_mean      | 50.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1816     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4615     |\n",
      "|    total_timesteps  | 969519   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0313   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 596      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1820     |\n",
      "|    fps              | 210      |\n",
      "|    time_elapsed     | 4626     |\n",
      "|    total_timesteps  | 971543   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.161    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 46.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1824     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4639     |\n",
      "|    total_timesteps  | 974109   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.248    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 594      |\n",
      "|    ep_rew_mean      | 46.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1828     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4652     |\n",
      "|    total_timesteps  | 976563   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.175    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 595      |\n",
      "|    ep_rew_mean      | 47.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1832     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4663     |\n",
      "|    total_timesteps  | 978688   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.282    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 593      |\n",
      "|    ep_rew_mean      | 47.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1836     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4676     |\n",
      "|    total_timesteps  | 981216   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.158    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 47.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1840     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4687     |\n",
      "|    total_timesteps  | 983214   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.1      |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 583      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1844     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4699     |\n",
      "|    total_timesteps  | 985596   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.399    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 587      |\n",
      "|    ep_rew_mean      | 46.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1848     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4712     |\n",
      "|    total_timesteps  | 988127   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.127    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 46.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1852     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4723     |\n",
      "|    total_timesteps  | 990181   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0999   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 584      |\n",
      "|    ep_rew_mean      | 46.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1856     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4733     |\n",
      "|    total_timesteps  | 992059   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.124    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 586      |\n",
      "|    ep_rew_mean      | 46.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1860     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4746     |\n",
      "|    total_timesteps  | 994693   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.123    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 580      |\n",
      "|    ep_rew_mean      | 46.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1864     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4757     |\n",
      "|    total_timesteps  | 996713   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.315    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 578      |\n",
      "|    ep_rew_mean      | 44.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1868     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4770     |\n",
      "|    total_timesteps  | 999271   |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0572   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 578      |\n",
      "|    ep_rew_mean      | 45.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1872     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4780     |\n",
      "|    total_timesteps  | 1001289  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0234   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 578      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1876     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4793     |\n",
      "|    total_timesteps  | 1003711  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.204    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 574      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1880     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4803     |\n",
      "|    total_timesteps  | 1005657  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.106    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 570      |\n",
      "|    ep_rew_mean      | 43.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1884     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4814     |\n",
      "|    total_timesteps  | 1007809  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.157    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 568      |\n",
      "|    ep_rew_mean      | 42.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1888     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4825     |\n",
      "|    total_timesteps  | 1009883  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0279   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 569      |\n",
      "|    ep_rew_mean      | 42.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1892     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4837     |\n",
      "|    total_timesteps  | 1012239  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.236    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 572      |\n",
      "|    ep_rew_mean      | 42.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1896     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4850     |\n",
      "|    total_timesteps  | 1014655  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0709   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 570      |\n",
      "|    ep_rew_mean      | 42.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1900     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4861     |\n",
      "|    total_timesteps  | 1016771  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.105    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 570      |\n",
      "|    ep_rew_mean      | 42.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1904     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4875     |\n",
      "|    total_timesteps  | 1019455  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.216    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 42.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1908     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4888     |\n",
      "|    total_timesteps  | 1021945  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.159    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 41.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1912     |\n",
      "|    fps              | 209      |\n",
      "|    time_elapsed     | 4899     |\n",
      "|    total_timesteps  | 1024193  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.132    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 567      |\n",
      "|    ep_rew_mean      | 41.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1916     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 4910     |\n",
      "|    total_timesteps  | 1026223  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0806   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 569      |\n",
      "|    ep_rew_mean      | 41.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1920     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 4921     |\n",
      "|    total_timesteps  | 1028409  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.257    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 568      |\n",
      "|    ep_rew_mean      | 42.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1924     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 4934     |\n",
      "|    total_timesteps  | 1030907  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.121    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 567      |\n",
      "|    ep_rew_mean      | 43       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1928     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 4946     |\n",
      "|    total_timesteps  | 1033251  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.184    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 570      |\n",
      "|    ep_rew_mean      | 43.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1932     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 4959     |\n",
      "|    total_timesteps  | 1035720  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 16.2     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 568      |\n",
      "|    ep_rew_mean      | 43.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1936     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 4971     |\n",
      "|    total_timesteps  | 1038006  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.168    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 570      |\n",
      "|    ep_rew_mean      | 43.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1940     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 4983     |\n",
      "|    total_timesteps  | 1040252  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.283    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 572      |\n",
      "|    ep_rew_mean      | 43.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1944     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 4996     |\n",
      "|    total_timesteps  | 1042766  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0497   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 567      |\n",
      "|    ep_rew_mean      | 43       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1948     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 5006     |\n",
      "|    total_timesteps  | 1044814  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0957   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 572      |\n",
      "|    ep_rew_mean      | 43.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1952     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 5020     |\n",
      "|    total_timesteps  | 1047393  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.232    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 576      |\n",
      "|    ep_rew_mean      | 43.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1956     |\n",
      "|    fps              | 208      |\n",
      "|    time_elapsed     | 5032     |\n",
      "|    total_timesteps  | 1049709  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.135    |\n",
      "----------------------------------\n",
      "Eval num_timesteps=1050000, episode_reward=36.00 +/- 1.73\n",
      "Episode length: 575.80 +/- 49.57\n",
      "----------------------------------\n",
      "| eval/               |          |\n",
      "|    mean_ep_length   | 576      |\n",
      "|    mean_reward      | 36       |\n",
      "| rollout/            |          |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    total_timesteps  | 1050000  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.567    |\n",
      "----------------------------------\n",
      "New best mean reward!\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 43.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1960     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5059     |\n",
      "|    total_timesteps  | 1051833  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0917   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 577      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1964     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5073     |\n",
      "|    total_timesteps  | 1054461  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0745   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 577      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1968     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5086     |\n",
      "|    total_timesteps  | 1057015  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.205    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 577      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1972     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5096     |\n",
      "|    total_timesteps  | 1059023  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.121    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 578      |\n",
      "|    ep_rew_mean      | 45       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1976     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5109     |\n",
      "|    total_timesteps  | 1061479  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.335    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 583      |\n",
      "|    ep_rew_mean      | 46.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1980     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5122     |\n",
      "|    total_timesteps  | 1063991  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.105    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 582      |\n",
      "|    ep_rew_mean      | 46.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1984     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5132     |\n",
      "|    total_timesteps  | 1065985  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0156   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 584      |\n",
      "|    ep_rew_mean      | 46.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1988     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5144     |\n",
      "|    total_timesteps  | 1068315  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 16.8     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 582      |\n",
      "|    ep_rew_mean      | 46.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1992     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5155     |\n",
      "|    total_timesteps  | 1070391  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.123    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 580      |\n",
      "|    ep_rew_mean      | 46.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 1996     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5167     |\n",
      "|    total_timesteps  | 1072691  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.295    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2000     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5178     |\n",
      "|    total_timesteps  | 1074891  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.104    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 583      |\n",
      "|    ep_rew_mean      | 46.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2004     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5193     |\n",
      "|    total_timesteps  | 1077797  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 17.1     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 580      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2008     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5204     |\n",
      "|    total_timesteps  | 1079975  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.131    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 578      |\n",
      "|    ep_rew_mean      | 46.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2012     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5215     |\n",
      "|    total_timesteps  | 1082013  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.127    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 584      |\n",
      "|    ep_rew_mean      | 46.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2016     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5229     |\n",
      "|    total_timesteps  | 1084673  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0653   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2020     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5241     |\n",
      "|    total_timesteps  | 1086949  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.319    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 582      |\n",
      "|    ep_rew_mean      | 45.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2024     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5252     |\n",
      "|    total_timesteps  | 1089135  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.026    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 582      |\n",
      "|    ep_rew_mean      | 45.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2028     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5264     |\n",
      "|    total_timesteps  | 1091447  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.034    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 44.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2032     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5276     |\n",
      "|    total_timesteps  | 1093783  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0701   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 579      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2036     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5287     |\n",
      "|    total_timesteps  | 1095885  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.147    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 587      |\n",
      "|    ep_rew_mean      | 46.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2040     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5303     |\n",
      "|    total_timesteps  | 1099001  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.148    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 584      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2044     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5314     |\n",
      "|    total_timesteps  | 1101181  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.278    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 46.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2048     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5325     |\n",
      "|    total_timesteps  | 1103313  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.284    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2052     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5340     |\n",
      "|    total_timesteps  | 1106257  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 17.2     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 46.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2056     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5352     |\n",
      "|    total_timesteps  | 1108565  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.45     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 46.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2060     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5365     |\n",
      "|    total_timesteps  | 1110925  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.091    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 588      |\n",
      "|    ep_rew_mean      | 45.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2064     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5377     |\n",
      "|    total_timesteps  | 1113271  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.3      |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 587      |\n",
      "|    ep_rew_mean      | 45.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2068     |\n",
      "|    fps              | 207      |\n",
      "|    time_elapsed     | 5389     |\n",
      "|    total_timesteps  | 1115676  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.124    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 45.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2072     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5401     |\n",
      "|    total_timesteps  | 1117890  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.17     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 45.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2076     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5415     |\n",
      "|    total_timesteps  | 1120710  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.269    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 586      |\n",
      "|    ep_rew_mean      | 44.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2080     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5425     |\n",
      "|    total_timesteps  | 1122616  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.266    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 44.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2084     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5437     |\n",
      "|    total_timesteps  | 1124966  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.193    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 588      |\n",
      "|    ep_rew_mean      | 44.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2088     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5450     |\n",
      "|    total_timesteps  | 1127140  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.464    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 586      |\n",
      "|    ep_rew_mean      | 44.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2092     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5463     |\n",
      "|    total_timesteps  | 1128994  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0998   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2096     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5472     |\n",
      "|    total_timesteps  | 1130836  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.158    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 44.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2100     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5483     |\n",
      "|    total_timesteps  | 1132986  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.247    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 580      |\n",
      "|    ep_rew_mean      | 45.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2104     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5498     |\n",
      "|    total_timesteps  | 1135788  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0833   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 579      |\n",
      "|    ep_rew_mean      | 45       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2108     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5509     |\n",
      "|    total_timesteps  | 1137897  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.131    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 578      |\n",
      "|    ep_rew_mean      | 45       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2112     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5519     |\n",
      "|    total_timesteps  | 1139785  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.261    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 44.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2116     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5531     |\n",
      "|    total_timesteps  | 1142165  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.133    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 44.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2120     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5541     |\n",
      "|    total_timesteps  | 1144065  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.187    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 573      |\n",
      "|    ep_rew_mean      | 43.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2124     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5553     |\n",
      "|    total_timesteps  | 1146409  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.128    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 572      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2128     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5564     |\n",
      "|    total_timesteps  | 1148607  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.103    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 569      |\n",
      "|    ep_rew_mean      | 44.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2132     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5575     |\n",
      "|    total_timesteps  | 1150645  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.139    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 568      |\n",
      "|    ep_rew_mean      | 44       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2136     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5586     |\n",
      "|    total_timesteps  | 1152681  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.46     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 569      |\n",
      "|    ep_rew_mean      | 45.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2140     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5602     |\n",
      "|    total_timesteps  | 1155867  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.129    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 568      |\n",
      "|    ep_rew_mean      | 45       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2144     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5613     |\n",
      "|    total_timesteps  | 1158031  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.128    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 568      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2148     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5624     |\n",
      "|    total_timesteps  | 1160083  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.29     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 564      |\n",
      "|    ep_rew_mean      | 45.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2152     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5637     |\n",
      "|    total_timesteps  | 1162705  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0787   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 564      |\n",
      "|    ep_rew_mean      | 45.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2156     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5649     |\n",
      "|    total_timesteps  | 1164979  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0695   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 561      |\n",
      "|    ep_rew_mean      | 45.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2160     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5659     |\n",
      "|    total_timesteps  | 1166983  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0995   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 559      |\n",
      "|    ep_rew_mean      | 45.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2164     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5671     |\n",
      "|    total_timesteps  | 1169194  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.265    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 578      |\n",
      "|    ep_rew_mean      | 45.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2168     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5693     |\n",
      "|    total_timesteps  | 1173474  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.175    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 579      |\n",
      "|    ep_rew_mean      | 45.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2172     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5705     |\n",
      "|    total_timesteps  | 1175813  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.34     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 44.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2176     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5715     |\n",
      "|    total_timesteps  | 1177789  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.735    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 44.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2180     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5725     |\n",
      "|    total_timesteps  | 1179751  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.176    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2184     |\n",
      "|    fps              | 206      |\n",
      "|    time_elapsed     | 5738     |\n",
      "|    total_timesteps  | 1182108  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0827   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 571      |\n",
      "|    ep_rew_mean      | 44.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2188     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5749     |\n",
      "|    total_timesteps  | 1184216  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.121    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 572      |\n",
      "|    ep_rew_mean      | 44.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2192     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5759     |\n",
      "|    total_timesteps  | 1186186  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0805   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 578      |\n",
      "|    ep_rew_mean      | 45.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2196     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5771     |\n",
      "|    total_timesteps  | 1188622  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.299    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 584      |\n",
      "|    ep_rew_mean      | 45.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2200     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5785     |\n",
      "|    total_timesteps  | 1191355  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.229    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 577      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2204     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5796     |\n",
      "|    total_timesteps  | 1193447  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.35     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 46.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2208     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5811     |\n",
      "|    total_timesteps  | 1196385  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0335   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2212     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5824     |\n",
      "|    total_timesteps  | 1198749  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.139    |\n",
      "----------------------------------\n",
      "Eval num_timesteps=1200000, episode_reward=13.80 +/- 1.83\n",
      "Episode length: 397.20 +/- 1.83\n",
      "----------------------------------\n",
      "| eval/               |          |\n",
      "|    mean_ep_length   | 397      |\n",
      "|    mean_reward      | 13.8     |\n",
      "| rollout/            |          |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    total_timesteps  | 1200000  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.221    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 603      |\n",
      "|    ep_rew_mean      | 47.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2216     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5853     |\n",
      "|    total_timesteps  | 1202446  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0661   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 608      |\n",
      "|    ep_rew_mean      | 48       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2220     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5866     |\n",
      "|    total_timesteps  | 1204871  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.423    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 603      |\n",
      "|    ep_rew_mean      | 47.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2224     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5876     |\n",
      "|    total_timesteps  | 1206753  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.147    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 605      |\n",
      "|    ep_rew_mean      | 47.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2228     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5888     |\n",
      "|    total_timesteps  | 1209139  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.25     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 604      |\n",
      "|    ep_rew_mean      | 47.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2232     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5898     |\n",
      "|    total_timesteps  | 1211025  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.053    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 604      |\n",
      "|    ep_rew_mean      | 47.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2236     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5908     |\n",
      "|    total_timesteps  | 1213083  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.352    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 44.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2240     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5919     |\n",
      "|    total_timesteps  | 1215113  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.097    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 44.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2244     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5930     |\n",
      "|    total_timesteps  | 1217197  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.15     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 598      |\n",
      "|    ep_rew_mean      | 44.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2248     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5944     |\n",
      "|    total_timesteps  | 1219923  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0157   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 597      |\n",
      "|    ep_rew_mean      | 43       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2252     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5957     |\n",
      "|    total_timesteps  | 1222445  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0743   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 595      |\n",
      "|    ep_rew_mean      | 42.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2256     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5968     |\n",
      "|    total_timesteps  | 1224507  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.685    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 596      |\n",
      "|    ep_rew_mean      | 43.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2260     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5978     |\n",
      "|    total_timesteps  | 1226553  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0864   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 595      |\n",
      "|    ep_rew_mean      | 43       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2264     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 5989     |\n",
      "|    total_timesteps  | 1228678  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 20.9     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 42.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2268     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 6001     |\n",
      "|    total_timesteps  | 1230926  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.104    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 576      |\n",
      "|    ep_rew_mean      | 42.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2272     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 6014     |\n",
      "|    total_timesteps  | 1233372  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0651   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 575      |\n",
      "|    ep_rew_mean      | 42.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2276     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 6024     |\n",
      "|    total_timesteps  | 1235322  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.201    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 577      |\n",
      "|    ep_rew_mean      | 42.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2280     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 6035     |\n",
      "|    total_timesteps  | 1237490  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0614   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 576      |\n",
      "|    ep_rew_mean      | 41.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2284     |\n",
      "|    fps              | 205      |\n",
      "|    time_elapsed     | 6046     |\n",
      "|    total_timesteps  | 1239722  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0869   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 579      |\n",
      "|    ep_rew_mean      | 42.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2288     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6059     |\n",
      "|    total_timesteps  | 1242093  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.315    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 581      |\n",
      "|    ep_rew_mean      | 42.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2292     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6070     |\n",
      "|    total_timesteps  | 1244292  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.33     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 628      |\n",
      "|    ep_rew_mean      | 43.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2296     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6106     |\n",
      "|    total_timesteps  | 1251428  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.366    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 620      |\n",
      "|    ep_rew_mean      | 42.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2300     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6117     |\n",
      "|    total_timesteps  | 1253398  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 1.23     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 623      |\n",
      "|    ep_rew_mean      | 42.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2304     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6129     |\n",
      "|    total_timesteps  | 1255732  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.144    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 614      |\n",
      "|    ep_rew_mean      | 40.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2308     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6140     |\n",
      "|    total_timesteps  | 1257817  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.424    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 611      |\n",
      "|    ep_rew_mean      | 40.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2312     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6150     |\n",
      "|    total_timesteps  | 1259881  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.175    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 606      |\n",
      "|    ep_rew_mean      | 40.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2316     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6167     |\n",
      "|    total_timesteps  | 1263066  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0554   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 605      |\n",
      "|    ep_rew_mean      | 40.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2320     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6179     |\n",
      "|    total_timesteps  | 1265330  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.208    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 611      |\n",
      "|    ep_rew_mean      | 41       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2324     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6192     |\n",
      "|    total_timesteps  | 1267885  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.151    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 617      |\n",
      "|    ep_rew_mean      | 41.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2328     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6207     |\n",
      "|    total_timesteps  | 1270811  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.154    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 621      |\n",
      "|    ep_rew_mean      | 42.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2332     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6219     |\n",
      "|    total_timesteps  | 1273114  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.161    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 621      |\n",
      "|    ep_rew_mean      | 42.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2336     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6230     |\n",
      "|    total_timesteps  | 1275206  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.22     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 628      |\n",
      "|    ep_rew_mean      | 44       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2340     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6244     |\n",
      "|    total_timesteps  | 1277960  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0863   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 632      |\n",
      "|    ep_rew_mean      | 44.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2344     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6257     |\n",
      "|    total_timesteps  | 1280360  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.387    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 632      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2348     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6271     |\n",
      "|    total_timesteps  | 1283112  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.417    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 632      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2352     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6284     |\n",
      "|    total_timesteps  | 1285630  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.174    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 633      |\n",
      "|    ep_rew_mean      | 45       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2356     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6296     |\n",
      "|    total_timesteps  | 1287852  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0357   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 644      |\n",
      "|    ep_rew_mean      | 45.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2360     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6312     |\n",
      "|    total_timesteps  | 1290934  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0613   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 654      |\n",
      "|    ep_rew_mean      | 46       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2364     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6328     |\n",
      "|    total_timesteps  | 1294034  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.356    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 649      |\n",
      "|    ep_rew_mean      | 45.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2368     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6337     |\n",
      "|    total_timesteps  | 1295782  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.29     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 651      |\n",
      "|    ep_rew_mean      | 46       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2372     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6351     |\n",
      "|    total_timesteps  | 1298512  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.572    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 653      |\n",
      "|    ep_rew_mean      | 45.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2376     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6363     |\n",
      "|    total_timesteps  | 1300664  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.282    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 651      |\n",
      "|    ep_rew_mean      | 45.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2380     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6373     |\n",
      "|    total_timesteps  | 1302630  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.118    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 649      |\n",
      "|    ep_rew_mean      | 45.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2384     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6383     |\n",
      "|    total_timesteps  | 1304600  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0402   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 647      |\n",
      "|    ep_rew_mean      | 45.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2388     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6394     |\n",
      "|    total_timesteps  | 1306796  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0982   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 647      |\n",
      "|    ep_rew_mean      | 46.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2392     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6406     |\n",
      "|    total_timesteps  | 1308988  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.956    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 602      |\n",
      "|    ep_rew_mean      | 46.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2396     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6420     |\n",
      "|    total_timesteps  | 1311658  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0404   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 611      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2400     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6434     |\n",
      "|    total_timesteps  | 1314462  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.374    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 608      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2404     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6445     |\n",
      "|    total_timesteps  | 1316568  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.371    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 614      |\n",
      "|    ep_rew_mean      | 47.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2408     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6459     |\n",
      "|    total_timesteps  | 1319168  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.745    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 621      |\n",
      "|    ep_rew_mean      | 48.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2412     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6473     |\n",
      "|    total_timesteps  | 1322005  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.301    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 615      |\n",
      "|    ep_rew_mean      | 48.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2416     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6487     |\n",
      "|    total_timesteps  | 1324557  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.249    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 613      |\n",
      "|    ep_rew_mean      | 48.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2420     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6497     |\n",
      "|    total_timesteps  | 1326611  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.205    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 611      |\n",
      "|    ep_rew_mean      | 47.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2424     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6509     |\n",
      "|    total_timesteps  | 1328981  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.125    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 609      |\n",
      "|    ep_rew_mean      | 47.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2428     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6523     |\n",
      "|    total_timesteps  | 1331697  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.387    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 609      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2432     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6536     |\n",
      "|    total_timesteps  | 1334057  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.299    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 614      |\n",
      "|    ep_rew_mean      | 46.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2436     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6549     |\n",
      "|    total_timesteps  | 1336613  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.427    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 611      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2440     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6561     |\n",
      "|    total_timesteps  | 1339065  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.643    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 616      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2444     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6576     |\n",
      "|    total_timesteps  | 1341940  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.281    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 614      |\n",
      "|    ep_rew_mean      | 46.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2448     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6590     |\n",
      "|    total_timesteps  | 1344530  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.427    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 612      |\n",
      "|    ep_rew_mean      | 45.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2452     |\n",
      "|    fps              | 204      |\n",
      "|    time_elapsed     | 6601     |\n",
      "|    total_timesteps  | 1346826  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.359    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 608      |\n",
      "|    ep_rew_mean      | 46.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2456     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6611     |\n",
      "|    total_timesteps  | 1348666  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.504    |\n",
      "----------------------------------\n",
      "Eval num_timesteps=1350000, episode_reward=18.00 +/- 0.00\n",
      "Episode length: 650.00 +/- 0.00\n",
      "----------------------------------\n",
      "| eval/               |          |\n",
      "|    mean_ep_length   | 650      |\n",
      "|    mean_reward      | 18       |\n",
      "| rollout/            |          |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    total_timesteps  | 1350000  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.212    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 601      |\n",
      "|    ep_rew_mean      | 46.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2460     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6640     |\n",
      "|    total_timesteps  | 1351052  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0873   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 595      |\n",
      "|    ep_rew_mean      | 45.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2464     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6653     |\n",
      "|    total_timesteps  | 1353529  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.12     |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 607      |\n",
      "|    ep_rew_mean      | 48.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2468     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6668     |\n",
      "|    total_timesteps  | 1356469  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0197   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 597      |\n",
      "|    ep_rew_mean      | 47.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2472     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6677     |\n",
      "|    total_timesteps  | 1358237  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.306    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 597      |\n",
      "|    ep_rew_mean      | 47.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2476     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6689     |\n",
      "|    total_timesteps  | 1360399  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.194    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 600      |\n",
      "|    ep_rew_mean      | 47.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2480     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6700     |\n",
      "|    total_timesteps  | 1362629  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.428    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 602      |\n",
      "|    ep_rew_mean      | 48       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2484     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6711     |\n",
      "|    total_timesteps  | 1364801  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.392    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 603      |\n",
      "|    ep_rew_mean      | 48       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2488     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6723     |\n",
      "|    total_timesteps  | 1367087  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.619    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 603      |\n",
      "|    ep_rew_mean      | 46.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2492     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6734     |\n",
      "|    total_timesteps  | 1369314  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.162    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 602      |\n",
      "|    ep_rew_mean      | 47.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2496     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6747     |\n",
      "|    total_timesteps  | 1371810  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.178    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 597      |\n",
      "|    ep_rew_mean      | 47.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2500     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6759     |\n",
      "|    total_timesteps  | 1374130  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.315    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 593      |\n",
      "|    ep_rew_mean      | 47.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2504     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6768     |\n",
      "|    total_timesteps  | 1375877  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.161    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 46.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2508     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6781     |\n",
      "|    total_timesteps  | 1378398  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.167    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 589      |\n",
      "|    ep_rew_mean      | 46.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2512     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6794     |\n",
      "|    total_timesteps  | 1380892  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.227    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 588      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2516     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6807     |\n",
      "|    total_timesteps  | 1383310  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.2      |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 585      |\n",
      "|    ep_rew_mean      | 45.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2520     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6816     |\n",
      "|    total_timesteps  | 1385112  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.354    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 584      |\n",
      "|    ep_rew_mean      | 45.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2524     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6828     |\n",
      "|    total_timesteps  | 1387430  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.386    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 582      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2528     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6840     |\n",
      "|    total_timesteps  | 1389866  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.236    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 599      |\n",
      "|    ep_rew_mean      | 46.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2532     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6861     |\n",
      "|    total_timesteps  | 1393938  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.136    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 597      |\n",
      "|    ep_rew_mean      | 46       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2536     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6873     |\n",
      "|    total_timesteps  | 1396266  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0709   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 597      |\n",
      "|    ep_rew_mean      | 45.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2540     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6886     |\n",
      "|    total_timesteps  | 1398794  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.179    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 592      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2544     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6898     |\n",
      "|    total_timesteps  | 1401137  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.308    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 590      |\n",
      "|    ep_rew_mean      | 44.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2548     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6911     |\n",
      "|    total_timesteps  | 1403517  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.145    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 594      |\n",
      "|    ep_rew_mean      | 45       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2552     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6925     |\n",
      "|    total_timesteps  | 1406186  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.432    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 598      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2556     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6936     |\n",
      "|    total_timesteps  | 1408444  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.469    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 599      |\n",
      "|    ep_rew_mean      | 44.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2560     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6949     |\n",
      "|    total_timesteps  | 1410904  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.159    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 600      |\n",
      "|    ep_rew_mean      | 45.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2564     |\n",
      "|    fps              | 203      |\n",
      "|    time_elapsed     | 6962     |\n",
      "|    total_timesteps  | 1413527  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.271    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 591      |\n",
      "|    ep_rew_mean      | 42.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2568     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 6973     |\n",
      "|    total_timesteps  | 1415565  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0853   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 599      |\n",
      "|    ep_rew_mean      | 43.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2572     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 6986     |\n",
      "|    total_timesteps  | 1418091  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.212    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 606      |\n",
      "|    ep_rew_mean      | 44.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2576     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7001     |\n",
      "|    total_timesteps  | 1421023  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.166    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 611      |\n",
      "|    ep_rew_mean      | 44.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2580     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7015     |\n",
      "|    total_timesteps  | 1423731  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.321    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 609      |\n",
      "|    ep_rew_mean      | 44.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2584     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7026     |\n",
      "|    total_timesteps  | 1425739  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.269    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 612      |\n",
      "|    ep_rew_mean      | 44.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2588     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7039     |\n",
      "|    total_timesteps  | 1428297  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.172    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 613      |\n",
      "|    ep_rew_mean      | 44.7     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2592     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7051     |\n",
      "|    total_timesteps  | 1430651  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.176    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 615      |\n",
      "|    ep_rew_mean      | 45       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2596     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7065     |\n",
      "|    total_timesteps  | 1433327  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.452    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 615      |\n",
      "|    ep_rew_mean      | 44.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2600     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7077     |\n",
      "|    total_timesteps  | 1435629  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.302    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 627      |\n",
      "|    ep_rew_mean      | 46.2     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2604     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7092     |\n",
      "|    total_timesteps  | 1438576  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.317    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 630      |\n",
      "|    ep_rew_mean      | 46.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2608     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7107     |\n",
      "|    total_timesteps  | 1441434  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.185    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 627      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2612     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7118     |\n",
      "|    total_timesteps  | 1443611  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.045    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 630      |\n",
      "|    ep_rew_mean      | 46.3     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2616     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7132     |\n",
      "|    total_timesteps  | 1446319  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.215    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 639      |\n",
      "|    ep_rew_mean      | 46.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2620     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7146     |\n",
      "|    total_timesteps  | 1448967  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.219    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 639      |\n",
      "|    ep_rew_mean      | 46.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2624     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7158     |\n",
      "|    total_timesteps  | 1451307  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0967   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 638      |\n",
      "|    ep_rew_mean      | 46.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2628     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7170     |\n",
      "|    total_timesteps  | 1453701  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0247   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 623      |\n",
      "|    ep_rew_mean      | 46.4     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2632     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7183     |\n",
      "|    total_timesteps  | 1456261  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.111    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 624      |\n",
      "|    ep_rew_mean      | 46.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2636     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7196     |\n",
      "|    total_timesteps  | 1458669  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0937   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 619      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2640     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7206     |\n",
      "|    total_timesteps  | 1460721  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.268    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 627      |\n",
      "|    ep_rew_mean      | 47.5     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2644     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7223     |\n",
      "|    total_timesteps  | 1463847  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.504    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 622      |\n",
      "|    ep_rew_mean      | 47       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2648     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7232     |\n",
      "|    total_timesteps  | 1465745  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.283    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 619      |\n",
      "|    ep_rew_mean      | 46.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2652     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7244     |\n",
      "|    total_timesteps  | 1468058  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.172    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 617      |\n",
      "|    ep_rew_mean      | 46.8     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2656     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7255     |\n",
      "|    total_timesteps  | 1470164  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.348    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 615      |\n",
      "|    ep_rew_mean      | 46       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2660     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7266     |\n",
      "|    total_timesteps  | 1472360  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0711   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 626      |\n",
      "|    ep_rew_mean      | 45.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2664     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7285     |\n",
      "|    total_timesteps  | 1476104  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.238    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 630      |\n",
      "|    ep_rew_mean      | 46       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2668     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7298     |\n",
      "|    total_timesteps  | 1478560  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.108    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 631      |\n",
      "|    ep_rew_mean      | 45.6     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2672     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7311     |\n",
      "|    total_timesteps  | 1481178  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.538    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 627      |\n",
      "|    ep_rew_mean      | 45.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2676     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7325     |\n",
      "|    total_timesteps  | 1483758  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0967   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 625      |\n",
      "|    ep_rew_mean      | 46.1     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2680     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7337     |\n",
      "|    total_timesteps  | 1486206  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.103    |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 632      |\n",
      "|    ep_rew_mean      | 46.9     |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2684     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7351     |\n",
      "|    total_timesteps  | 1488938  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.0873   |\n",
      "----------------------------------\n",
      "----------------------------------\n",
      "| rollout/            |          |\n",
      "|    ep_len_mean      | 636      |\n",
      "|    ep_rew_mean      | 47       |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    episodes         | 2688     |\n",
      "|    fps              | 202      |\n",
      "|    time_elapsed     | 7367     |\n",
      "|    total_timesteps  | 1491878  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 0.543    |\n",
      "----------------------------------\n",
      "Eval num_timesteps=1500000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "----------------------------------\n",
      "| eval/               |          |\n",
      "|    mean_ep_length   | 420      |\n",
      "|    mean_reward      | 1        |\n",
      "| rollout/            |          |\n",
      "|    exploration_rate | 0.1      |\n",
      "| time/               |          |\n",
      "|    total_timesteps  | 1500000  |\n",
      "| train/              |          |\n",
      "|    learning_rate    | 0.0002   |\n",
      "|    loss             | 24.9     |\n",
      "----------------------------------\n"
     ]
    },
    {
     "data": {
      "text/plain": [
       "<stable_baselines3.dqn.dqn.DQN at 0x78b8446f0340>"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Train the model\n",
    "model.learn(total_timesteps=NUM_TIMESTEPS, callback=callback_list, tb_log_name=\"./tb/\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "364058fb",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-09T20:05:47.404280Z",
     "iopub.status.busy": "2024-05-09T20:05:47.402923Z",
     "iopub.status.idle": "2024-05-09T20:06:40.022603Z",
     "shell.execute_reply": "2024-05-09T20:06:40.021640Z"
    },
    "papermill": {
     "duration": 52.69299,
     "end_time": "2024-05-09T20:06:40.025150",
     "exception": false,
     "start_time": "2024-05-09T20:05:47.332160",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# Save the model, policy, and replay buffer for future loading and training\n",
    "model.save(MODEL_FILE_NAME)\n",
    "model.save_replay_buffer(BUFFER_FILE_NAME)\n",
    "model.policy.save(POLICY_FILE_NAME)"
   ]
  }
 ],
 "metadata": {
  "kaggle": {
   "accelerator": "nvidiaTeslaT4",
   "dataSources": [],
   "dockerImageVersionId": 30699,
   "isGpuEnabled": true,
   "isInternetEnabled": true,
   "language": "python",
   "sourceType": "notebook"
  },
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.13"
  },
  "papermill": {
   "default_parameters": {},
   "duration": 7598.584569,
   "end_time": "2024-05-09T20:06:43.348523",
   "environment_variables": {},
   "exception": null,
   "input_path": "__notebook__.ipynb",
   "output_path": "__notebook__.ipynb",
   "parameters": {},
   "start_time": "2024-05-09T18:00:04.763954",
   "version": "2.5.0"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}