zgce
/

Skywork-13B-unalign-lora

Model card Files Files and versions Community

zgce commited on Dec 9, 2023

Commit

f591f55

•

1 Parent(s): b696fdb

Upload 12 files

Browse files

Files changed (12) hide show

adapter_config.json +28 -0
adapter_model.bin +3 -0
all_results.json +7 -0
special_tokens_map.json +24 -0
tokenization_skywork.py +250 -0
tokenizer.model +3 -0
tokenizer_config.json +47 -0
train_results.json +7 -0
trainer_log.jsonl +145 -0
trainer_state.json +892 -0
training_args.bin +3 -0
training_loss.png +0 -0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "F:/models/Skywork-13B-Base-8bits",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16.0,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "gate_proj",
+    "v_proj",
+    "up_proj",
+    "q_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae4940e051ce6ec0a5ebfec426ca58281bb2fff6b3c7db4caa91ba9430f3d1f4
+size 1165755562

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.0,
+    "train_loss": 1.5255728854658854,
+    "train_runtime": 1381.7862,
+    "train_samples_per_second": 0.524,
+    "train_steps_per_second": 0.524
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenization_skywork.py ADDED Viewed

	@@ -0,0 +1,250 @@

+# Copyright (c) SkyworkAI and the HuggingFace Inc. team. All rights reserved.
+# This code is built upon Huggingface's transformers repository.
+"""Tokenization classes for Skywork."""
+import os
+from shutil import copyfile
+from typing import TYPE_CHECKING, Any, Dict, List, Optional, Tuple
+import sentencepiece as spm
+from transformers.tokenization_utils import AddedToken, PreTrainedTokenizer
+from transformers.utils import logging
+if TYPE_CHECKING:
+    from transformers.pipelines.conversational import Conversation
+logger = logging.get_logger(__name__)
+VOCAB_FILES_NAMES = {"vocab_file": "tokenizer.model"}
+SPIECE_UNDERLINE = "▁"
+B_INST, E_INST = "[INST]", "[/INST]"
+B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"
+DEFAULT_SYSTEM_PROMPT = """You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure\
+that your responses are socially unbiased and positive in nature.
+If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information."""
+class SkyworkTokenizer(PreTrainedTokenizer):
+    vocab_files_names = VOCAB_FILES_NAMES
+    # pretrained_vocab_files_map = PRETRAINED_VOCAB_FILES_MAP
+    # max_model_input_sizes = PRETRAINED_POSITIONAL_EMBEDDINGS_SIZES
+    model_input_names = ["input_ids", "attention_mask"]
+    def __init__(
+        self,
+        vocab_file,
+        unk_token="<unk>",
+        bos_token="<s>",
+        eos_token="</s>",
+        pad_token=None,
+        sp_model_kwargs: Optional[Dict[str, Any]] = None,
+        add_bos_token=True,
+        add_eos_token=False,
+        clean_up_tokenization_spaces=False,
+        legacy=True,
+        **kwargs,
+    ):
+        self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs
+        bos_token = AddedToken(bos_token, lstrip=False, rstrip=False) if isinstance(bos_token, str) else bos_token
+        eos_token = AddedToken(eos_token, lstrip=False, rstrip=False) if isinstance(eos_token, str) else eos_token
+        unk_token = AddedToken(unk_token, lstrip=False, rstrip=False) if isinstance(unk_token, str) else unk_token
+        pad_token = AddedToken(pad_token, lstrip=False, rstrip=False) if isinstance(pad_token, str) else pad_token
+        self.legacy = legacy
+        self.vocab_file = vocab_file
+        self.add_bos_token = add_bos_token
+        self.add_eos_token = add_eos_token
+        self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
+        self.sp_model.Load(vocab_file)
+        super().__init__(
+            bos_token=bos_token,
+            eos_token=eos_token,
+            unk_token=unk_token,
+            pad_token=pad_token,
+            add_bos_token=add_bos_token,
+            add_eos_token=add_eos_token,
+            sp_model_kwargs=self.sp_model_kwargs,
+            clean_up_tokenization_spaces=clean_up_tokenization_spaces,
+            legacy=legacy,
+            **kwargs,
+        )
+        if legacy:
+            logger.warning_once(
+                f"You are using the legacy behaviour of the {self.__class__}. This means that tokens that come after special tokens will not be properly handled. "
+            )
+    def __getstate__(self):
+        state = self.__dict__.copy()
+        state["sp_model"] = None
+        state["sp_model_proto"] = self.sp_model.serialized_model_proto()
+        return state
+    def __setstate__(self, d):
+        self.__dict__ = d
+        self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
+        self.sp_model.LoadFromSerializedProto(self.sp_model_proto)
+    @property
+    def vocab_size(self):
+        """Returns vocab size"""
+        return self.sp_model.get_piece_size()
+    def get_vocab(self):
+        """Returns vocab as a dict"""
+        vocab = {self.convert_ids_to_tokens(i): i for i in range(self.vocab_size)}
+        vocab.update(self.added_tokens_encoder)
+        return vocab
+    # Copied from transformers.models.t5.tokenization_t5.T5Tokenizer.tokenize
+    def tokenize(self, text, **kwargs) -> List[str]:
+        # Replace the SPIECE_UNDERLINE with a space to make sure SPIECE_UNDERLINE is only used at
+        # the beginning of the text
+        if not self.legacy:
+            text = SPIECE_UNDERLINE + text.replace(SPIECE_UNDERLINE, " ")
+        return super().tokenize(text, **kwargs)
+    # Copied from transformers.models.t5.tokenization_t5.T5Tokenizer._tokenize
+    def _tokenize(self, text):
+        if not self.legacy:
+            is_first = text.startswith(SPIECE_UNDERLINE)
+            if is_first:
+                text = text[1:]
+        tokens = self.sp_model.encode(text, out_type=str)
+        if not self.legacy and not is_first and not text.startswith(" ") and tokens[0].startswith(SPIECE_UNDERLINE):
+            tokens = ([tokens[0][1:]] if len(tokens[0]) > 1 else []) + tokens[1:]
+        return tokens
+    def _convert_token_to_id(self, token):
+        """Converts a token (str) in an id using the vocab."""
+        return self.sp_model.piece_to_id(token)
+    def _convert_id_to_token(self, index):
+        """Converts an index (integer) in a token (str) using the vocab."""
+        token = self.sp_model.IdToPiece(index)
+        return token
+    def convert_tokens_to_string(self, tokens):
+        """Converts a sequence of tokens (string) in a single string."""
+        current_sub_tokens = []
+        out_string = ""
+        prev_is_special = False
+        for i, token in enumerate(tokens):
+            # make sure that special tokens are not decoded using sentencepiece model
+            if token in self.all_special_tokens:
+                if not prev_is_special and i != 0:
+                    out_string += " "
+                out_string += self.sp_model.decode(current_sub_tokens) + token
+                prev_is_special = True
+                current_sub_tokens = []
+            else:
+                current_sub_tokens.append(token)
+                prev_is_special = False
+        out_string += self.sp_model.decode(current_sub_tokens)
+        return out_string
+    def save_vocabulary(self, save_directory, filename_prefix: Optional[str] = None) -> Tuple[str]:
+        if not os.path.isdir(save_directory):
+            logger.error(f"Vocabulary path ({save_directory}) should be a directory")
+            return
+        out_vocab_file = os.path.join(
+            save_directory, (filename_prefix + "-" if filename_prefix else "") + VOCAB_FILES_NAMES["vocab_file"]
+        )
+        if os.path.abspath(self.vocab_file) != os.path.abspath(out_vocab_file) and os.path.isfile(self.vocab_file):
+            copyfile(self.vocab_file, out_vocab_file)
+        elif not os.path.isfile(self.vocab_file):
+            with open(out_vocab_file, "wb") as fi:
+                content_spiece_model = self.sp_model.serialized_model_proto()
+                fi.write(content_spiece_model)
+        return (out_vocab_file,)
+    def build_inputs_with_special_tokens(self, token_ids_0, token_ids_1=None):
+        bos_token_id = [self.bos_token_id] if self.add_bos_token else []
+        eos_token_id = [self.eos_token_id] if self.add_eos_token else []
+        output = bos_token_id + token_ids_0 + eos_token_id
+        if token_ids_1 is not None:
+            output = output + bos_token_id + token_ids_1 + eos_token_id
+        return output
+    def get_special_tokens_mask(
+        self, token_ids_0: List[int], token_ids_1: Optional[List[int]] = None, already_has_special_tokens: bool = False
+    ) -> List[int]:
+        if already_has_special_tokens:
+            return super().get_special_tokens_mask(
+                token_ids_0=token_ids_0, token_ids_1=token_ids_1, already_has_special_tokens=True
+            )
+        bos_token_id = [1] if self.add_bos_token else []
+        eos_token_id = [1] if self.add_eos_token else []
+        if token_ids_1 is None:
+            return bos_token_id + ([0] * len(token_ids_0)) + eos_token_id
+        return (
+            bos_token_id
+            + ([0] * len(token_ids_0))
+            + eos_token_id
+            + bos_token_id
+            + ([0] * len(token_ids_1))
+            + eos_token_id
+        )
+    def create_token_type_ids_from_sequences(
+        self, token_ids_0: List[int], token_ids_1: Optional[List[int]] = None
+    ) -> List[int]:
+        bos_token_id = [self.bos_token_id] if self.add_bos_token else []
+        eos_token_id = [self.eos_token_id] if self.add_eos_token else []
+        output = [0] * len(bos_token_id + token_ids_0 + eos_token_id)
+        if token_ids_1 is not None:
+            output += [1] * len(bos_token_id + token_ids_1 + eos_token_id)
+        return output
+    def _build_conversation_input_ids(self, conversation: "Conversation") -> List[int]:
+        dialogue = list(conversation.iter_texts())
+        if not all([is_user for is_user, msg in dialogue[::2]]) or not all(
+            [not is_user for is_user, msg in dialogue[1::2]]
+        ):
+            raise ValueError(
+                "The model only supports 'user' and 'assistant' roles, starting with user and alternating (u/a/u/a/u...)"
+            )
+        dialog_tokens: List[int] = []
+        if len(conversation.past_user_inputs) > 0:
+            if not conversation.past_user_inputs[0].startswith(B_SYS) or E_SYS not in conversation.past_user_inputs[0]:
+                conversation.past_user_inputs[0] = (
+                    B_SYS + DEFAULT_SYSTEM_PROMPT + E_SYS + conversation.past_user_inputs[0]
+                )
+        elif not dialogue[0][1].startswith(B_SYS) or E_SYS not in dialogue[0][1]:
+            dialogue[0] = (dialogue[0][0], B_SYS + DEFAULT_SYSTEM_PROMPT + E_SYS + dialogue[0][1])
+        dialog_tokens += sum(
+            [
+                [self.bos_token_id]
+                + self.encode(
+                    f"{B_INST} {(prompt[1]).strip()} {E_INST} {(answer[1]).strip()} ", add_special_tokens=False
+                )
+                + [self.eos_token_id]
+                for prompt, answer in zip(dialogue[::2], dialogue[1::2])
+            ],
+            [],
+        )
+        if not (dialogue[-1][0]):
+            raise ValueError(f"Last message must be from user, got {dialogue[-1]['role']}")
+        dialog_tokens += [self.bos_token_id] + self.encode(
+            f"{B_INST} {(dialogue[-1][1]).strip()} {E_INST}", add_special_tokens=False
+        )
+        return dialog_tokens

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36ec9a4d6fd7cc78fbb9e4afd89fb04cba0381b08a842ca0b60826073821f594
+size 994250

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "auto_map": {
+    "AutoTokenizer": [
+      "tokenization_skywork.SkyworkTokenizer",
+      null
+    ]
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "split_special_tokens": false,
+  "tokenizer_class": "SkyworkTokenizer",
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.0,
+    "train_loss": 1.5255728854658854,
+    "train_runtime": 1381.7862,
+    "train_samples_per_second": 0.524,
+    "train_steps_per_second": 0.524
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,145 @@

+{"current_steps": 5, "total_steps": 724, "loss": 2.1959, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.999411623120412e-05, "epoch": 0.01, "percentage": 0.69, "elapsed_time": "0:00:09", "remaining_time": "0:23:15"}
+{"current_steps": 10, "total_steps": 724, "loss": 1.7787, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.997646769431532e-05, "epoch": 0.03, "percentage": 1.38, "elapsed_time": "0:00:20", "remaining_time": "0:24:01"}
+{"current_steps": 15, "total_steps": 724, "loss": 1.167, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.9947062696526445e-05, "epoch": 0.04, "percentage": 2.07, "elapsed_time": "0:00:29", "remaining_time": "0:23:06"}
+{"current_steps": 20, "total_steps": 724, "loss": 2.0242, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.990591507881416e-05, "epoch": 0.06, "percentage": 2.76, "elapsed_time": "0:00:38", "remaining_time": "0:22:41"}
+{"current_steps": 25, "total_steps": 724, "loss": 2.2836, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.9853044209423996e-05, "epoch": 0.07, "percentage": 3.45, "elapsed_time": "0:00:49", "remaining_time": "0:23:06"}
+{"current_steps": 30, "total_steps": 724, "loss": 1.9629, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.9788474974753686e-05, "epoch": 0.08, "percentage": 4.14, "elapsed_time": "0:00:58", "remaining_time": "0:22:39"}
+{"current_steps": 35, "total_steps": 724, "loss": 2.5583, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.971223776763907e-05, "epoch": 0.1, "percentage": 4.83, "elapsed_time": "0:01:09", "remaining_time": "0:22:42"}
+{"current_steps": 40, "total_steps": 724, "loss": 1.9105, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.962436847304818e-05, "epoch": 0.11, "percentage": 5.52, "elapsed_time": "0:01:17", "remaining_time": "0:22:05"}
+{"current_steps": 45, "total_steps": 724, "loss": 2.1563, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.9524908451190096e-05, "epoch": 0.12, "percentage": 6.22, "elapsed_time": "0:01:26", "remaining_time": "0:21:48"}
+{"current_steps": 50, "total_steps": 724, "loss": 2.3299, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.9413904518046674e-05, "epoch": 0.14, "percentage": 6.91, "elapsed_time": "0:01:36", "remaining_time": "0:21:44"}
+{"current_steps": 55, "total_steps": 724, "loss": 1.4083, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.929140892333616e-05, "epoch": 0.15, "percentage": 7.6, "elapsed_time": "0:01:44", "remaining_time": "0:21:06"}
+{"current_steps": 60, "total_steps": 724, "loss": 1.7837, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.9157479325919156e-05, "epoch": 0.17, "percentage": 8.29, "elapsed_time": "0:01:53", "remaining_time": "0:20:51"}
+{"current_steps": 65, "total_steps": 724, "loss": 1.4737, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.901217876665858e-05, "epoch": 0.18, "percentage": 8.98, "elapsed_time": "0:02:00", "remaining_time": "0:20:25"}
+{"current_steps": 70, "total_steps": 724, "loss": 2.1072, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.8855575638746135e-05, "epoch": 0.19, "percentage": 9.67, "elapsed_time": "0:02:13", "remaining_time": "0:20:45"}
+{"current_steps": 75, "total_steps": 724, "loss": 0.8345, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.868774365550962e-05, "epoch": 0.21, "percentage": 10.36, "elapsed_time": "0:02:24", "remaining_time": "0:20:48"}
+{"current_steps": 80, "total_steps": 724, "loss": 2.4821, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.850876181571592e-05, "epoch": 0.22, "percentage": 11.05, "elapsed_time": "0:02:36", "remaining_time": "0:20:59"}
+{"current_steps": 85, "total_steps": 724, "loss": 1.6394, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.831871436638613e-05, "epoch": 0.23, "percentage": 11.74, "elapsed_time": "0:02:47", "remaining_time": "0:20:58"}
+{"current_steps": 90, "total_steps": 724, "loss": 1.6403, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.811769076314044e-05, "epoch": 0.25, "percentage": 12.43, "elapsed_time": "0:02:58", "remaining_time": "0:20:59"}
+{"current_steps": 95, "total_steps": 724, "loss": 1.6487, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.790578562809116e-05, "epoch": 0.26, "percentage": 13.12, "elapsed_time": "0:03:11", "remaining_time": "0:21:10"}
+{"current_steps": 100, "total_steps": 724, "loss": 1.751, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.7683098705304e-05, "epoch": 0.28, "percentage": 13.81, "elapsed_time": "0:03:21", "remaining_time": "0:20:55"}
+{"current_steps": 105, "total_steps": 724, "loss": 1.7423, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.7449734813848345e-05, "epoch": 0.29, "percentage": 14.5, "elapsed_time": "0:03:29", "remaining_time": "0:20:35"}
+{"current_steps": 110, "total_steps": 724, "loss": 1.9435, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.720580379845883e-05, "epoch": 0.3, "percentage": 15.19, "elapsed_time": "0:03:38", "remaining_time": "0:20:20"}
+{"current_steps": 115, "total_steps": 724, "loss": 1.2112, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.695142047783118e-05, "epoch": 0.32, "percentage": 15.88, "elapsed_time": "0:03:46", "remaining_time": "0:19:57"}
+{"current_steps": 120, "total_steps": 724, "loss": 1.5366, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.668670459057692e-05, "epoch": 0.33, "percentage": 16.57, "elapsed_time": "0:03:54", "remaining_time": "0:19:40"}
+{"current_steps": 125, "total_steps": 724, "loss": 1.1842, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.641178073886224e-05, "epoch": 0.35, "percentage": 17.27, "elapsed_time": "0:04:03", "remaining_time": "0:19:24"}
+{"current_steps": 130, "total_steps": 724, "loss": 1.2011, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.6126778329757516e-05, "epoch": 0.36, "percentage": 17.96, "elapsed_time": "0:04:11", "remaining_time": "0:19:10"}
+{"current_steps": 135, "total_steps": 724, "loss": 1.2053, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.583183151432527e-05, "epoch": 0.37, "percentage": 18.65, "elapsed_time": "0:04:20", "remaining_time": "0:18:56"}
+{"current_steps": 140, "total_steps": 724, "loss": 1.4354, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.5527079124475045e-05, "epoch": 0.39, "percentage": 19.34, "elapsed_time": "0:04:29", "remaining_time": "0:18:42"}
+{"current_steps": 145, "total_steps": 724, "loss": 1.5641, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.521266460761497e-05, "epoch": 0.4, "percentage": 20.03, "elapsed_time": "0:04:37", "remaining_time": "0:18:26"}
+{"current_steps": 150, "total_steps": 724, "loss": 1.7298, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.488873595913091e-05, "epoch": 0.41, "percentage": 20.72, "elapsed_time": "0:04:46", "remaining_time": "0:18:15"}
+{"current_steps": 155, "total_steps": 724, "loss": 1.2547, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.4555445652724795e-05, "epoch": 0.43, "percentage": 21.41, "elapsed_time": "0:04:53", "remaining_time": "0:17:56"}
+{"current_steps": 160, "total_steps": 724, "loss": 1.6051, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.4212950568645007e-05, "epoch": 0.44, "percentage": 22.1, "elapsed_time": "0:05:02", "remaining_time": "0:17:47"}
+{"current_steps": 165, "total_steps": 724, "loss": 1.5891, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.386141191984262e-05, "epoch": 0.46, "percentage": 22.79, "elapsed_time": "0:05:11", "remaining_time": "0:17:34"}
+{"current_steps": 170, "total_steps": 724, "loss": 1.2693, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.350099517608823e-05, "epoch": 0.47, "percentage": 23.48, "elapsed_time": "0:05:19", "remaining_time": "0:17:21"}
+{"current_steps": 175, "total_steps": 724, "loss": 1.5962, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.313186998608506e-05, "epoch": 0.48, "percentage": 24.17, "elapsed_time": "0:05:28", "remaining_time": "0:17:10"}
+{"current_steps": 180, "total_steps": 724, "loss": 1.5196, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.275421009761509e-05, "epoch": 0.5, "percentage": 24.86, "elapsed_time": "0:05:36", "remaining_time": "0:16:57"}
+{"current_steps": 185, "total_steps": 724, "loss": 1.6221, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.236819327575571e-05, "epoch": 0.51, "percentage": 25.55, "elapsed_time": "0:05:45", "remaining_time": "0:16:45"}
+{"current_steps": 190, "total_steps": 724, "loss": 1.1342, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.197400121920539e-05, "epoch": 0.52, "percentage": 26.24, "elapsed_time": "0:05:52", "remaining_time": "0:16:31"}
+{"current_steps": 195, "total_steps": 724, "loss": 2.024, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.1571819474757894e-05, "epoch": 0.54, "percentage": 26.93, "elapsed_time": "0:06:01", "remaining_time": "0:16:20"}
+{"current_steps": 200, "total_steps": 724, "loss": 1.3701, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.116183734996509e-05, "epoch": 0.55, "percentage": 27.62, "elapsed_time": "0:06:09", "remaining_time": "0:16:08"}
+{"current_steps": 205, "total_steps": 724, "loss": 1.7944, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.074424782402958e-05, "epoch": 0.57, "percentage": 28.31, "elapsed_time": "0:06:19", "remaining_time": "0:15:59"}
+{"current_steps": 210, "total_steps": 724, "loss": 1.561, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.031924745696915e-05, "epoch": 0.58, "percentage": 29.01, "elapsed_time": "0:06:28", "remaining_time": "0:15:50"}
+{"current_steps": 215, "total_steps": 724, "loss": 1.828, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.988703629709564e-05, "epoch": 0.59, "percentage": 29.7, "elapsed_time": "0:06:38", "remaining_time": "0:15:42"}
+{"current_steps": 220, "total_steps": 724, "loss": 1.2159, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.944781778685189e-05, "epoch": 0.61, "percentage": 30.39, "elapsed_time": "0:06:45", "remaining_time": "0:15:29"}
+{"current_steps": 225, "total_steps": 724, "loss": 1.6311, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.900179866705112e-05, "epoch": 0.62, "percentage": 31.08, "elapsed_time": "0:06:54", "remaining_time": "0:15:18"}
+{"current_steps": 230, "total_steps": 724, "loss": 1.8962, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.854918887956369e-05, "epoch": 0.64, "percentage": 31.77, "elapsed_time": "0:07:03", "remaining_time": "0:15:10"}
+{"current_steps": 235, "total_steps": 724, "loss": 1.3081, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.809020146849714e-05, "epoch": 0.65, "percentage": 32.46, "elapsed_time": "0:07:11", "remaining_time": "0:14:58"}
+{"current_steps": 240, "total_steps": 724, "loss": 1.6926, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.7625052479916015e-05, "epoch": 0.66, "percentage": 33.15, "elapsed_time": "0:07:20", "remaining_time": "0:14:48"}
+{"current_steps": 245, "total_steps": 724, "loss": 1.9407, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.715396086014869e-05, "epoch": 0.68, "percentage": 33.84, "elapsed_time": "0:07:29", "remaining_time": "0:14:38"}
+{"current_steps": 250, "total_steps": 724, "loss": 1.3894, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.667714835272895e-05, "epoch": 0.69, "percentage": 34.53, "elapsed_time": "0:07:38", "remaining_time": "0:14:28"}
+{"current_steps": 255, "total_steps": 724, "loss": 1.2711, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.6194839394021e-05, "epoch": 0.7, "percentage": 35.22, "elapsed_time": "0:07:47", "remaining_time": "0:14:19"}
+{"current_steps": 260, "total_steps": 724, "loss": 2.0264, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.570726100757693e-05, "epoch": 0.72, "percentage": 35.91, "elapsed_time": "0:07:55", "remaining_time": "0:14:08"}
+{"current_steps": 265, "total_steps": 724, "loss": 2.0718, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.5214642697276426e-05, "epoch": 0.73, "percentage": 36.6, "elapsed_time": "0:08:03", "remaining_time": "0:13:57"}
+{"current_steps": 270, "total_steps": 724, "loss": 1.3508, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.471721633929885e-05, "epoch": 0.75, "percentage": 37.29, "elapsed_time": "0:08:11", "remaining_time": "0:13:46"}
+{"current_steps": 275, "total_steps": 724, "loss": 1.4645, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.421521607297888e-05, "epoch": 0.76, "percentage": 37.98, "elapsed_time": "0:08:18", "remaining_time": "0:13:34"}
+{"current_steps": 280, "total_steps": 724, "loss": 1.9456, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.370887819059672e-05, "epoch": 0.77, "percentage": 38.67, "elapsed_time": "0:08:27", "remaining_time": "0:13:25"}
+{"current_steps": 285, "total_steps": 724, "loss": 1.6282, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.319844102615497e-05, "epoch": 0.79, "percentage": 39.36, "elapsed_time": "0:08:36", "remaining_time": "0:13:15"}
+{"current_steps": 290, "total_steps": 724, "loss": 1.7652, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.268414484319445e-05, "epoch": 0.8, "percentage": 40.06, "elapsed_time": "0:08:45", "remaining_time": "0:13:05"}
+{"current_steps": 295, "total_steps": 724, "loss": 1.6169, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.216623172170183e-05, "epoch": 0.81, "percentage": 40.75, "elapsed_time": "0:08:54", "remaining_time": "0:12:56"}
+{"current_steps": 300, "total_steps": 724, "loss": 1.3647, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.164494544416215e-05, "epoch": 0.83, "percentage": 41.44, "elapsed_time": "0:09:02", "remaining_time": "0:12:47"}
+{"current_steps": 305, "total_steps": 724, "loss": 2.0791, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.11205313808101e-05, "epoch": 0.84, "percentage": 42.13, "elapsed_time": "0:09:12", "remaining_time": "0:12:39"}
+{"current_steps": 310, "total_steps": 724, "loss": 1.8486, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.059323637413385e-05, "epoch": 0.86, "percentage": 42.82, "elapsed_time": "0:09:21", "remaining_time": "0:12:30"}
+{"current_steps": 315, "total_steps": 724, "loss": 1.0746, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.0063308622685903e-05, "epoch": 0.87, "percentage": 43.51, "elapsed_time": "0:09:28", "remaining_time": "0:12:18"}
+{"current_steps": 320, "total_steps": 724, "loss": 0.779, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.9530997564255725e-05, "epoch": 0.88, "percentage": 44.2, "elapsed_time": "0:09:36", "remaining_time": "0:12:07"}
+{"current_steps": 325, "total_steps": 724, "loss": 1.7561, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.8996553758458916e-05, "epoch": 0.9, "percentage": 44.89, "elapsed_time": "0:09:46", "remaining_time": "0:11:59"}
+{"current_steps": 330, "total_steps": 724, "loss": 0.8527, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.8460228768798506e-05, "epoch": 0.91, "percentage": 45.58, "elapsed_time": "0:09:55", "remaining_time": "0:11:50"}
+{"current_steps": 335, "total_steps": 724, "loss": 1.211, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.792227504425359e-05, "epoch": 0.93, "percentage": 46.27, "elapsed_time": "0:10:02", "remaining_time": "0:11:40"}
+{"current_steps": 340, "total_steps": 724, "loss": 1.4435, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.738294580045119e-05, "epoch": 0.94, "percentage": 46.96, "elapsed_time": "0:10:10", "remaining_time": "0:11:29"}
+{"current_steps": 345, "total_steps": 724, "loss": 1.4192, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.6842494900477365e-05, "epoch": 0.95, "percentage": 47.65, "elapsed_time": "0:10:17", "remaining_time": "0:11:18"}
+{"current_steps": 350, "total_steps": 724, "loss": 1.7033, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.6301176735383382e-05, "epoch": 0.97, "percentage": 48.34, "elapsed_time": "0:10:26", "remaining_time": "0:11:09"}
+{"current_steps": 355, "total_steps": 724, "loss": 1.4952, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.57592461044435e-05, "epoch": 0.98, "percentage": 49.03, "elapsed_time": "0:10:33", "remaining_time": "0:10:58"}
+{"current_steps": 360, "total_steps": 724, "loss": 1.3207, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.521695809522061e-05, "epoch": 0.99, "percentage": 49.72, "elapsed_time": "0:10:41", "remaining_time": "0:10:48"}
+{"current_steps": 365, "total_steps": 724, "loss": 1.2689, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.467456796349607e-05, "epoch": 1.01, "percentage": 50.41, "elapsed_time": "0:10:50", "remaining_time": "0:10:39"}
+{"current_steps": 370, "total_steps": 724, "loss": 1.5812, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.4132331013120453e-05, "epoch": 1.02, "percentage": 51.1, "elapsed_time": "0:10:59", "remaining_time": "0:10:30"}
+{"current_steps": 375, "total_steps": 724, "loss": 1.8583, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.3590502475841642e-05, "epoch": 1.04, "percentage": 51.8, "elapsed_time": "0:11:10", "remaining_time": "0:10:23"}
+{"current_steps": 380, "total_steps": 724, "loss": 1.7619, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.304933739116688e-05, "epoch": 1.05, "percentage": 52.49, "elapsed_time": "0:11:19", "remaining_time": "0:10:15"}
+{"current_steps": 385, "total_steps": 724, "loss": 1.5837, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.2509090486315246e-05, "epoch": 1.06, "percentage": 53.18, "elapsed_time": "0:11:28", "remaining_time": "0:10:05"}
+{"current_steps": 390, "total_steps": 724, "loss": 1.6458, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.1970016056317203e-05, "epoch": 1.08, "percentage": 53.87, "elapsed_time": "0:11:37", "remaining_time": "0:09:57"}
+{"current_steps": 395, "total_steps": 724, "loss": 1.4172, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.1432367844317558e-05, "epoch": 1.09, "percentage": 54.56, "elapsed_time": "0:11:46", "remaining_time": "0:09:48"}
+{"current_steps": 400, "total_steps": 724, "loss": 1.4327, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.0896398922138122e-05, "epoch": 1.1, "percentage": 55.25, "elapsed_time": "0:11:54", "remaining_time": "0:09:38"}
+{"current_steps": 405, "total_steps": 724, "loss": 1.0046, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.0362361571156505e-05, "epoch": 1.12, "percentage": 55.94, "elapsed_time": "0:12:03", "remaining_time": "0:09:29"}
+{"current_steps": 410, "total_steps": 724, "loss": 1.2355, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.9830507163556816e-05, "epoch": 1.13, "percentage": 56.63, "elapsed_time": "0:12:12", "remaining_time": "0:09:20"}
+{"current_steps": 415, "total_steps": 724, "loss": 1.224, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.930108604400846e-05, "epoch": 1.15, "percentage": 57.32, "elapsed_time": "0:12:20", "remaining_time": "0:09:11"}
+{"current_steps": 420, "total_steps": 724, "loss": 1.7486, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.8774347411828472e-05, "epoch": 1.16, "percentage": 58.01, "elapsed_time": "0:12:29", "remaining_time": "0:09:02"}
+{"current_steps": 425, "total_steps": 724, "loss": 1.6091, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.825053920368306e-05, "epoch": 1.17, "percentage": 58.7, "elapsed_time": "0:12:37", "remaining_time": "0:08:53"}
+{"current_steps": 430, "total_steps": 724, "loss": 1.4323, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.772990797688344e-05, "epoch": 1.19, "percentage": 59.39, "elapsed_time": "0:12:46", "remaining_time": "0:08:43"}
+{"current_steps": 435, "total_steps": 724, "loss": 1.0638, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.7212698793330916e-05, "epoch": 1.2, "percentage": 60.08, "elapsed_time": "0:12:53", "remaining_time": "0:08:33"}
+{"current_steps": 440, "total_steps": 724, "loss": 1.6245, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.6699155104165904e-05, "epoch": 1.22, "percentage": 60.77, "elapsed_time": "0:13:02", "remaining_time": "0:08:25"}
+{"current_steps": 445, "total_steps": 724, "loss": 1.1679, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.61895186351751e-05, "epoch": 1.23, "percentage": 61.46, "elapsed_time": "0:13:10", "remaining_time": "0:08:15"}
+{"current_steps": 450, "total_steps": 724, "loss": 1.7155, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.568402927301076e-05, "epoch": 1.24, "percentage": 62.15, "elapsed_time": "0:13:19", "remaining_time": "0:08:06"}
+{"current_steps": 455, "total_steps": 724, "loss": 1.2734, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.5182924952275768e-05, "epoch": 1.26, "percentage": 62.85, "elapsed_time": "0:13:27", "remaining_time": "0:07:57"}
+{"current_steps": 460, "total_steps": 724, "loss": 1.7568, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.4686441543527374e-05, "epoch": 1.27, "percentage": 63.54, "elapsed_time": "0:13:35", "remaining_time": "0:07:48"}
+{"current_steps": 465, "total_steps": 724, "loss": 1.7407, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.4194812742252638e-05, "epoch": 1.28, "percentage": 64.23, "elapsed_time": "0:13:44", "remaining_time": "0:07:39"}
+{"current_steps": 470, "total_steps": 724, "loss": 1.5895, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.3708269958867565e-05, "epoch": 1.3, "percentage": 64.92, "elapsed_time": "0:13:56", "remaining_time": "0:07:32"}
+{"current_steps": 475, "total_steps": 724, "loss": 2.2967, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.322704220979187e-05, "epoch": 1.31, "percentage": 65.61, "elapsed_time": "0:14:07", "remaining_time": "0:07:24"}
+{"current_steps": 480, "total_steps": 724, "loss": 1.4595, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.2751356009650681e-05, "epoch": 1.33, "percentage": 66.3, "elapsed_time": "0:14:15", "remaining_time": "0:07:15"}
+{"current_steps": 485, "total_steps": 724, "loss": 1.6341, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.2281435264653665e-05, "epoch": 1.34, "percentage": 66.99, "elapsed_time": "0:14:25", "remaining_time": "0:07:06"}
+{"current_steps": 490, "total_steps": 724, "loss": 1.3562, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.1817501167202099e-05, "epoch": 1.35, "percentage": 67.68, "elapsed_time": "0:14:33", "remaining_time": "0:06:57"}
+{"current_steps": 495, "total_steps": 724, "loss": 1.6777, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.1359772091773263e-05, "epoch": 1.37, "percentage": 68.37, "elapsed_time": "0:14:42", "remaining_time": "0:06:48"}
+{"current_steps": 500, "total_steps": 724, "loss": 1.0831, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.0908463492131227e-05, "epoch": 1.38, "percentage": 69.06, "elapsed_time": "0:14:49", "remaining_time": "0:06:38"}
+{"current_steps": 505, "total_steps": 724, "loss": 1.0575, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.0463787799912465e-05, "epoch": 1.4, "percentage": 69.75, "elapsed_time": "0:14:56", "remaining_time": "0:06:28"}
+{"current_steps": 510, "total_steps": 724, "loss": 1.3363, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.0025954324633948e-05, "epoch": 1.41, "percentage": 70.44, "elapsed_time": "0:15:04", "remaining_time": "0:06:19"}
+{"current_steps": 515, "total_steps": 724, "loss": 0.9582, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 9.595169155170852e-06, "epoch": 1.42, "percentage": 71.13, "elapsed_time": "0:15:16", "remaining_time": "0:06:11"}
+{"current_steps": 520, "total_steps": 724, "loss": 1.8537, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 9.171635062750189e-06, "epoch": 1.44, "percentage": 71.82, "elapsed_time": "0:15:29", "remaining_time": "0:06:04"}
+{"current_steps": 525, "total_steps": 724, "loss": 1.372, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.755551405506143e-06, "epoch": 1.45, "percentage": 72.51, "elapsed_time": "0:15:41", "remaining_time": "0:05:56"}
+{"current_steps": 530, "total_steps": 724, "loss": 1.6832, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.347114034641806e-06, "epoch": 1.46, "percentage": 73.2, "elapsed_time": "0:15:50", "remaining_time": "0:05:47"}
+{"current_steps": 535, "total_steps": 724, "loss": 0.8202, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 7.9465152022418e-06, "epoch": 1.48, "percentage": 73.9, "elapsed_time": "0:15:58", "remaining_time": "0:05:38"}
+{"current_steps": 540, "total_steps": 724, "loss": 1.4924, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 7.5539434707789266e-06, "epoch": 1.49, "percentage": 74.59, "elapsed_time": "0:16:08", "remaining_time": "0:05:30"}
+{"current_steps": 545, "total_steps": 724, "loss": 0.8526, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 7.169583624357451e-06, "epoch": 1.51, "percentage": 75.28, "elapsed_time": "0:16:19", "remaining_time": "0:05:21"}
+{"current_steps": 550, "total_steps": 724, "loss": 1.8087, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.793616581735062e-06, "epoch": 1.52, "percentage": 75.97, "elapsed_time": "0:16:31", "remaining_time": "0:05:13"}
+{"current_steps": 555, "total_steps": 724, "loss": 1.5891, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.42621931116405e-06, "epoch": 1.53, "percentage": 76.66, "elapsed_time": "0:16:43", "remaining_time": "0:05:05"}
+{"current_steps": 560, "total_steps": 724, "loss": 1.9362, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.067564747092094e-06, "epoch": 1.55, "percentage": 77.35, "elapsed_time": "0:16:55", "remaining_time": "0:04:57"}
+{"current_steps": 565, "total_steps": 724, "loss": 1.0487, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5.717821708761822e-06, "epoch": 1.56, "percentage": 78.04, "elapsed_time": "0:17:06", "remaining_time": "0:04:48"}
+{"current_steps": 570, "total_steps": 724, "loss": 1.6339, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5.377154820747271e-06, "epoch": 1.57, "percentage": 78.73, "elapsed_time": "0:17:18", "remaining_time": "0:04:40"}
+{"current_steps": 575, "total_steps": 724, "loss": 1.2953, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5.045724435464874e-06, "epoch": 1.59, "percentage": 79.42, "elapsed_time": "0:17:29", "remaining_time": "0:04:32"}
+{"current_steps": 580, "total_steps": 724, "loss": 1.0077, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.72368655769535e-06, "epoch": 1.6, "percentage": 80.11, "elapsed_time": "0:17:40", "remaining_time": "0:04:23"}
+{"current_steps": 585, "total_steps": 724, "loss": 1.1702, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.411192771152004e-06, "epoch": 1.62, "percentage": 80.8, "elapsed_time": "0:17:52", "remaining_time": "0:04:14"}
+{"current_steps": 590, "total_steps": 724, "loss": 1.5571, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.108390167130044e-06, "epoch": 1.63, "percentage": 81.49, "elapsed_time": "0:18:04", "remaining_time": "0:04:06"}
+{"current_steps": 595, "total_steps": 724, "loss": 1.3669, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.8154212752704976e-06, "epoch": 1.64, "percentage": 82.18, "elapsed_time": "0:18:15", "remaining_time": "0:03:57"}
+{"current_steps": 600, "total_steps": 724, "loss": 1.6162, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.532423996471307e-06, "epoch": 1.66, "percentage": 82.87, "elapsed_time": "0:18:26", "remaining_time": "0:03:48"}
+{"current_steps": 605, "total_steps": 724, "loss": 0.4967, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.259531537977123e-06, "epoch": 1.67, "percentage": 83.56, "elapsed_time": "0:18:37", "remaining_time": "0:03:39"}
+{"current_steps": 610, "total_steps": 724, "loss": 1.066, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.9968723506784953e-06, "epoch": 1.69, "percentage": 84.25, "elapsed_time": "0:18:48", "remaining_time": "0:03:30"}
+{"current_steps": 615, "total_steps": 724, "loss": 1.4617, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.7445700686498545e-06, "epoch": 1.7, "percentage": 84.94, "elapsed_time": "0:19:02", "remaining_time": "0:03:22"}
+{"current_steps": 620, "total_steps": 724, "loss": 1.3762, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.502743450954714e-06, "epoch": 1.71, "percentage": 85.64, "elapsed_time": "0:19:14", "remaining_time": "0:03:13"}
+{"current_steps": 625, "total_steps": 724, "loss": 1.6011, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.271506325745662e-06, "epoch": 1.73, "percentage": 86.33, "elapsed_time": "0:19:27", "remaining_time": "0:03:05"}
+{"current_steps": 630, "total_steps": 724, "loss": 1.7583, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.050967536685233e-06, "epoch": 1.74, "percentage": 87.02, "elapsed_time": "0:19:40", "remaining_time": "0:02:56"}
+{"current_steps": 635, "total_steps": 724, "loss": 1.4909, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.8412308917130611e-06, "epoch": 1.75, "percentage": 87.71, "elapsed_time": "0:19:52", "remaining_time": "0:02:47"}
+{"current_steps": 640, "total_steps": 724, "loss": 0.8267, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.6423951141833011e-06, "epoch": 1.77, "percentage": 88.4, "elapsed_time": "0:20:03", "remaining_time": "0:02:37"}
+{"current_steps": 645, "total_steps": 724, "loss": 1.3815, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.4545537963954247e-06, "epoch": 1.78, "percentage": 89.09, "elapsed_time": "0:20:15", "remaining_time": "0:02:28"}
+{"current_steps": 650, "total_steps": 724, "loss": 1.618, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.2777953555401678e-06, "epoch": 1.8, "percentage": 89.78, "elapsed_time": "0:20:27", "remaining_time": "0:02:19"}
+{"current_steps": 655, "total_steps": 724, "loss": 1.6904, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.1122029920814236e-06, "epoch": 1.81, "percentage": 90.47, "elapsed_time": "0:20:39", "remaining_time": "0:02:10"}
+{"current_steps": 660, "total_steps": 724, "loss": 1.1602, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 9.578546505936676e-07, "epoch": 1.82, "percentage": 91.16, "elapsed_time": "0:20:50", "remaining_time": "0:02:01"}
+{"current_steps": 665, "total_steps": 724, "loss": 1.7147, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.148229830733295e-07, "epoch": 1.84, "percentage": 91.85, "elapsed_time": "0:21:01", "remaining_time": "0:01:51"}
+{"current_steps": 670, "total_steps": 724, "loss": 1.3837, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.831753147413827e-07, "epoch": 1.85, "percentage": 92.54, "elapsed_time": "0:21:13", "remaining_time": "0:01:42"}
+{"current_steps": 675, "total_steps": 724, "loss": 1.5324, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5.629736123532653e-07, "epoch": 1.86, "percentage": 93.23, "elapsed_time": "0:21:23", "remaining_time": "0:01:33"}
+{"current_steps": 680, "total_steps": 724, "loss": 0.9563, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.5427445503103684e-07, "epoch": 1.88, "percentage": 93.92, "elapsed_time": "0:21:31", "remaining_time": "0:01:23"}
+{"current_steps": 685, "total_steps": 724, "loss": 1.2545, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.571290076314959e-07, "epoch": 1.89, "percentage": 94.61, "elapsed_time": "0:21:39", "remaining_time": "0:01:13"}
+{"current_steps": 690, "total_steps": 724, "loss": 1.5162, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.7158299666280864e-07, "epoch": 1.91, "percentage": 95.3, "elapsed_time": "0:21:48", "remaining_time": "0:01:04"}
+{"current_steps": 695, "total_steps": 724, "loss": 1.3806, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.9767668876096713e-07, "epoch": 1.92, "percentage": 95.99, "elapsed_time": "0:21:57", "remaining_time": "0:00:54"}
+{"current_steps": 700, "total_steps": 724, "loss": 1.4588, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.3544487173623443e-07, "epoch": 1.93, "percentage": 96.69, "elapsed_time": "0:22:06", "remaining_time": "0:00:45"}
+{"current_steps": 705, "total_steps": 724, "loss": 2.3318, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.491683819846219e-08, "epoch": 1.95, "percentage": 97.38, "elapsed_time": "0:22:17", "remaining_time": "0:00:36"}
+{"current_steps": 710, "total_steps": 724, "loss": 1.021, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.611637176901162e-08, "epoch": 1.96, "percentage": 98.07, "elapsed_time": "0:22:28", "remaining_time": "0:00:26"}
+{"current_steps": 715, "total_steps": 724, "loss": 1.5645, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.9061735885772536e-08, "epoch": 1.98, "percentage": 98.76, "elapsed_time": "0:22:40", "remaining_time": "0:00:17"}
+{"current_steps": 720, "total_steps": 724, "loss": 1.6854, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.76566520653987e-09, "epoch": 1.99, "percentage": 99.45, "elapsed_time": "0:22:52", "remaining_time": "0:00:07"}
+{"current_steps": 724, "total_steps": 724, "loss": null, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.0, "percentage": 100.0, "elapsed_time": "0:23:01", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,892 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 724,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.999411623120412e-05,
+      "loss": 2.1959,
+      "step": 5
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.997646769431532e-05,
+      "loss": 1.7787,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.9947062696526445e-05,
+      "loss": 1.167,
+      "step": 15
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.990591507881416e-05,
+      "loss": 2.0242,
+      "step": 20
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.9853044209423996e-05,
+      "loss": 2.2836,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.9788474974753686e-05,
+      "loss": 1.9629,
+      "step": 30
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.971223776763907e-05,
+      "loss": 2.5583,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.962436847304818e-05,
+      "loss": 1.9105,
+      "step": 40
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.9524908451190096e-05,
+      "loss": 2.1563,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.9413904518046674e-05,
+      "loss": 2.3299,
+      "step": 50
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.929140892333616e-05,
+      "loss": 1.4083,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.9157479325919156e-05,
+      "loss": 1.7837,
+      "step": 60
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.901217876665858e-05,
+      "loss": 1.4737,
+      "step": 65
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.8855575638746135e-05,
+      "loss": 2.1072,
+      "step": 70
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.868774365550962e-05,
+      "loss": 0.8345,
+      "step": 75
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.850876181571592e-05,
+      "loss": 2.4821,
+      "step": 80
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.831871436638613e-05,
+      "loss": 1.6394,
+      "step": 85
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.811769076314044e-05,
+      "loss": 1.6403,
+      "step": 90
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.790578562809116e-05,
+      "loss": 1.6487,
+      "step": 95
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.7683098705304e-05,
+      "loss": 1.751,
+      "step": 100
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.7449734813848345e-05,
+      "loss": 1.7423,
+      "step": 105
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.720580379845883e-05,
+      "loss": 1.9435,
+      "step": 110
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.695142047783118e-05,
+      "loss": 1.2112,
+      "step": 115
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.668670459057692e-05,
+      "loss": 1.5366,
+      "step": 120
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.641178073886224e-05,
+      "loss": 1.1842,
+      "step": 125
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.6126778329757516e-05,
+      "loss": 1.2011,
+      "step": 130
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.583183151432527e-05,
+      "loss": 1.2053,
+      "step": 135
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.5527079124475045e-05,
+      "loss": 1.4354,
+      "step": 140
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.521266460761497e-05,
+      "loss": 1.5641,
+      "step": 145
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.488873595913091e-05,
+      "loss": 1.7298,
+      "step": 150
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.4555445652724795e-05,
+      "loss": 1.2547,
+      "step": 155
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.4212950568645007e-05,
+      "loss": 1.6051,
+      "step": 160
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.386141191984262e-05,
+      "loss": 1.5891,
+      "step": 165
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.350099517608823e-05,
+      "loss": 1.2693,
+      "step": 170
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.313186998608506e-05,
+      "loss": 1.5962,
+      "step": 175
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.275421009761509e-05,
+      "loss": 1.5196,
+      "step": 180
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.236819327575571e-05,
+      "loss": 1.6221,
+      "step": 185
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.197400121920539e-05,
+      "loss": 1.1342,
+      "step": 190
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.1571819474757894e-05,
+      "loss": 2.024,
+      "step": 195
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.116183734996509e-05,
+      "loss": 1.3701,
+      "step": 200
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.074424782402958e-05,
+      "loss": 1.7944,
+      "step": 205
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.031924745696915e-05,
+      "loss": 1.561,
+      "step": 210
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 3.988703629709564e-05,
+      "loss": 1.828,
+      "step": 215
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 3.944781778685189e-05,
+      "loss": 1.2159,
+      "step": 220
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3.900179866705112e-05,
+      "loss": 1.6311,
+      "step": 225
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 3.854918887956369e-05,
+      "loss": 1.8962,
+      "step": 230
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 3.809020146849714e-05,
+      "loss": 1.3081,
+      "step": 235
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 3.7625052479916015e-05,
+      "loss": 1.6926,
+      "step": 240
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 3.715396086014869e-05,
+      "loss": 1.9407,
+      "step": 245
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 3.667714835272895e-05,
+      "loss": 1.3894,
+      "step": 250
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 3.6194839394021e-05,
+      "loss": 1.2711,
+      "step": 255
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3.570726100757693e-05,
+      "loss": 2.0264,
+      "step": 260
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3.5214642697276426e-05,
+      "loss": 2.0718,
+      "step": 265
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.471721633929885e-05,
+      "loss": 1.3508,
+      "step": 270
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3.421521607297888e-05,
+      "loss": 1.4645,
+      "step": 275
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 3.370887819059672e-05,
+      "loss": 1.9456,
+      "step": 280
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 3.319844102615497e-05,
+      "loss": 1.6282,
+      "step": 285
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3.268414484319445e-05,
+      "loss": 1.7652,
+      "step": 290
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 3.216623172170183e-05,
+      "loss": 1.6169,
+      "step": 295
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 3.164494544416215e-05,
+      "loss": 1.3647,
+      "step": 300
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.11205313808101e-05,
+      "loss": 2.0791,
+      "step": 305
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.059323637413385e-05,
+      "loss": 1.8486,
+      "step": 310
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3.0063308622685903e-05,
+      "loss": 1.0746,
+      "step": 315
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.9530997564255725e-05,
+      "loss": 0.779,
+      "step": 320
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 2.8996553758458916e-05,
+      "loss": 1.7561,
+      "step": 325
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 2.8460228768798506e-05,
+      "loss": 0.8527,
+      "step": 330
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.792227504425359e-05,
+      "loss": 1.211,
+      "step": 335
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.738294580045119e-05,
+      "loss": 1.4435,
+      "step": 340
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.6842494900477365e-05,
+      "loss": 1.4192,
+      "step": 345
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 2.6301176735383382e-05,
+      "loss": 1.7033,
+      "step": 350
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 2.57592461044435e-05,
+      "loss": 1.4952,
+      "step": 355
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.521695809522061e-05,
+      "loss": 1.3207,
+      "step": 360
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 2.467456796349607e-05,
+      "loss": 1.2689,
+      "step": 365
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 2.4132331013120453e-05,
+      "loss": 1.5812,
+      "step": 370
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 2.3590502475841642e-05,
+      "loss": 1.8583,
+      "step": 375
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 2.304933739116688e-05,
+      "loss": 1.7619,
+      "step": 380
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 2.2509090486315246e-05,
+      "loss": 1.5837,
+      "step": 385
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 2.1970016056317203e-05,
+      "loss": 1.6458,
+      "step": 390
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 2.1432367844317558e-05,
+      "loss": 1.4172,
+      "step": 395
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 2.0896398922138122e-05,
+      "loss": 1.4327,
+      "step": 400
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.0362361571156505e-05,
+      "loss": 1.0046,
+      "step": 405
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1.9830507163556816e-05,
+      "loss": 1.2355,
+      "step": 410
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.930108604400846e-05,
+      "loss": 1.224,
+      "step": 415
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.8774347411828472e-05,
+      "loss": 1.7486,
+      "step": 420
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.825053920368306e-05,
+      "loss": 1.6091,
+      "step": 425
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.772990797688344e-05,
+      "loss": 1.4323,
+      "step": 430
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.7212698793330916e-05,
+      "loss": 1.0638,
+      "step": 435
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.6699155104165904e-05,
+      "loss": 1.6245,
+      "step": 440
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.61895186351751e-05,
+      "loss": 1.1679,
+      "step": 445
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.568402927301076e-05,
+      "loss": 1.7155,
+      "step": 450
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.5182924952275768e-05,
+      "loss": 1.2734,
+      "step": 455
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.4686441543527374e-05,
+      "loss": 1.7568,
+      "step": 460
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.4194812742252638e-05,
+      "loss": 1.7407,
+      "step": 465
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.3708269958867565e-05,
+      "loss": 1.5895,
+      "step": 470
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.322704220979187e-05,
+      "loss": 2.2967,
+      "step": 475
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1.2751356009650681e-05,
+      "loss": 1.4595,
+      "step": 480
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.2281435264653665e-05,
+      "loss": 1.6341,
+      "step": 485
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1.1817501167202099e-05,
+      "loss": 1.3562,
+      "step": 490
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.1359772091773263e-05,
+      "loss": 1.6777,
+      "step": 495
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.0908463492131227e-05,
+      "loss": 1.0831,
+      "step": 500
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.0463787799912465e-05,
+      "loss": 1.0575,
+      "step": 505
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 1.0025954324633948e-05,
+      "loss": 1.3363,
+      "step": 510
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 9.595169155170852e-06,
+      "loss": 0.9582,
+      "step": 515
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 9.171635062750189e-06,
+      "loss": 1.8537,
+      "step": 520
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 8.755551405506143e-06,
+      "loss": 1.372,
+      "step": 525
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 8.347114034641806e-06,
+      "loss": 1.6832,
+      "step": 530
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 7.9465152022418e-06,
+      "loss": 0.8202,
+      "step": 535
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 7.5539434707789266e-06,
+      "loss": 1.4924,
+      "step": 540
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.169583624357451e-06,
+      "loss": 0.8526,
+      "step": 545
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 6.793616581735062e-06,
+      "loss": 1.8087,
+      "step": 550
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 6.42621931116405e-06,
+      "loss": 1.5891,
+      "step": 555
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 6.067564747092094e-06,
+      "loss": 1.9362,
+      "step": 560
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 5.717821708761822e-06,
+      "loss": 1.0487,
+      "step": 565
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 5.377154820747271e-06,
+      "loss": 1.6339,
+      "step": 570
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 5.045724435464874e-06,
+      "loss": 1.2953,
+      "step": 575
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 4.72368655769535e-06,
+      "loss": 1.0077,
+      "step": 580
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.411192771152004e-06,
+      "loss": 1.1702,
+      "step": 585
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 4.108390167130044e-06,
+      "loss": 1.5571,
+      "step": 590
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 3.8154212752704976e-06,
+      "loss": 1.3669,
+      "step": 595
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 3.532423996471307e-06,
+      "loss": 1.6162,
+      "step": 600
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 3.259531537977123e-06,
+      "loss": 0.4967,
+      "step": 605
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 2.9968723506784953e-06,
+      "loss": 1.066,
+      "step": 610
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 2.7445700686498545e-06,
+      "loss": 1.4617,
+      "step": 615
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.502743450954714e-06,
+      "loss": 1.3762,
+      "step": 620
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.271506325745662e-06,
+      "loss": 1.6011,
+      "step": 625
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 2.050967536685233e-06,
+      "loss": 1.7583,
+      "step": 630
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.8412308917130611e-06,
+      "loss": 1.4909,
+      "step": 635
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.6423951141833011e-06,
+      "loss": 0.8267,
+      "step": 640
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.4545537963954247e-06,
+      "loss": 1.3815,
+      "step": 645
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.2777953555401678e-06,
+      "loss": 1.618,
+      "step": 650
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1.1122029920814236e-06,
+      "loss": 1.6904,
+      "step": 655
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 9.578546505936676e-07,
+      "loss": 1.1602,
+      "step": 660
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 8.148229830733295e-07,
+      "loss": 1.7147,
+      "step": 665
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 6.831753147413827e-07,
+      "loss": 1.3837,
+      "step": 670
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 5.629736123532653e-07,
+      "loss": 1.5324,
+      "step": 675
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 4.5427445503103684e-07,
+      "loss": 0.9563,
+      "step": 680
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 3.571290076314959e-07,
+      "loss": 1.2545,
+      "step": 685
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 2.7158299666280864e-07,
+      "loss": 1.5162,
+      "step": 690
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.9767668876096713e-07,
+      "loss": 1.3806,
+      "step": 695
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.3544487173623443e-07,
+      "loss": 1.4588,
+      "step": 700
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 8.491683819846219e-08,
+      "loss": 2.3318,
+      "step": 705
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 4.611637176901162e-08,
+      "loss": 1.021,
+      "step": 710
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.9061735885772536e-08,
+      "loss": 1.5645,
+      "step": 715
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 3.76566520653987e-09,
+      "loss": 1.6854,
+      "step": 720
+    },
+    {
+      "epoch": 2.0,
+      "step": 724,
+      "total_flos": 3.95850929775575e+16,
+      "train_loss": 1.5255728854658854,
+      "train_runtime": 1381.7862,
+      "train_samples_per_second": 0.524,
+      "train_steps_per_second": 0.524
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 724,
+  "num_train_epochs": 2,
+  "save_steps": 5000,
+  "total_flos": 3.95850929775575e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e82a499bd072e39734f9ecc3971214f3280bff46aa14a84789ba4fa112adb807
+size 4728

training_loss.png ADDED Viewed