End of training

Browse files

Files changed (6) hide show

README.md +64 -0
all_results.json +9 -0
config.json +1 -1
generation_config.json +14 -0
train_results.json +9 -0
trainer_state.json +1029 -0

README.md ADDED Viewed

	@@ -0,0 +1,64 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: yiran-wang3/qwen1_chat_adamw_iter2
+tags:
+- alignment-handbook
+- generated_from_trainer
+- trl
+- dpo
+datasets:
+- self-generate/qw1_sppo_hard_new_cn_mining_oj_iter2-binarized
+model-index:
+- name: qwen1_chat_adamw_iter3
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# qwen1_chat_adamw_iter3
+This model is a fine-tuned version of [yiran-wang3/qwen1_chat_adamw_iter2](https://huggingface.co/yiran-wang3/qwen1_chat_adamw_iter2) on the self-generate/qw1_sppo_hard_new_cn_mining_oj_iter2-binarized dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- lr_scheduler_warmup_ratio: 0.1
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 1.0
+### Training results
+### Framework versions
+- Transformers 4.45.0
+- Pytorch 2.4.0+cu121
+- Datasets 2.14.6
+- Tokenizers 0.20.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4919274278143619,
+    "train_runtime": 164.7654,
+    "train_samples": 2968,
+    "train_samples_per_second": 18.013,
+    "train_steps_per_second": 0.285
+}

config.json CHANGED Viewed

@@ -23,7 +23,7 @@
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
-  "use_cache": false,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
+  "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.45.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4919274278143619,
+    "train_runtime": 164.7654,
+    "train_samples": 2968,
+    "train_samples_per_second": 18.013,
+    "train_steps_per_second": 0.285
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1029 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 47,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "debug/policy_chosen_logits": -0.8068546652793884,
+      "debug/policy_chosen_logps": -174.92620849609375,
+      "debug/policy_rejected_logits": -0.8490269184112549,
+      "debug/policy_rejected_logps": -157.37281799316406,
+      "debug/reference_chosen_logps": -174.92620849609375,
+      "debug/reference_rejected_logps": -157.37281799316406,
+      "epoch": 0.02127659574468085,
+      "grad_norm": 6.984644017712198,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8068546652793884,
+      "logits/rejected": -0.8490269184112549,
+      "logps/chosen": -174.92620849609375,
+      "logps/rejected": -157.37281799316406,
+      "loss": 0.5,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "debug/policy_chosen_logits": -0.9022992253303528,
+      "debug/policy_chosen_logps": -143.34872436523438,
+      "debug/policy_rejected_logits": -0.8076929450035095,
+      "debug/policy_rejected_logps": -161.58590698242188,
+      "debug/reference_chosen_logps": -143.50845336914062,
+      "debug/reference_rejected_logps": -162.044921875,
+      "epoch": 0.0425531914893617,
+      "grad_norm": 6.185349544683876,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9022992253303528,
+      "logits/rejected": -0.8076929450035095,
+      "logps/chosen": -143.34872436523438,
+      "logps/rejected": -161.58590698242188,
+      "loss": 0.5018,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.0015972137916833162,
+      "rewards/margins": -0.0029931068420410156,
+      "rewards/rejected": 0.0045903208665549755,
+      "step": 2
+    },
+    {
+      "debug/policy_chosen_logits": -0.734718382358551,
+      "debug/policy_chosen_logps": -165.74978637695312,
+      "debug/policy_rejected_logits": -0.8039400577545166,
+      "debug/policy_rejected_logps": -155.00161743164062,
+      "debug/reference_chosen_logps": -166.1104736328125,
+      "debug/reference_rejected_logps": -155.65774536132812,
+      "epoch": 0.06382978723404255,
+      "grad_norm": 6.173007368590962,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.734718382358551,
+      "logits/rejected": -0.8039400577545166,
+      "logps/chosen": -165.74978637695312,
+      "logps/rejected": -155.00161743164062,
+      "loss": 0.5003,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.0036070060450583696,
+      "rewards/margins": -0.002954263472929597,
+      "rewards/rejected": 0.006561269983649254,
+      "step": 3
+    },
+    {
+      "debug/policy_chosen_logits": -0.724987268447876,
+      "debug/policy_chosen_logps": -170.4888153076172,
+      "debug/policy_rejected_logits": -0.8433169722557068,
+      "debug/policy_rejected_logps": -181.96383666992188,
+      "debug/reference_chosen_logps": -171.01820373535156,
+      "debug/reference_rejected_logps": -182.69778442382812,
+      "epoch": 0.0851063829787234,
+      "grad_norm": 7.7885462092667535,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.724987268447876,
+      "logits/rejected": -0.8433169722557068,
+      "logps/chosen": -170.4888153076172,
+      "logps/rejected": -181.96383666992188,
+      "loss": 0.5001,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.005293817259371281,
+      "rewards/margins": -0.0020457743667066097,
+      "rewards/rejected": 0.00733959162607789,
+      "step": 4
+    },
+    {
+      "debug/policy_chosen_logits": -1.0596671104431152,
+      "debug/policy_chosen_logps": -158.74615478515625,
+      "debug/policy_rejected_logits": -0.9138705730438232,
+      "debug/policy_rejected_logps": -172.4247589111328,
+      "debug/reference_chosen_logps": -159.16357421875,
+      "debug/reference_rejected_logps": -172.97216796875,
+      "epoch": 0.10638297872340426,
+      "grad_norm": 7.233824957283756,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.0596671104431152,
+      "logits/rejected": -0.9138705730438232,
+      "logps/chosen": -158.74615478515625,
+      "logps/rejected": -172.4247589111328,
+      "loss": 0.5014,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.004174098838120699,
+      "rewards/margins": -0.0012998387683182955,
+      "rewards/rejected": 0.005473937373608351,
+      "step": 5
+    },
+    {
+      "debug/policy_chosen_logits": -0.8790372014045715,
+      "debug/policy_chosen_logps": -176.21961975097656,
+      "debug/policy_rejected_logits": -0.772028923034668,
+      "debug/policy_rejected_logps": -168.8019256591797,
+      "debug/reference_chosen_logps": -175.71527099609375,
+      "debug/reference_rejected_logps": -168.62828063964844,
+      "epoch": 0.1276595744680851,
+      "grad_norm": 6.529443105978694,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8790372014045715,
+      "logits/rejected": -0.772028923034668,
+      "logps/chosen": -176.21961975097656,
+      "logps/rejected": -168.8019256591797,
+      "loss": 0.4993,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.005043611396104097,
+      "rewards/margins": -0.003307218663394451,
+      "rewards/rejected": -0.0017363927327096462,
+      "step": 6
+    },
+    {
+      "debug/policy_chosen_logits": -0.8641963601112366,
+      "debug/policy_chosen_logps": -183.53302001953125,
+      "debug/policy_rejected_logits": -0.7855976223945618,
+      "debug/policy_rejected_logps": -169.0634765625,
+      "debug/reference_chosen_logps": -182.7043914794922,
+      "debug/reference_rejected_logps": -168.21730041503906,
+      "epoch": 0.14893617021276595,
+      "grad_norm": 6.8645227771260595,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8641963601112366,
+      "logits/rejected": -0.7855976223945618,
+      "logps/chosen": -183.53302001953125,
+      "logps/rejected": -169.0634765625,
+      "loss": 0.4984,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.008286199532449245,
+      "rewards/margins": 0.00017546641174703836,
+      "rewards/rejected": -0.00846166629344225,
+      "step": 7
+    },
+    {
+      "debug/policy_chosen_logits": -0.8728761076927185,
+      "debug/policy_chosen_logps": -161.760009765625,
+      "debug/policy_rejected_logits": -0.6517330408096313,
+      "debug/policy_rejected_logps": -192.8695068359375,
+      "debug/reference_chosen_logps": -159.8403778076172,
+      "debug/reference_rejected_logps": -191.3787841796875,
+      "epoch": 0.1702127659574468,
+      "grad_norm": 6.69812102779195,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8728761076927185,
+      "logits/rejected": -0.6517330408096313,
+      "logps/chosen": -161.760009765625,
+      "logps/rejected": -192.8695068359375,
+      "loss": 0.5021,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.019196156412363052,
+      "rewards/margins": -0.004288902040570974,
+      "rewards/rejected": -0.014907254837453365,
+      "step": 8
+    },
+    {
+      "debug/policy_chosen_logits": -0.9805322885513306,
+      "debug/policy_chosen_logps": -149.35302734375,
+      "debug/policy_rejected_logits": -0.6159168481826782,
+      "debug/policy_rejected_logps": -176.2978515625,
+      "debug/reference_chosen_logps": -149.08575439453125,
+      "debug/reference_rejected_logps": -175.6068572998047,
+      "epoch": 0.19148936170212766,
+      "grad_norm": 6.531738664013216,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9805322885513306,
+      "logits/rejected": -0.6159168481826782,
+      "logps/chosen": -149.35302734375,
+      "logps/rejected": -176.2978515625,
+      "loss": 0.4995,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.002672843635082245,
+      "rewards/margins": 0.004237032029777765,
+      "rewards/rejected": -0.0069098761305212975,
+      "step": 9
+    },
+    {
+      "debug/policy_chosen_logits": -0.8477765321731567,
+      "debug/policy_chosen_logps": -157.08721923828125,
+      "debug/policy_rejected_logits": -0.9879372119903564,
+      "debug/policy_rejected_logps": -152.79302978515625,
+      "debug/reference_chosen_logps": -155.71051025390625,
+      "debug/reference_rejected_logps": -152.11395263671875,
+      "epoch": 0.2127659574468085,
+      "grad_norm": 6.82652212657647,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8477765321731567,
+      "logits/rejected": -0.9879372119903564,
+      "logps/chosen": -157.08721923828125,
+      "logps/rejected": -152.79302978515625,
+      "loss": 0.5003,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.013767031952738762,
+      "rewards/margins": -0.006976260803639889,
+      "rewards/rejected": -0.006790771149098873,
+      "step": 10
+    },
+    {
+      "debug/policy_chosen_logits": -0.726215124130249,
+      "debug/policy_chosen_logps": -182.1802978515625,
+      "debug/policy_rejected_logits": -0.8878192901611328,
+      "debug/policy_rejected_logps": -140.88198852539062,
+      "debug/reference_chosen_logps": -181.7808380126953,
+      "debug/reference_rejected_logps": -140.300537109375,
+      "epoch": 0.23404255319148937,
+      "grad_norm": 5.656212124505056,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.726215124130249,
+      "logits/rejected": -0.8878192901611328,
+      "logps/chosen": -182.1802978515625,
+      "logps/rejected": -140.88198852539062,
+      "loss": 0.4998,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.0039947605691850185,
+      "rewards/margins": 0.001819915371015668,
+      "rewards/rejected": -0.00581467617303133,
+      "step": 11
+    },
+    {
+      "debug/policy_chosen_logits": -1.11215341091156,
+      "debug/policy_chosen_logps": -134.15692138671875,
+      "debug/policy_rejected_logits": -0.9618105888366699,
+      "debug/policy_rejected_logps": -170.78240966796875,
+      "debug/reference_chosen_logps": -135.10552978515625,
+      "debug/reference_rejected_logps": -171.48892211914062,
+      "epoch": 0.2553191489361702,
+      "grad_norm": 6.646207906595571,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.11215341091156,
+      "logits/rejected": -0.9618105888366699,
+      "logps/chosen": -134.15692138671875,
+      "logps/rejected": -170.78240966796875,
+      "loss": 0.498,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.009486007504165173,
+      "rewards/margins": 0.00242087384685874,
+      "rewards/rejected": 0.007065133657306433,
+      "step": 12
+    },
+    {
+      "debug/policy_chosen_logits": -0.7991014719009399,
+      "debug/policy_chosen_logps": -162.961181640625,
+      "debug/policy_rejected_logits": -0.8125512003898621,
+      "debug/policy_rejected_logps": -164.0631103515625,
+      "debug/reference_chosen_logps": -163.7264862060547,
+      "debug/reference_rejected_logps": -164.45962524414062,
+      "epoch": 0.2765957446808511,
+      "grad_norm": 6.71678781200528,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7991014719009399,
+      "logits/rejected": -0.8125512003898621,
+      "logps/chosen": -162.961181640625,
+      "logps/rejected": -164.0631103515625,
+      "loss": 0.4968,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.007653169799596071,
+      "rewards/margins": 0.0036880772095173597,
+      "rewards/rejected": 0.003965091425925493,
+      "step": 13
+    },
+    {
+      "debug/policy_chosen_logits": -0.7829986214637756,
+      "debug/policy_chosen_logps": -166.5230712890625,
+      "debug/policy_rejected_logits": -0.7261733412742615,
+      "debug/policy_rejected_logps": -163.46420288085938,
+      "debug/reference_chosen_logps": -167.57135009765625,
+      "debug/reference_rejected_logps": -164.37411499023438,
+      "epoch": 0.2978723404255319,
+      "grad_norm": 6.835923036694967,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7829986214637756,
+      "logits/rejected": -0.7261733412742615,
+      "logps/chosen": -166.5230712890625,
+      "logps/rejected": -163.46420288085938,
+      "loss": 0.4935,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.010482797399163246,
+      "rewards/margins": 0.0013835998252034187,
+      "rewards/rejected": 0.009099196642637253,
+      "step": 14
+    },
+    {
+      "debug/policy_chosen_logits": -0.8212059736251831,
+      "debug/policy_chosen_logps": -142.06138610839844,
+      "debug/policy_rejected_logits": -0.658382773399353,
+      "debug/policy_rejected_logps": -181.79806518554688,
+      "debug/reference_chosen_logps": -142.90821838378906,
+      "debug/reference_rejected_logps": -181.2681121826172,
+      "epoch": 0.3191489361702128,
+      "grad_norm": 5.973889273303634,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8212059736251831,
+      "logits/rejected": -0.658382773399353,
+      "logps/chosen": -142.06138610839844,
+      "logps/rejected": -181.79806518554688,
+      "loss": 0.4974,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.008468389511108398,
+      "rewards/margins": 0.013767938129603863,
+      "rewards/rejected": -0.005299548618495464,
+      "step": 15
+    },
+    {
+      "debug/policy_chosen_logits": -0.8922485113143921,
+      "debug/policy_chosen_logps": -171.1387176513672,
+      "debug/policy_rejected_logits": -0.8397103548049927,
+      "debug/policy_rejected_logps": -196.10498046875,
+      "debug/reference_chosen_logps": -172.7020721435547,
+      "debug/reference_rejected_logps": -194.37750244140625,
+      "epoch": 0.3404255319148936,
+      "grad_norm": 6.500565528945796,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8922485113143921,
+      "logits/rejected": -0.8397103548049927,
+      "logps/chosen": -171.1387176513672,
+      "logps/rejected": -196.10498046875,
+      "loss": 0.4935,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.01563352718949318,
+      "rewards/margins": 0.032908324152231216,
+      "rewards/rejected": -0.017274796962738037,
+      "step": 16
+    },
+    {
+      "debug/policy_chosen_logits": -0.5738427639007568,
+      "debug/policy_chosen_logps": -199.78443908691406,
+      "debug/policy_rejected_logits": -0.7579363584518433,
+      "debug/policy_rejected_logps": -186.72186279296875,
+      "debug/reference_chosen_logps": -198.720458984375,
+      "debug/reference_rejected_logps": -186.148193359375,
+      "epoch": 0.3617021276595745,
+      "grad_norm": 6.391107539842202,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.5738427639007568,
+      "logits/rejected": -0.7579363584518433,
+      "logps/chosen": -199.78443908691406,
+      "logps/rejected": -186.72186279296875,
+      "loss": 0.4969,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.010639895685017109,
+      "rewards/margins": -0.0049033742398023605,
+      "rewards/rejected": -0.005736521910876036,
+      "step": 17
+    },
+    {
+      "debug/policy_chosen_logits": -0.6704298853874207,
+      "debug/policy_chosen_logps": -189.298095703125,
+      "debug/policy_rejected_logits": -0.8089768886566162,
+      "debug/policy_rejected_logps": -157.5814666748047,
+      "debug/reference_chosen_logps": -188.82077026367188,
+      "debug/reference_rejected_logps": -157.17251586914062,
+      "epoch": 0.3829787234042553,
+      "grad_norm": 6.255280365272668,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.6704298853874207,
+      "logits/rejected": -0.8089768886566162,
+      "logps/chosen": -189.298095703125,
+      "logps/rejected": -157.5814666748047,
+      "loss": 0.4995,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.004773206077516079,
+      "rewards/margins": -0.0006837937980890274,
+      "rewards/rejected": -0.0040894122794270515,
+      "step": 18
+    },
+    {
+      "debug/policy_chosen_logits": -0.7190896272659302,
+      "debug/policy_chosen_logps": -192.3218231201172,
+      "debug/policy_rejected_logits": -0.7404218316078186,
+      "debug/policy_rejected_logps": -197.3118896484375,
+      "debug/reference_chosen_logps": -191.5443878173828,
+      "debug/reference_rejected_logps": -194.45379638671875,
+      "epoch": 0.40425531914893614,
+      "grad_norm": 6.623087284607447,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7190896272659302,
+      "logits/rejected": -0.7404218316078186,
+      "logps/chosen": -192.3218231201172,
+      "logps/rejected": -197.3118896484375,
+      "loss": 0.494,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.00777435302734375,
+      "rewards/margins": 0.020806580781936646,
+      "rewards/rejected": -0.028580933809280396,
+      "step": 19
+    },
+    {
+      "debug/policy_chosen_logits": -0.9601216912269592,
+      "debug/policy_chosen_logps": -163.33322143554688,
+      "debug/policy_rejected_logits": -0.9078224301338196,
+      "debug/policy_rejected_logps": -165.64710998535156,
+      "debug/reference_chosen_logps": -162.98707580566406,
+      "debug/reference_rejected_logps": -163.82925415039062,
+      "epoch": 0.425531914893617,
+      "grad_norm": 6.4425625725133555,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9601216912269592,
+      "logits/rejected": -0.9078224301338196,
+      "logps/chosen": -163.33322143554688,
+      "logps/rejected": -165.64710998535156,
+      "loss": 0.4936,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.0034613802563399076,
+      "rewards/margins": 0.014717292971909046,
+      "rewards/rejected": -0.018178671598434448,
+      "step": 20
+    },
+    {
+      "debug/policy_chosen_logits": -0.7237945199012756,
+      "debug/policy_chosen_logps": -172.45687866210938,
+      "debug/policy_rejected_logits": -0.920426070690155,
+      "debug/policy_rejected_logps": -157.43887329101562,
+      "debug/reference_chosen_logps": -171.19932556152344,
+      "debug/reference_rejected_logps": -158.15611267089844,
+      "epoch": 0.44680851063829785,
+      "grad_norm": 6.339140504334335,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7237945199012756,
+      "logits/rejected": -0.920426070690155,
+      "logps/chosen": -172.45687866210938,
+      "logps/rejected": -157.43887329101562,
+      "loss": 0.5013,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.012575510889291763,
+      "rewards/margins": -0.019747886806726456,
+      "rewards/rejected": 0.007172374054789543,
+      "step": 21
+    },
+    {
+      "debug/policy_chosen_logits": -0.5433034896850586,
+      "debug/policy_chosen_logps": -201.61782836914062,
+      "debug/policy_rejected_logits": -0.7539889216423035,
+      "debug/policy_rejected_logps": -197.580322265625,
+      "debug/reference_chosen_logps": -201.07705688476562,
+      "debug/reference_rejected_logps": -197.327880859375,
+      "epoch": 0.46808510638297873,
+      "grad_norm": 6.06193663791783,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.5433034896850586,
+      "logits/rejected": -0.7539889216423035,
+      "logps/chosen": -201.61782836914062,
+      "logps/rejected": -197.580322265625,
+      "loss": 0.4999,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.005407695658504963,
+      "rewards/margins": -0.002883119275793433,
+      "rewards/rejected": -0.002524576149880886,
+      "step": 22
+    },
+    {
+      "debug/policy_chosen_logits": -0.7976532578468323,
+      "debug/policy_chosen_logps": -157.63087463378906,
+      "debug/policy_rejected_logits": -1.0295953750610352,
+      "debug/policy_rejected_logps": -135.0724639892578,
+      "debug/reference_chosen_logps": -158.51002502441406,
+      "debug/reference_rejected_logps": -134.96658325195312,
+      "epoch": 0.48936170212765956,
+      "grad_norm": 6.533766675168247,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7976532578468323,
+      "logits/rejected": -1.0295953750610352,
+      "logps/chosen": -157.63087463378906,
+      "logps/rejected": -135.0724639892578,
+      "loss": 0.4975,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.008791436441242695,
+      "rewards/margins": 0.009850319474935532,
+      "rewards/rejected": -0.001058883499354124,
+      "step": 23
+    },
+    {
+      "debug/policy_chosen_logits": -0.738879382610321,
+      "debug/policy_chosen_logps": -177.37928771972656,
+      "debug/policy_rejected_logits": -0.7938289642333984,
+      "debug/policy_rejected_logps": -177.46755981445312,
+      "debug/reference_chosen_logps": -179.34732055664062,
+      "debug/reference_rejected_logps": -176.83135986328125,
+      "epoch": 0.5106382978723404,
+      "grad_norm": 5.87105022701246,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.738879382610321,
+      "logits/rejected": -0.7938289642333984,
+      "logps/chosen": -177.37928771972656,
+      "logps/rejected": -177.46755981445312,
+      "loss": 0.492,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.01968032866716385,
+      "rewards/margins": 0.026042308658361435,
+      "rewards/rejected": -0.006361980922520161,
+      "step": 24
+    },
+    {
+      "debug/policy_chosen_logits": -0.7241502404212952,
+      "debug/policy_chosen_logps": -170.52017211914062,
+      "debug/policy_rejected_logits": -0.7602882385253906,
+      "debug/policy_rejected_logps": -170.40660095214844,
+      "debug/reference_chosen_logps": -169.72085571289062,
+      "debug/reference_rejected_logps": -168.38609313964844,
+      "epoch": 0.5319148936170213,
+      "grad_norm": 6.266560430846777,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7241502404212952,
+      "logits/rejected": -0.7602882385253906,
+      "logps/chosen": -170.52017211914062,
+      "logps/rejected": -170.40660095214844,
+      "loss": 0.4915,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.007993297651410103,
+      "rewards/margins": 0.012211760506033897,
+      "rewards/rejected": -0.020205058157444,
+      "step": 25
+    },
+    {
+      "debug/policy_chosen_logits": -0.9610673189163208,
+      "debug/policy_chosen_logps": -136.63485717773438,
+      "debug/policy_rejected_logits": -0.8876134753227234,
+      "debug/policy_rejected_logps": -161.75608825683594,
+      "debug/reference_chosen_logps": -137.76214599609375,
+      "debug/reference_rejected_logps": -160.455078125,
+      "epoch": 0.5531914893617021,
+      "grad_norm": 6.516253702222995,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9610673189163208,
+      "logits/rejected": -0.8876134753227234,
+      "logps/chosen": -136.63485717773438,
+      "logps/rejected": -161.75608825683594,
+      "loss": 0.4875,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.011272869072854519,
+      "rewards/margins": 0.024282770231366158,
+      "rewards/rejected": -0.013009900227189064,
+      "step": 26
+    },
+    {
+      "debug/policy_chosen_logits": -0.7550271153450012,
+      "debug/policy_chosen_logps": -171.28823852539062,
+      "debug/policy_rejected_logits": -1.0050970315933228,
+      "debug/policy_rejected_logps": -144.0048370361328,
+      "debug/reference_chosen_logps": -171.15249633789062,
+      "debug/reference_rejected_logps": -143.9324951171875,
+      "epoch": 0.574468085106383,
+      "grad_norm": 6.752594434046414,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7550271153450012,
+      "logits/rejected": -1.0050970315933228,
+      "logps/chosen": -171.28823852539062,
+      "logps/rejected": -144.0048370361328,
+      "loss": 0.4827,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.0013572599273175001,
+      "rewards/margins": -0.000633773859590292,
+      "rewards/rejected": -0.0007234860677272081,
+      "step": 27
+    },
+    {
+      "debug/policy_chosen_logits": -0.6094688773155212,
+      "debug/policy_chosen_logps": -182.88189697265625,
+      "debug/policy_rejected_logits": -0.547568142414093,
+      "debug/policy_rejected_logps": -174.17201232910156,
+      "debug/reference_chosen_logps": -184.39437866210938,
+      "debug/reference_rejected_logps": -174.24937438964844,
+      "epoch": 0.5957446808510638,
+      "grad_norm": 6.7329002768958315,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.6094688773155212,
+      "logits/rejected": -0.547568142414093,
+      "logps/chosen": -182.88189697265625,
+      "logps/rejected": -174.17201232910156,
+      "loss": 0.4843,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.015124987810850143,
+      "rewards/margins": 0.014351272024214268,
+      "rewards/rejected": 0.000773716252297163,
+      "step": 28
+    },
+    {
+      "debug/policy_chosen_logits": -1.0009883642196655,
+      "debug/policy_chosen_logps": -141.870849609375,
+      "debug/policy_rejected_logits": -0.822296679019928,
+      "debug/policy_rejected_logps": -160.79566955566406,
+      "debug/reference_chosen_logps": -143.44473266601562,
+      "debug/reference_rejected_logps": -161.58270263671875,
+      "epoch": 0.6170212765957447,
+      "grad_norm": 6.822157877935097,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.0009883642196655,
+      "logits/rejected": -0.822296679019928,
+      "logps/chosen": -141.870849609375,
+      "logps/rejected": -160.79566955566406,
+      "loss": 0.4965,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.015738725662231445,
+      "rewards/margins": 0.007868318818509579,
+      "rewards/rejected": 0.007870407775044441,
+      "step": 29
+    },
+    {
+      "debug/policy_chosen_logits": -0.7499756813049316,
+      "debug/policy_chosen_logps": -175.52218627929688,
+      "debug/policy_rejected_logits": -0.7294086217880249,
+      "debug/policy_rejected_logps": -176.3539276123047,
+      "debug/reference_chosen_logps": -176.32379150390625,
+      "debug/reference_rejected_logps": -177.22299194335938,
+      "epoch": 0.6382978723404256,
+      "grad_norm": 6.748616605300787,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7499756813049316,
+      "logits/rejected": -0.7294086217880249,
+      "logps/chosen": -175.52218627929688,
+      "logps/rejected": -176.3539276123047,
+      "loss": 0.4931,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.008015966042876244,
+      "rewards/margins": -0.0006747061852365732,
+      "rewards/rejected": 0.008690671995282173,
+      "step": 30
+    },
+    {
+      "debug/policy_chosen_logits": -0.7985236644744873,
+      "debug/policy_chosen_logps": -162.06536865234375,
+      "debug/policy_rejected_logits": -0.7594453692436218,
+      "debug/policy_rejected_logps": -160.13999938964844,
+      "debug/reference_chosen_logps": -163.79864501953125,
+      "debug/reference_rejected_logps": -160.25460815429688,
+      "epoch": 0.6595744680851063,
+      "grad_norm": 6.49623881202892,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7985236644744873,
+      "logits/rejected": -0.7594453692436218,
+      "logps/chosen": -162.06536865234375,
+      "logps/rejected": -160.13999938964844,
+      "loss": 0.4906,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.01733267679810524,
+      "rewards/margins": 0.016186676919460297,
+      "rewards/rejected": 0.0011460019741207361,
+      "step": 31
+    },
+    {
+      "debug/policy_chosen_logits": -0.8090217709541321,
+      "debug/policy_chosen_logps": -158.298828125,
+      "debug/policy_rejected_logits": -0.8534717559814453,
+      "debug/policy_rejected_logps": -141.4454345703125,
+      "debug/reference_chosen_logps": -158.9809112548828,
+      "debug/reference_rejected_logps": -142.3428955078125,
+      "epoch": 0.6808510638297872,
+      "grad_norm": 5.950784192712806,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8090217709541321,
+      "logits/rejected": -0.8534717559814453,
+      "logps/chosen": -158.298828125,
+      "logps/rejected": -141.4454345703125,
+      "loss": 0.4845,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.006820859387516975,
+      "rewards/margins": -0.002153654582798481,
+      "rewards/rejected": 0.008974513970315456,
+      "step": 32
+    },
+    {
+      "debug/policy_chosen_logits": -0.8266898989677429,
+      "debug/policy_chosen_logps": -157.5637664794922,
+      "debug/policy_rejected_logits": -0.8254861831665039,
+      "debug/policy_rejected_logps": -165.0647735595703,
+      "debug/reference_chosen_logps": -157.45263671875,
+      "debug/reference_rejected_logps": -165.04684448242188,
+      "epoch": 0.7021276595744681,
+      "grad_norm": 6.730783083748976,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8266898989677429,
+      "logits/rejected": -0.8254861831665039,
+      "logps/chosen": -157.5637664794922,
+      "logps/rejected": -165.0647735595703,
+      "loss": 0.4916,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.0011113360524177551,
+      "rewards/margins": -0.0009320641402155161,
+      "rewards/rejected": -0.00017927167937159538,
+      "step": 33
+    },
+    {
+      "debug/policy_chosen_logits": -0.9408995509147644,
+      "debug/policy_chosen_logps": -143.58526611328125,
+      "debug/policy_rejected_logits": -0.9038028717041016,
+      "debug/policy_rejected_logps": -161.87374877929688,
+      "debug/reference_chosen_logps": -144.58607482910156,
+      "debug/reference_rejected_logps": -163.10000610351562,
+      "epoch": 0.723404255319149,
+      "grad_norm": 6.594448569198325,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9408995509147644,
+      "logits/rejected": -0.9038028717041016,
+      "logps/chosen": -143.58526611328125,
+      "logps/rejected": -161.87374877929688,
+      "loss": 0.4874,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.010008077137172222,
+      "rewards/margins": -0.002254362218081951,
+      "rewards/rejected": 0.012262439355254173,
+      "step": 34
+    },
+    {
+      "debug/policy_chosen_logits": -0.6247268319129944,
+      "debug/policy_chosen_logps": -191.8319091796875,
+      "debug/policy_rejected_logits": -0.602497935295105,
+      "debug/policy_rejected_logps": -206.44180297851562,
+      "debug/reference_chosen_logps": -192.3876953125,
+      "debug/reference_rejected_logps": -204.05772399902344,
+      "epoch": 0.7446808510638298,
+      "grad_norm": 6.771835020241646,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.6247268319129944,
+      "logits/rejected": -0.602497935295105,
+      "logps/chosen": -191.8319091796875,
+      "logps/rejected": -206.44180297851562,
+      "loss": 0.4889,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.005557993892580271,
+      "rewards/margins": 0.029398726299405098,
+      "rewards/rejected": -0.023840732872486115,
+      "step": 35
+    },
+    {
+      "debug/policy_chosen_logits": -0.7129251956939697,
+      "debug/policy_chosen_logps": -177.34715270996094,
+      "debug/policy_rejected_logits": -0.6988980770111084,
+      "debug/policy_rejected_logps": -186.610595703125,
+      "debug/reference_chosen_logps": -177.86798095703125,
+      "debug/reference_rejected_logps": -184.3507843017578,
+      "epoch": 0.7659574468085106,
+      "grad_norm": 7.0724076064881265,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7129251956939697,
+      "logits/rejected": -0.6988980770111084,
+      "logps/chosen": -177.34715270996094,
+      "logps/rejected": -186.610595703125,
+      "loss": 0.4848,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.0052083395421504974,
+      "rewards/margins": 0.027806565165519714,
+      "rewards/rejected": -0.022598227486014366,
+      "step": 36
+    },
+    {
+      "debug/policy_chosen_logits": -0.7906146049499512,
+      "debug/policy_chosen_logps": -158.28594970703125,
+      "debug/policy_rejected_logits": -0.7429754137992859,
+      "debug/policy_rejected_logps": -170.31695556640625,
+      "debug/reference_chosen_logps": -160.74452209472656,
+      "debug/reference_rejected_logps": -172.1337890625,
+      "epoch": 0.7872340425531915,
+      "grad_norm": 6.839441812464104,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.7906146049499512,
+      "logits/rejected": -0.7429754137992859,
+      "logps/chosen": -158.28594970703125,
+      "logps/rejected": -170.31695556640625,
+      "loss": 0.4821,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.024585731327533722,
+      "rewards/margins": 0.006417407654225826,
+      "rewards/rejected": 0.01816832460463047,
+      "step": 37
+    },
+    {
+      "debug/policy_chosen_logits": -0.9739854335784912,
+      "debug/policy_chosen_logps": -151.2429656982422,
+      "debug/policy_rejected_logits": -0.8670800924301147,
+      "debug/policy_rejected_logps": -158.70822143554688,
+      "debug/reference_chosen_logps": -151.56866455078125,
+      "debug/reference_rejected_logps": -156.908935546875,
+      "epoch": 0.8085106382978723,
+      "grad_norm": 6.484470121315807,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9739854335784912,
+      "logits/rejected": -0.8670800924301147,
+      "logps/chosen": -151.2429656982422,
+      "logps/rejected": -158.70822143554688,
+      "loss": 0.4742,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.0032570073381066322,
+      "rewards/margins": 0.021250000223517418,
+      "rewards/rejected": -0.01799299195408821,
+      "step": 38
+    },
+    {
+      "debug/policy_chosen_logits": -0.6604007482528687,
+      "debug/policy_chosen_logps": -177.76666259765625,
+      "debug/policy_rejected_logits": -0.7032350897789001,
+      "debug/policy_rejected_logps": -207.57077026367188,
+      "debug/reference_chosen_logps": -180.40255737304688,
+      "debug/reference_rejected_logps": -207.9987335205078,
+      "epoch": 0.8297872340425532,
+      "grad_norm": 6.580429098950178,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.6604007482528687,
+      "logits/rejected": -0.7032350897789001,
+      "logps/chosen": -177.76666259765625,
+      "logps/rejected": -207.57077026367188,
+      "loss": 0.4922,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.026359042152762413,
+      "rewards/margins": 0.022079389542341232,
+      "rewards/rejected": 0.004279651213437319,
+      "step": 39
+    },
+    {
+      "debug/policy_chosen_logits": -0.823306143283844,
+      "debug/policy_chosen_logps": -175.26303100585938,
+      "debug/policy_rejected_logits": -0.8142601847648621,
+      "debug/policy_rejected_logps": -168.3768768310547,
+      "debug/reference_chosen_logps": -175.55160522460938,
+      "debug/reference_rejected_logps": -165.81240844726562,
+      "epoch": 0.851063829787234,
+      "grad_norm": 7.047550848745438,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.823306143283844,
+      "logits/rejected": -0.8142601847648621,
+      "logps/chosen": -175.26303100585938,
+      "logps/rejected": -168.3768768310547,
+      "loss": 0.4956,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.002885790541768074,
+      "rewards/margins": 0.028530634939670563,
+      "rewards/rejected": -0.02564484439790249,
+      "step": 40
+    },
+    {
+      "debug/policy_chosen_logits": -0.9761400818824768,
+      "debug/policy_chosen_logps": -137.45208740234375,
+      "debug/policy_rejected_logits": -0.9314041137695312,
+      "debug/policy_rejected_logps": -152.2181396484375,
+      "debug/reference_chosen_logps": -137.8333740234375,
+      "debug/reference_rejected_logps": -152.38201904296875,
+      "epoch": 0.8723404255319149,
+      "grad_norm": 6.868410892362044,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9761400818824768,
+      "logits/rejected": -0.9314041137695312,
+      "logps/chosen": -137.45208740234375,
+      "logps/rejected": -152.2181396484375,
+      "loss": 0.4882,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.003812961047515273,
+      "rewards/margins": 0.002174043096601963,
+      "rewards/rejected": 0.0016389191150665283,
+      "step": 41
+    },
+    {
+      "debug/policy_chosen_logits": -0.9311011433601379,
+      "debug/policy_chosen_logps": -165.78811645507812,
+      "debug/policy_rejected_logits": -0.8658612370491028,
+      "debug/policy_rejected_logps": -168.62680053710938,
+      "debug/reference_chosen_logps": -166.7484130859375,
+      "debug/reference_rejected_logps": -165.18545532226562,
+      "epoch": 0.8936170212765957,
+      "grad_norm": 7.338986391808919,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9311011433601379,
+      "logits/rejected": -0.8658612370491028,
+      "logps/chosen": -165.78811645507812,
+      "logps/rejected": -168.62680053710938,
+      "loss": 0.4771,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.00960303284227848,
+      "rewards/margins": 0.04401634261012077,
+      "rewards/rejected": -0.034413307905197144,
+      "step": 42
+    },
+    {
+      "debug/policy_chosen_logits": -0.9136653542518616,
+      "debug/policy_chosen_logps": -161.53817749023438,
+      "debug/policy_rejected_logits": -0.7834804654121399,
+      "debug/policy_rejected_logps": -149.05377197265625,
+      "debug/reference_chosen_logps": -160.81060791015625,
+      "debug/reference_rejected_logps": -149.98220825195312,
+      "epoch": 0.9148936170212766,
+      "grad_norm": 7.374791139812744,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9136653542518616,
+      "logits/rejected": -0.7834804654121399,
+      "logps/chosen": -161.53817749023438,
+      "logps/rejected": -149.05377197265625,
+      "loss": 0.4919,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.007275791838765144,
+      "rewards/margins": -0.016560165211558342,
+      "rewards/rejected": 0.009284373372793198,
+      "step": 43
+    },
+    {
+      "debug/policy_chosen_logits": -0.8033220171928406,
+      "debug/policy_chosen_logps": -155.9744110107422,
+      "debug/policy_rejected_logits": -0.7281078696250916,
+      "debug/policy_rejected_logps": -163.78639221191406,
+      "debug/reference_chosen_logps": -156.5009765625,
+      "debug/reference_rejected_logps": -162.9461212158203,
+      "epoch": 0.9361702127659575,
+      "grad_norm": 6.903617537962546,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8033220171928406,
+      "logits/rejected": -0.7281078696250916,
+      "logps/chosen": -155.9744110107422,
+      "logps/rejected": -163.78639221191406,
+      "loss": 0.4772,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.005265532061457634,
+      "rewards/margins": 0.013668222352862358,
+      "rewards/rejected": -0.008402691222727299,
+      "step": 44
+    },
+    {
+      "debug/policy_chosen_logits": -0.8795375823974609,
+      "debug/policy_chosen_logps": -165.64361572265625,
+      "debug/policy_rejected_logits": -0.8522282838821411,
+      "debug/policy_rejected_logps": -176.4066162109375,
+      "debug/reference_chosen_logps": -169.339111328125,
+      "debug/reference_rejected_logps": -176.59585571289062,
+      "epoch": 0.9574468085106383,
+      "grad_norm": 6.742059230170566,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8795375823974609,
+      "logits/rejected": -0.8522282838821411,
+      "logps/chosen": -165.64361572265625,
+      "logps/rejected": -176.4066162109375,
+      "loss": 0.4782,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.0369548425078392,
+      "rewards/margins": 0.0350622832775116,
+      "rewards/rejected": 0.0018925576005131006,
+      "step": 45
+    },
+    {
+      "debug/policy_chosen_logits": -0.8723025918006897,
+      "debug/policy_chosen_logps": -157.41818237304688,
+      "debug/policy_rejected_logits": -0.7500877380371094,
+      "debug/policy_rejected_logps": -169.74964904785156,
+      "debug/reference_chosen_logps": -157.27471923828125,
+      "debug/reference_rejected_logps": -167.62408447265625,
+      "epoch": 0.9787234042553191,
+      "grad_norm": 9.147397357489162,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.8723025918006897,
+      "logits/rejected": -0.7500877380371094,
+      "logps/chosen": -157.41818237304688,
+      "logps/rejected": -169.74964904785156,
+      "loss": 0.495,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.0014344798400998116,
+      "rewards/margins": 0.01982107199728489,
+      "rewards/rejected": -0.021255549043416977,
+      "step": 46
+    },
+    {
+      "debug/policy_chosen_logits": -0.9559898376464844,
+      "debug/policy_chosen_logps": -143.5883026123047,
+      "debug/policy_rejected_logits": -1.0301291942596436,
+      "debug/policy_rejected_logps": -131.79568481445312,
+      "debug/reference_chosen_logps": -141.41384887695312,
+      "debug/reference_rejected_logps": -129.98980712890625,
+      "epoch": 1.0,
+      "grad_norm": 6.477500179393295,
+      "learning_rate": 1e-06,
+      "logits/chosen": -0.9559898376464844,
+      "logits/rejected": -1.0301291942596436,
+      "logps/chosen": -143.5883026123047,
+      "logps/rejected": -131.79568481445312,
+      "loss": 0.4484,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.021744633093476295,
+      "rewards/margins": -0.003685922361910343,
+      "rewards/rejected": -0.018058709800243378,
+      "step": 47
+    },
+    {
+      "epoch": 1.0,
+      "step": 47,
+      "total_flos": 0.0,
+      "train_loss": 0.4919274278143619,
+      "train_runtime": 164.7654,
+      "train_samples_per_second": 18.013,
+      "train_steps_per_second": 0.285
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 47,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}