Model save

Browse files

Files changed (6) hide show

README.md +60 -0
all_results.json +8 -0
generation_config.json +6 -0
model.safetensors +1 -1
train_results.json +8 -0
trainer_state.json +2586 -0

README.md ADDED Viewed

	@@ -0,0 +1,60 @@

+---
+license: other
+base_model: stabilityai/stablelm-2-1_6b
+tags:
+- trl
+- orpo
+- generated_from_trainer
+model-index:
+- name: stablelm-2-1_6b-orpo-full-v3
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# stablelm-2-1_6b-orpo-full-v3
+This model is a fine-tuned version of [stabilityai/stablelm-2-1_6b](https://huggingface.co/stabilityai/stablelm-2-1_6b) on the None dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 3
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 48
+- total_eval_batch_size: 24
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+### Framework versions
+- Transformers 4.39.0.dev0
+- Pytorch 2.2.1
+- Datasets 2.18.0
+- Tokenizers 0.15.2

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 1.2897131164005442,
+    "train_runtime": 9812.389,
+    "train_samples": 68479,
+    "train_samples_per_second": 6.979,
+    "train_steps_per_second": 0.145
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 100257,
+  "eos_token_id": 100257,
+  "transformers_version": "4.39.0.dev0"
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b7192de297068fce4d243d305bc541a11bf70232e6074d6a4e5bb1d544a6e11
 size 3289069520

 version https://git-lfs.github.com/spec/v1
+oid sha256:9619a2550887591625f4e84dc1f7e1ea897637b427c1be4a1ea67717ce0b8770
 size 3289069520

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 1.2897131164005442,
+    "train_runtime": 9812.389,
+    "train_samples": 68479,
+    "train_samples_per_second": 6.979,
+    "train_steps_per_second": 0.145
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2586 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1427,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 7.579595964430724,
+      "learning_rate": 3.4965034965034967e-08,
+      "log_odds_chosen": 0.4541015625,
+      "log_odds_ratio": -0.677050769329071,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.015625,
+      "logps/chosen": -1.8671875,
+      "logps/rejected": -2.265625,
+      "loss": 1.5655,
+      "nll_loss": 1.5,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.1865234375,
+      "rewards/margins": 0.0400390625,
+      "rewards/rejected": -0.2265625,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 7.5249840340758425,
+      "learning_rate": 6.993006993006993e-08,
+      "log_odds_chosen": 0.22894287109375,
+      "log_odds_ratio": -0.7715820074081421,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -1.9921875,
+      "logps/rejected": -2.1875,
+      "loss": 1.5773,
+      "nll_loss": 1.4921875,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.19921875,
+      "rewards/margins": 0.01953125,
+      "rewards/rejected": -0.21875,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 5.9119698758492865,
+      "learning_rate": 1.0489510489510489e-07,
+      "log_odds_chosen": 0.28911131620407104,
+      "log_odds_ratio": -0.8036133050918579,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.046875,
+      "logps/chosen": -2.109375,
+      "logps/rejected": -2.34375,
+      "loss": 1.5587,
+      "nll_loss": 1.515625,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.2109375,
+      "rewards/margins": 0.0242919921875,
+      "rewards/rejected": -0.2353515625,
+      "step": 30
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 6.999607089742296,
+      "learning_rate": 1.3986013986013987e-07,
+      "log_odds_chosen": 0.25310057401657104,
+      "log_odds_ratio": -0.762402355670929,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.015625,
+      "logps/chosen": -1.921875,
+      "logps/rejected": -2.125,
+      "loss": 1.5862,
+      "nll_loss": 1.4765625,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.1923828125,
+      "rewards/margins": 0.0208740234375,
+      "rewards/rejected": -0.212890625,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 5.309681737493818,
+      "learning_rate": 1.7482517482517481e-07,
+      "log_odds_chosen": 0.25770264863967896,
+      "log_odds_ratio": -0.697558581829071,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -1.921875,
+      "logps/rejected": -2.140625,
+      "loss": 1.5736,
+      "nll_loss": 1.546875,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.1923828125,
+      "rewards/margins": 0.0218505859375,
+      "rewards/rejected": -0.2138671875,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 5.569709247368732,
+      "learning_rate": 2.0979020979020979e-07,
+      "log_odds_chosen": 0.311614990234375,
+      "log_odds_ratio": -0.695605456829071,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -2.15625,
+      "logps/chosen": -1.96875,
+      "logps/rejected": -2.25,
+      "loss": 1.5668,
+      "nll_loss": 1.484375,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.197265625,
+      "rewards/margins": 0.02734375,
+      "rewards/rejected": -0.224609375,
+      "step": 60
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 5.773237000535201,
+      "learning_rate": 2.4475524475524473e-07,
+      "log_odds_chosen": 0.14488525688648224,
+      "log_odds_ratio": -0.786425769329071,
+      "logits/chosen": -2.171875,
+      "logits/rejected": -2.125,
+      "logps/chosen": -2.0,
+      "logps/rejected": -2.125,
+      "loss": 1.5723,
+      "nll_loss": 1.5234375,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -0.2001953125,
+      "rewards/margins": 0.01287841796875,
+      "rewards/rejected": -0.212890625,
+      "step": 70
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 5.5756538810115925,
+      "learning_rate": 2.7972027972027973e-07,
+      "log_odds_chosen": 0.2967529296875,
+      "log_odds_ratio": -0.7289062738418579,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -2.140625,
+      "logps/chosen": -1.8125,
+      "logps/rejected": -2.046875,
+      "loss": 1.4668,
+      "nll_loss": 1.3515625,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.181640625,
+      "rewards/margins": 0.023681640625,
+      "rewards/rejected": -0.205078125,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 4.2269586617524535,
+      "learning_rate": 3.146853146853147e-07,
+      "log_odds_chosen": 0.2103271484375,
+      "log_odds_ratio": -0.73095703125,
+      "logits/chosen": -2.171875,
+      "logits/rejected": -2.140625,
+      "logps/chosen": -1.8515625,
+      "logps/rejected": -2.03125,
+      "loss": 1.5357,
+      "nll_loss": 1.4921875,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.185546875,
+      "rewards/margins": 0.0186767578125,
+      "rewards/rejected": -0.2041015625,
+      "step": 90
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 7.493002974943704,
+      "learning_rate": 3.4965034965034963e-07,
+      "log_odds_chosen": 0.14136353135108948,
+      "log_odds_ratio": -0.710644543170929,
+      "logits/chosen": -2.171875,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -1.921875,
+      "logps/rejected": -2.03125,
+      "loss": 1.5193,
+      "nll_loss": 1.4375,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.19140625,
+      "rewards/margins": 0.010498046875,
+      "rewards/rejected": -0.2021484375,
+      "step": 100
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 6.173840413359453,
+      "learning_rate": 3.8461538461538463e-07,
+      "log_odds_chosen": 0.18465575575828552,
+      "log_odds_ratio": -0.7144531011581421,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -1.734375,
+      "logps/rejected": -1.890625,
+      "loss": 1.5043,
+      "nll_loss": 1.421875,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.173828125,
+      "rewards/margins": 0.01556396484375,
+      "rewards/rejected": -0.189453125,
+      "step": 110
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 3.9756802927191024,
+      "learning_rate": 4.1958041958041957e-07,
+      "log_odds_chosen": 0.22193603217601776,
+      "log_odds_ratio": -0.7044922113418579,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.359375,
+      "logps/chosen": -1.4921875,
+      "logps/rejected": -1.703125,
+      "loss": 1.4443,
+      "nll_loss": 1.3125,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.1494140625,
+      "rewards/margins": 0.0208740234375,
+      "rewards/rejected": -0.169921875,
+      "step": 120
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 3.49115617326949,
+      "learning_rate": 4.545454545454545e-07,
+      "log_odds_chosen": 0.07476196438074112,
+      "log_odds_ratio": -0.741992175579071,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.359375,
+      "logps/chosen": -1.5703125,
+      "logps/rejected": -1.640625,
+      "loss": 1.4535,
+      "nll_loss": 1.40625,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.1572265625,
+      "rewards/margins": 0.006622314453125,
+      "rewards/rejected": -0.1640625,
+      "step": 130
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 3.2300418693285047,
+      "learning_rate": 4.895104895104895e-07,
+      "log_odds_chosen": 0.23361817002296448,
+      "log_odds_ratio": -0.694628894329071,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.375,
+      "logps/chosen": -1.5,
+      "logps/rejected": -1.703125,
+      "loss": 1.4352,
+      "nll_loss": 1.3828125,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.150390625,
+      "rewards/margins": 0.019775390625,
+      "rewards/rejected": -0.169921875,
+      "step": 140
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 3.733581414979026,
+      "learning_rate": 4.999633338614865e-07,
+      "log_odds_chosen": 0.0267333984375,
+      "log_odds_ratio": -0.739453136920929,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.375,
+      "logps/chosen": -1.5234375,
+      "logps/rejected": -1.546875,
+      "loss": 1.4385,
+      "nll_loss": 1.3671875,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.15234375,
+      "rewards/margins": 0.0021209716796875,
+      "rewards/rejected": -0.154296875,
+      "step": 150
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 4.063546439288504,
+      "learning_rate": 4.997837705025723e-07,
+      "log_odds_chosen": 0.14241942763328552,
+      "log_odds_ratio": -0.7054687738418579,
+      "logits/chosen": -2.203125,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -1.3828125,
+      "logps/rejected": -1.4921875,
+      "loss": 1.3762,
+      "nll_loss": 1.2734375,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.138671875,
+      "rewards/margins": 0.0108642578125,
+      "rewards/rejected": -0.1494140625,
+      "step": 160
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 2.8382728420037524,
+      "learning_rate": 4.994546826814266e-07,
+      "log_odds_chosen": 0.19875487685203552,
+      "log_odds_ratio": -0.658203125,
+      "logits/chosen": -2.375,
+      "logits/rejected": -2.46875,
+      "logps/chosen": -1.3359375,
+      "logps/rejected": -1.484375,
+      "loss": 1.3645,
+      "nll_loss": 1.3046875,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.1337890625,
+      "rewards/margins": 0.0146484375,
+      "rewards/rejected": -0.1484375,
+      "step": 170
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 2.5209932782786,
+      "learning_rate": 4.989762673951533e-07,
+      "log_odds_chosen": 0.16008301079273224,
+      "log_odds_ratio": -0.6830078363418579,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -2.515625,
+      "logps/chosen": -1.2890625,
+      "logps/rejected": -1.40625,
+      "loss": 1.3044,
+      "nll_loss": 1.2265625,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.12890625,
+      "rewards/margins": 0.01129150390625,
+      "rewards/rejected": -0.140625,
+      "step": 180
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 2.7624176664717623,
+      "learning_rate": 4.983488110306074e-07,
+      "log_odds_chosen": 0.08121337741613388,
+      "log_odds_ratio": -0.7232421636581421,
+      "logits/chosen": -2.375,
+      "logits/rejected": -2.4375,
+      "logps/chosen": -1.34375,
+      "logps/rejected": -1.3984375,
+      "loss": 1.3099,
+      "nll_loss": 1.265625,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.1337890625,
+      "rewards/margins": 0.005584716796875,
+      "rewards/rejected": -0.1396484375,
+      "step": 190
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 2.5951453466247916,
+      "learning_rate": 4.975726891929584e-07,
+      "log_odds_chosen": 0.22237548232078552,
+      "log_odds_ratio": -0.66455078125,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -2.46875,
+      "logps/chosen": -1.2421875,
+      "logps/rejected": -1.40625,
+      "loss": 1.3293,
+      "nll_loss": 1.1953125,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.1240234375,
+      "rewards/margins": 0.0169677734375,
+      "rewards/rejected": -0.140625,
+      "step": 200
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 2.745043363887144,
+      "learning_rate": 4.966483664808476e-07,
+      "log_odds_chosen": 0.13164062798023224,
+      "log_odds_ratio": -0.7242187261581421,
+      "logits/chosen": -2.21875,
+      "logits/rejected": -2.21875,
+      "logps/chosen": -1.21875,
+      "logps/rejected": -1.3203125,
+      "loss": 1.3097,
+      "nll_loss": 1.1875,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.12158203125,
+      "rewards/margins": 0.010498046875,
+      "rewards/rejected": -0.1318359375,
+      "step": 210
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 2.544921558378996,
+      "learning_rate": 4.955763962082722e-07,
+      "log_odds_chosen": 0.2619995176792145,
+      "log_odds_ratio": -0.673046886920929,
+      "logits/chosen": -2.4375,
+      "logits/rejected": -2.453125,
+      "logps/chosen": -1.265625,
+      "logps/rejected": -1.46875,
+      "loss": 1.299,
+      "nll_loss": 1.2734375,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.126953125,
+      "rewards/margins": 0.0205078125,
+      "rewards/rejected": -0.1474609375,
+      "step": 220
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 2.7422926363251467,
+      "learning_rate": 4.943574200733625e-07,
+      "log_odds_chosen": 0.197174072265625,
+      "log_odds_ratio": -0.6680663824081421,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.390625,
+      "logps/chosen": -1.234375,
+      "logps/rejected": -1.375,
+      "loss": 1.3089,
+      "nll_loss": 1.234375,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.123046875,
+      "rewards/margins": 0.0142822265625,
+      "rewards/rejected": -0.1376953125,
+      "step": 230
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 2.5904882528928845,
+      "learning_rate": 4.929921677742516e-07,
+      "log_odds_chosen": 0.24537964165210724,
+      "log_odds_ratio": -0.657031238079071,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -2.421875,
+      "logps/chosen": -1.2734375,
+      "logps/rejected": -1.4453125,
+      "loss": 1.3289,
+      "nll_loss": 1.2421875,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.1279296875,
+      "rewards/margins": 0.0167236328125,
+      "rewards/rejected": -0.14453125,
+      "step": 240
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 2.57374464764083,
+      "learning_rate": 4.91481456572267e-07,
+      "log_odds_chosen": 0.1439208984375,
+      "log_odds_ratio": -0.7132812738418579,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -1.21875,
+      "logps/rejected": -1.3203125,
+      "loss": 1.2807,
+      "nll_loss": 1.2109375,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.1220703125,
+      "rewards/margins": 0.01019287109375,
+      "rewards/rejected": -0.1318359375,
+      "step": 250
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 2.5866184628438873,
+      "learning_rate": 4.898261908027049e-07,
+      "log_odds_chosen": 0.20936889946460724,
+      "log_odds_ratio": -0.6578124761581421,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.359375,
+      "logps/chosen": -1.2421875,
+      "logps/rejected": -1.40625,
+      "loss": 1.2753,
+      "nll_loss": 1.21875,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.1240234375,
+      "rewards/margins": 0.01611328125,
+      "rewards/rejected": -0.140625,
+      "step": 260
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 3.7405175636819643,
+      "learning_rate": 4.880273613334809e-07,
+      "log_odds_chosen": 0.22337035834789276,
+      "log_odds_ratio": -0.7001953125,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -2.4375,
+      "logps/chosen": -1.2265625,
+      "logps/rejected": -1.40625,
+      "loss": 1.2719,
+      "nll_loss": 1.203125,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.123046875,
+      "rewards/margins": 0.0179443359375,
+      "rewards/rejected": -0.140625,
+      "step": 270
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.7574742318554923,
+      "learning_rate": 4.86086044971981e-07,
+      "log_odds_chosen": 0.15998534858226776,
+      "log_odds_ratio": -0.677539050579071,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -1.2578125,
+      "logps/rejected": -1.3671875,
+      "loss": 1.3146,
+      "nll_loss": 1.28125,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.1259765625,
+      "rewards/margins": 0.0103759765625,
+      "rewards/rejected": -0.13671875,
+      "step": 280
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.3017737036995194,
+      "learning_rate": 4.840034038204686e-07,
+      "log_odds_chosen": 0.244415283203125,
+      "log_odds_ratio": -0.649121105670929,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -2.4375,
+      "logps/chosen": -1.1171875,
+      "logps/rejected": -1.2734375,
+      "loss": 1.2796,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.111328125,
+      "rewards/margins": 0.0159912109375,
+      "rewards/rejected": -0.1279296875,
+      "step": 290
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 2.4440053287886823,
+      "learning_rate": 4.817806845804308e-07,
+      "log_odds_chosen": 0.03922118991613388,
+      "log_odds_ratio": -0.7237304449081421,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -1.25,
+      "logps/rejected": -1.2734375,
+      "loss": 1.3285,
+      "nll_loss": 1.25,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -0.125,
+      "rewards/margins": 0.002655029296875,
+      "rewards/rejected": -0.1279296875,
+      "step": 300
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 2.404175576750603,
+      "learning_rate": 4.794192178062845e-07,
+      "log_odds_chosen": 0.07508544623851776,
+      "log_odds_ratio": -0.7403320074081421,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.265625,
+      "logps/chosen": -1.2265625,
+      "logps/rejected": -1.2890625,
+      "loss": 1.2926,
+      "nll_loss": 1.2265625,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -0.123046875,
+      "rewards/margins": 0.006195068359375,
+      "rewards/rejected": -0.12890625,
+      "step": 310
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 2.4237084015053982,
+      "learning_rate": 4.769204171088849e-07,
+      "log_odds_chosen": 0.21917724609375,
+      "log_odds_ratio": -0.671875,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -2.4375,
+      "logps/chosen": -1.203125,
+      "logps/rejected": -1.34375,
+      "loss": 1.3217,
+      "nll_loss": 1.2578125,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.1201171875,
+      "rewards/margins": 0.0147705078125,
+      "rewards/rejected": -0.134765625,
+      "step": 320
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 2.684798684422195,
+      "learning_rate": 4.742857783093166e-07,
+      "log_odds_chosen": 0.278564453125,
+      "log_odds_ratio": -0.6395508050918579,
+      "logits/chosen": -2.203125,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -1.140625,
+      "logps/rejected": -1.3359375,
+      "loss": 1.2549,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.11376953125,
+      "rewards/margins": 0.0201416015625,
+      "rewards/rejected": -0.1337890625,
+      "step": 330
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 3.6492535837021225,
+      "learning_rate": 4.7151687854347157e-07,
+      "log_odds_chosen": 0.1578369140625,
+      "log_odds_ratio": -0.69482421875,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.34375,
+      "logps/chosen": -1.1640625,
+      "logps/rejected": -1.2734375,
+      "loss": 1.2529,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.11669921875,
+      "rewards/margins": 0.0106201171875,
+      "rewards/rejected": -0.126953125,
+      "step": 340
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 2.8702543670932075,
+      "learning_rate": 4.6861537531795094e-07,
+      "log_odds_chosen": 0.20824584364891052,
+      "log_odds_ratio": -0.66015625,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.359375,
+      "logps/chosen": -1.21875,
+      "logps/rejected": -1.3828125,
+      "loss": 1.2876,
+      "nll_loss": 1.25,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.1220703125,
+      "rewards/margins": 0.016357421875,
+      "rewards/rejected": -0.138671875,
+      "step": 350
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 2.847118271789134,
+      "learning_rate": 4.655830055178557e-07,
+      "log_odds_chosen": 0.23935547471046448,
+      "log_odds_ratio": -0.6680663824081421,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.3046875,
+      "loss": 1.2766,
+      "nll_loss": 1.171875,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.11328125,
+      "rewards/margins": 0.016845703125,
+      "rewards/rejected": -0.130859375,
+      "step": 360
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 2.510359096280682,
+      "learning_rate": 4.6242158436706015e-07,
+      "log_odds_chosen": 0.16656494140625,
+      "log_odds_ratio": -0.706347644329071,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.359375,
+      "logps/chosen": -1.1875,
+      "logps/rejected": -1.3046875,
+      "loss": 1.2963,
+      "nll_loss": 1.2265625,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.119140625,
+      "rewards/margins": 0.011474609375,
+      "rewards/rejected": -0.130859375,
+      "step": 370
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 2.2404018809724606,
+      "learning_rate": 4.5913300434159087e-07,
+      "log_odds_chosen": 0.2242431640625,
+      "log_odds_ratio": -0.6768554449081421,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.359375,
+      "logps/chosen": -1.21875,
+      "logps/rejected": -1.390625,
+      "loss": 1.293,
+      "nll_loss": 1.21875,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.1220703125,
+      "rewards/margins": 0.016845703125,
+      "rewards/rejected": -0.138671875,
+      "step": 380
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 2.3810451499627434,
+      "learning_rate": 4.5571923403676047e-07,
+      "log_odds_chosen": 0.30363768339157104,
+      "log_odds_ratio": -0.6507812738418579,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -2.265625,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.3359375,
+      "loss": 1.2838,
+      "nll_loss": 1.140625,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.11328125,
+      "rewards/margins": 0.0201416015625,
+      "rewards/rejected": -0.1328125,
+      "step": 390
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 2.671734360059129,
+      "learning_rate": 4.5218231698873627e-07,
+      "log_odds_chosen": 0.0892333984375,
+      "log_odds_ratio": -0.735058605670929,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -1.234375,
+      "logps/rejected": -1.3046875,
+      "loss": 1.3283,
+      "nll_loss": 1.296875,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.12353515625,
+      "rewards/margins": 0.0067138671875,
+      "rewards/rejected": -0.1298828125,
+      "step": 400
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 2.5118185799490043,
+      "learning_rate": 4.4852437045124735e-07,
+      "log_odds_chosen": 0.08201904594898224,
+      "log_odds_ratio": -0.7183593511581421,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -1.21875,
+      "logps/rejected": -1.265625,
+      "loss": 1.2777,
+      "nll_loss": 1.25,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.12158203125,
+      "rewards/margins": 0.0047607421875,
+      "rewards/rejected": -0.1259765625,
+      "step": 410
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 2.5063550386397604,
+      "learning_rate": 4.447475841281635e-07,
+      "log_odds_chosen": 0.2621704041957855,
+      "log_odds_ratio": -0.6456054449081421,
+      "logits/chosen": -2.203125,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -1.1796875,
+      "logps/rejected": -1.3515625,
+      "loss": 1.256,
+      "nll_loss": 1.25,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.11767578125,
+      "rewards/margins": 0.01708984375,
+      "rewards/rejected": -0.134765625,
+      "step": 420
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 2.3631407616001243,
+      "learning_rate": 4.408542188627044e-07,
+      "log_odds_chosen": 0.12116088718175888,
+      "log_odds_ratio": -0.7083984613418579,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -1.1796875,
+      "logps/rejected": -1.265625,
+      "loss": 1.2792,
+      "nll_loss": 1.1953125,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.1181640625,
+      "rewards/margins": 0.00860595703125,
+      "rewards/rejected": -0.126953125,
+      "step": 430
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 2.6616497499686393,
+      "learning_rate": 4.368466052840636e-07,
+      "log_odds_chosen": 0.17690429091453552,
+      "log_odds_ratio": -0.6680663824081421,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -1.171875,
+      "logps/rejected": -1.296875,
+      "loss": 1.2943,
+      "nll_loss": 1.2109375,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.11669921875,
+      "rewards/margins": 0.01300048828125,
+      "rewards/rejected": -0.1298828125,
+      "step": 440
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 2.5349037092042406,
+      "learning_rate": 4.327271424122573e-07,
+      "log_odds_chosen": 0.2679077088832855,
+      "log_odds_ratio": -0.6576172113418579,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.3359375,
+      "loss": 1.2823,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.11328125,
+      "rewards/margins": 0.019775390625,
+      "rewards/rejected": -0.1328125,
+      "step": 450
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 2.485655487242489,
+      "learning_rate": 4.284982962220337e-07,
+      "log_odds_chosen": 0.212890625,
+      "log_odds_ratio": -0.680371105670929,
+      "logits/chosen": -2.15625,
+      "logits/rejected": -2.203125,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.296875,
+      "loss": 1.2641,
+      "nll_loss": 1.171875,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.115234375,
+      "rewards/margins": 0.0140380859375,
+      "rewards/rejected": -0.12890625,
+      "step": 460
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 2.569720946707249,
+      "learning_rate": 4.241625981667023e-07,
+      "log_odds_chosen": 0.20276489853858948,
+      "log_odds_ratio": -0.681933581829071,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -1.1875,
+      "logps/rejected": -1.3125,
+      "loss": 1.2584,
+      "nll_loss": 1.21875,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.11865234375,
+      "rewards/margins": 0.01312255859375,
+      "rewards/rejected": -0.1318359375,
+      "step": 470
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 2.6019962569531323,
+      "learning_rate": 4.19722643662766e-07,
+      "log_odds_chosen": 0.2719970643520355,
+      "log_odds_ratio": -0.64111328125,
+      "logits/chosen": -2.203125,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.328125,
+      "loss": 1.2457,
+      "nll_loss": 1.15625,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.11279296875,
+      "rewards/margins": 0.01953125,
+      "rewards/rejected": -0.1328125,
+      "step": 480
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 2.378793105209263,
+      "learning_rate": 4.151810905362643e-07,
+      "log_odds_chosen": 0.15797118842601776,
+      "log_odds_ratio": -0.710156261920929,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -2.25,
+      "logps/chosen": -1.1484375,
+      "logps/rejected": -1.25,
+      "loss": 1.2691,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.11474609375,
+      "rewards/margins": 0.01019287109375,
+      "rewards/rejected": -0.125,
+      "step": 490
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 2.461627110160161,
+      "learning_rate": 4.105406574317578e-07,
+      "log_odds_chosen": 0.16668701171875,
+      "log_odds_ratio": -0.723925769329071,
+      "logits/chosen": -2.09375,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -1.2265625,
+      "logps/rejected": -1.34375,
+      "loss": 1.2486,
+      "nll_loss": 1.25,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -0.1220703125,
+      "rewards/margins": 0.01226806640625,
+      "rewards/rejected": -0.134765625,
+      "step": 500
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.3991709623693485,
+      "learning_rate": 4.0580412218490424e-07,
+      "log_odds_chosen": 0.3194335997104645,
+      "log_odds_ratio": -0.61669921875,
+      "logits/chosen": -2.15625,
+      "logits/rejected": -2.25,
+      "logps/chosen": -1.125,
+      "logps/rejected": -1.34375,
+      "loss": 1.261,
+      "nll_loss": 1.203125,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.11279296875,
+      "rewards/margins": 0.0218505859375,
+      "rewards/rejected": -0.134765625,
+      "step": 510
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.420136778893825,
+      "learning_rate": 4.009743201596034e-07,
+      "log_odds_chosen": 0.32293701171875,
+      "log_odds_ratio": -0.66357421875,
+      "logits/chosen": -2.203125,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -1.140625,
+      "logps/rejected": -1.3671875,
+      "loss": 1.279,
+      "nll_loss": 1.203125,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.1142578125,
+      "rewards/margins": 0.0223388671875,
+      "rewards/rejected": -0.13671875,
+      "step": 520
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 2.576899517162626,
+      "learning_rate": 3.960541425507039e-07,
+      "log_odds_chosen": 0.18942871689796448,
+      "log_odds_ratio": -0.6888672113418579,
+      "logits/chosen": -2.171875,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -1.171875,
+      "logps/rejected": -1.3203125,
+      "loss": 1.3049,
+      "nll_loss": 1.2265625,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -0.1171875,
+      "rewards/margins": 0.01458740234375,
+      "rewards/rejected": -0.1318359375,
+      "step": 530
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 2.7625972509957144,
+      "learning_rate": 3.9104653465328853e-07,
+      "log_odds_chosen": 0.09678955376148224,
+      "log_odds_ratio": -0.721875011920929,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -1.203125,
+      "logps/rejected": -1.265625,
+      "loss": 1.2931,
+      "nll_loss": 1.234375,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.1201171875,
+      "rewards/margins": 0.006103515625,
+      "rewards/rejected": -0.1259765625,
+      "step": 540
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 2.45849449078066,
+      "learning_rate": 3.8595449409957516e-07,
+      "log_odds_chosen": 0.20249633491039276,
+      "log_odds_ratio": -0.668749988079071,
+      "logits/chosen": -1.9921875,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.1015625,
+      "logps/rejected": -1.2421875,
+      "loss": 1.2424,
+      "nll_loss": 1.125,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.1103515625,
+      "rewards/margins": 0.01397705078125,
+      "rewards/rejected": -0.1240234375,
+      "step": 550
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 2.336077999068494,
+      "learning_rate": 3.807810690644868e-07,
+      "log_odds_chosen": 0.15464477241039276,
+      "log_odds_ratio": -0.6904296875,
+      "logits/chosen": -2.0625,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -1.1875,
+      "logps/rejected": -1.3046875,
+      "loss": 1.2639,
+      "nll_loss": 1.2109375,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.119140625,
+      "rewards/margins": 0.011474609375,
+      "rewards/rejected": -0.1298828125,
+      "step": 560
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.8019381749527845,
+      "learning_rate": 3.75529356440967e-07,
+      "log_odds_chosen": -0.002349853515625,
+      "log_odds_ratio": -0.763867199420929,
+      "logits/chosen": -2.140625,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -1.1875,
+      "logps/rejected": -1.203125,
+      "loss": 1.2792,
+      "nll_loss": 1.21875,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.119140625,
+      "rewards/margins": 0.0014190673828125,
+      "rewards/rejected": -0.12060546875,
+      "step": 570
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 2.904460591649426,
+      "learning_rate": 3.702024999861312e-07,
+      "log_odds_chosen": 0.20991210639476776,
+      "log_odds_ratio": -0.690234363079071,
+      "logits/chosen": -2.140625,
+      "logits/rejected": -2.203125,
+      "logps/chosen": -1.1484375,
+      "logps/rejected": -1.3125,
+      "loss": 1.2689,
+      "nll_loss": 1.21875,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.115234375,
+      "rewards/margins": 0.0157470703125,
+      "rewards/rejected": -0.130859375,
+      "step": 580
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 2.839022537148172,
+      "learning_rate": 3.648036884393646e-07,
+      "log_odds_chosen": 0.11424560844898224,
+      "log_odds_ratio": -0.715136706829071,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -2.234375,
+      "logps/chosen": -1.1953125,
+      "logps/rejected": -1.28125,
+      "loss": 1.2823,
+      "nll_loss": 1.234375,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -0.119140625,
+      "rewards/margins": 0.008544921875,
+      "rewards/rejected": -0.1279296875,
+      "step": 590
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 2.6089925230689737,
+      "learning_rate": 3.593361536134931e-07,
+      "log_odds_chosen": 0.2776428163051605,
+      "log_odds_ratio": -0.6419922113418579,
+      "logits/chosen": -1.9765625,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.0859375,
+      "logps/rejected": -1.2734375,
+      "loss": 1.2798,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.1083984375,
+      "rewards/margins": 0.0189208984375,
+      "rewards/rejected": -0.126953125,
+      "step": 600
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 2.603291469222202,
+      "learning_rate": 3.538031684601698e-07,
+      "log_odds_chosen": 0.06999512016773224,
+      "log_odds_ratio": -0.740429699420929,
+      "logits/chosen": -2.125,
+      "logits/rejected": -2.234375,
+      "logps/chosen": -1.171875,
+      "logps/rejected": -1.234375,
+      "loss": 1.2504,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.1171875,
+      "rewards/margins": 0.006103515625,
+      "rewards/rejected": -0.123046875,
+      "step": 610
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 2.524850145022778,
+      "learning_rate": 3.4820804511063496e-07,
+      "log_odds_chosen": 0.2641845643520355,
+      "log_odds_ratio": -0.642285168170929,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.09375,
+      "logps/chosen": -1.09375,
+      "logps/rejected": -1.25,
+      "loss": 1.2574,
+      "nll_loss": 1.140625,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.10888671875,
+      "rewards/margins": 0.0157470703125,
+      "rewards/rejected": -0.125,
+      "step": 620
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 2.821337451607177,
+      "learning_rate": 3.425541328930226e-07,
+      "log_odds_chosen": 0.26170653104782104,
+      "log_odds_ratio": -0.6304687261581421,
+      "logits/chosen": -2.046875,
+      "logits/rejected": -2.15625,
+      "logps/chosen": -1.125,
+      "logps/rejected": -1.3125,
+      "loss": 1.2199,
+      "nll_loss": 1.15625,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.11279296875,
+      "rewards/margins": 0.0184326171875,
+      "rewards/rejected": -0.130859375,
+      "step": 630
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 2.5621913998689734,
+      "learning_rate": 3.3684481632740025e-07,
+      "log_odds_chosen": 0.131927490234375,
+      "log_odds_ratio": -0.692578136920929,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -2.21875,
+      "logps/chosen": -1.1875,
+      "logps/rejected": -1.2734375,
+      "loss": 1.2889,
+      "nll_loss": 1.2421875,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.119140625,
+      "rewards/margins": 0.0086669921875,
+      "rewards/rejected": -0.1279296875,
+      "step": 640
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 2.556936502980912,
+      "learning_rate": 3.310835130997428e-07,
+      "log_odds_chosen": 0.18841552734375,
+      "log_odds_ratio": -0.67431640625,
+      "logits/chosen": -2.125,
+      "logits/rejected": -2.234375,
+      "logps/chosen": -1.1953125,
+      "logps/rejected": -1.3359375,
+      "loss": 1.3018,
+      "nll_loss": 1.2578125,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.11962890625,
+      "rewards/margins": 0.01348876953125,
+      "rewards/rejected": -0.1337890625,
+      "step": 650
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 2.509648126252326,
+      "learning_rate": 3.2527367201605215e-07,
+      "log_odds_chosen": 0.28242188692092896,
+      "log_odds_ratio": -0.6371093988418579,
+      "logits/chosen": -2.0625,
+      "logits/rejected": -2.15625,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.3359375,
+      "loss": 1.2715,
+      "nll_loss": 1.2109375,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.115234375,
+      "rewards/margins": 0.01806640625,
+      "rewards/rejected": -0.1337890625,
+      "step": 660
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 2.572686228637093,
+      "learning_rate": 3.194187709378479e-07,
+      "log_odds_chosen": 0.10871581733226776,
+      "log_odds_ratio": -0.723828136920929,
+      "logits/chosen": -2.09375,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -1.171875,
+      "logps/rejected": -1.2421875,
+      "loss": 1.2564,
+      "nll_loss": 1.2421875,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.11669921875,
+      "rewards/margins": 0.00714111328125,
+      "rewards/rejected": -0.1240234375,
+      "step": 670
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.48714277601033,
+      "learning_rate": 3.135223147002658e-07,
+      "log_odds_chosen": 0.17313842475414276,
+      "log_odds_ratio": -0.698437511920929,
+      "logits/chosen": -2.15625,
+      "logits/rejected": -2.21875,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.2578125,
+      "loss": 1.2525,
+      "nll_loss": 1.1875,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.11328125,
+      "rewards/margins": 0.012451171875,
+      "rewards/rejected": -0.1259765625,
+      "step": 680
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.5499221997702164,
+      "learning_rate": 3.075878330140079e-07,
+      "log_odds_chosen": 0.22934570908546448,
+      "log_odds_ratio": -0.6927734613418579,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -1.203125,
+      "logps/rejected": -1.3515625,
+      "loss": 1.3172,
+      "nll_loss": 1.25,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.12060546875,
+      "rewards/margins": 0.01470947265625,
+      "rewards/rejected": -0.134765625,
+      "step": 690
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 2.4807391943530206,
+      "learning_rate": 3.0161887835240353e-07,
+      "log_odds_chosen": 0.16926269233226776,
+      "log_odds_ratio": -0.692578136920929,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -2.140625,
+      "logps/chosen": -1.1640625,
+      "logps/rejected": -1.28125,
+      "loss": 1.2796,
+      "nll_loss": 1.21875,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.11669921875,
+      "rewards/margins": 0.0113525390625,
+      "rewards/rejected": -0.1279296875,
+      "step": 700
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 2.789334396425448,
+      "learning_rate": 2.956190238248425e-07,
+      "log_odds_chosen": 0.1761474609375,
+      "log_odds_ratio": -0.71728515625,
+      "logits/chosen": -2.0625,
+      "logits/rejected": -2.125,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.28125,
+      "loss": 1.2759,
+      "nll_loss": 1.265625,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.11572265625,
+      "rewards/margins": 0.0126953125,
+      "rewards/rejected": -0.1279296875,
+      "step": 710
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 2.4358280165677817,
+      "learning_rate": 2.8959186103785694e-07,
+      "log_odds_chosen": 0.3479553163051605,
+      "log_odds_ratio": -0.630664050579071,
+      "logits/chosen": -2.0,
+      "logits/rejected": -2.078125,
+      "logps/chosen": -1.0625,
+      "logps/rejected": -1.3046875,
+      "loss": 1.2165,
+      "nll_loss": 1.125,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.10595703125,
+      "rewards/margins": 0.0245361328125,
+      "rewards/rejected": -0.130859375,
+      "step": 720
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 2.88074218743752,
+      "learning_rate": 2.8354099794512876e-07,
+      "log_odds_chosen": 0.14354248344898224,
+      "log_odds_ratio": -0.6961914300918579,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -2.21875,
+      "logps/chosen": -1.109375,
+      "logps/rejected": -1.1953125,
+      "loss": 1.277,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.111328125,
+      "rewards/margins": 0.00830078125,
+      "rewards/rejected": -0.11962890625,
+      "step": 730
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.511351318161689,
+      "learning_rate": 2.774700566877129e-07,
+      "log_odds_chosen": 0.21488037705421448,
+      "log_odds_ratio": -0.669921875,
+      "logits/chosen": -2.046875,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.140625,
+      "logps/rejected": -1.3046875,
+      "loss": 1.2247,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.1142578125,
+      "rewards/margins": 0.0164794921875,
+      "rewards/rejected": -0.130859375,
+      "step": 740
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 3.010290770764348,
+      "learning_rate": 2.713826714257669e-07,
+      "log_odds_chosen": 0.19861450791358948,
+      "log_odds_ratio": -0.6786133050918579,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.1796875,
+      "logps/rejected": -1.3046875,
+      "loss": 1.236,
+      "nll_loss": 1.2109375,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.11767578125,
+      "rewards/margins": 0.01239013671875,
+      "rewards/rejected": -0.1298828125,
+      "step": 750
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 2.27093551536218,
+      "learning_rate": 2.6528248616308595e-07,
+      "log_odds_chosen": 0.31080931425094604,
+      "log_odds_ratio": -0.6333984136581421,
+      "logits/chosen": -2.0625,
+      "logits/rejected": -2.140625,
+      "logps/chosen": -1.1484375,
+      "logps/rejected": -1.3671875,
+      "loss": 1.2256,
+      "nll_loss": 1.1953125,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.115234375,
+      "rewards/margins": 0.0216064453125,
+      "rewards/rejected": -0.13671875,
+      "step": 760
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 2.5700766425464,
+      "learning_rate": 2.591731525657454e-07,
+      "log_odds_chosen": 0.2696166932582855,
+      "log_odds_ratio": -0.6527343988418579,
+      "logits/chosen": -2.046875,
+      "logits/rejected": -2.140625,
+      "logps/chosen": -1.1171875,
+      "logps/rejected": -1.296875,
+      "loss": 1.2227,
+      "nll_loss": 1.1484375,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.11181640625,
+      "rewards/margins": 0.0177001953125,
+      "rewards/rejected": -0.1298828125,
+      "step": 770
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 3.3277253612496933,
+      "learning_rate": 2.5305832777615644e-07,
+      "log_odds_chosen": 0.19566650688648224,
+      "log_odds_ratio": -0.688183605670929,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -1.1640625,
+      "logps/rejected": -1.296875,
+      "loss": 1.2602,
+      "nll_loss": 1.25,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.1162109375,
+      "rewards/margins": 0.01287841796875,
+      "rewards/rejected": -0.12890625,
+      "step": 780
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 2.847511378794556,
+      "learning_rate": 2.469416722238436e-07,
+      "log_odds_chosen": 0.1658935546875,
+      "log_odds_ratio": -0.706738293170929,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -2.203125,
+      "logps/chosen": -1.1875,
+      "logps/rejected": -1.296875,
+      "loss": 1.2591,
+      "nll_loss": 1.21875,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.119140625,
+      "rewards/margins": 0.01080322265625,
+      "rewards/rejected": -0.1298828125,
+      "step": 790
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 2.6549295176096672,
+      "learning_rate": 2.4082684743425454e-07,
+      "log_odds_chosen": 0.08632812649011612,
+      "log_odds_ratio": -0.722851574420929,
+      "logits/chosen": -2.0625,
+      "logits/rejected": -2.15625,
+      "logps/chosen": -1.140625,
+      "logps/rejected": -1.203125,
+      "loss": 1.2585,
+      "nll_loss": 1.1875,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.11376953125,
+      "rewards/margins": 0.0067138671875,
+      "rewards/rejected": -0.12060546875,
+      "step": 800
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 2.743059460411326,
+      "learning_rate": 2.3471751383691403e-07,
+      "log_odds_chosen": 0.22829589247703552,
+      "log_odds_ratio": -0.6942383050918579,
+      "logits/chosen": -2.046875,
+      "logits/rejected": -2.125,
+      "logps/chosen": -1.140625,
+      "logps/rejected": -1.2890625,
+      "loss": 1.2288,
+      "nll_loss": 1.1875,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.1142578125,
+      "rewards/margins": 0.014892578125,
+      "rewards/rejected": -0.12890625,
+      "step": 810
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 2.5772075525222253,
+      "learning_rate": 2.2861732857423306e-07,
+      "log_odds_chosen": 0.27777099609375,
+      "log_odds_ratio": -0.6568359136581421,
+      "logits/chosen": -1.9609375,
+      "logits/rejected": -2.015625,
+      "logps/chosen": -1.0859375,
+      "logps/rejected": -1.28125,
+      "loss": 1.2301,
+      "nll_loss": 1.140625,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.1083984375,
+      "rewards/margins": 0.02001953125,
+      "rewards/rejected": -0.12890625,
+      "step": 820
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 2.9548400351876465,
+      "learning_rate": 2.225299433122871e-07,
+      "log_odds_chosen": 0.19624023139476776,
+      "log_odds_ratio": -0.6937500238418579,
+      "logits/chosen": -2.046875,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.21875,
+      "logps/rejected": -1.3828125,
+      "loss": 1.2425,
+      "nll_loss": 1.21875,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.1220703125,
+      "rewards/margins": 0.015869140625,
+      "rewards/rejected": -0.1376953125,
+      "step": 830
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 3.0054061279771362,
+      "learning_rate": 2.1645900205487122e-07,
+      "log_odds_chosen": 0.21121826767921448,
+      "log_odds_ratio": -0.654492199420929,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -1.09375,
+      "logps/rejected": -1.234375,
+      "loss": 1.2646,
+      "nll_loss": 1.140625,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.10888671875,
+      "rewards/margins": 0.014892578125,
+      "rewards/rejected": -0.12353515625,
+      "step": 840
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 2.6164133362622484,
+      "learning_rate": 2.1040813896214307e-07,
+      "log_odds_chosen": 0.150909423828125,
+      "log_odds_ratio": -0.6998046636581421,
+      "logits/chosen": -2.0,
+      "logits/rejected": -2.078125,
+      "logps/chosen": -1.1171875,
+      "logps/rejected": -1.234375,
+      "loss": 1.263,
+      "nll_loss": 1.15625,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.11181640625,
+      "rewards/margins": 0.0118408203125,
+      "rewards/rejected": -0.12353515625,
+      "step": 850
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 2.507875262223547,
+      "learning_rate": 2.0438097617515741e-07,
+      "log_odds_chosen": 0.241455078125,
+      "log_odds_ratio": -0.6556640863418579,
+      "logits/chosen": -1.890625,
+      "logits/rejected": -2.015625,
+      "logps/chosen": -1.0859375,
+      "logps/rejected": -1.2265625,
+      "loss": 1.2638,
+      "nll_loss": 1.1484375,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.10888671875,
+      "rewards/margins": 0.01409912109375,
+      "rewards/rejected": -0.123046875,
+      "step": 860
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 2.507656226813357,
+      "learning_rate": 1.9838112164759652e-07,
+      "log_odds_chosen": 0.12969970703125,
+      "log_odds_ratio": -0.7134765386581421,
+      "logits/chosen": -2.046875,
+      "logits/rejected": -2.15625,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.234375,
+      "loss": 1.2807,
+      "nll_loss": 1.15625,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.11279296875,
+      "rewards/margins": 0.0103759765625,
+      "rewards/rejected": -0.12353515625,
+      "step": 870
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 2.4386366953549508,
+      "learning_rate": 1.9241216698599202e-07,
+      "log_odds_chosen": 0.16312256455421448,
+      "log_odds_ratio": -0.6949218511581421,
+      "logits/chosen": -2.125,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -1.171875,
+      "logps/rejected": -1.2890625,
+      "loss": 1.2391,
+      "nll_loss": 1.234375,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.11669921875,
+      "rewards/margins": 0.01214599609375,
+      "rewards/rejected": -0.12890625,
+      "step": 880
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 2.4804086256409157,
+      "learning_rate": 1.8647768529973423e-07,
+      "log_odds_chosen": 0.17501220107078552,
+      "log_odds_ratio": -0.6958984136581421,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.0625,
+      "logps/rejected": -1.203125,
+      "loss": 1.227,
+      "nll_loss": 1.125,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.1064453125,
+      "rewards/margins": 0.0135498046875,
+      "rewards/rejected": -0.1201171875,
+      "step": 890
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 2.4623419233165986,
+      "learning_rate": 1.80581229062152e-07,
+      "log_odds_chosen": 0.17165526747703552,
+      "log_odds_ratio": -0.6900390386581421,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.078125,
+      "logps/chosen": -1.1640625,
+      "logps/rejected": -1.2734375,
+      "loss": 1.2806,
+      "nll_loss": 1.234375,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.1162109375,
+      "rewards/margins": 0.0111083984375,
+      "rewards/rejected": -0.126953125,
+      "step": 900
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 2.797106319585485,
+      "learning_rate": 1.7472632798394788e-07,
+      "log_odds_chosen": 0.102783203125,
+      "log_odds_ratio": -0.738574206829071,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.125,
+      "logps/chosen": -1.125,
+      "logps/rejected": -1.1796875,
+      "loss": 1.2623,
+      "nll_loss": 1.203125,
+      "rewards/accuracies": 0.48124998807907104,
+      "rewards/chosen": -0.1123046875,
+      "rewards/margins": 0.0057373046875,
+      "rewards/rejected": -0.1181640625,
+      "step": 910
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 2.502768284944301,
+      "learning_rate": 1.6891648690025718e-07,
+      "log_odds_chosen": 0.20386962592601776,
+      "log_odds_ratio": -0.687695324420929,
+      "logits/chosen": -2.046875,
+      "logits/rejected": -2.09375,
+      "logps/chosen": -1.09375,
+      "logps/rejected": -1.2421875,
+      "loss": 1.2348,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.109375,
+      "rewards/margins": 0.01507568359375,
+      "rewards/rejected": -0.12451171875,
+      "step": 920
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 2.656181511294093,
+      "learning_rate": 1.6315518367259978e-07,
+      "log_odds_chosen": 0.27000731229782104,
+      "log_odds_ratio": -0.647265613079071,
+      "logits/chosen": -1.9765625,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -1.1015625,
+      "logps/rejected": -1.2890625,
+      "loss": 1.2463,
+      "nll_loss": 1.140625,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.1103515625,
+      "rewards/margins": 0.0185546875,
+      "rewards/rejected": -0.12890625,
+      "step": 930
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 3.0809025740755227,
+      "learning_rate": 1.574458671069774e-07,
+      "log_odds_chosen": 0.10646972805261612,
+      "log_odds_ratio": -0.731249988079071,
+      "logits/chosen": -1.9609375,
+      "logits/rejected": -2.09375,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.2109375,
+      "loss": 1.243,
+      "nll_loss": 1.171875,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": -0.11279296875,
+      "rewards/margins": 0.0078125,
+      "rewards/rejected": -0.12060546875,
+      "step": 940
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 2.5307625663876787,
+      "learning_rate": 1.5179195488936504e-07,
+      "log_odds_chosen": 0.22603759169578552,
+      "log_odds_ratio": -0.6683593988418579,
+      "logits/chosen": -2.046875,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.109375,
+      "logps/rejected": -1.265625,
+      "loss": 1.224,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.1103515625,
+      "rewards/margins": 0.0162353515625,
+      "rewards/rejected": -0.126953125,
+      "step": 950
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 2.587513457015136,
+      "learning_rate": 1.4619683153983016e-07,
+      "log_odds_chosen": 0.15230712294578552,
+      "log_odds_ratio": -0.70263671875,
+      "logits/chosen": -2.0625,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -1.1484375,
+      "logps/rejected": -1.2421875,
+      "loss": 1.2417,
+      "nll_loss": 1.1953125,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.11474609375,
+      "rewards/margins": 0.00909423828125,
+      "rewards/rejected": -0.1240234375,
+      "step": 960
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 2.468276881587768,
+      "learning_rate": 1.4066384638650687e-07,
+      "log_odds_chosen": 0.26385498046875,
+      "log_odds_ratio": -0.650195300579071,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.046875,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.3359375,
+      "loss": 1.2174,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.11572265625,
+      "rewards/margins": 0.0177001953125,
+      "rewards/rejected": -0.1337890625,
+      "step": 970
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 2.5705148701270537,
+      "learning_rate": 1.351963115606354e-07,
+      "log_odds_chosen": 0.18297119438648224,
+      "log_odds_ratio": -0.689746081829071,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -1.109375,
+      "logps/rejected": -1.2265625,
+      "loss": 1.2253,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.11083984375,
+      "rewards/margins": 0.011962890625,
+      "rewards/rejected": -0.123046875,
+      "step": 980
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 2.5100478432366558,
+      "learning_rate": 1.297975000138688e-07,
+      "log_odds_chosen": 0.10567627102136612,
+      "log_odds_ratio": -0.7080078125,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.234375,
+      "loss": 1.257,
+      "nll_loss": 1.2109375,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.11572265625,
+      "rewards/margins": 0.00787353515625,
+      "rewards/rejected": -0.12353515625,
+      "step": 990
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 2.6847113433850924,
+      "learning_rate": 1.24470643559033e-07,
+      "log_odds_chosen": 0.27998048067092896,
+      "log_odds_ratio": -0.650585949420929,
+      "logits/chosen": -2.0,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.125,
+      "logps/rejected": -1.3125,
+      "loss": 1.2519,
+      "nll_loss": 1.1875,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.11279296875,
+      "rewards/margins": 0.018798828125,
+      "rewards/rejected": -0.1318359375,
+      "step": 1000
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 2.695150048132808,
+      "learning_rate": 1.1921893093551323e-07,
+      "log_odds_chosen": 0.21813353896141052,
+      "log_odds_ratio": -0.673144519329071,
+      "logits/chosen": -1.9921875,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -1.1171875,
+      "logps/rejected": -1.265625,
+      "loss": 1.2468,
+      "nll_loss": 1.1171875,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.11181640625,
+      "rewards/margins": 0.0147705078125,
+      "rewards/rejected": -0.1259765625,
+      "step": 1010
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 2.575139032183112,
+      "learning_rate": 1.140455059004248e-07,
+      "log_odds_chosen": 0.33759766817092896,
+      "log_odds_ratio": -0.63525390625,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -2.203125,
+      "logps/chosen": -1.1171875,
+      "logps/rejected": -1.359375,
+      "loss": 1.2473,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.11181640625,
+      "rewards/margins": 0.0244140625,
+      "rewards/rejected": -0.13671875,
+      "step": 1020
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 2.3412172556068858,
+      "learning_rate": 1.0895346534671146e-07,
+      "log_odds_chosen": 0.28547364473342896,
+      "log_odds_ratio": -0.6714843511581421,
+      "logits/chosen": -2.0625,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -1.109375,
+      "logps/rejected": -1.296875,
+      "loss": 1.223,
+      "nll_loss": 1.1484375,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.111328125,
+      "rewards/margins": 0.018798828125,
+      "rewards/rejected": -0.1298828125,
+      "step": 1030
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 2.440451621766773,
+      "learning_rate": 1.0394585744929605e-07,
+      "log_odds_chosen": 0.09172363579273224,
+      "log_odds_ratio": -0.706250011920929,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.078125,
+      "logps/chosen": -1.1796875,
+      "logps/rejected": -1.25,
+      "loss": 1.2244,
+      "nll_loss": 1.203125,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.1181640625,
+      "rewards/margins": 0.0067138671875,
+      "rewards/rejected": -0.125,
+      "step": 1040
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 2.7872635135771486,
+      "learning_rate": 9.902567984039659e-08,
+      "log_odds_chosen": 0.10517577826976776,
+      "log_odds_ratio": -0.718554675579071,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.1796875,
+      "logps/rejected": -1.25,
+      "loss": 1.2433,
+      "nll_loss": 1.234375,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.1181640625,
+      "rewards/margins": 0.0067138671875,
+      "rewards/rejected": -0.125,
+      "step": 1050
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 2.6062059656472667,
+      "learning_rate": 9.419587781509572e-08,
+      "log_odds_chosen": 0.21335449814796448,
+      "log_odds_ratio": -0.6875,
+      "logits/chosen": -1.9296875,
+      "logits/rejected": -2.046875,
+      "logps/chosen": -1.0859375,
+      "logps/rejected": -1.2421875,
+      "loss": 1.2339,
+      "nll_loss": 1.109375,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.1083984375,
+      "rewards/margins": 0.016357421875,
+      "rewards/rejected": -0.12451171875,
+      "step": 1060
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.387458644437053,
+      "learning_rate": 8.945934256824217e-08,
+      "log_odds_chosen": 0.19075927138328552,
+      "log_odds_ratio": -0.67236328125,
+      "logits/chosen": -2.0,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -1.125,
+      "logps/rejected": -1.2578125,
+      "loss": 1.2428,
+      "nll_loss": 1.171875,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.1123046875,
+      "rewards/margins": 0.0137939453125,
+      "rewards/rejected": -0.1259765625,
+      "step": 1070
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 2.7020254464929536,
+      "learning_rate": 8.481890946373562e-08,
+      "log_odds_chosen": 0.16676025092601776,
+      "log_odds_ratio": -0.6944335699081421,
+      "logits/chosen": -1.9921875,
+      "logits/rejected": -2.09375,
+      "logps/chosen": -1.1484375,
+      "logps/rejected": -1.265625,
+      "loss": 1.2652,
+      "nll_loss": 1.1953125,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.115234375,
+      "rewards/margins": 0.01165771484375,
+      "rewards/rejected": -0.126953125,
+      "step": 1080
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 2.5506342978080365,
+      "learning_rate": 8.027735633723401e-08,
+      "log_odds_chosen": 0.19404907524585724,
+      "log_odds_ratio": -0.678906261920929,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.2890625,
+      "loss": 1.2371,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.11572265625,
+      "rewards/margins": 0.01336669921875,
+      "rewards/rejected": -0.12890625,
+      "step": 1090
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 2.9131209890812215,
+      "learning_rate": 7.583740183329768e-08,
+      "log_odds_chosen": 0.25482177734375,
+      "log_odds_ratio": -0.654589831829071,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.3125,
+      "loss": 1.2099,
+      "nll_loss": 1.2109375,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.11376953125,
+      "rewards/margins": 0.017578125,
+      "rewards/rejected": -0.130859375,
+      "step": 1100
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 2.4151795293745417,
+      "learning_rate": 7.150170377796627e-08,
+      "log_odds_chosen": 0.09471435844898224,
+      "log_odds_ratio": -0.719921886920929,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.125,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.2109375,
+      "loss": 1.2681,
+      "nll_loss": 1.1875,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.11572265625,
+      "rewards/margins": 0.0057373046875,
+      "rewards/rejected": -0.12109375,
+      "step": 1110
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 2.9894142206703074,
+      "learning_rate": 6.727285758774276e-08,
+      "log_odds_chosen": 0.20228271186351776,
+      "log_odds_ratio": -0.686718761920929,
+      "logits/chosen": -1.9296875,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -1.078125,
+      "logps/rejected": -1.2265625,
+      "loss": 1.2048,
+      "nll_loss": 1.1171875,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.107421875,
+      "rewards/margins": 0.01513671875,
+      "rewards/rejected": -0.12255859375,
+      "step": 1120
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 2.292724337045773,
+      "learning_rate": 6.315339471593645e-08,
+      "log_odds_chosen": 0.2957824766635895,
+      "log_odds_ratio": -0.6419922113418579,
+      "logits/chosen": -1.9921875,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -1.125,
+      "logps/rejected": -1.328125,
+      "loss": 1.2562,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.11279296875,
+      "rewards/margins": 0.0201416015625,
+      "rewards/rejected": -0.1328125,
+      "step": 1130
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.4858379206596783,
+      "learning_rate": 5.9145781137295596e-08,
+      "log_odds_chosen": 0.11273193359375,
+      "log_odds_ratio": -0.712109386920929,
+      "logits/chosen": -1.9765625,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.1640625,
+      "logps/rejected": -1.25,
+      "loss": 1.2469,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.11669921875,
+      "rewards/margins": 0.00823974609375,
+      "rewards/rejected": -0.125,
+      "step": 1140
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 2.9554773310288303,
+      "learning_rate": 5.5252415871836514e-08,
+      "log_odds_chosen": 0.19149169325828552,
+      "log_odds_ratio": -0.6700195074081421,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -2.125,
+      "logps/chosen": -1.140625,
+      "logps/rejected": -1.265625,
+      "loss": 1.2691,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.11376953125,
+      "rewards/margins": 0.01287841796875,
+      "rewards/rejected": -0.126953125,
+      "step": 1150
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 2.455900615151912,
+      "learning_rate": 5.147562954875267e-08,
+      "log_odds_chosen": 0.25535887479782104,
+      "log_odds_ratio": -0.662304699420929,
+      "logits/chosen": -1.9765625,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -1.0625,
+      "logps/rejected": -1.2265625,
+      "loss": 1.2103,
+      "nll_loss": 1.078125,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.1064453125,
+      "rewards/margins": 0.01611328125,
+      "rewards/rejected": -0.12255859375,
+      "step": 1160
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 2.6012002451079055,
+      "learning_rate": 4.781768301126374e-08,
+      "log_odds_chosen": 0.10560913383960724,
+      "log_odds_ratio": -0.7105468511581421,
+      "logits/chosen": -2.0625,
+      "logits/rejected": -2.09375,
+      "logps/chosen": -1.171875,
+      "logps/rejected": -1.2578125,
+      "loss": 1.2439,
+      "nll_loss": 1.1875,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.11767578125,
+      "rewards/margins": 0.00823974609375,
+      "rewards/rejected": -0.1259765625,
+      "step": 1170
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 2.2529151127172526,
+      "learning_rate": 4.428076596323954e-08,
+      "log_odds_chosen": 0.21270751953125,
+      "log_odds_ratio": -0.6869140863418579,
+      "logits/chosen": -1.953125,
+      "logits/rejected": -2.078125,
+      "logps/chosen": -1.125,
+      "logps/rejected": -1.28125,
+      "loss": 1.2745,
+      "nll_loss": 1.2265625,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.11279296875,
+      "rewards/margins": 0.01513671875,
+      "rewards/rejected": -0.1279296875,
+      "step": 1180
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 2.4154203157415512,
+      "learning_rate": 4.0866995658409145e-08,
+      "log_odds_chosen": 0.25830078125,
+      "log_odds_ratio": -0.65966796875,
+      "logits/chosen": -1.9921875,
+      "logits/rejected": -2.125,
+      "logps/chosen": -1.09375,
+      "logps/rejected": -1.265625,
+      "loss": 1.2827,
+      "nll_loss": 1.1484375,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.109375,
+      "rewards/margins": 0.0174560546875,
+      "rewards/rejected": -0.126953125,
+      "step": 1190
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 2.447937914506964,
+      "learning_rate": 3.757841563293987e-08,
+      "log_odds_chosen": 0.24925537407398224,
+      "log_odds_ratio": -0.6611328125,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.09375,
+      "logps/chosen": -1.125,
+      "logps/rejected": -1.296875,
+      "loss": 1.2345,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.1123046875,
+      "rewards/margins": 0.0167236328125,
+      "rewards/rejected": -0.12890625,
+      "step": 1200
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 2.5349608625933375,
+      "learning_rate": 3.441699448214433e-08,
+      "log_odds_chosen": 0.20963135361671448,
+      "log_odds_ratio": -0.689257800579071,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -1.140625,
+      "logps/rejected": -1.28125,
+      "loss": 1.2633,
+      "nll_loss": 1.1875,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.11376953125,
+      "rewards/margins": 0.01409912109375,
+      "rewards/rejected": -0.1279296875,
+      "step": 1210
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 2.6135424725635987,
+      "learning_rate": 3.138462468204914e-08,
+      "log_odds_chosen": 0.25098878145217896,
+      "log_odds_ratio": -0.660449206829071,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.03125,
+      "logps/chosen": -1.078125,
+      "logps/rejected": -1.25,
+      "loss": 1.2263,
+      "nll_loss": 1.15625,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.10791015625,
+      "rewards/margins": 0.01708984375,
+      "rewards/rejected": -0.125,
+      "step": 1220
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 2.450199821395702,
+      "learning_rate": 2.8483121456528454e-08,
+      "log_odds_chosen": 0.24144287407398224,
+      "log_odds_ratio": -0.661816418170929,
+      "logits/chosen": -2.046875,
+      "logits/rejected": -2.125,
+      "logps/chosen": -1.171875,
+      "logps/rejected": -1.34375,
+      "loss": 1.2541,
+      "nll_loss": 1.2421875,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.1171875,
+      "rewards/margins": 0.016845703125,
+      "rewards/rejected": -0.1337890625,
+      "step": 1230
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 2.4363743869256904,
+      "learning_rate": 2.5714221690683462e-08,
+      "log_odds_chosen": 0.122314453125,
+      "log_odds_ratio": -0.7119140625,
+      "logits/chosen": -1.9609375,
+      "logits/rejected": -2.046875,
+      "logps/chosen": -1.1484375,
+      "logps/rejected": -1.2265625,
+      "loss": 1.3106,
+      "nll_loss": 1.1953125,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.115234375,
+      "rewards/margins": 0.0079345703125,
+      "rewards/rejected": -0.123046875,
+      "step": 1240
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 2.5756303193348327,
+      "learning_rate": 2.307958289111514e-08,
+      "log_odds_chosen": 0.19765624403953552,
+      "log_odds_ratio": -0.6796875,
+      "logits/chosen": -2.0,
+      "logits/rejected": -2.03125,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.296875,
+      "loss": 1.2333,
+      "nll_loss": 1.1875,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.11572265625,
+      "rewards/margins": 0.01397705078125,
+      "rewards/rejected": -0.1298828125,
+      "step": 1250
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 2.553964198420633,
+      "learning_rate": 2.0580782193715506e-08,
+      "log_odds_chosen": 0.15519408881664276,
+      "log_odds_ratio": -0.704882800579071,
+      "logits/chosen": -1.9296875,
+      "logits/rejected": -2.0,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.2578125,
+      "loss": 1.2388,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.11572265625,
+      "rewards/margins": 0.01031494140625,
+      "rewards/rejected": -0.1259765625,
+      "step": 1260
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 2.469702033641708,
+      "learning_rate": 1.821931541956914e-08,
+      "log_odds_chosen": 0.4207519590854645,
+      "log_odds_ratio": -0.582226574420929,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.125,
+      "logps/chosen": -1.09375,
+      "logps/rejected": -1.359375,
+      "loss": 1.2354,
+      "nll_loss": 1.1484375,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.109375,
+      "rewards/margins": 0.027099609375,
+      "rewards/rejected": -0.1357421875,
+      "step": 1270
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 2.4889196799977786,
+      "learning_rate": 1.5996596179531364e-08,
+      "log_odds_chosen": 0.12117920070886612,
+      "log_odds_ratio": -0.710644543170929,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.046875,
+      "logps/chosen": -1.1484375,
+      "logps/rejected": -1.234375,
+      "loss": 1.2454,
+      "nll_loss": 1.21875,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.115234375,
+      "rewards/margins": 0.0084228515625,
+      "rewards/rejected": -0.12353515625,
+      "step": 1280
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 2.6921341795857088,
+      "learning_rate": 1.3913955028018925e-08,
+      "log_odds_chosen": 0.0946044921875,
+      "log_odds_ratio": -0.734375,
+      "logits/chosen": -1.9921875,
+      "logits/rejected": -2.046875,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.21875,
+      "loss": 1.2338,
+      "nll_loss": 1.203125,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.115234375,
+      "rewards/margins": 0.00634765625,
+      "rewards/rejected": -0.12158203125,
+      "step": 1290
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 2.9234303938288444,
+      "learning_rate": 1.1972638666519153e-08,
+      "log_odds_chosen": 0.30915528535842896,
+      "log_odds_ratio": -0.6298828125,
+      "logits/chosen": -1.9453125,
+      "logits/rejected": -2.046875,
+      "logps/chosen": -1.09375,
+      "logps/rejected": -1.328125,
+      "loss": 1.2258,
+      "nll_loss": 1.140625,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.109375,
+      "rewards/margins": 0.0230712890625,
+      "rewards/rejected": -0.1328125,
+      "step": 1300
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 2.488742998417297,
+      "learning_rate": 1.0173809197295074e-08,
+      "log_odds_chosen": 0.1483154296875,
+      "log_odds_ratio": -0.6932617425918579,
+      "logits/chosen": -2.015625,
+      "logits/rejected": -2.078125,
+      "logps/chosen": -1.171875,
+      "logps/rejected": -1.28125,
+      "loss": 1.2868,
+      "nll_loss": 1.234375,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.11767578125,
+      "rewards/margins": 0.01080322265625,
+      "rewards/rejected": -0.12890625,
+      "step": 1310
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 2.930123126278221,
+      "learning_rate": 8.518543427732949e-09,
+      "log_odds_chosen": 0.2968383729457855,
+      "log_odds_ratio": -0.6597656011581421,
+      "logits/chosen": -1.9609375,
+      "logits/rejected": -2.0,
+      "logps/chosen": -1.1015625,
+      "logps/rejected": -1.3359375,
+      "loss": 1.2515,
+      "nll_loss": 1.1484375,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.1103515625,
+      "rewards/margins": 0.0230712890625,
+      "rewards/rejected": -0.1337890625,
+      "step": 1320
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 2.4910759658116306,
+      "learning_rate": 7.007832225748356e-09,
+      "log_odds_chosen": 0.3276123106479645,
+      "log_odds_ratio": -0.623339831829071,
+      "logits/chosen": -1.8359375,
+      "logits/rejected": -1.953125,
+      "logps/chosen": -1.03125,
+      "logps/rejected": -1.25,
+      "loss": 1.2122,
+      "nll_loss": 1.1015625,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.1025390625,
+      "rewards/margins": 0.0220947265625,
+      "rewards/rejected": -0.125,
+      "step": 1330
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 2.6952772741810462,
+      "learning_rate": 5.642579926637553e-09,
+      "log_odds_chosen": 0.102996826171875,
+      "log_odds_ratio": -0.718554675579071,
+      "logits/chosen": -1.953125,
+      "logits/rejected": -1.984375,
+      "logps/chosen": -1.1875,
+      "logps/rejected": -1.265625,
+      "loss": 1.2679,
+      "nll_loss": 1.2421875,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -0.11865234375,
+      "rewards/margins": 0.007659912109375,
+      "rewards/rejected": -0.1259765625,
+      "step": 1340
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 2.564277781118033,
+      "learning_rate": 4.4236037917277644e-09,
+      "log_odds_chosen": 0.17406006157398224,
+      "log_odds_ratio": -0.697949230670929,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -1.1875,
+      "logps/rejected": -1.3125,
+      "loss": 1.2736,
+      "nll_loss": 1.2265625,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.11865234375,
+      "rewards/margins": 0.012939453125,
+      "rewards/rejected": -0.1318359375,
+      "step": 1350
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 2.6044066137402764,
+      "learning_rate": 3.3516335191523528e-09,
+      "log_odds_chosen": 0.22431640326976776,
+      "log_odds_ratio": -0.6830078363418579,
+      "logits/chosen": -1.9765625,
+      "logits/rejected": -2.078125,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.3046875,
+      "loss": 1.221,
+      "nll_loss": 1.1640625,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.115234375,
+      "rewards/margins": 0.01483154296875,
+      "rewards/rejected": -0.1298828125,
+      "step": 1360
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.569982717697751,
+      "learning_rate": 2.4273108070415605e-09,
+      "log_odds_chosen": 0.24323730170726776,
+      "log_odds_ratio": -0.675000011920929,
+      "logits/chosen": -1.984375,
+      "logits/rejected": -2.078125,
+      "logps/chosen": -1.125,
+      "logps/rejected": -1.3046875,
+      "loss": 1.2342,
+      "nll_loss": 1.1953125,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.1123046875,
+      "rewards/margins": 0.017822265625,
+      "rewards/rejected": -0.130859375,
+      "step": 1370
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 2.9474176384005117,
+      "learning_rate": 1.651188969392564e-09,
+      "log_odds_chosen": 0.18778076767921448,
+      "log_odds_ratio": -0.675000011920929,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -1.1484375,
+      "logps/rejected": -1.2734375,
+      "loss": 1.2187,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.11474609375,
+      "rewards/margins": 0.012939453125,
+      "rewards/rejected": -0.1279296875,
+      "step": 1380
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 2.5311989884303747,
+      "learning_rate": 1.0237326048466443e-09,
+      "log_odds_chosen": 0.2604003846645355,
+      "log_odds_ratio": -0.6591796875,
+      "logits/chosen": -1.9296875,
+      "logits/rejected": -1.96875,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.3125,
+      "loss": 1.2465,
+      "nll_loss": 1.1875,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.11328125,
+      "rewards/margins": 0.0185546875,
+      "rewards/rejected": -0.1318359375,
+      "step": 1390
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 2.4286187387911005,
+      "learning_rate": 5.453173185734073e-10,
+      "log_odds_chosen": 0.158447265625,
+      "log_odds_ratio": -0.71044921875,
+      "logits/chosen": -2.0,
+      "logits/rejected": -2.09375,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.2734375,
+      "loss": 1.2469,
+      "nll_loss": 1.2265625,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.1162109375,
+      "rewards/margins": 0.01123046875,
+      "rewards/rejected": -0.126953125,
+      "step": 1400
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 2.7786302717518256,
+      "learning_rate": 2.1622949742761133e-10,
+      "log_odds_chosen": 0.21599121391773224,
+      "log_odds_ratio": -0.6719726324081421,
+      "logits/chosen": -1.9609375,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -1.09375,
+      "logps/rejected": -1.2265625,
+      "loss": 1.2478,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.109375,
+      "rewards/margins": 0.0133056640625,
+      "rewards/rejected": -0.123046875,
+      "step": 1410
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.2980939714984134,
+      "learning_rate": 3.666613851355249e-11,
+      "log_odds_chosen": 0.22458496689796448,
+      "log_odds_ratio": -0.666210949420929,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -2.203125,
+      "logps/chosen": -1.1640625,
+      "logps/rejected": -1.34375,
+      "loss": 1.2281,
+      "nll_loss": 1.2109375,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.1162109375,
+      "rewards/margins": 0.017822265625,
+      "rewards/rejected": -0.1337890625,
+      "step": 1420
+    },
+    {
+      "epoch": 1.0,
+      "step": 1427,
+      "total_flos": 0.0,
+      "train_loss": 1.2897131164005442,
+      "train_runtime": 9812.389,
+      "train_samples_per_second": 6.979,
+      "train_steps_per_second": 0.145
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1427,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}