{
    "epoch": 0.9989071038251366,
    "eval_logits/chosen": -1.3851122856140137,
    "eval_logits/rejected": -1.3511338233947754,
    "eval_logps/chosen": -1.2959951162338257,
    "eval_logps/rejected": -1.7510826587677002,
    "eval_loss": 2.5561344623565674,
    "eval_rewards/accuracies": 0.8072289228439331,
    "eval_rewards/chosen": -12.959952354431152,
    "eval_rewards/margins": 4.550872325897217,
    "eval_rewards/rejected": -17.51082420349121,
    "eval_runtime": 33.4053,
    "eval_samples": 1318,
    "eval_samples_per_second": 39.455,
    "eval_semantic_entropy": 0.7683338522911072,
    "eval_steps_per_second": 2.485,
    "total_flos": 0.0,
    "train_loss": 3.4314852449513107,
    "train_runtime": 5934.8281,
    "train_samples": 58558,
    "train_samples_per_second": 9.867,
    "train_steps_per_second": 0.077
}