sfulay
/

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo-gamma-05

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo-gamma-05

1 contributor

History: 2 commits

sfulay's picture

Training in progress, step 100

51f2bed verified 19 days ago

.gitattributes

1.52 kB

initial commit 19 days ago
config.json

679 Bytes

Training in progress, step 100 19 days ago
model-00001-of-00003.safetensors
4.94 GB
LFS

Training in progress, step 100 19 days ago
model-00002-of-00003.safetensors
5 GB
LFS

Training in progress, step 100 19 days ago
model-00003-of-00003.safetensors
4.54 GB
LFS

Training in progress, step 100 19 days ago
model.safetensors.index.json

24 kB

Training in progress, step 100 19 days ago
special_tokens_map.json

551 Bytes

Training in progress, step 100 19 days ago
tokenizer.json

1.8 MB

Training in progress, step 100 19 days ago
tokenizer_config.json

1.42 kB

Training in progress, step 100 19 days ago
training_args.bin
Detected Pickle imports (14)
- "torch.device",
- "accelerate.utils.dataclasses.DeepSpeedPlugin",
- "trl.trainer.dpo_config.DPOConfig",
- "trl.trainer.dpo_config.FDivergenceType",
- "transformers.trainer_utils.HubStrategy",
- "transformers.trainer_utils.SchedulerType",
- "transformers.integrations.deepspeed.HfTrainerDeepSpeedConfig",
- "torch.bfloat16",
- "transformers.trainer_utils.IntervalStrategy",
- "transformers.integrations.deepspeed.HfDeepSpeedConfig",
- "accelerate.state.PartialState",
- "accelerate.utils.dataclasses.DistributedType",
- "transformers.trainer_pt_utils.AcceleratorConfig",
- "transformers.training_args.OptimizerNames"
How to fix it?
7.67 kB
LFS

Training in progress, step 100 19 days ago