Weni
/

ZeroShot-2.2.1-Llama2-13b-Multilanguage-3.0.3

Zero-Shot Classification

Model card Files Files and versions Metrics Training metrics Community

beamaia commited on Dec 1, 2023

Commit

dae1c45

•

1 Parent(s): a285e74

Update README.md

Files changed (1) hide show

README.md +86 -0

README.md CHANGED Viewed

@@ -242,6 +242,90 @@ preprocessing: 'dataset = dataset.shuffle(seed=55)
   dataset = dataset[''train''].train_test_split(test_size=0.1)'
 base_model: NousResearch/Nous-Hermes-Llama2-13b
 ---
 ## Training procedure
@@ -255,6 +339,8 @@ The following `bitsandbytes` quantization config was used during training:
 - bnb_4bit_quant_type: nf4
 - bnb_4bit_use_double_quant: True
 - bnb_4bit_compute_dtype: bfloat16
 ### Framework versions

   dataset = dataset[''train''].train_test_split(test_size=0.1)'
 base_model: NousResearch/Nous-Hermes-Llama2-13b
 ---
+## Training Hyperparameters
+- evaluation_strategy: epoch
+- prediction_loss_only: False
+- per_device_train_batch_size: 2
+- per_device_eval_batch_size: 8
+- per_gpu_train_batch_size: None
+- per_gpu_eval_batch_size: None
+- gradient_accumulation_steps: 2
+- eval_accumulation_steps: 1
+- eval_delay: 0
+- learning_rate: 0.0004
+- weight_decay: 0.01
+- adam_beta1: 0.9
+- adam_beta2: 0.999
+- adam_epsilon: 1e-08
+- max_grad_norm: 0.3
+- num_train_epochs: 10
+- max_steps: -1
+- lr_scheduler_type: cosine
+- warmup_ratio: 0.1
+- warmup_steps: 0
+- log_level: passive
+- log_level_replica: warning
+- log_on_each_node: True
+- logging_strategy: steps
+- logging_first_step: False
+- logging_steps: 500
+- logging_nan_inf_filter: True
+- save_strategy: epoch
+- save_steps: 500
+- save_total_limit: 5
+- save_safetensors: True
+- save_on_each_node: False
+- no_cuda: False
+- use_mps_device: False
+- seed: 42
+- data_seed: None
+- jit_mode_eval: False
+- use_ipex: False
+- bf16: False
+- fp16: True
+- fp16_opt_level: O1
+- half_precision_backend: auto
+- bf16_full_eval: False
+- fp16_full_eval: False
+- tf32: None
+- local_rank: 0
+- ddp_backend: None
+- tpu_num_cores: None
+- tpu_metrics_debug: False
+- debug: []
+- dataloader_drop_last: False
+- eval_steps: None
+- dataloader_num_workers: 0
+- past_index: -1
+- remove_unused_columns: True
+- label_names: None
+- load_best_model_at_end: True
+- metric_for_best_model: eval_loss
+- greater_is_better: False
+- ignore_data_skip: False
+- sharded_ddp: []
+- fsdp: []
+- fsdp_min_num_params: 0
+- fsdp_config: {'fsdp_min_num_params': 0, 'xla': False, 'xla_fsdp_grad_ckpt': False}
+- fsdp_transformer_layer_cls_to_wrap: None
+- deepspeed: None
+- label_smoothing_factor: 0.0
+- optim: adamw_torch
+- optim_args: None
+- adafactor: False
+- group_by_length: False
+- ddp_find_unused_parameters: None
+- ddp_bucket_cap_mb: None
+- ddp_broadcast_buffers: None
+- dataloader_pin_memory: True
+- skip_memory_metrics: True
+- use_legacy_prediction_loop: False
+- push_to_hub: True
+- resume_from_checkpoint: None
+- hub_strategy: all_checkpoints
+- gradient_checkpointing: True
 ## Training procedure
 - bnb_4bit_quant_type: nf4
 - bnb_4bit_use_double_quant: True
 - bnb_4bit_compute_dtype: bfloat16
+-
 ### Framework versions