Model save

Browse files

Files changed (9) hide show

README.md +90 -0
all_results.json +16 -0
config.json +54 -0
eval_results.json +11 -0
model.safetensors +3 -0
preprocessor_config.json +37 -0
train_results.json +8 -0
trainer_state.json +1115 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,90 @@

+---
+license: apache-2.0
+base_model: microsoft/resnet-50
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+- f1
+- precision
+- recall
+model-index:
+- name: resnet-50-finetuned-FBark-1k
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: train
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.9791666666666666
+    - name: F1
+      type: f1
+      value: 0.9807711022697999
+    - name: Precision
+      type: precision
+      value: 0.9788043478260869
+    - name: Recall
+      type: recall
+      value: 0.9833043478260869
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# resnet-50-finetuned-FBark-1k
+This model is a fine-tuned version of [microsoft/resnet-50](https://huggingface.co/microsoft/resnet-50) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Accuracy: 0.9792
+- F1: 0.9808
+- Loss: 0.0686
+- Precision: 0.9788
+- Recall: 0.9833
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 35
+### Training results
+### Framework versions
+- Transformers 4.39.3
+- Pytorch 2.3.0
+- Datasets 2.19.1
+- Tokenizers 0.15.1

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 35.0,
+    "eval_accuracy": 0.9479166666666666,
+    "eval_f1": 0.9507936507936507,
+    "eval_loss": 0.143270343542099,
+    "eval_precision": 0.9516161616161616,
+    "eval_recall": 0.9516161616161616,
+    "eval_runtime": 41.786,
+    "eval_samples_per_second": 2.297,
+    "eval_steps_per_second": 0.287,
+    "total_flos": 5.702134423852339e+17,
+    "train_loss": 0.6366229937190101,
+    "train_runtime": 42118.4284,
+    "train_samples_per_second": 0.637,
+    "train_steps_per_second": 0.02
+}

config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "_name_or_path": "microsoft/resnet-50",
+  "architectures": [
+    "ResNetForImageClassification"
+  ],
+  "depths": [
+    3,
+    4,
+    6,
+    3
+  ],
+  "downsample_in_bottleneck": false,
+  "downsample_in_first_stage": false,
+  "embedding_size": 64,
+  "hidden_act": "relu",
+  "hidden_sizes": [
+    256,
+    512,
+    1024,
+    2048
+  ],
+  "id2label": {
+    "0": "Iinstia bijuga",
+    "1": "Mangifera indica",
+    "2": "Pterocarpus indicus",
+    "3": "Roystonea regia",
+    "4": "Tabebuia"
+  },
+  "label2id": {
+    "Iinstia bijuga": 0,
+    "Mangifera indica": 1,
+    "Pterocarpus indicus": 2,
+    "Roystonea regia": 3,
+    "Tabebuia": 4
+  },
+  "layer_type": "bottleneck",
+  "model_type": "resnet",
+  "num_channels": 3,
+  "out_features": [
+    "stage4"
+  ],
+  "out_indices": [
+    4
+  ],
+  "stage_names": [
+    "stem",
+    "stage1",
+    "stage2",
+    "stage3",
+    "stage4"
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.3"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 35.0,
+    "eval_accuracy": 0.9479166666666666,
+    "eval_f1": 0.9507936507936507,
+    "eval_loss": 0.143270343542099,
+    "eval_precision": 0.9516161616161616,
+    "eval_recall": 0.9516161616161616,
+    "eval_runtime": 41.786,
+    "eval_samples_per_second": 2.297,
+    "eval_steps_per_second": 0.287
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b62125cf7821aa46f94acabbb35def2585b934f7ce94800889278ce2aabb16af
+size 94327540

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "_valid_processor_keys": [
+    "images",
+    "do_resize",
+    "size",
+    "crop_pct",
+    "resample",
+    "do_rescale",
+    "rescale_factor",
+    "do_normalize",
+    "image_mean",
+    "image_std",
+    "return_tensors",
+    "data_format",
+    "input_data_format"
+  ],
+  "crop_pct": 0.875,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "ConvNextImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 35.0,
+    "total_flos": 5.702134423852339e+17,
+    "train_loss": 0.6366229937190101,
+    "train_runtime": 42118.4284,
+    "train_samples_per_second": 0.637,
+    "train_steps_per_second": 0.02
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1115 @@

+{
+  "best_metric": 0.9895833333333334,
+  "best_model_checkpoint": "resnet-50-finetuned-FBark-1k\\checkpoint-504",
+  "epoch": 35.0,
+  "eval_steps": 500,
+  "global_step": 840,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "step": 24,
+      "train_accuracy": 0.2803129074315515,
+      "train_f1": 0.15367112828819612,
+      "train_loss": 1.604638934135437,
+      "train_precision": 0.44938608458390183,
+      "train_recall": 0.24397350993377484,
+      "train_runtime": 556.5052,
+      "train_samples_per_second": 1.378,
+      "train_steps_per_second": 0.173
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.9430338144302368,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 1.6081,
+      "step": 24
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.3125,
+      "eval_f1": 0.2451058201058201,
+      "eval_loss": 1.6051779985427856,
+      "eval_precision": 0.45168539325842694,
+      "eval_recall": 0.316,
+      "eval_runtime": 63.6475,
+      "eval_samples_per_second": 1.508,
+      "eval_steps_per_second": 0.189,
+      "step": 24
+    },
+    {
+      "epoch": 2.0,
+      "step": 48,
+      "train_accuracy": 0.3285528031290743,
+      "train_f1": 0.20775853398507432,
+      "train_loss": 1.5834662914276123,
+      "train_precision": 0.24930855315747405,
+      "train_recall": 0.29161290322580646,
+      "train_runtime": 520.0484,
+      "train_samples_per_second": 1.475,
+      "train_steps_per_second": 0.185
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.0157510042190552,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 1.5974,
+      "step": 48
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.3125,
+      "eval_f1": 0.24752747252747248,
+      "eval_loss": 1.5845800638198853,
+      "eval_precision": 0.45168539325842694,
+      "eval_recall": 0.328,
+      "eval_runtime": 49.9527,
+      "eval_samples_per_second": 1.922,
+      "eval_steps_per_second": 0.24,
+      "step": 48
+    },
+    {
+      "epoch": 3.0,
+      "step": 72,
+      "train_accuracy": 0.39765319426336376,
+      "train_f1": 0.2643894247741172,
+      "train_loss": 1.5244113206863403,
+      "train_precision": 0.4317930271167681,
+      "train_recall": 0.360322073127407,
+      "train_runtime": 240.6873,
+      "train_samples_per_second": 3.187,
+      "train_steps_per_second": 0.399
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.2216145992279053,
+      "learning_rate": 8.571428571428571e-05,
+      "loss": 1.5662,
+      "step": 72
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.3645833333333333,
+      "eval_f1": 0.29906685906685904,
+      "eval_loss": 1.5273982286453247,
+      "eval_precision": 0.4227642276422764,
+      "eval_recall": 0.41600000000000004,
+      "eval_runtime": 48.8206,
+      "eval_samples_per_second": 1.966,
+      "eval_steps_per_second": 0.246,
+      "step": 72
+    },
+    {
+      "epoch": 4.0,
+      "step": 96,
+      "train_accuracy": 0.560625814863103,
+      "train_f1": 0.48350804279434356,
+      "train_loss": 1.3708547353744507,
+      "train_precision": 0.6093729463212961,
+      "train_recall": 0.5236244720884755,
+      "train_runtime": 235.7829,
+      "train_samples_per_second": 3.253,
+      "train_steps_per_second": 0.407
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 2.226966381072998,
+      "learning_rate": 9.841269841269841e-05,
+      "loss": 1.4744,
+      "step": 96
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4583333333333333,
+      "eval_f1": 0.4015730611897168,
+      "eval_loss": 1.3687443733215332,
+      "eval_precision": 0.5446969696969697,
+      "eval_recall": 0.49866666666666665,
+      "eval_runtime": 41.6732,
+      "eval_samples_per_second": 2.304,
+      "eval_steps_per_second": 0.288,
+      "step": 96
+    },
+    {
+      "epoch": 5.0,
+      "step": 120,
+      "train_accuracy": 0.7092568448500652,
+      "train_f1": 0.6330967191077577,
+      "train_loss": 1.2019156217575073,
+      "train_precision": 0.8111276153195639,
+      "train_recall": 0.674213659345549,
+      "train_runtime": 240.5993,
+      "train_samples_per_second": 3.188,
+      "train_steps_per_second": 0.399
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 1.8955597877502441,
+      "learning_rate": 9.523809523809524e-05,
+      "loss": 1.3433,
+      "step": 120
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6041666666666666,
+      "eval_f1": 0.5857735598991965,
+      "eval_loss": 1.2304556369781494,
+      "eval_precision": 0.71735347985348,
+      "eval_recall": 0.6600579710144927,
+      "eval_runtime": 47.1456,
+      "eval_samples_per_second": 2.036,
+      "eval_steps_per_second": 0.255,
+      "step": 120
+    },
+    {
+      "epoch": 6.0,
+      "step": 144,
+      "train_accuracy": 0.7848761408083442,
+      "train_f1": 0.7302362449292985,
+      "train_loss": 0.9897820353507996,
+      "train_precision": 0.8387314231533833,
+      "train_recall": 0.7594057545129057,
+      "train_runtime": 255.5505,
+      "train_samples_per_second": 3.001,
+      "train_steps_per_second": 0.376
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 2.129802703857422,
+      "learning_rate": 9.206349206349206e-05,
+      "loss": 1.1817,
+      "step": 144
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.6770833333333334,
+      "eval_f1": 0.6400730340445357,
+      "eval_loss": 1.0310033559799194,
+      "eval_precision": 0.7296066252587992,
+      "eval_recall": 0.7232463768115942,
+      "eval_runtime": 42.9425,
+      "eval_samples_per_second": 2.236,
+      "eval_steps_per_second": 0.279,
+      "step": 144
+    },
+    {
+      "epoch": 7.0,
+      "step": 168,
+      "train_accuracy": 0.8005215123859192,
+      "train_f1": 0.7573090410959133,
+      "train_loss": 0.8052171468734741,
+      "train_precision": 0.8403513129618181,
+      "train_recall": 0.7759091850696327,
+      "train_runtime": 229.5863,
+      "train_samples_per_second": 3.341,
+      "train_steps_per_second": 0.418
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 2.2950687408447266,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 1.042,
+      "step": 168
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.78125,
+      "eval_f1": 0.7573509711419949,
+      "eval_loss": 0.8407149910926819,
+      "eval_precision": 0.8095754475703325,
+      "eval_recall": 0.8141449275362319,
+      "eval_runtime": 41.1234,
+      "eval_samples_per_second": 2.334,
+      "eval_steps_per_second": 0.292,
+      "step": 168
+    },
+    {
+      "epoch": 8.0,
+      "step": 192,
+      "train_accuracy": 0.847457627118644,
+      "train_f1": 0.8206811188609147,
+      "train_loss": 0.6191346049308777,
+      "train_precision": 0.8718831316786277,
+      "train_recall": 0.8278987739042905,
+      "train_runtime": 238.0376,
+      "train_samples_per_second": 3.222,
+      "train_steps_per_second": 0.403
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.7251057624816895,
+      "learning_rate": 8.571428571428571e-05,
+      "loss": 0.9057,
+      "step": 192
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8125,
+      "eval_f1": 0.7954355172644092,
+      "eval_loss": 0.6594930291175842,
+      "eval_precision": 0.8197173913043478,
+      "eval_recall": 0.8348985507246377,
+      "eval_runtime": 40.8504,
+      "eval_samples_per_second": 2.35,
+      "eval_steps_per_second": 0.294,
+      "step": 192
+    },
+    {
+      "epoch": 9.0,
+      "step": 216,
+      "train_accuracy": 0.8878748370273793,
+      "train_f1": 0.8760591514284144,
+      "train_loss": 0.5186784267425537,
+      "train_precision": 0.9006774019179493,
+      "train_recall": 0.8748786062624301,
+      "train_runtime": 229.2331,
+      "train_samples_per_second": 3.346,
+      "train_steps_per_second": 0.419
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 2.9402055740356445,
+      "learning_rate": 8.253968253968255e-05,
+      "loss": 0.827,
+      "step": 216
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8958333333333334,
+      "eval_f1": 0.880350631136045,
+      "eval_loss": 0.5520768165588379,
+      "eval_precision": 0.8784420289855073,
+      "eval_recall": 0.903768115942029,
+      "eval_runtime": 41.7394,
+      "eval_samples_per_second": 2.3,
+      "eval_steps_per_second": 0.287,
+      "step": 216
+    },
+    {
+      "epoch": 10.0,
+      "step": 240,
+      "train_accuracy": 0.9308996088657105,
+      "train_f1": 0.9288928506201815,
+      "train_loss": 0.44946393370628357,
+      "train_precision": 0.9349933314548698,
+      "train_recall": 0.926414971755593,
+      "train_runtime": 228.8923,
+      "train_samples_per_second": 3.351,
+      "train_steps_per_second": 0.419
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 2.2974233627319336,
+      "learning_rate": 7.936507936507937e-05,
+      "loss": 0.7259,
+      "step": 240
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8854166666666666,
+      "eval_f1": 0.872383707086129,
+      "eval_loss": 0.48959246277809143,
+      "eval_precision": 0.8708333333333332,
+      "eval_recall": 0.895768115942029,
+      "eval_runtime": 41.9767,
+      "eval_samples_per_second": 2.287,
+      "eval_steps_per_second": 0.286,
+      "step": 240
+    },
+    {
+      "epoch": 11.0,
+      "step": 264,
+      "train_accuracy": 0.9413298565840938,
+      "train_f1": 0.9417867419265207,
+      "train_loss": 0.3570455312728882,
+      "train_precision": 0.9453167745489296,
+      "train_recall": 0.9400834441504553,
+      "train_runtime": 248.5818,
+      "train_samples_per_second": 3.086,
+      "train_steps_per_second": 0.386
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 2.431676149368286,
+      "learning_rate": 7.619047619047618e-05,
+      "loss": 0.6165,
+      "step": 264
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9479166666666666,
+      "eval_f1": 0.9415749105966498,
+      "eval_loss": 0.3730888366699219,
+      "eval_precision": 0.9344416027280478,
+      "eval_recall": 0.9565217391304348,
+      "eval_runtime": 40.6593,
+      "eval_samples_per_second": 2.361,
+      "eval_steps_per_second": 0.295,
+      "step": 264
+    },
+    {
+      "epoch": 12.0,
+      "step": 288,
+      "train_accuracy": 0.9621903520208605,
+      "train_f1": 0.9625360573738101,
+      "train_loss": 0.3030441999435425,
+      "train_precision": 0.9625629676041886,
+      "train_recall": 0.9629287708667498,
+      "train_runtime": 230.112,
+      "train_samples_per_second": 3.333,
+      "train_steps_per_second": 0.417
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 4.103673934936523,
+      "learning_rate": 7.301587301587302e-05,
+      "loss": 0.6012,
+      "step": 288
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9479166666666666,
+      "eval_f1": 0.940039100684262,
+      "eval_loss": 0.33568963408470154,
+      "eval_precision": 0.9325757575757576,
+      "eval_recall": 0.9518840579710144,
+      "eval_runtime": 40.3994,
+      "eval_samples_per_second": 2.376,
+      "eval_steps_per_second": 0.297,
+      "step": 288
+    },
+    {
+      "epoch": 13.0,
+      "step": 312,
+      "train_accuracy": 0.9647979139504563,
+      "train_f1": 0.9653626267274655,
+      "train_loss": 0.2688322067260742,
+      "train_precision": 0.9675790735259078,
+      "train_recall": 0.9643315099918202,
+      "train_runtime": 232.8569,
+      "train_samples_per_second": 3.294,
+      "train_steps_per_second": 0.412
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 2.537602663040161,
+      "learning_rate": 6.984126984126984e-05,
+      "loss": 0.5493,
+      "step": 312
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9779710144927536,
+      "eval_loss": 0.2760257124900818,
+      "eval_precision": 0.9779710144927536,
+      "eval_recall": 0.9779710144927536,
+      "eval_runtime": 41.3496,
+      "eval_samples_per_second": 2.322,
+      "eval_steps_per_second": 0.29,
+      "step": 312
+    },
+    {
+      "epoch": 14.0,
+      "step": 336,
+      "train_accuracy": 0.9739243807040417,
+      "train_f1": 0.9747740494132829,
+      "train_loss": 0.2121364027261734,
+      "train_precision": 0.9768091844642071,
+      "train_recall": 0.9737563601250352,
+      "train_runtime": 230.8623,
+      "train_samples_per_second": 3.322,
+      "train_steps_per_second": 0.416
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 3.584627151489258,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.5346,
+      "step": 336
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9807711022697999,
+      "eval_loss": 0.20107173919677734,
+      "eval_precision": 0.9788043478260869,
+      "eval_recall": 0.9833043478260869,
+      "eval_runtime": 42.0342,
+      "eval_samples_per_second": 2.284,
+      "eval_steps_per_second": 0.285,
+      "step": 336
+    },
+    {
+      "epoch": 15.0,
+      "step": 360,
+      "train_accuracy": 0.9713168187744459,
+      "train_f1": 0.9713327368360707,
+      "train_loss": 0.19078123569488525,
+      "train_precision": 0.9721925646339006,
+      "train_recall": 0.9707366061842899,
+      "train_runtime": 231.7492,
+      "train_samples_per_second": 3.31,
+      "train_steps_per_second": 0.414
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 2.587404251098633,
+      "learning_rate": 6.349206349206349e-05,
+      "loss": 0.4993,
+      "step": 360
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.96875,
+      "eval_f1": 0.9668028483015461,
+      "eval_loss": 0.19429530203342438,
+      "eval_precision": 0.9606225296442688,
+      "eval_recall": 0.974608695652174,
+      "eval_runtime": 41.4858,
+      "eval_samples_per_second": 2.314,
+      "eval_steps_per_second": 0.289,
+      "step": 360
+    },
+    {
+      "epoch": 16.0,
+      "step": 384,
+      "train_accuracy": 0.9739243807040417,
+      "train_f1": 0.9741378672001157,
+      "train_loss": 0.18284346163272858,
+      "train_precision": 0.9753376725337921,
+      "train_recall": 0.9732292831146785,
+      "train_runtime": 228.9159,
+      "train_samples_per_second": 3.351,
+      "train_steps_per_second": 0.419
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 2.460467576980591,
+      "learning_rate": 6.0317460317460316e-05,
+      "loss": 0.4662,
+      "step": 384
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9807711022697999,
+      "eval_loss": 0.1412990242242813,
+      "eval_precision": 0.9788043478260869,
+      "eval_recall": 0.9833043478260869,
+      "eval_runtime": 40.0644,
+      "eval_samples_per_second": 2.396,
+      "eval_steps_per_second": 0.3,
+      "step": 384
+    },
+    {
+      "epoch": 17.0,
+      "step": 408,
+      "train_accuracy": 0.9778357235984355,
+      "train_f1": 0.9776240827714024,
+      "train_loss": 0.145884707570076,
+      "train_precision": 0.9778175327096849,
+      "train_recall": 0.9778137736081629,
+      "train_runtime": 230.228,
+      "train_samples_per_second": 3.331,
+      "train_steps_per_second": 0.417
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 2.5160224437713623,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.4722,
+      "step": 408
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9807711022697999,
+      "eval_loss": 0.1360517293214798,
+      "eval_precision": 0.9788043478260869,
+      "eval_recall": 0.9833043478260869,
+      "eval_runtime": 45.6511,
+      "eval_samples_per_second": 2.103,
+      "eval_steps_per_second": 0.263,
+      "step": 408
+    },
+    {
+      "epoch": 18.0,
+      "step": 432,
+      "train_accuracy": 0.9726205997392438,
+      "train_f1": 0.973105656865344,
+      "train_loss": 0.16023999452590942,
+      "train_precision": 0.9736536976180454,
+      "train_recall": 0.973107499735422,
+      "train_runtime": 232.9746,
+      "train_samples_per_second": 3.292,
+      "train_steps_per_second": 0.412
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 2.056008815765381,
+      "learning_rate": 5.396825396825397e-05,
+      "loss": 0.4112,
+      "step": 432
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9807711022697999,
+      "eval_loss": 0.14697764813899994,
+      "eval_precision": 0.9788043478260869,
+      "eval_recall": 0.9833043478260869,
+      "eval_runtime": 41.0241,
+      "eval_samples_per_second": 2.34,
+      "eval_steps_per_second": 0.293,
+      "step": 432
+    },
+    {
+      "epoch": 19.0,
+      "step": 456,
+      "train_accuracy": 0.9791395045632334,
+      "train_f1": 0.9790547334136079,
+      "train_loss": 0.12944301962852478,
+      "train_precision": 0.9802981933219288,
+      "train_recall": 0.9781710425016916,
+      "train_runtime": 231.3669,
+      "train_samples_per_second": 3.315,
+      "train_steps_per_second": 0.415
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 2.8184328079223633,
+      "learning_rate": 5.0793650793650794e-05,
+      "loss": 0.3497,
+      "step": 456
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.96875,
+      "eval_f1": 0.9724490963166323,
+      "eval_loss": 0.11115691810846329,
+      "eval_precision": 0.9708333333333332,
+      "eval_recall": 0.9753043478260869,
+      "eval_runtime": 40.9709,
+      "eval_samples_per_second": 2.343,
+      "eval_steps_per_second": 0.293,
+      "step": 456
+    },
+    {
+      "epoch": 20.0,
+      "step": 480,
+      "train_accuracy": 0.9726205997392438,
+      "train_f1": 0.974010596954358,
+      "train_loss": 0.12856590747833252,
+      "train_precision": 0.9757760047994936,
+      "train_recall": 0.9727336882447055,
+      "train_runtime": 229.914,
+      "train_samples_per_second": 3.336,
+      "train_steps_per_second": 0.418
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 2.9835314750671387,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.383,
+      "step": 480
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.96875,
+      "eval_f1": 0.9668028483015461,
+      "eval_loss": 0.1326003223657608,
+      "eval_precision": 0.9606225296442688,
+      "eval_recall": 0.974608695652174,
+      "eval_runtime": 41.6077,
+      "eval_samples_per_second": 2.307,
+      "eval_steps_per_second": 0.288,
+      "step": 480
+    },
+    {
+      "epoch": 21.0,
+      "step": 504,
+      "train_accuracy": 0.984354628422425,
+      "train_f1": 0.985242413654858,
+      "train_loss": 0.10190501064062119,
+      "train_precision": 0.9852433860091777,
+      "train_recall": 0.985650440594714,
+      "train_runtime": 232.6041,
+      "train_samples_per_second": 3.297,
+      "train_steps_per_second": 0.413
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 3.4986414909362793,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.3835,
+      "step": 504
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.9895833333333334,
+      "eval_f1": 0.9891039426523298,
+      "eval_loss": 0.09684587270021439,
+      "eval_precision": 0.9875,
+      "eval_recall": 0.9913043478260869,
+      "eval_runtime": 42.0198,
+      "eval_samples_per_second": 2.285,
+      "eval_steps_per_second": 0.286,
+      "step": 504
+    },
+    {
+      "epoch": 22.0,
+      "step": 528,
+      "train_accuracy": 0.9856584093872229,
+      "train_f1": 0.9857542719271224,
+      "train_loss": 0.10507090389728546,
+      "train_precision": 0.9866456571269954,
+      "train_recall": 0.9850819589725311,
+      "train_runtime": 231.3064,
+      "train_samples_per_second": 3.316,
+      "train_steps_per_second": 0.415
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 3.1002776622772217,
+      "learning_rate": 4.126984126984127e-05,
+      "loss": 0.37,
+      "step": 528
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9807711022697999,
+      "eval_loss": 0.10016053915023804,
+      "eval_precision": 0.9788043478260869,
+      "eval_recall": 0.9833043478260869,
+      "eval_runtime": 41.4299,
+      "eval_samples_per_second": 2.317,
+      "eval_steps_per_second": 0.29,
+      "step": 528
+    },
+    {
+      "epoch": 23.0,
+      "step": 552,
+      "train_accuracy": 0.9908735332464146,
+      "train_f1": 0.9908835885486533,
+      "train_loss": 0.09519027173519135,
+      "train_precision": 0.9915443252399774,
+      "train_recall": 0.9903473945409429,
+      "train_runtime": 230.8399,
+      "train_samples_per_second": 3.323,
+      "train_steps_per_second": 0.416
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 1.822899341583252,
+      "learning_rate": 3.809523809523809e-05,
+      "loss": 0.4095,
+      "step": 552
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.9895833333333334,
+      "eval_f1": 0.9891039426523298,
+      "eval_loss": 0.08792722970247269,
+      "eval_precision": 0.9875,
+      "eval_recall": 0.9913043478260869,
+      "eval_runtime": 42.0359,
+      "eval_samples_per_second": 2.284,
+      "eval_steps_per_second": 0.285,
+      "step": 552
+    },
+    {
+      "epoch": 24.0,
+      "step": 576,
+      "train_accuracy": 0.9869621903520208,
+      "train_f1": 0.987107806070091,
+      "train_loss": 0.10206671804189682,
+      "train_precision": 0.9869968656131645,
+      "train_recall": 0.9872260989174195,
+      "train_runtime": 232.0205,
+      "train_samples_per_second": 3.306,
+      "train_steps_per_second": 0.414
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 1.2630761861801147,
+      "learning_rate": 3.492063492063492e-05,
+      "loss": 0.3128,
+      "step": 576
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9807711022697999,
+      "eval_loss": 0.09869974106550217,
+      "eval_precision": 0.9788043478260869,
+      "eval_recall": 0.9833043478260869,
+      "eval_runtime": 41.2033,
+      "eval_samples_per_second": 2.33,
+      "eval_steps_per_second": 0.291,
+      "step": 576
+    },
+    {
+      "epoch": 25.0,
+      "step": 600,
+      "train_accuracy": 0.9817470664928292,
+      "train_f1": 0.982066284449598,
+      "train_loss": 0.0919913500547409,
+      "train_precision": 0.9819293180262086,
+      "train_recall": 0.9825659761731764,
+      "train_runtime": 230.888,
+      "train_samples_per_second": 3.322,
+      "train_steps_per_second": 0.416
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 4.3139190673828125,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.3509,
+      "step": 600
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.9895833333333334,
+      "eval_f1": 0.9891039426523298,
+      "eval_loss": 0.06910046190023422,
+      "eval_precision": 0.9875,
+      "eval_recall": 0.9913043478260869,
+      "eval_runtime": 40.8366,
+      "eval_samples_per_second": 2.351,
+      "eval_steps_per_second": 0.294,
+      "step": 600
+    },
+    {
+      "epoch": 26.0,
+      "step": 624,
+      "train_accuracy": 0.9817470664928292,
+      "train_f1": 0.9813015231469322,
+      "train_loss": 0.09761997312307358,
+      "train_precision": 0.9806165023306634,
+      "train_recall": 0.9825411622773947,
+      "train_runtime": 231.5274,
+      "train_samples_per_second": 3.313,
+      "train_steps_per_second": 0.415
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 3.532228708267212,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.3437,
+      "step": 624
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.9895833333333334,
+      "eval_f1": 0.9891039426523298,
+      "eval_loss": 0.07000591605901718,
+      "eval_precision": 0.9875,
+      "eval_recall": 0.9913043478260869,
+      "eval_runtime": 41.7728,
+      "eval_samples_per_second": 2.298,
+      "eval_steps_per_second": 0.287,
+      "step": 624
+    },
+    {
+      "epoch": 27.0,
+      "step": 648,
+      "train_accuracy": 0.984354628422425,
+      "train_f1": 0.984768710004493,
+      "train_loss": 0.09194578230381012,
+      "train_precision": 0.9846057628135428,
+      "train_recall": 0.9850342998172179,
+      "train_runtime": 230.2394,
+      "train_samples_per_second": 3.331,
+      "train_steps_per_second": 0.417
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 2.549860954284668,
+      "learning_rate": 2.5396825396825397e-05,
+      "loss": 0.3199,
+      "step": 648
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9807711022697999,
+      "eval_loss": 0.09211982041597366,
+      "eval_precision": 0.9788043478260869,
+      "eval_recall": 0.9833043478260869,
+      "eval_runtime": 40.9626,
+      "eval_samples_per_second": 2.344,
+      "eval_steps_per_second": 0.293,
+      "step": 648
+    },
+    {
+      "epoch": 28.0,
+      "step": 672,
+      "train_accuracy": 0.9895697522816167,
+      "train_f1": 0.9894324540918479,
+      "train_loss": 0.07698369771242142,
+      "train_precision": 0.9899059425153529,
+      "train_recall": 0.9890969204264518,
+      "train_runtime": 229.7842,
+      "train_samples_per_second": 3.338,
+      "train_steps_per_second": 0.418
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 3.8666512966156006,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.3209,
+      "step": 672
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.9895833333333334,
+      "eval_f1": 0.9891039426523298,
+      "eval_loss": 0.09196734428405762,
+      "eval_precision": 0.9875,
+      "eval_recall": 0.9913043478260869,
+      "eval_runtime": 41.6269,
+      "eval_samples_per_second": 2.306,
+      "eval_steps_per_second": 0.288,
+      "step": 672
+    },
+    {
+      "epoch": 29.0,
+      "step": 696,
+      "train_accuracy": 0.9817470664928292,
+      "train_f1": 0.98251652272311,
+      "train_loss": 0.0892641544342041,
+      "train_precision": 0.9842240801851391,
+      "train_recall": 0.9815242050409255,
+      "train_runtime": 17904.397,
+      "train_samples_per_second": 0.043,
+      "train_steps_per_second": 0.005
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 1.3375637531280518,
+      "learning_rate": 1.9047619047619046e-05,
+      "loss": 0.3183,
+      "step": 696
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.9895833333333334,
+      "eval_f1": 0.9891039426523298,
+      "eval_loss": 0.06283224374055862,
+      "eval_precision": 0.9875,
+      "eval_recall": 0.9913043478260869,
+      "eval_runtime": 45.9691,
+      "eval_samples_per_second": 2.088,
+      "eval_steps_per_second": 0.261,
+      "step": 696
+    },
+    {
+      "epoch": 30.0,
+      "step": 720,
+      "train_accuracy": 0.9830508474576272,
+      "train_f1": 0.9832111511301278,
+      "train_loss": 0.08690536767244339,
+      "train_precision": 0.9836087367732624,
+      "train_recall": 0.9828637429225561,
+      "train_runtime": 229.6055,
+      "train_samples_per_second": 3.341,
+      "train_steps_per_second": 0.418
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 2.389967203140259,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.299,
+      "step": 720
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9807711022697999,
+      "eval_loss": 0.09559374302625656,
+      "eval_precision": 0.9788043478260869,
+      "eval_recall": 0.9833043478260869,
+      "eval_runtime": 41.6431,
+      "eval_samples_per_second": 2.305,
+      "eval_steps_per_second": 0.288,
+      "step": 720
+    },
+    {
+      "epoch": 31.0,
+      "step": 744,
+      "train_accuracy": 0.9869621903520208,
+      "train_f1": 0.9867448459593989,
+      "train_loss": 0.08398473262786865,
+      "train_precision": 0.9860696436282815,
+      "train_recall": 0.9876175485415614,
+      "train_runtime": 229.4597,
+      "train_samples_per_second": 3.343,
+      "train_steps_per_second": 0.418
+    },
+    {
+      "epoch": 31.0,
+      "grad_norm": 3.2682044506073,
+      "learning_rate": 1.2698412698412699e-05,
+      "loss": 0.3617,
+      "step": 744
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.9895833333333334,
+      "eval_f1": 0.9891039426523298,
+      "eval_loss": 0.06870979815721512,
+      "eval_precision": 0.9875,
+      "eval_recall": 0.9913043478260869,
+      "eval_runtime": 41.3418,
+      "eval_samples_per_second": 2.322,
+      "eval_steps_per_second": 0.29,
+      "step": 744
+    },
+    {
+      "epoch": 32.0,
+      "step": 768,
+      "train_accuracy": 0.9830508474576272,
+      "train_f1": 0.9825972137742822,
+      "train_loss": 0.0890418067574501,
+      "train_precision": 0.9833445096300124,
+      "train_recall": 0.9819400560702711,
+      "train_runtime": 230.1795,
+      "train_samples_per_second": 3.332,
+      "train_steps_per_second": 0.417
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 3.531033754348755,
+      "learning_rate": 9.523809523809523e-06,
+      "loss": 0.3753,
+      "step": 768
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9807711022697999,
+      "eval_loss": 0.09568967670202255,
+      "eval_precision": 0.9788043478260869,
+      "eval_recall": 0.9833043478260869,
+      "eval_runtime": 42.1426,
+      "eval_samples_per_second": 2.278,
+      "eval_steps_per_second": 0.285,
+      "step": 768
+    },
+    {
+      "epoch": 33.0,
+      "step": 792,
+      "train_accuracy": 0.9791395045632334,
+      "train_f1": 0.9795263690474447,
+      "train_loss": 0.08663059771060944,
+      "train_precision": 0.9798244808980103,
+      "train_recall": 0.9797057099136859,
+      "train_runtime": 235.7792,
+      "train_samples_per_second": 3.253,
+      "train_steps_per_second": 0.407
+    },
+    {
+      "epoch": 33.0,
+      "grad_norm": 3.389780044555664,
+      "learning_rate": 6.349206349206349e-06,
+      "loss": 0.3168,
+      "step": 792
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.9895833333333334,
+      "eval_f1": 0.9891039426523298,
+      "eval_loss": 0.048726532608270645,
+      "eval_precision": 0.9875,
+      "eval_recall": 0.9913043478260869,
+      "eval_runtime": 44.3738,
+      "eval_samples_per_second": 2.163,
+      "eval_steps_per_second": 0.27,
+      "step": 792
+    },
+    {
+      "epoch": 34.0,
+      "step": 816,
+      "train_accuracy": 0.9869621903520208,
+      "train_f1": 0.9866353664936988,
+      "train_loss": 0.0734185054898262,
+      "train_precision": 0.9862292242559578,
+      "train_recall": 0.9871329235604117,
+      "train_runtime": 233.6307,
+      "train_samples_per_second": 3.283,
+      "train_steps_per_second": 0.411
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 3.781233787536621,
+      "learning_rate": 3.1746031746031746e-06,
+      "loss": 0.3371,
+      "step": 816
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.9895833333333334,
+      "eval_f1": 0.9891039426523298,
+      "eval_loss": 0.06520267575979233,
+      "eval_precision": 0.9875,
+      "eval_recall": 0.9913043478260869,
+      "eval_runtime": 48.9682,
+      "eval_samples_per_second": 1.96,
+      "eval_steps_per_second": 0.245,
+      "step": 816
+    },
+    {
+      "epoch": 35.0,
+      "step": 840,
+      "train_accuracy": 0.9856584093872229,
+      "train_f1": 0.9861427492811959,
+      "train_loss": 0.07886829227209091,
+      "train_precision": 0.9863290451212052,
+      "train_recall": 0.9859963740171611,
+      "train_runtime": 233.2854,
+      "train_samples_per_second": 3.288,
+      "train_steps_per_second": 0.412
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 3.668701648712158,
+      "learning_rate": 0.0,
+      "loss": 0.3076,
+      "step": 840
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_f1": 0.9807711022697999,
+      "eval_loss": 0.06859644502401352,
+      "eval_precision": 0.9788043478260869,
+      "eval_recall": 0.9833043478260869,
+      "eval_runtime": 47.1013,
+      "eval_samples_per_second": 2.038,
+      "eval_steps_per_second": 0.255,
+      "step": 840
+    },
+    {
+      "epoch": 35.0,
+      "step": 840,
+      "total_flos": 5.702134423852339e+17,
+      "train_loss": 0.6366229937190101,
+      "train_runtime": 42118.4284,
+      "train_samples_per_second": 0.637,
+      "train_steps_per_second": 0.02
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 840,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 35,
+  "save_steps": 500,
+  "total_flos": 5.702134423852339e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5db3e7fba7d0eb675f1459563b568ff47851c35815e37bf626f9a764e0740c13
+size 4856