Add model files

Browse files

Files changed (8) hide show

README.md +40 -3
config.json +40 -0
gitattributes +35 -0
model.msgpack +3 -0
model.onnx +3 -0
model.safetensors +3 -0
selected_tags.csv +0 -0
sw_jax_cv_config.json +15 -0

README.md CHANGED Viewed

@@ -1,3 +1,40 @@
----
-license: apache-2.0
----

+---
+license: apache-2.0
+library_name: timm
+---
+# WD ViT-Large Tagger v3
+Supports ratings, characters and general tags.
+Trained using https://github.com/SmilingWolf/JAX-CV.
+TPUs used for training kindly provided by the [TRC program](https://sites.research.google/trc/about/).
+## Dataset
+Last image id: 7220105
+Trained on Danbooru images with IDs modulo 0000-0899.
+Validated on images with IDs modulo 0950-0999.
+Images with less than 10 general tags were filtered out.
+Tags with less than 600 images were filtered out.
+## Validation results
+`v1.0: P=R: threshold = 0.2606, F1 = 0.4674`
+## What's new
+Model v1.0/Dataset v3:
+More training images, more and up-to-date tags (up to 2024-02-28).
+Now `timm` compatible! Load it up and give it a spin using the canonical one-liner!
+ONNX model is compatible with code developed for the v2 series of models.
+The batch dimension of the ONNX model is not fixed to 1 anymore. Now you can go crazy with batch inference.
+Switched to Macro-F1 to measure model performance since it gives me a better gauge of overall training progress.
+# Runtime deps
+ONNX model requires `onnxruntime >= 1.17.0`
+# Inference code examples
+For timm: https://github.com/neggles/wdv3-timm
+For ONNX: https://huggingface.co/spaces/SmilingWolf/wd-tagger
+For JAX: https://github.com/SmilingWolf/wdv3-jax
+## Final words
+Subject to change and updates.
+Downstream users are encouraged to use tagged releases rather than relying on the head of the repo.

config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "architecture": "vit_large_patch16_224",
+  "num_classes": 10861,
+  "num_features": 1024,
+  "global_pool": "avg",
+  "model_args": {
+    "img_size": 448,
+    "class_token": false,
+    "global_pool": "avg",
+    "fc_norm": false,
+    "act_layer": "gelu_tanh",
+    "patch_size": 14
+  },
+  "pretrained_cfg": {
+    "custom_load": false,
+    "input_size": [
+      3,
+      448,
+      448
+    ],
+    "fixed_input_size": false,
+    "interpolation": "bicubic",
+    "crop_pct": 1.0,
+    "crop_mode": "center",
+    "mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "num_classes": 10861,
+    "pool_size": null,
+    "first_conv": null,
+    "classifier": null
+  }
+}

gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

model.msgpack ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74851bf4f613c41102d0ac6b87e915eb192504287bc01fb916977e05f6209c76
+size 1260393134

model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4c8001b000a6c98f2db10794f7c406daa79873d071d6ca924330fa053fa1845
+size 1260645673

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbfaf059bc61a0af74cea0e590c5533d01956f50adf293436783a241d7964bbb
+size 1260410716

selected_tags.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

sw_jax_cv_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "image_size": 448,
+    "model_name": "vit_large",
+    "model_args": {
+        "patch_size": 14,
+        "num_classes": 10861,
+        "num_layers": 24,
+        "embed_dim": 1024,
+        "mlp_dim": 4096,
+        "num_heads": 16,
+        "drop_path_rate": 0.1,
+        "norm_layer": "reparam_layernorm",
+        "layer_norm_eps": 1e-05
+    }
+}