Spaces:

yhzhai
/

WSCL

Running on Zero

App Files Files Community

yhzhai commited on Dec 6, 2023

Commit

482ab8a

•

1 Parent(s): efaddb4

release code

Browse files

Files changed (39) hide show

.gitignore +2 -0
README.md +46 -2
configs/final.yaml +40 -0
data/casia_datalist.json +0 -0
data/columbia_datalist.json +1997 -0
data/coverage_datalist.json +1048 -0
datasets/__init__.py +28 -0
datasets/dataset.py +230 -0
engine.py +454 -0
losses/__init__.py +61 -0
losses/bundled_loss.py +84 -0
losses/consisitency_loss.py +73 -0
losses/entropy_loss.py +20 -0
losses/loss.py +93 -0
losses/map_label_loss.py +34 -0
losses/map_mask_loss.py +26 -0
losses/multi_view_consistency_loss.py +152 -0
losses/volume_label_loss.py +16 -0
losses/volume_mask_loss.py +40 -0
main.py +204 -0
models/__init__.py +65 -0
models/bayar_conv.py +67 -0
models/early_fusion_pre_filter.py +25 -0
models/ensemble_model.py +32 -0
models/hrnet.py +537 -0
models/main_model.py +290 -0
models/mobilenet.py +166 -0
models/models.py +687 -0
models/resnet.py +229 -0
models/resnext.py +178 -0
models/srm_conv.py +68 -0
models/utils.py +20 -0
opt.py +483 -0
requirements.txt +29 -0
utils/__init__.py +0 -0
utils/convcrf/__init__.py +0 -0
utils/convcrf/convcrf.py +669 -0
utils/crf.py +41 -0
utils/misc.py +370 -0

.gitignore CHANGED Viewed

	@@ -178,3 +178,5 @@ pyrightconfig.json
178
179	*.DS_Store
180

 *.DS_Store
+tmp/
+pretrained/

README.md CHANGED Viewed

@@ -1,6 +1,5 @@
 # Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning
-This repo contains the original PyTorch implementation of our paper:
 > [**Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning**](https://arxiv.org/abs/2309.01246)
 >
@@ -10,4 +9,49 @@ This repo contains the original PyTorch implementation of our paper:
 >
 > ICCV 2023
-**Code will be released soon!**

 # Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning
 > [**Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning**](https://arxiv.org/abs/2309.01246)
 >
 >
 > ICCV 2023
+This repo contains the MIL-FCN version of our WSCL implementation.
+## 1. Setup
+Clone this repo
+```bash
+git clone [email protected]:yhZhai/WSCL.git
+```
+Install packages
+```bash
+pip install -r requirements.txt
+```
+## 2. Data preparation
+We provide preprocessed CASIA (v1 and v2), Columbia, and Coverage datasets [here](https://buffalo.box.com/s/2t3eqvwp7ua2ircpdx12sfq04sne4x50).
+Place them under the `data` folder.
+## 3. Training and evaluation
+Runing the following script to train on CASIAv2, and evalute on CASIAv1, Columbia and Coverage.
+```shell
+python main.py --load configs/final.yaml
+```
+## Citation
+If you feel this project is helpful, please consider citing our paper
+```bibtex
+@inproceedings{zhai2023towards,
+  title={Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning},
+  author={Zhai, Yuanhao and Luan, Tianyu and Doermann, David and Yuan, Junsong},
+  booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
+  pages={22390--22400},
+  year={2023}
+}
+```
+## Acknowledgement
+We would like to thank the following repos for their great work:
+- [awesome-semantic-segmentation-pytorch](https://github.com/Tramac/awesome-semantic-segmentation-pytorch)
+- [DETR](https://github.com/facebookresearch/detr)

configs/final.yaml ADDED Viewed

	@@ -0,0 +1,40 @@

+modality:
+  - rgb
+  - srm
+  - bayar
+train_datalist:
+  casia: data/casia_datalist.json
+val_datalist:
+  casia: data/casia_datalist.json
+  columbia: data/columbia_datalist.json
+  coverage: data/coverage_datalist.json
+no_gaussian_blur: True
+no_color_jitter: True
+# model
+loss_on_mid_map: True
+otsu_sel: True
+otsu_portion: 1
+# losses
+map_label_weight: 1.
+map_mask_weight: 0.
+volume_mask_weight: 0.
+volume_label_weight: 0.
+consistency_weight: 0.1
+consistency_source: ensemble
+mvc_weight: 0.1
+mvc_single_weight:
+  - 1
+  - 2
+  - 2
+mvc_time_dependent: True
+# arch
+fcn_up: 16
+# misc
+batch_size: 36
+# eval
+tile_size: 1024

data/casia_datalist.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/columbia_datalist.json ADDED Viewed

	@@ -0,0 +1,1997 @@

+{
+    "nikond70_05_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_05_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_11_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_11_sub_07.tif",
+        "label": 0
+    },
+    "canong3_02_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_02_sub_06.tif",
+        "label": 0
+    },
+    "nikond70_08_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_08_sub_06.tif",
+        "label": 0
+    },
+    "kodakdcs330_03_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/kodakdcs330_03_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_11_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_11_sub_03.tif",
+        "label": 0
+    },
+    "canonxt_11_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_11_sub_08.tif",
+        "label": 0
+    },
+    "nikond70_05_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_05_sub_03.tif",
+        "label": 0
+    },
+    "canong3_02_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_02_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_38_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_38_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_02_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_02_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_08_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_08_sub_03.tif",
+        "label": 0
+    },
+    "nikond70_08_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_08_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_26_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_26_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_05_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_05_sub_07.tif",
+        "label": 0
+    },
+    "nikond70_02_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_02_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_17_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_17_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_20_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_20_sub_09.tif",
+        "label": 0
+    },
+    "nikond70_08_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_08_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_23_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_23_sub_09.tif",
+        "label": 0
+    },
+    "canong3_08_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_08_sub_02.tif",
+        "label": 0
+    },
+    "canong3_02_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_02_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_02_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_02_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_08_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_08_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_23_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_23_sub_03.tif",
+        "label": 0
+    },
+    "canong3_05_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_05_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_05_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_05_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_20_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_20_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_08_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_08_sub_01.tif",
+        "label": 0
+    },
+    "nikond70_11_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_11_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_29_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_29_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_32_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_32_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_08_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_08_sub_06.tif",
+        "label": 0
+    },
+    "canong3_08_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_08_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_29_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_29_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_35_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_35_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_20_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_20_sub_03.tif",
+        "label": 0
+    },
+    "nikond70_11_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_11_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_29_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_29_sub_04.tif",
+        "label": 0
+    },
+    "canong3_05_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_05_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_05_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_05_sub_02.tif",
+        "label": 0
+    },
+    "nikond70_11_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_11_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_02_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_02_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_05_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_05_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_38_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_38_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_38_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_38_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_14_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_14_sub_05.tif",
+        "label": 0
+    },
+    "canong3_02_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_02_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_35_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_35_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_11_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_11_sub_01.tif",
+        "label": 0
+    },
+    "nikond70_05_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_05_sub_08.tif",
+        "label": 0
+    },
+    "nikond70_02_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_02_sub_06.tif",
+        "label": 0
+    },
+    "nikond70_11_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_11_sub_08.tif",
+        "label": 0
+    },
+    "canong3_05_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_05_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_32_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_32_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_14_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_14_sub_09.tif",
+        "label": 0
+    },
+    "canong3_05_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_05_sub_03.tif",
+        "label": 0
+    },
+    "canonxt_20_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_20_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_29_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_29_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_26_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_26_sub_03.tif",
+        "label": 0
+    },
+    "canonxt_38_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_38_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_38_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_38_sub_03.tif",
+        "label": 0
+    },
+    "canonxt_26_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_26_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_20_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_20_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_08_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_08_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_14_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_14_sub_01.tif",
+        "label": 0
+    },
+    "nikond70_11_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_11_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_05_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_05_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_17_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_17_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_38_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_38_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_17_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_17_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_35_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_35_sub_03.tif",
+        "label": 0
+    },
+    "nikond70_02_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_02_sub_07.tif",
+        "label": 0
+    },
+    "canong3_08_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_08_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_17_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_17_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_35_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_35_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_02_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_02_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_08_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_08_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_05_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_05_sub_06.tif",
+        "label": 0
+    },
+    "nikond70_05_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_05_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_17_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_17_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_26_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_26_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_38_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_38_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_26_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_26_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_23_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_23_sub_01.tif",
+        "label": 0
+    },
+    "canong3_05_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_05_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_02_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_02_sub_01.tif",
+        "label": 0
+    },
+    "nikond70_05_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_05_sub_05.tif",
+        "label": 0
+    },
+    "canong3_05_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_05_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_11_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_11_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_02_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_02_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_29_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_29_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_26_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_26_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_14_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_14_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_14_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_14_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_11_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_11_sub_09.tif",
+        "label": 0
+    },
+    "canong3_02_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_02_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_35_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_35_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_23_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_23_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_17_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_17_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_26_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_26_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_38_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_38_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_32_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_32_sub_08.tif",
+        "label": 0
+    },
+    "nikond70_05_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_05_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_02_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_02_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_17_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_17_sub_03.tif",
+        "label": 0
+    },
+    "nikond70_08_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_08_sub_02.tif",
+        "label": 0
+    },
+    "nikond70_08_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_08_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_14_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_14_sub_03.tif",
+        "label": 0
+    },
+    "canonxt_20_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_20_sub_07.tif",
+        "label": 0
+    },
+    "nikond70_02_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_02_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_23_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_23_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_20_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_20_sub_02.tif",
+        "label": 0
+    },
+    "nikond70_11_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_11_sub_09.tif",
+        "label": 0
+    },
+    "canong3_08_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_08_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_05_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_05_sub_08.tif",
+        "label": 0
+    },
+    "canong3_05_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_05_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_17_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_17_sub_05.tif",
+        "label": 0
+    },
+    "canong3_08_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_08_sub_03.tif",
+        "label": 0
+    },
+    "canonxt_20_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_20_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_11_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_11_sub_05.tif",
+        "label": 0
+    },
+    "nikond70_11_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_11_sub_03.tif",
+        "label": 0
+    },
+    "canong3_05_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_05_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_11_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_11_sub_02.tif",
+        "label": 0
+    },
+    "nikond70_11_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_11_sub_04.tif",
+        "label": 0
+    },
+    "nikond70_11_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_11_sub_07.tif",
+        "label": 0
+    },
+    "canong3_08_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_08_sub_05.tif",
+        "label": 0
+    },
+    "kodakdcs330_01_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/kodakdcs330_01_sub_01.tif",
+        "label": 0
+    },
+    "nikond70_08_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_08_sub_03.tif",
+        "label": 0
+    },
+    "canonxt_32_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_32_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_29_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_29_sub_05.tif",
+        "label": 0
+    },
+    "canong3_02_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_02_sub_03.tif",
+        "label": 0
+    },
+    "canonxt_14_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_14_sub_04.tif",
+        "label": 0
+    },
+    "nikond70_08_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_08_sub_07.tif",
+        "label": 0
+    },
+    "canong3_02_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_02_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_38_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_38_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_29_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_29_sub_08.tif",
+        "label": 0
+    },
+    "canong3_08_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_08_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_35_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_35_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_35_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_35_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_20_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_20_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_23_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_23_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_35_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_35_sub_08.tif",
+        "label": 0
+    },
+    "nikond70_05_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_05_sub_06.tif",
+        "label": 0
+    },
+    "canong3_02_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_02_sub_01.tif",
+        "label": 0
+    },
+    "nikond70_02_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_02_sub_03.tif",
+        "label": 0
+    },
+    "canonxt_29_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_29_sub_03.tif",
+        "label": 0
+    },
+    "kodakdcs330_02_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/kodakdcs330_02_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_32_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_32_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_23_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_23_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_32_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_32_sub_07.tif",
+        "label": 0
+    },
+    "nikond70_02_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_02_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_26_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_26_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_02_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_02_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_26_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_26_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_23_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_23_sub_04.tif",
+        "label": 0
+    },
+    "canong3_08_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_08_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_32_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_32_sub_03.tif",
+        "label": 0
+    },
+    "canong3_08_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_08_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_17_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_17_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_14_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_14_sub_07.tif",
+        "label": 0
+    },
+    "canonxt_29_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_29_sub_07.tif",
+        "label": 0
+    },
+    "canong3_02_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_02_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_08_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_08_sub_04.tif",
+        "label": 0
+    },
+    "nikond70_08_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_08_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_05_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_05_sub_03.tif",
+        "label": 0
+    },
+    "canonxt_35_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_35_sub_05.tif",
+        "label": 0
+    },
+    "canonxt_32_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_32_sub_09.tif",
+        "label": 0
+    },
+    "nikond70_05_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_05_sub_04.tif",
+        "label": 0
+    },
+    "nikond70_02_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_02_sub_09.tif",
+        "label": 0
+    },
+    "canonxt_14_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_14_sub_06.tif",
+        "label": 0
+    },
+    "canonxt_32_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_32_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_05_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_05_sub_04.tif",
+        "label": 0
+    },
+    "nikond70_08_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_08_sub_04.tif",
+        "label": 0
+    },
+    "canong3_05_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canong3_05_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_08_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_08_sub_08.tif",
+        "label": 0
+    },
+    "nikond70_02_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_02_sub_05.tif",
+        "label": 0
+    },
+    "nikond70_05_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_05_sub_01.tif",
+        "label": 0
+    },
+    "canonxt_11_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_11_sub_04.tif",
+        "label": 0
+    },
+    "canonxt_23_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_23_sub_08.tif",
+        "label": 0
+    },
+    "canonxt_02_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_02_sub_03.tif",
+        "label": 0
+    },
+    "nikond70_02_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/nikond70_02_sub_02.tif",
+        "label": 0
+    },
+    "canonxt_08_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/au/canonxt_08_sub_09.tif",
+        "label": 0
+    },
+    "canong3_kodakdcs330_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_07.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_07_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_03.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_03_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_10.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_10.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_10_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_26.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_26.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_26_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_29.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_29.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_29_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_21.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_21.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_21_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_15.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_15.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_15_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_01.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_01_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_30.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_30.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_30_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_01.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_01_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_20.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_20.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_20_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_15.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_15.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_15_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_16.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_16.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_16_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_13.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_13.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_13_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_05.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_05_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_24.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_24.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_24_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_20.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_20.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_20_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_30.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_30.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_30_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_28.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_28.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_28_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_04.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_04_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_02.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_02_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_04.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_04_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_22.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_22.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_22_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_09.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_09_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_24.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_24.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_24_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_28.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_28.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_28_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_02.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_02_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_15.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_15.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_15_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_11.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_11.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_11_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_25.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_25.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_25_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_04.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_04_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_21.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_21.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_21_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_30.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_30.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_30_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_25.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_25.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_25_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_22.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_22.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_22_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_25.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_25.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_25_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_18.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_18.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_18_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_11.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_11.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_11_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_17.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_17.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_17_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_17.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_17.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_17_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_03.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_03_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_13.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_13.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_13_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_21.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_21.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_21_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_07.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_07_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_08.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_08_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_01.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_01_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_19.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_19.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_19_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_08.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_08_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_14.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_14.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_14_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_29.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_29.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_29_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_09.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_09_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_04.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_04_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_06.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_06_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_22.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_22.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_22_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_09.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_09_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_20.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_20.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_20_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_10.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_10.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_10_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_18.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_18.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_18_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_28.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_28.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_28_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_25.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_25.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_25_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_03.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_03_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_12.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_12.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_12_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_09.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_09_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_22.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_22.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_22_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_16.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_16.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_16_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_19.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_19.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_19_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_06.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_06_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_26.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_26.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_26_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_09.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_09_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_28.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_28.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_28_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_26.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_26.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_26_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_11.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_11.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_11_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_15.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_15.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_15_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_22.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_22.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_22_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_23.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_23.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_23_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_27.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_27.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_27_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_05.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_05_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_22.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_22.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_22_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_23.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_23.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_23_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_23.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_23.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_23_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_27.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_27.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_27_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_04.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_04_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_07.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_07_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_10.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_10.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_10_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_18.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_18.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_18_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_03.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_03_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_24.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_24.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_24_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_07.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_07_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_14.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_14.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_14_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_21.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_21.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_21_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_30.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_30.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_30_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_05.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_05_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_23.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_23.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_23_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_27.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_27.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_27_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_27.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_27.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_27_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_24.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_24.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_24_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_24.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_24.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_24_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_08.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_08_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_06.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_06_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_27.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_27.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_27_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_29.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_29.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_29_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_12.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_12.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_12_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_01.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_01_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_10.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_10.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_10_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_14.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_14.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_14_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_16.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_16.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_16_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_12.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_12.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_12_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_08.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_08_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_19.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_19.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_19_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_03.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_03_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_09.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_09.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_09_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_17.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_17.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_17_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_02.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_02_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_16.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_16.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_16_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_20.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_20.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_20_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_17.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_17.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_17_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_16.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_16.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_16_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_23.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_23.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_23_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_05.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_05_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_20.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_20.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_20_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_18.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_18.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_18_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_30.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_30.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_30_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_21.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_21.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_21_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_12.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_12.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_12_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_13.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_13.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_13_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_18.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_18.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_18_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_07.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_07_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_07.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_07.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_07_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_17.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_17.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_17_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_11.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_11.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_11_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_06.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_06_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_29.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_29.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_29_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_14.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_14.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_14_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_14.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_14.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_14_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_01.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_01_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_26.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_26.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_26_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_29.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_29.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_29_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_24.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_24.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_24_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_13.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_13.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_13_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_30.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_30.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_30_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_17.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_17.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_17_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_13.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_13.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_13_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_19.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_19.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_19_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_04.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_04.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_04_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_11.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_11.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_11_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_01.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_01.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_01_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_12.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_12.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_12_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_13.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_13.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_13_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_14.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_14.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_14_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_26.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_26.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_26_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_26.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_26.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_26_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_11.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_11.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_11_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_02.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_02_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_23.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_23.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_23_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_08.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_08_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_28.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_28.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_28_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_05.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_05_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_15.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_15.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_15_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_20.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_20.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_20_gt.png",
+        "label": 1
+    },
+    "nikond70_kodakdcs330_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_kodakdcs330_sub_06.tif",
+        "mask": "data/columbia/val/mask/nikond70_kodakdcs330_sub_06_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_10.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_10.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_10_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_15.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_15.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_15_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_02.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_02_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_21.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_21.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_21_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_16.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_16.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_16_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_25.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_25.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_25_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_19.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_19.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_19_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_06.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_06.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_06_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_19.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_19.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_19_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_03.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_03.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_03_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_28.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_28.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_28_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_05.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_05.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_05_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_29.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_29.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_29_gt.png",
+        "label": 1
+    },
+    "canong3_kodakdcs330_sub_12.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_kodakdcs330_sub_12.tif",
+        "mask": "data/columbia/val/mask/canong3_kodakdcs330_sub_12_gt.png",
+        "label": 1
+    },
+    "canonxt_kodakdcs330_sub_18.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canonxt_kodakdcs330_sub_18.tif",
+        "mask": "data/columbia/val/mask/canonxt_kodakdcs330_sub_18_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_27.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_27.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_27_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_02.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_02.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_02_gt.png",
+        "label": 1
+    },
+    "nikond70_canonxt_sub_10.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/nikond70_canonxt_sub_10.tif",
+        "mask": "data/columbia/val/mask/nikond70_canonxt_sub_10_gt.png",
+        "label": 1
+    },
+    "canong3_canonxt_sub_25.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_canonxt_sub_25.tif",
+        "mask": "data/columbia/val/mask/canong3_canonxt_sub_25_gt.png",
+        "label": 1
+    },
+    "canong3_nikond70_sub_08.tif": {
+        "subset": "val",
+        "path": "data/columbia/val/tp/canong3_nikond70_sub_08.tif",
+        "mask": "data/columbia/val/mask/canong3_nikond70_sub_08_gt.png",
+        "label": 1
+    }
+}

data/coverage_datalist.json ADDED Viewed

	@@ -0,0 +1,1048 @@

+{
+    "16t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/16t.tif",
+        "mask": "data/coverage/val/mask/16forged.tif",
+        "label": 1
+    },
+    "25t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/25t.tif",
+        "mask": "data/coverage/val/mask/25forged.tif",
+        "label": 1
+    },
+    "81.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/81.tif",
+        "label": 0
+    },
+    "26.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/26.tif",
+        "label": 0
+    },
+    "67.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/67.tif",
+        "label": 0
+    },
+    "35t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/35t.tif",
+        "mask": "data/coverage/val/mask/35forged.tif",
+        "label": 1
+    },
+    "30t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/30t.tif",
+        "mask": "data/coverage/val/mask/30forged.tif",
+        "label": 1
+    },
+    "94t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/94t.tif",
+        "mask": "data/coverage/val/mask/94forged.tif",
+        "label": 1
+    },
+    "9.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/9.tif",
+        "label": 0
+    },
+    "52.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/52.tif",
+        "label": 0
+    },
+    "46t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/46t.tif",
+        "mask": "data/coverage/val/mask/46forged.tif",
+        "label": 1
+    },
+    "86t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/86t.tif",
+        "mask": "data/coverage/val/mask/86forged.tif",
+        "label": 1
+    },
+    "95.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/95.tif",
+        "label": 0
+    },
+    "94.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/94.tif",
+        "label": 0
+    },
+    "73t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/73t.tif",
+        "mask": "data/coverage/val/mask/73forged.tif",
+        "label": 1
+    },
+    "23t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/23t.tif",
+        "mask": "data/coverage/val/mask/23forged.tif",
+        "label": 1
+    },
+    "68t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/68t.tif",
+        "mask": "data/coverage/val/mask/68forged.tif",
+        "label": 1
+    },
+    "88t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/88t.tif",
+        "mask": "data/coverage/val/mask/88forged.tif",
+        "label": 1
+    },
+    "45.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/45.tif",
+        "label": 0
+    },
+    "93t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/93t.tif",
+        "mask": "data/coverage/val/mask/93forged.tif",
+        "label": 1
+    },
+    "27.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/27.tif",
+        "label": 0
+    },
+    "44.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/44.tif",
+        "label": 0
+    },
+    "48.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/48.tif",
+        "label": 0
+    },
+    "10.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/10.tif",
+        "label": 0
+    },
+    "50t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/50t.tif",
+        "mask": "data/coverage/val/mask/50forged.tif",
+        "label": 1
+    },
+    "90.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/90.tif",
+        "label": 0
+    },
+    "6.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/6.tif",
+        "label": 0
+    },
+    "24t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/24t.tif",
+        "mask": "data/coverage/val/mask/24forged.tif",
+        "label": 1
+    },
+    "87.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/87.tif",
+        "label": 0
+    },
+    "20.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/20.tif",
+        "label": 0
+    },
+    "54.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/54.tif",
+        "label": 0
+    },
+    "72t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/72t.tif",
+        "mask": "data/coverage/val/mask/72forged.tif",
+        "label": 1
+    },
+    "13.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/13.tif",
+        "label": 0
+    },
+    "67t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/67t.tif",
+        "mask": "data/coverage/val/mask/67forged.tif",
+        "label": 1
+    },
+    "32.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/32.tif",
+        "label": 0
+    },
+    "8t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/8t.tif",
+        "mask": "data/coverage/val/mask/8forged.tif",
+        "label": 1
+    },
+    "22.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/22.tif",
+        "label": 0
+    },
+    "35.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/35.tif",
+        "label": 0
+    },
+    "18t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/18t.tif",
+        "mask": "data/coverage/val/mask/18forged.tif",
+        "label": 1
+    },
+    "20t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/20t.tif",
+        "mask": "data/coverage/val/mask/20forged.tif",
+        "label": 1
+    },
+    "63t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/63t.tif",
+        "mask": "data/coverage/val/mask/63forged.tif",
+        "label": 1
+    },
+    "75t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/75t.tif",
+        "mask": "data/coverage/val/mask/75forged.tif",
+        "label": 1
+    },
+    "63.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/63.tif",
+        "label": 0
+    },
+    "56.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/56.tif",
+        "label": 0
+    },
+    "3t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/3t.tif",
+        "mask": "data/coverage/val/mask/3forged.tif",
+        "label": 1
+    },
+    "97.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/97.tif",
+        "label": 0
+    },
+    "42t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/42t.tif",
+        "mask": "data/coverage/val/mask/42forged.tif",
+        "label": 1
+    },
+    "86.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/86.tif",
+        "label": 0
+    },
+    "66t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/66t.tif",
+        "mask": "data/coverage/val/mask/66forged.tif",
+        "label": 1
+    },
+    "61.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/61.tif",
+        "label": 0
+    },
+    "49.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/49.tif",
+        "label": 0
+    },
+    "4.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/4.tif",
+        "label": 0
+    },
+    "96t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/96t.tif",
+        "mask": "data/coverage/val/mask/96forged.tif",
+        "label": 1
+    },
+    "81t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/81t.tif",
+        "mask": "data/coverage/val/mask/81forged.tif",
+        "label": 1
+    },
+    "2t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/2t.tif",
+        "mask": "data/coverage/val/mask/2forged.tif",
+        "label": 1
+    },
+    "62.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/62.tif",
+        "label": 0
+    },
+    "78t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/78t.tif",
+        "mask": "data/coverage/val/mask/78forged.tif",
+        "label": 1
+    },
+    "92t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/92t.tif",
+        "mask": "data/coverage/val/mask/92forged.tif",
+        "label": 1
+    },
+    "77.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/77.tif",
+        "label": 0
+    },
+    "14.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/14.tif",
+        "label": 0
+    },
+    "12t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/12t.tif",
+        "mask": "data/coverage/val/mask/12forged.tif",
+        "label": 1
+    },
+    "96.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/96.tif",
+        "label": 0
+    },
+    "85t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/85t.tif",
+        "mask": "data/coverage/val/mask/85forged.tif",
+        "label": 1
+    },
+    "50.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/50.tif",
+        "label": 0
+    },
+    "100.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/100.tif",
+        "label": 0
+    },
+    "76t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/76t.tif",
+        "mask": "data/coverage/val/mask/76forged.tif",
+        "label": 1
+    },
+    "71.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/71.tif",
+        "label": 0
+    },
+    "42.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/42.tif",
+        "label": 0
+    },
+    "5t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/5t.tif",
+        "mask": "data/coverage/val/mask/5forged.tif",
+        "label": 1
+    },
+    "41.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/41.tif",
+        "label": 0
+    },
+    "71t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/71t.tif",
+        "mask": "data/coverage/val/mask/71forged.tif",
+        "label": 1
+    },
+    "90t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/90t.tif",
+        "mask": "data/coverage/val/mask/90forged.tif",
+        "label": 1
+    },
+    "32t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/32t.tif",
+        "mask": "data/coverage/val/mask/32forged.tif",
+        "label": 1
+    },
+    "33.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/33.tif",
+        "label": 0
+    },
+    "87t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/87t.tif",
+        "mask": "data/coverage/val/mask/87forged.tif",
+        "label": 1
+    },
+    "70.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/70.tif",
+        "label": 0
+    },
+    "2.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/2.tif",
+        "label": 0
+    },
+    "43.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/43.tif",
+        "label": 0
+    },
+    "43t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/43t.tif",
+        "mask": "data/coverage/val/mask/43forged.tif",
+        "label": 1
+    },
+    "75.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/75.tif",
+        "label": 0
+    },
+    "40t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/40t.tif",
+        "mask": "data/coverage/val/mask/40forged.tif",
+        "label": 1
+    },
+    "17t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/17t.tif",
+        "mask": "data/coverage/val/mask/17forged.tif",
+        "label": 1
+    },
+    "28t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/28t.tif",
+        "mask": "data/coverage/val/mask/28forged.tif",
+        "label": 1
+    },
+    "82.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/82.tif",
+        "label": 0
+    },
+    "73.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/73.tif",
+        "label": 0
+    },
+    "78.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/78.tif",
+        "label": 0
+    },
+    "64.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/64.tif",
+        "label": 0
+    },
+    "69t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/69t.tif",
+        "mask": "data/coverage/val/mask/69forged.tif",
+        "label": 1
+    },
+    "15t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/15t.tif",
+        "mask": "data/coverage/val/mask/15forged.tif",
+        "label": 1
+    },
+    "47t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/47t.tif",
+        "mask": "data/coverage/val/mask/47forged.tif",
+        "label": 1
+    },
+    "13t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/13t.tif",
+        "mask": "data/coverage/val/mask/13forged.tif",
+        "label": 1
+    },
+    "15.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/15.tif",
+        "label": 0
+    },
+    "23.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/23.tif",
+        "label": 0
+    },
+    "64t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/64t.tif",
+        "mask": "data/coverage/val/mask/64forged.tif",
+        "label": 1
+    },
+    "77t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/77t.tif",
+        "mask": "data/coverage/val/mask/77forged.tif",
+        "label": 1
+    },
+    "98.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/98.tif",
+        "label": 0
+    },
+    "5.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/5.tif",
+        "label": 0
+    },
+    "79t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/79t.tif",
+        "mask": "data/coverage/val/mask/79forged.tif",
+        "label": 1
+    },
+    "9t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/9t.tif",
+        "mask": "data/coverage/val/mask/9forged.tif",
+        "label": 1
+    },
+    "91.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/91.tif",
+        "label": 0
+    },
+    "85.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/85.tif",
+        "label": 0
+    },
+    "91t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/91t.tif",
+        "mask": "data/coverage/val/mask/91forged.tif",
+        "label": 1
+    },
+    "97t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/97t.tif",
+        "mask": "data/coverage/val/mask/97forged.tif",
+        "label": 1
+    },
+    "98t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/98t.tif",
+        "mask": "data/coverage/val/mask/98forged.tif",
+        "label": 1
+    },
+    "60t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/60t.tif",
+        "mask": "data/coverage/val/mask/60forged.tif",
+        "label": 1
+    },
+    "11t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/11t.tif",
+        "mask": "data/coverage/val/mask/11forged.tif",
+        "label": 1
+    },
+    "68.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/68.tif",
+        "label": 0
+    },
+    "84.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/84.tif",
+        "label": 0
+    },
+    "84t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/84t.tif",
+        "mask": "data/coverage/val/mask/84forged.tif",
+        "label": 1
+    },
+    "4t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/4t.tif",
+        "mask": "data/coverage/val/mask/4forged.tif",
+        "label": 1
+    },
+    "79.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/79.tif",
+        "label": 0
+    },
+    "36t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/36t.tif",
+        "mask": "data/coverage/val/mask/36forged.tif",
+        "label": 1
+    },
+    "1.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/1.tif",
+        "label": 0
+    },
+    "10t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/10t.tif",
+        "mask": "data/coverage/val/mask/10forged.tif",
+        "label": 1
+    },
+    "38.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/38.tif",
+        "label": 0
+    },
+    "39.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/39.tif",
+        "label": 0
+    },
+    "40.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/40.tif",
+        "label": 0
+    },
+    "17.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/17.tif",
+        "label": 0
+    },
+    "59.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/59.tif",
+        "label": 0
+    },
+    "3.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/3.tif",
+        "label": 0
+    },
+    "53t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/53t.tif",
+        "mask": "data/coverage/val/mask/53forged.tif",
+        "label": 1
+    },
+    "92.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/92.tif",
+        "label": 0
+    },
+    "62t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/62t.tif",
+        "mask": "data/coverage/val/mask/62forged.tif",
+        "label": 1
+    },
+    "66.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/66.tif",
+        "label": 0
+    },
+    "14t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/14t.tif",
+        "mask": "data/coverage/val/mask/14forged.tif",
+        "label": 1
+    },
+    "58.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/58.tif",
+        "label": 0
+    },
+    "82t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/82t.tif",
+        "mask": "data/coverage/val/mask/82forged.tif",
+        "label": 1
+    },
+    "31t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/31t.tif",
+        "mask": "data/coverage/val/mask/31forged.tif",
+        "label": 1
+    },
+    "55.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/55.tif",
+        "label": 0
+    },
+    "31.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/31.tif",
+        "label": 0
+    },
+    "80t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/80t.tif",
+        "mask": "data/coverage/val/mask/80forged.tif",
+        "label": 1
+    },
+    "18.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/18.tif",
+        "label": 0
+    },
+    "53.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/53.tif",
+        "label": 0
+    },
+    "46.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/46.tif",
+        "label": 0
+    },
+    "26t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/26t.tif",
+        "mask": "data/coverage/val/mask/26forged.tif",
+        "label": 1
+    },
+    "99.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/99.tif",
+        "label": 0
+    },
+    "28.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/28.tif",
+        "label": 0
+    },
+    "38t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/38t.tif",
+        "mask": "data/coverage/val/mask/38forged.tif",
+        "label": 1
+    },
+    "70t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/70t.tif",
+        "mask": "data/coverage/val/mask/70forged.tif",
+        "label": 1
+    },
+    "47.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/47.tif",
+        "label": 0
+    },
+    "34.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/34.tif",
+        "label": 0
+    },
+    "49t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/49t.tif",
+        "mask": "data/coverage/val/mask/49forged.tif",
+        "label": 1
+    },
+    "22t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/22t.tif",
+        "mask": "data/coverage/val/mask/22forged.tif",
+        "label": 1
+    },
+    "74t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/74t.tif",
+        "mask": "data/coverage/val/mask/74forged.tif",
+        "label": 1
+    },
+    "65t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/65t.tif",
+        "mask": "data/coverage/val/mask/65forged.tif",
+        "label": 1
+    },
+    "8.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/8.tif",
+        "label": 0
+    },
+    "1t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/1t.tif",
+        "mask": "data/coverage/val/mask/1forged.tif",
+        "label": 1
+    },
+    "80.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/80.tif",
+        "label": 0
+    },
+    "60.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/60.tif",
+        "label": 0
+    },
+    "21.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/21.tif",
+        "label": 0
+    },
+    "57.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/57.tif",
+        "label": 0
+    },
+    "51.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/51.tif",
+        "label": 0
+    },
+    "7t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/7t.tif",
+        "mask": "data/coverage/val/mask/7forged.tif",
+        "label": 1
+    },
+    "93.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/93.tif",
+        "label": 0
+    },
+    "83.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/83.tif",
+        "label": 0
+    },
+    "27t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/27t.tif",
+        "mask": "data/coverage/val/mask/27forged.tif",
+        "label": 1
+    },
+    "19.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/19.tif",
+        "label": 0
+    },
+    "34t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/34t.tif",
+        "mask": "data/coverage/val/mask/34forged.tif",
+        "label": 1
+    },
+    "52t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/52t.tif",
+        "mask": "data/coverage/val/mask/52forged.tif",
+        "label": 1
+    },
+    "45t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/45t.tif",
+        "mask": "data/coverage/val/mask/45forged.tif",
+        "label": 1
+    },
+    "12.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/12.tif",
+        "label": 0
+    },
+    "16.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/16.tif",
+        "label": 0
+    },
+    "29.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/29.tif",
+        "label": 0
+    },
+    "89.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/89.tif",
+        "label": 0
+    },
+    "29t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/29t.tif",
+        "mask": "data/coverage/val/mask/29forged.tif",
+        "label": 1
+    },
+    "36.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/36.tif",
+        "label": 0
+    },
+    "39t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/39t.tif",
+        "mask": "data/coverage/val/mask/39forged.tif",
+        "label": 1
+    },
+    "100t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/100t.tif",
+        "mask": "data/coverage/val/mask/100forged.tif",
+        "label": 1
+    },
+    "21t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/21t.tif",
+        "mask": "data/coverage/val/mask/21forged.tif",
+        "label": 1
+    },
+    "88.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/88.tif",
+        "label": 0
+    },
+    "74.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/74.tif",
+        "label": 0
+    },
+    "7.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/7.tif",
+        "label": 0
+    },
+    "33t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/33t.tif",
+        "mask": "data/coverage/val/mask/33forged.tif",
+        "label": 1
+    },
+    "89t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/89t.tif",
+        "mask": "data/coverage/val/mask/89forged.tif",
+        "label": 1
+    },
+    "24.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/24.tif",
+        "label": 0
+    },
+    "37t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/37t.tif",
+        "mask": "data/coverage/val/mask/37forged.tif",
+        "label": 1
+    },
+    "83t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/83t.tif",
+        "mask": "data/coverage/val/mask/83forged.tif",
+        "label": 1
+    },
+    "19t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/19t.tif",
+        "mask": "data/coverage/val/mask/19forged.tif",
+        "label": 1
+    },
+    "76.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/76.tif",
+        "label": 0
+    },
+    "65.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/65.tif",
+        "label": 0
+    },
+    "51t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/51t.tif",
+        "mask": "data/coverage/val/mask/51forged.tif",
+        "label": 1
+    },
+    "69.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/69.tif",
+        "label": 0
+    },
+    "37.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/37.tif",
+        "label": 0
+    },
+    "25.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/25.tif",
+        "label": 0
+    },
+    "72.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/72.tif",
+        "label": 0
+    },
+    "44t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/44t.tif",
+        "mask": "data/coverage/val/mask/44forged.tif",
+        "label": 1
+    },
+    "54t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/54t.tif",
+        "mask": "data/coverage/val/mask/54forged.tif",
+        "label": 1
+    },
+    "99t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/99t.tif",
+        "mask": "data/coverage/val/mask/99forged.tif",
+        "label": 1
+    },
+    "30.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/30.tif",
+        "label": 0
+    },
+    "11.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/11.tif",
+        "label": 0
+    },
+    "6t.tif": {
+        "subset": "val",
+        "path": "data/coverage/val/image/6t.tif",
+        "mask": "data/coverage/val/mask/6forged.tif",
+        "label": 1
+    }
+}

datasets/__init__.py ADDED Viewed

	@@ -0,0 +1,28 @@

+from typing import Dict
+import albumentations as A
+from .dataset import ImageDataset, crop_to_smallest_collate_fn
+def get_dataset(datalist: Dict, subset, transform, opt):
+    datasets = {}
+    for k, v in datalist.items():
+        # val_transform = transform
+        if k in ["imd2020", "nist16"]:
+            val_transform = A.Compose([A.SmallestMaxSize(opt.tile_size)])
+        else:
+            val_transform = transform
+        datasets[k] = ImageDataset(
+            k,
+            v,
+            subset,
+            val_transform,
+            opt.uncorrect_label,
+            opt.mvc_spixel
+            if subset == "train"
+            else opt.crf_postproc or opt.convcrf_postproc or opt.spixel_postproc,
+            opt.mvc_num_spixel,
+        )
+    return datasets

datasets/dataset.py ADDED Viewed

	@@ -0,0 +1,230 @@

+import json
+import os
+import random
+import signal
+import albumentations as A
+import cv2
+import h5py
+import numpy as np
+import torch
+import torchvision.transforms as T
+from albumentations.pytorch.functional import img_to_tensor, mask_to_tensor
+from skimage import segmentation
+from termcolor import cprint
+from timm.data.constants import IMAGENET_DEFAULT_MEAN, IMAGENET_DEFAULT_STD
+class ImageDataset(torch.utils.data.Dataset):
+    def __init__(
+        self,
+        dataset_name: str,
+        datalist: str,
+        mode: str,
+        transform=None,
+        uncorrect_label=False,
+        spixel: bool = False,
+        num_spixel: int = 100,
+    ):
+        super().__init__()
+        assert os.path.exists(datalist), f"{datalist} does not exist"
+        assert mode in ["train", "val"], f"{mode} unsupported mode"
+        with open(datalist, "r") as f:
+            self.datalist = json.load(f)
+        self.datalist = dict(
+            filter(lambda x: x[1]["subset"] == mode, self.datalist.items())
+        )
+        if len(self.datalist) == 0:
+            raise NotImplementedError(f"no item in {datalist} {mode} dataset")
+        self.video_id_list = list(self.datalist.keys())
+        self.transform = transform
+        self.uncorrect_label = uncorrect_label
+        self.dataset_name = dataset_name
+        h5_path = os.path.join("data", dataset_name + "_dataset.hdf5")
+        self.use_h5 = os.path.exists(h5_path)
+        if self.use_h5:
+            cprint(
+                f"{dataset_name} {mode} HDF5 database found, loading into memory...",
+                "blue",
+            )
+            try:
+                with timeout(seconds=60):
+                    self.database = h5py.File(h5_path, "r", driver="core")
+            except Exception as e:
+                self.database = h5py.File(h5_path, "r")
+                cprint(
+                    "Failed to load {} HDF5 database to memory due to {}".format(
+                        dataset_name, str(e)
+                    ),
+                    "red",
+                )
+        else:
+            cprint(
+                f"{dataset_name} {mode} HDF5 database not found, using raw images.",
+                "blue",
+            )
+        self.spixel = False
+        self.num_spixel = num_spixel
+        if spixel:
+            self.spixel = True
+            self.spixel_dict = {}
+    def __getitem__(self, index):
+        image_id = self.video_id_list[index]
+        info = self.datalist[image_id]
+        label = float(info["label"])
+        if self.use_h5:
+            try:
+                image = self.database[info["path"].replace("/", "-")][()]
+            except Exception as e:
+                cprint(
+                    "Failed to load {} from {} due to {}".format(
+                        image_id, self.dataset_name, str(e)
+                    ),
+                    "red",
+                )
+                image = cv2.imread(info["path"])
+                image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
+        else:
+            assert os.path.exists(info["path"]), f"{info['path']} does not exist!"
+            image = cv2.imread(info["path"])
+            image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
+        if self.spixel and image_id not in self.spixel_dict.keys():
+            spixel = segmentation.slic(
+                image, n_segments=self.num_spixel, channel_axis=2, start_label=0
+            )
+            self.spixel_dict[image_id] = spixel
+        image_size = image.shape[:2]
+        # 1 means modified area, 0 means pristine
+        if "mask" in info.keys():
+            if self.use_h5:
+                try:
+                    mask = self.database[info["mask"].replace("/", "-")][()]
+                except Exception as e:
+                    cprint(
+                        "Failed to load {} mask from {} due to {}".format(
+                            image_id, self.dataset_name, str(e)
+                        ),
+                        "red",
+                    )
+                    mask = cv2.imread(info["mask"], cv2.IMREAD_GRAYSCALE)
+            else:
+                mask = cv2.imread(info["mask"], cv2.IMREAD_GRAYSCALE)
+        else:
+            if label == 0:
+                mask = np.zeros(image_size)
+            else:
+                mask = np.ones(image_size)
+        if self.transform is not None:
+            if self.spixel:
+                transformed = self.transform(
+                    image=image, masks=[mask, self.spixel_dict[image_id]]
+                )  # TODO I am not sure if this is correct for scaling
+                mask = transformed["masks"][0]
+                spixel = transformed["masks"][1]
+            else:
+                transformed = self.transform(image=image, mask=mask)
+                mask = transformed["mask"]
+            image = transformed["image"]
+            if not self.uncorrect_label:
+                label = float(mask.max() != 0.0)
+        if label == 1.0 and image.shape[:-1] != mask.shape:
+            mask = cv2.resize(mask, dsize=(image.shape[1], image.shape[0]))
+        unnormalized_image = img_to_tensor(image)
+        image = img_to_tensor(
+            image,
+            normalize={"mean": IMAGENET_DEFAULT_MEAN, "std": IMAGENET_DEFAULT_STD},
+        )
+        mask = mask_to_tensor(mask, num_classes=1, sigmoid=True)
+        output = {
+            "image": image,  # tensor of 3, H, W
+            "label": label,  # float
+            "mask": mask,  # tensor of 1, H, W
+            "id": image_id,  # string
+            "unnormalized_image": unnormalized_image,
+        }  # tensor of 3, H, W
+        if self.spixel:
+            spixel = torch.from_numpy(spixel).unsqueeze(0)
+            output["spixel"] = spixel
+        return output
+    def __len__(self):
+        return len(self.video_id_list)
+def crop_to_smallest_collate_fn(batch, max_size=128, uncorrect_label=False):
+    # get the smallest image size in a batch
+    smallest_size = [max_size, max_size]
+    for item in batch:
+        if item["mask"].shape[-2:] != item["image"].shape[-2:]:
+            cprint(
+                f"{item['id']} has inconsistent image-mask sizes,"
+                "with image size {item['image'].shape[-2:]} and mask size"
+                "{item['mask'].shape[-2:]}!",
+                "red",
+            )
+        image_size = item["image"].shape[-2:]
+        if image_size[0] < smallest_size[0]:
+            smallest_size[0] = image_size[0]
+        if image_size[1] < smallest_size[1]:
+            smallest_size[1] = image_size[1]
+    # crop all images and masks in each item to the smallest size
+    result = {}
+    for item in batch:
+        image_size = item["image"].shape[-2:]
+        x1 = random.randint(0, image_size[1] - smallest_size[1])
+        y1 = random.randint(0, image_size[0] - smallest_size[0])
+        x2 = x1 + smallest_size[1]
+        y2 = y1 + smallest_size[0]
+        for k in ["image", "mask", "unnormalized_image", "spixel"]:
+            if k not in item.keys():
+                continue
+            item[k] = item[k][:, y1:y2, x1:x2]
+            if not uncorrect_label:
+                item["label"] = float(item["mask"].max() != 0.0)
+        for k, v in item.items():
+            if k in result.keys():
+                result[k].append(v)
+            else:
+                result[k] = [v]
+    # stack all outputs
+    for k, v in result.items():
+        if k in ["image", "mask", "unnormalized_image", "spixel"]:
+            if k not in result.keys():
+                continue
+            result[k] = torch.stack(v, dim=0)
+        elif k in ["label"]:
+            result[k] = torch.tensor(v).float()
+    return result
+class timeout:
+    def __init__(self, seconds=1, error_message="Timeout"):
+        self.seconds = seconds
+        self.error_message = error_message
+    def handle_timeout(self, signum, frame):
+        raise TimeoutError(self.error_message)
+    def __enter__(self):
+        signal.signal(signal.SIGALRM, self.handle_timeout)
+        signal.alarm(self.seconds)
+    def __exit__(self, type, value, traceback):
+        signal.alarm(0)

engine.py ADDED Viewed

	@@ -0,0 +1,454 @@

+import itertools
+import os
+import random
+import shutil
+from math import ceil
+from typing import Dict, List
+import numpy as np
+import prettytable as pt
+import torch
+import torch.nn as nn
+from fast_pytorch_kmeans import KMeans
+from pathlib2 import Path
+from scipy.stats import hmean
+from sklearn import metrics
+from termcolor import cprint
+from torchvision.utils import draw_segmentation_masks, make_grid, save_image
+import utils.misc as misc
+from losses import get_spixel_tgt_map, get_volume_seg_map
+from utils.convcrf import convcrf
+from utils.crf import DenseCRF
+def train(
+    model: nn.Module,
+    dataloader,
+    dataset_title: str,
+    optimizer_dict: Dict,
+    criterion,
+    epoch: int,
+    writer,
+    suffix: str,
+    opt,
+):
+    metric_logger = misc.MetricLogger(writer=writer, suffix=suffix)
+    cprint("{}-th epoch training on {}".format(epoch, dataset_title), "blue")
+    model.train()
+    roc_auc_elements = {
+        modality: {"map_scores": [], "vol_scores": []}
+        for modality in itertools.chain(opt.modality, ["ensemble"])
+    }
+    roc_auc_elements["labels"] = []
+    for i, data in metric_logger.log_every(
+        dataloader, print_freq=opt.print_freq, header=f"[{suffix} {epoch}]"
+    ):
+        if (opt.debug or opt.wholetest) and i > 50:
+            break
+        for modality, optimizer in optimizer_dict.items():
+            optimizer.zero_grad()
+        image = data["image"].to(opt.device)
+        unnormalized_image = data["unnormalized_image"].to(opt.device)
+        label = data["label"].to(opt.device)
+        mask = data["mask"].to(opt.device)
+        spixel = data["spixel"].to(opt.device) if opt.mvc_spixel else None
+        outputs = model(
+            image,
+            seg_size=None
+            if opt.loss_on_mid_map
+            else [image.shape[-2], image.shape[-1]],
+        )
+        losses = criterion(
+            outputs,
+            label,
+            mask,
+            epoch=epoch,
+            max_epoch=opt.epochs,
+            spixel=spixel,
+            raw_image=unnormalized_image,
+        )
+        total_loss = losses["total_loss"]
+        total_loss.backward()
+        for modality in opt.modality:
+            if opt.grad_clip > 0.0:
+                grad_norm = nn.utils.clip_grad_norm_(
+                    model.sub_models[modality].parameters(), opt.grad_clip
+                )
+                metric_logger.update(**{f"grad_norm/{modality}": grad_norm})
+            optimizer_dict[modality].step()
+        # image-level metrices logger
+        roc_auc_elements["labels"].extend(label.tolist())
+        for modality in itertools.chain(opt.modality, ["ensemble"]):
+            roc_auc_elements[modality]["map_scores"].extend(
+                outputs[modality]["map_pred"].tolist()
+            )
+            roc_auc_elements[modality]["vol_scores"].extend(
+                (outputs[modality]["vol_pred"]).tolist()
+            )
+        metric_logger.update(**losses)
+    image_metrics = update_image_roc_auc_metric(
+        opt.modality + ["ensemble"], roc_auc_elements, None
+    )
+    metric_logger.update(**image_metrics)
+    metric_logger.write_tensorboard(epoch)
+    print("Average status:")
+    print(metric_logger.stat_table())
+def bundled_evaluate(
+    model: nn.Module, dataloaders: Dict, criterion, epoch, writer, suffix, opt
+):
+    metric_logger = misc.MetricLogger(writer=writer, suffix=suffix + "_avg")
+    for dataset, dataloader in dataloaders.items():
+        outputs = evaluate(
+            model,
+            dataloader,
+            criterion,
+            dataset,
+            epoch,
+            writer,
+            suffix + f"_{dataset}",
+            opt,
+        )
+        old_keys = list(outputs.keys())
+        for k in old_keys:
+            outputs[k.replace(dataset.upper(), "AVG")] = outputs[k]
+        for k in old_keys:
+            del outputs[k]
+        metric_logger.update(**outputs)
+    metric_logger.write_tensorboard(epoch)
+    print("Average status:")
+    print(metric_logger.stat_table())
+    return metric_logger.get_meters()
+def evaluate(
+    model: nn.Module,
+    dataloader,
+    criterion,
+    dataset_title: str,
+    epoch: int,
+    writer,
+    suffix: str,
+    opt,
+):
+    metric_logger = misc.MetricLogger(writer=writer, suffix=suffix)
+    cprint("{}-th epoch evaluation on {}".format(epoch, dataset_title.upper()), "blue")
+    model.eval()
+    if opt.crf_postproc:
+        postprocess = DenseCRF(
+            iter_max=opt.crf_iter_max,
+            pos_w=opt.crf_pos_w,
+            pos_xy_std=opt.crf_pos_xy_std,
+            bi_w=opt.crf_bi_w,
+            bi_xy_std=opt.crf_bi_xy_std,
+            bi_rgb_std=opt.crf_bi_rgb_std,
+        )
+    elif opt.convcrf_postproc:
+        convcrf_config = convcrf.default_conf
+        convcrf_config["skip_init_softmax"] = True
+        convcrf_config["final_softmax"] = True
+        shape = [opt.convcrf_shape, opt.convcrf_shape]
+        postprocess = convcrf.GaussCRF(
+            conf=convcrf_config, shape=shape, nclasses=2, use_gpu=True
+        ).to(opt.device)
+    figure_path = opt.figure_path + f"_{dataset_title.upper()}"
+    if opt.save_figure:
+        if os.path.exists(figure_path):
+            shutil.rmtree(figure_path)
+        os.mkdir(figure_path)
+        cprint("Saving figures to {}".format(figure_path), "blue")
+    if opt.max_pool_postproc > 1:
+        max_pool = nn.MaxPool2d(
+            kernel_size=opt.max_pool_postproc,
+            stride=1,
+            padding=(opt.max_pool_postproc - 1) // 2,
+        ).to(opt.device)
+    else:
+        max_pool = nn.Identity().to(opt.device)
+    # used_sliding_prediction = False
+    roc_auc_elements = {
+        modality: {"map_scores": [], "vol_scores": []}
+        for modality in itertools.chain(opt.modality, ["ensemble"])
+    }
+    roc_auc_elements["labels"] = []
+    with torch.no_grad():
+        for i, data in metric_logger.log_every(
+            dataloader, print_freq=opt.print_freq, header=f"[{suffix} {epoch}]"
+        ):
+            if (opt.debug or opt.wholetest) and i > 50:
+                break
+            image_size = data["image"].shape[-2:]
+            label = data["label"]
+            mask = data["mask"]
+            if opt.crf_postproc or opt.spixel_postproc or opt.convcrf_postproc:
+                spixel = data["spixel"].to(opt.device)
+            if max(image_size) > opt.tile_size and opt.large_image_strategy == "slide":
+                outputs = sliding_predict(
+                    model, data, opt.tile_size, opt.tile_overlap, opt
+                )
+            else:
+                image = data["image"].to(opt.device)
+                outputs = model(image, seg_size=image.shape[-2:])
+            if opt.max_pool_postproc > 1:
+                for modality in itertools.chain(opt.modality, ["ensemble"]):
+                    outputs[modality]["out_map"] = max_pool(
+                        outputs[modality]["out_map"]
+                    )
+            # CRF
+            if opt.crf_postproc:
+                raw_prob = outputs["ensemble"]["out_map"]
+                image = data["unnormalized_image"] * 255.0
+                if opt.crf_downsample > 1:
+                    image = (
+                        torch.nn.functional.interpolate(
+                            image,
+                            size=(
+                                image_size[0] // opt.crf_downsample,
+                                image_size[1] // opt.crf_downsample,
+                            ),
+                            mode="bilinear",
+                            align_corners=False,
+                        )
+                        .clamp(0, 255)
+                        .int()
+                    )
+                image = image.squeeze(0).numpy().astype(np.uint8).transpose(1, 2, 0)
+                for modality in itertools.chain(opt.modality, ["ensemble"]):
+                    prob = outputs[modality]["out_map"].squeeze(1)
+                    if opt.crf_downsample > 1:
+                        prob = (
+                            torch.nn.functional.interpolate(
+                                prob,
+                                size=(
+                                    image_size[0] // opt.crf_downsample,
+                                    image_size[1] // opt.crf_downsample,
+                                ),
+                                mode="bilinear",
+                                align_corners=False,
+                            )
+                            .clamp(0, 1)
+                            .squeeze(0)
+                        )
+                    prob = torch.cat([prob, 1 - prob], dim=0).detach().cpu().numpy()
+                    prob = postprocess(image, prob)
+                    prob = prob[None, 0, ...]
+                    prob = torch.tensor(prob, device=opt.device).unsqueeze(0)
+                    if opt.crf_downsample > 1:
+                        prob = torch.nn.functional.interpolate(
+                            prob, size=image_size, mode="bilinear", align_corners=False
+                        ).clamp(0, 1)
+                    outputs[modality]["out_map"] = prob
+                    outputs[modality]["map_pred"] = (
+                        outputs[modality]["out_map"].max().unsqueeze(0)
+                    )
+            elif opt.convcrf_postproc:
+                raw_prob = outputs["ensemble"]["out_map"]
+                image = data["unnormalized_image"].to(opt.device) * 255.0
+                image = (
+                    torch.nn.functional.interpolate(
+                        image,
+                        size=(opt.convcrf_shape, opt.convcrf_shape),
+                        mode="bilinear",
+                        align_corners=False,
+                    )
+                    .clamp(0, 255)
+                    .int()
+                )
+                for modality in itertools.chain(opt.modality, ["ensemble"]):
+                    prob = outputs[modality]["out_map"]
+                    prob = torch.cat([prob, 1 - prob], dim=1)
+                    prob = torch.nn.functional.interpolate(
+                        prob,
+                        size=(opt.convcrf_shape, opt.convcrf_shape),
+                        mode="bilinear",
+                        align_corners=False,
+                    ).clamp(0, 1)
+                    prob = postprocess(unary=prob, img=image)
+                    prob = torch.nn.functional.interpolate(
+                        prob, size=image_size, mode="bilinear", align_corners=False
+                    ).clamp(0, 1)
+                    outputs[modality]["out_map"] = prob[:, 0, None, ...]
+                    outputs[modality]["map_pred"] = (
+                        outputs[modality]["out_map"].max().unsqueeze(0)
+                    )
+            elif opt.spixel_postproc:
+                raw_prob = outputs["ensemble"]["out_map"]
+                for modality in itertools.chain(opt.modality, ["ensemble"]):
+                    outputs[modality]["out_map"] = get_spixel_tgt_map(
+                        outputs[modality]["out_map"], spixel
+                    )
+            # image-level metrices logger
+            roc_auc_elements["labels"].extend(label.detach().cpu().tolist())
+            for modality in itertools.chain(opt.modality, ["ensemble"]):
+                roc_auc_elements[modality]["map_scores"].extend(
+                    outputs[modality]["map_pred"].detach().cpu().tolist()
+                )
+                roc_auc_elements[modality]["vol_scores"].extend(
+                    (outputs[modality]["vol_pred"]).detach().cpu().tolist()
+                )
+            # generate binary prediction mask
+            out_map = {
+                modality: outputs[modality]["out_map"] > opt.mask_threshold
+                for modality in itertools.chain(opt.modality, ["ensemble"])
+            }
+            # only compute pixel-level metrics for manipulated images
+            if label.item() == 1.0:
+                for modality in itertools.chain(opt.modality, ["ensemble"]):
+                    pixel_metrics = misc.calculate_pixel_f1(
+                        out_map[modality].float().detach().cpu().numpy().flatten(),
+                        mask.detach().cpu().numpy().flatten(),
+                        suffix=f"/{modality}",
+                    )
+                    metric_logger.update(**pixel_metrics)
+            # save images, mask, and prediction map
+            if opt.save_figure:
+                unnormalized_image = data["unnormalized_image"]
+                # image_id = data['id'][0].split('.')[0]
+                image_id = Path(data["id"][0]).stem
+                save_image(
+                    (
+                        outputs["ensemble"]["out_map"][0, ...] > opt.mask_threshold
+                    ).float()
+                    * 255,
+                    os.path.join(figure_path, f"{image_id}_ensemble_map.png"),
+                )
+    image_metrics = update_image_roc_auc_metric(
+        opt.modality + ["ensemble"],
+        roc_auc_elements,
+        {
+            modality: metric_logger.meters[f"pixel_f1/{modality}"].avg
+            for modality in itertools.chain(opt.modality, ["ensemble"])
+        },
+    )
+    metric_logger.update(**image_metrics)
+    metric_logger.prepend_subprefix(f"{dataset_title.upper()}_")
+    metric_logger.write_tensorboard(epoch)
+    print("Average status:")
+    print(metric_logger.stat_table())
+    return metric_logger.get_meters()
+def update_image_roc_auc_metric(modalities: List, roc_auc_elements, pixel_f1=None):
+    result = {}
+    for modality in modalities:
+        image_metrics = misc.calculate_img_score(
+            np.array(roc_auc_elements[modality]["map_scores"]) > 0.5,
+            (np.array(roc_auc_elements["labels"]) > 0).astype(np.int),
+            suffix=f"/{modality}",
+        )
+        if pixel_f1 is not None:
+            image_f1 = image_metrics[f"image_f1/{modality}"]
+            combined_f1 = hmean([image_f1, pixel_f1[modality]])
+            image_metrics[f"comb_f1/{modality}"] = float(combined_f1)
+        if 0.0 in roc_auc_elements["labels"] and 1.0 in roc_auc_elements["labels"]:
+            image_auc = metrics.roc_auc_score(
+                roc_auc_elements["labels"], roc_auc_elements[modality]["map_scores"]
+            )
+            image_metrics[f"image_auc/{modality}"] = image_auc
+        result.update(image_metrics)
+    return result
+def pad_image(image, target_size):
+    image_size = image.shape[-2:]
+    if image_size != target_size:
+        row_missing = target_size[0] - image_size[0]
+        col_missing = target_size[1] - image_size[1]
+        image = nn.functional.pad(
+            image, (0, row_missing, 0, col_missing), "constant", 0
+        )
+    return image
+def sliding_predict(model: nn.Module, data, tile_size, tile_overlap, opt):
+    image = data["image"]
+    mask = data["mask"]
+    image = image.to(opt.device)
+    image_size = image.shape[-2:]
+    stride = ceil(tile_size * (1 - tile_overlap))
+    tile_rows = int(ceil((image_size[0] - tile_size) / stride) + 1)
+    tile_cols = int(ceil((image_size[1] - tile_size) / stride) + 1)
+    result = {}
+    for modality in itertools.chain(opt.modality, ["ensemble"]):
+        result[modality] = {
+            "out_map": torch.zeros_like(
+                mask, requires_grad=False, dtype=torch.float32, device=opt.device
+            ),
+            "out_vol_map": torch.zeros_like(
+                mask, requires_grad=False, dtype=torch.float32, device=opt.device
+            ),
+        }
+    map_counter = torch.zeros_like(
+        mask, requires_grad=False, dtype=torch.float32, device=opt.device
+    )
+    with torch.no_grad():
+        for row in range(tile_rows):
+            for col in range(tile_cols):
+                x1 = int(col * stride)
+                y1 = int(row * stride)
+                x2 = min(x1 + tile_size, image_size[1])
+                y2 = min(y1 + tile_size, image_size[0])
+                x1 = max(int(x2 - tile_size), 0)
+                y1 = max(int(y2 - tile_size), 0)
+                image_tile = image[:, :, y1:y2, x1:x2]
+                image_tile = pad_image(image_tile, [opt.tile_size, opt.tile_size])
+                tile_outputs = model(image_tile, seg_size=(image_tile.shape[-2:]))
+                for modality in itertools.chain(opt.modality, ["ensemble"]):
+                    result[modality]["out_map"][:, :, y1:y2, x1:x2] += tile_outputs[
+                        modality
+                    ]["out_map"][:, :, : y2 - y1, : x2 - x1]
+                    out_vol_map = get_volume_seg_map(
+                        tile_outputs[modality]["out_vol"],
+                        size=image_tile.shape[-2:],
+                        label=data["label"],
+                        kmeans=KMeans(2) if opt.consistency_kmeans else None,
+                    )[:, :, : y2 - y1, : x2 - x1]
+                    result[modality]["out_vol_map"][:, :, y1:y2, x1:x2] += out_vol_map
+                map_counter[:, :, y1:y2, x1:x2] += 1
+        for modality in itertools.chain(opt.modality, ["ensemble"]):
+            result[modality]["out_map"] /= map_counter
+            result[modality]["out_vol_map"] /= map_counter
+            result[modality]["map_pred"] = (
+                result[modality]["out_map"].max().unsqueeze(0)
+            )
+            result[modality]["vol_pred"] = (
+                result[modality]["out_vol_map"].max().unsqueeze(0)
+            )
+    return result

losses/__init__.py ADDED Viewed

	@@ -0,0 +1,61 @@

+from .bundled_loss import BundledLoss
+from .consisitency_loss import get_consistency_loss, get_volume_seg_map
+from .entropy_loss import get_entropy_loss
+from .loss import Loss
+from .map_label_loss import get_map_label_loss
+from .map_mask_loss import get_map_mask_loss
+from .multi_view_consistency_loss import (
+    get_multi_view_consistency_loss,
+    get_spixel_tgt_map,
+)
+from .volume_label_loss import get_volume_label_loss
+from .volume_mask_loss import get_volume_mask_loss
+def get_bundled_loss(opt):
+    """Loss function for the overeall training, including the multi-view
+    consistency loss."""
+    single_modality_loss = get_loss(opt)
+    multi_view_consistency_loss = get_multi_view_consistency_loss(opt)
+    volume_mask_loss = get_volume_mask_loss(opt)
+    bundled_loss = BundledLoss(
+        single_modality_loss,
+        multi_view_consistency_loss,
+        volume_mask_loss,
+        opt.mvc_weight,
+        opt.mvc_time_dependent,
+        opt.mvc_steepness,
+        opt.modality,
+        opt.consistency_weight,
+        opt.consistency_source,
+    )
+    return bundled_loss
+def get_loss(opt):
+    """Loss function for a single model, excluding the multi-view consistency
+    loss."""
+    map_label_loss = get_map_label_loss(opt)
+    volume_label_loss = get_volume_label_loss(opt)
+    map_mask_loss = get_map_mask_loss(opt)
+    volume_mask_loss = get_volume_mask_loss(opt)
+    consisitency_loss = get_consistency_loss(opt)
+    entropy_loss = get_entropy_loss(opt)
+    loss = Loss(
+        map_label_loss,
+        volume_label_loss,
+        map_mask_loss,
+        volume_mask_loss,
+        consisitency_loss,
+        entropy_loss,
+        opt.map_label_weight,
+        opt.volume_label_weight,
+        opt.map_mask_weight,
+        opt.volume_mask_weight,
+        opt.consistency_weight,
+        opt.map_entropy_weight,
+        opt.volume_entropy_weight,
+        opt.consistency_source,
+    )
+    return loss

losses/bundled_loss.py ADDED Viewed

	@@ -0,0 +1,84 @@

+import math
+from typing import Dict, List, Optional
+import torch
+import torch.nn as nn
+class BundledLoss(nn.Module):
+    def __init__(
+        self,
+        single_modality_loss,
+        multi_view_consistency_loss,
+        volume_mask_loss,
+        multi_view_consistency_weight: float,
+        mvc_time_dependent: bool,
+        mvc_steepness: float,
+        modality: List,
+        consistency_weight: float,
+        consistency_source: str,
+    ):
+        super().__init__()
+        self.single_modality_loss = single_modality_loss
+        self.multi_view_consistency_loss = multi_view_consistency_loss
+        self.volume_mask_loss = volume_mask_loss
+        self.mvc_weight = multi_view_consistency_weight
+        self.mvc_time_dependent = mvc_time_dependent
+        self.mvc_steepness = mvc_steepness
+        self.modality = modality
+        self.consistency_weight = consistency_weight
+        self.consistency_source = consistency_source
+    def forward(
+        self,
+        output: Dict,
+        label,
+        mask,
+        epoch: int = 1,
+        max_epoch: int = 70,
+        spixel=None,
+        raw_image=None,
+    ):
+        total_loss = 0.0
+        loss_dict = {}
+        for modality in self.modality:
+            single_loss = self.single_modality_loss(output[modality], label, mask)
+            for k, v in single_loss.items():
+                loss_dict[f"{k}/{modality}"] = v
+            total_loss = total_loss + single_loss["total_loss"]
+        if self.mvc_time_dependent:
+            mvc_weight = self.mvc_weight * math.exp(
+                -self.mvc_steepness * (1 - epoch / max_epoch) ** 2
+            )
+        else:
+            mvc_weight = self.mvc_weight
+        multi_view_consistency_loss = self.multi_view_consistency_loss(
+            output, label, spixel, raw_image, mask
+        )
+        for k, v in multi_view_consistency_loss.items():
+            if k not in ["total_loss", "tgt_map"]:
+                loss_dict.update({k: v})
+        if self.consistency_weight != 0.0 and self.consistency_source == "ensemble":
+            for modality in self.modality:
+                consisitency_loss = self.volume_mask_loss(
+                    output[modality]["out_vol"], multi_view_consistency_loss["tgt_map"]
+                )
+                consisitency_loss = consisitency_loss["loss"]
+                loss_dict[f"consistency_loss/{modality}"] = consisitency_loss
+                total_loss = (
+                    total_loss
+                    + self.consistency_weight
+                    * consisitency_loss
+                    * math.exp(-self.mvc_steepness * (1 - epoch / max_epoch) ** 2)
+                )
+        total_loss = total_loss + mvc_weight * multi_view_consistency_loss["total_loss"]
+        return {"total_loss": total_loss, **loss_dict}

losses/consisitency_loss.py ADDED Viewed

	@@ -0,0 +1,73 @@

+import torch
+import torch.nn as nn
+from einops import rearrange
+from fast_pytorch_kmeans import KMeans
+def get_consistency_loss(opt):
+    loss = ConsistencyLoss(
+        opt.consistency_type, opt.consistency_kmeans, opt.consistency_stop_map_grad
+    )
+    return loss
+class ConsistencyLoss(nn.Module):
+    def __init__(
+        self, loss: str, do_kmeans: bool = True, consistency_stop_map_grad: bool = False
+    ):
+        super().__init__()
+        assert loss in ["l1", "l2"]
+        if loss == "l1":
+            self.consistency_loss = nn.L1Loss(reduction="mean")
+        else:  # l2
+            self.consistency_loss = nn.MSELoss(reduction="mean")
+        self.do_kmeans = do_kmeans
+        if do_kmeans:
+            self.kmeans = KMeans(2)
+        else:
+            self.kmeans = None
+        self.consistency_stop_map_grad = consistency_stop_map_grad
+    def forward(self, out_volume, out_map, label):
+        map_shape = out_map.shape[-2:]
+        out_volume = get_volume_seg_map(out_volume, map_shape, label, self.kmeans)
+        if self.consistency_stop_map_grad:
+            loss = self.consistency_loss(out_volume, out_map.detach())
+        else:
+            loss = self.consistency_loss(out_volume, out_map)
+        return {"loss": loss, "out_vol": out_volume.squeeze(1)}
+def get_volume_seg_map(volume, size, label, kmeans=None):
+    """volume is of shape [b, h, w, h, w], and size is [h', w']"""
+    batch_size = volume.shape[0]
+    volume_shape = volume.shape[-2:]
+    volume = rearrange(volume, "b h1 w1 h2 w2 -> b (h1 w1) (h2 w2)")
+    if kmeans is not None:  # do k-means on out_volume
+        for i in range(batch_size):
+            # NOTE K-means only applies for manipulated images!
+            if label[i] == 0:
+                continue
+            batch_volume = volume[i, ...]
+            out = kmeans.fit_predict(batch_volume)
+            ones = torch.where(out == 1)
+            zeros = torch.where(out == 0)
+            if (
+                ones[0].numel() >= zeros[0].numel()
+            ):  # intuitively, the cluster with fewer elements is the modified cluster
+                pristine, modified = ones, zeros
+            else:
+                pristine, modified = zeros, ones
+            volume[i, :, modified[0]] = 1 - volume[i, :, modified[0]]
+    volume = volume.mean(dim=-1)
+    volume = rearrange(volume, "b (h w) -> b h w", h=volume_shape[0])
+    volume = volume.unsqueeze(1)
+    if volume_shape != size:
+        volume = nn.functional.interpolate(
+            volume, size=size, mode="bilinear", align_corners=False
+        )
+    return volume  # size [b, 1, h, w]

losses/entropy_loss.py ADDED Viewed

	@@ -0,0 +1,20 @@

+import torch
+import torch.nn as nn
+def get_entropy_loss(opt):
+    return EntropyLoss()
+class EntropyLoss(nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.exp = 1e-7
+        assert self.exp < 0.5
+    def forward(self, item):
+        item = item.clamp(min=self.exp, max=1 - self.exp)
+        entropy = -item * torch.log(item) - (1 - item) * torch.log(1 - item)
+        entropy = entropy.mean()
+        return {"loss": entropy}

losses/loss.py ADDED Viewed

	@@ -0,0 +1,93 @@

+import torch
+import torch.nn as nn
+class Loss(nn.Module):
+    def __init__(
+        self,
+        map_label_loss,
+        volume_label_loss,
+        map_mask_loss,
+        volume_mask_loss,
+        consistency_loss,
+        entropy_loss,
+        map_label_weight,
+        volume_label_weight,
+        map_mask_weight,
+        volume_mask_weight,
+        consistency_weight,
+        map_entropy_weight,
+        volume_entropy_weight,
+        consistency_source,
+    ):
+        super().__init__()
+        self.map_label_loss = map_label_loss
+        self.volume_label_loss = volume_label_loss
+        self.map_mask_loss = map_mask_loss
+        self.volume_mask_loss = volume_mask_loss
+        self.consistency_loss = consistency_loss
+        self.entropy_loss = entropy_loss
+        self.map_label_weight = map_label_weight
+        self.volume_label_weight = volume_label_weight
+        self.map_mask_weight = map_mask_weight
+        self.volume_mask_weight = volume_mask_weight
+        self.consistency_weight = consistency_weight
+        self.map_entropy_weight = map_entropy_weight
+        self.volume_entropy_weight = volume_entropy_weight
+        self.consistency_source = consistency_source
+    def forward(self, output, label, mask):
+        total_loss = 0.0
+        loss_dict = {}
+        # --- label loss ---
+        label = label.float()
+        # compute map label loss anyway
+        map_label_loss = self.map_label_loss(
+            output["map_pred"], output["out_map"], label
+        )["loss"]
+        total_loss = total_loss + self.map_label_weight * map_label_loss
+        loss_dict.update({"map_label_loss": map_label_loss})
+        if self.volume_label_weight != 0.0:
+            volume_label_loss = self.volume_label_loss(
+                output["vol_pred"], output["out_vol"], label
+            )["loss"]
+            total_loss = total_loss + self.volume_label_weight * volume_label_loss
+            loss_dict.update({"vol_label_loss": volume_label_loss})
+        # --- mask loss ---
+        # compute map mask loss anyway
+        map_mask_loss = self.map_mask_loss(output["out_map"], mask)["loss"]
+        total_loss = total_loss + self.map_mask_weight * map_mask_loss
+        loss_dict.update({"map_mask_loss": map_mask_loss})
+        if self.volume_mask_weight != 0.0:
+            volume_mask_loss = self.volume_mask_loss(output["out_vol"], mask)["loss"]
+            total_loss = total_loss + self.volume_mask_weight * volume_mask_loss
+            loss_dict.update({"vol_mask_loss": volume_mask_loss})
+        # --- self-consistency loss ---
+        if self.consistency_weight != 0.0 and self.consistency_source == "self":
+            consistency_loss = self.consistency_loss(
+                output["out_vol"], output["out_map"], label
+            )
+            consistency_loss = consistency_loss["loss"]
+            total_loss = total_loss + self.consistency_weight * consistency_loss
+            loss_dict.update({"consistency_loss": consistency_loss})
+        # --- entropy loss ---
+        if self.map_entropy_weight != 0.0:
+            map_entropy_loss = self.entropy_loss(output["out_map"])["loss"]
+            total_loss = total_loss + self.map_entropy_weight * map_entropy_loss
+            loss_dict.update({"map_entropy_loss": map_entropy_loss})
+        if self.volume_entropy_weight != 0:
+            volume_entropy_loss = self.entropy_loss(output["out_vol"])["loss"]
+            total_loss = total_loss + self.volume_entropy_weight * volume_entropy_loss
+            loss_dict.update({"vol_entropy_loss": volume_entropy_loss})
+        loss_dict.update({"total_loss": total_loss})
+        return loss_dict

losses/map_label_loss.py ADDED Viewed

	@@ -0,0 +1,34 @@

+import torch
+import torch.nn as nn
+def get_map_label_loss(opt):
+    return MapLabelLoss(opt.label_loss_on_whole_map)
+class MapLabelLoss(nn.Module):
+    def __init__(self, label_loss_on_whole_map=False):
+        super().__init__()
+        self.bce_loss = nn.BCELoss(reduction="none")
+        self.label_loss_on_whole_map = label_loss_on_whole_map
+    def forward(self, pred, out_map, label):
+        batch_size = label.shape[0]
+        if (
+            self.label_loss_on_whole_map
+        ):  # apply the loss on the whole map for pristine images
+            total_loss = 0
+            for i in range(batch_size):
+                if label[i] == 0:  # pristine
+                    total_loss = (
+                        total_loss
+                        + self.bce_loss(out_map[i, ...].mean(), label[i]).mean()
+                    )
+                else:  # modified
+                    total_loss = total_loss + self.bce_loss(pred[i], label[i]).mean()
+            loss = total_loss / batch_size
+        else:
+            loss = self.bce_loss(pred, label)
+            loss = loss.mean()
+        return {"loss": loss}

losses/map_mask_loss.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import torch
+import torch.nn as nn
+def get_map_mask_loss(opt):
+    return MapMaskLoss()
+class MapMaskLoss(nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.bce_loss = nn.BCELoss(reduction="mean")
+    def forward(self, out_map, mask):
+        mask_size = mask.shape[-2:]
+        if out_map.shape[-2:] != mask_size:
+            out_map = nn.functional.interpolate(
+                out_map, size=mask_size, mode="bilinear", align_corners=False
+            )
+        loss = self.bce_loss(out_map, mask)
+        return {"loss": loss}
+if __name__ == "__main__":
+    map_mask_loss = MapMaskLoss()

losses/multi_view_consistency_loss.py ADDED Viewed

	@@ -0,0 +1,152 @@

+from typing import Dict, List
+import matplotlib.pyplot as plt
+import numpy as np
+import torch
+import torch.nn as nn
+from skimage import segmentation
+def get_multi_view_consistency_loss(opt):
+    loss = MultiViewConsistencyLoss(
+        opt.mvc_soft,
+        opt.mvc_zeros_on_au,
+        opt.mvc_single_weight,
+        opt.modality,
+        opt.mvc_spixel,
+        opt.mvc_num_spixel,
+    )
+    return loss
+class MultiViewConsistencyLoss(nn.Module):
+    def __init__(
+        self,
+        soft: bool,
+        zeros_on_au: bool,
+        single_weight: Dict,
+        modality: List,
+        spixel: bool = False,
+        num_spixel: int = 100,
+        eps: float = 1e-4,
+    ):
+        super().__init__()
+        self.soft = soft
+        self.zeros_on_au = zeros_on_au
+        self.single_weight = single_weight
+        self.modality = modality
+        self.spixel = spixel
+        self.num_spixel = num_spixel
+        self.eps = eps
+        self.mse_loss = nn.MSELoss(reduction="mean")
+    def forward(self, output: Dict, label, spixel=None, image=None, mask=None):
+        tgt_map = torch.zeros_like(
+            output[self.modality[0]]["out_map"], requires_grad=False
+        )
+        with torch.no_grad():
+            for modality in self.modality:
+                weight = self.single_weight[modality.lower()]
+                tgt_map = tgt_map + weight * output[modality]["out_map"]
+        if self.spixel:
+            # raw_tgt_map = tgt_map.clone()
+            tgt_map = get_spixel_tgt_map(tgt_map, spixel)
+        if not self.soft:
+            for b in range(tgt_map.shape[0]):
+                if tgt_map[b, ...].max() <= 0.5 and label[b] == 1.0:
+                    tgt_map[b, ...][
+                        torch.where(tgt_map[b, ...] == torch.max(tgt_map[b, ...]))
+                    ] = 1.0
+            tgt_map[torch.where(tgt_map > 0.5)] = 1
+            tgt_map[torch.where(tgt_map <= 0.5)] = 0
+            tgt_map[torch.where(label == 0.0)[0], ...] = 0.0
+        if self.zeros_on_au:
+            tgt_map[torch.where(label == 0.0)[0], ...] = 0.0
+        total_loss = 0.0
+        loss_dict = {}
+        for modality in self.modality:
+            loss = self.mse_loss(output[modality]["out_map"], tgt_map)
+            loss_dict[f"multi_view_consistency_loss_{modality}"] = loss
+            total_loss = total_loss + loss
+        return {**loss_dict, "tgt_map": tgt_map, "total_loss": total_loss}
+    def _save(
+        self,
+        spixel: torch.Tensor,
+        image: torch.Tensor,
+        mask: torch.Tensor,
+        tgt_map: torch.Tensor,
+        raw_tgt_map: torch.Tensor,
+        out_path: str = "tmp/spixel_tgt_map.png",
+    ):
+        spixel = spixel.permute(0, 2, 3, 1).detach().cpu().numpy()
+        image = image.permute(0, 2, 3, 1).detach().cpu().numpy()
+        mask = mask.permute(0, 2, 3, 1).detach().cpu().numpy() * 255.0
+        tgt_map = tgt_map.permute(0, 2, 3, 1).squeeze(3).detach().cpu().numpy() * 255.0
+        raw_tgt_map = (
+            raw_tgt_map.permute(0, 2, 3, 1).squeeze(3).detach().cpu().numpy() * 255.0
+        )
+        bn = spixel.shape[0]
+        i = 1
+        for b in range(bn):
+            plt.subplot(bn, 5, i)
+            i += 1
+            plt.imshow(image[b])
+            plt.axis("off")
+            plt.title("image")
+            plt.subplot(bn, 5, i)
+            i += 1
+            plt.imshow(mask[b])
+            plt.axis("off")
+            plt.title("mask")
+            plt.subplot(bn, 5, i)
+            i += 1
+            plt.imshow(spixel[b])
+            plt.axis("off")
+            plt.title("superpixel")
+            plt.subplot(bn, 5, i)
+            i += 1
+            plt.imshow(raw_tgt_map[b])
+            plt.axis("off")
+            plt.title("raw target map")
+            plt.subplot(bn, 5, i)
+            i += 1
+            plt.imshow(tgt_map[b])
+            plt.axis("off")
+            plt.title("target map")
+        plt.tight_layout()
+        plt.savefig(out_path, dpi=300)
+        plt.close()
+def get_spixel_tgt_map(weighted_sum, spixel):
+    b, _, h, w = weighted_sum.shape
+    spixel_tgt_map = torch.zeros_like(weighted_sum, requires_grad=False)
+    for bidx in range(b):
+        spixel_indices = spixel[bidx, ...].unique()
+        # num_spixel = spixel_idx.shape[0]
+        for spixel_idx in spixel_indices.tolist():
+            area = (spixel[bidx, ...] == spixel_idx).sum()
+            weighted_sum_in_area = weighted_sum[bidx, ...][
+                torch.where(spixel[bidx, ...] == spixel_idx)
+            ].sum()
+            avg_area = weighted_sum_in_area / area
+            # this is soft map, and the threshold process will be conducted in the forward function
+            spixel_tgt_map[bidx][
+                torch.where(spixel[bidx, ...] == spixel_idx)
+            ] = avg_area
+    return spixel_tgt_map
+if __name__ == "__main__":
+    mvc_loss = MultiViewConsistencyLoss(True, True, [1, 1, 2])
+    print("a")

losses/volume_label_loss.py ADDED Viewed

	@@ -0,0 +1,16 @@

+import torch.nn as nn
+def get_volume_label_loss(opt):
+    return VolumeLabelLoss()
+class VolumeLabelLoss(nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.BCE_loss = nn.BCELoss(reduction="mean")
+    def forward(self, pred, volume, label):
+        loss = self.BCE_loss(pred, label)
+        return {"loss": loss}

losses/volume_mask_loss.py ADDED Viewed

	@@ -0,0 +1,40 @@

+import torch
+import torch.nn as nn
+from einops import rearrange
+def get_volume_mask_loss(opt):
+    return VolumeMaskLoss()
+class VolumeMaskLoss(nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.bce_loss = nn.BCELoss(reduction="mean")
+    def _get_volume_mask(self, mask):
+        with torch.no_grad():
+            h, w = mask.shape[-2:]
+            # use orthogonal vector [0, 1] and [1, 0] to generate the ground truth
+            mask[torch.where(mask > 0.5)] = 1.0
+            mask[torch.where(mask <= 0.5)] = 0.0
+            mask = rearrange(mask, "b c h w -> b c (h w)")
+            mask_append = 1 - mask.clone()
+            mask = torch.cat([mask, mask_append], dim=1)
+            mask = torch.bmm(mask.transpose(-1, -2), mask)
+            mask = rearrange(mask, "b (h1 w1) (h2 w2) -> b h1 w1 h2 w2", h1=h, h2=h)
+            mask = 1 - mask  # 0 indicates consistency, and 1 indicates inconsistency
+        return mask
+    def forward(self, out_volume, mask):
+        volume_size = out_volume.shape[-2:]
+        if volume_size != mask.shape[-2:]:
+            mask = nn.functional.interpolate(
+                mask, size=volume_size, mode="bilinear", align_corners=False
+            )
+        volume_mask = self._get_volume_mask(mask)
+        loss = self.bce_loss(out_volume, volume_mask)
+        return {"loss": loss}

main.py ADDED Viewed

	@@ -0,0 +1,204 @@

+import datetime
+import math
+import os
+from functools import partial
+import albumentations as A
+import torch.optim as optim
+from termcolor import cprint
+from timm.scheduler import create_scheduler
+from torch.utils.data import DataLoader
+import utils.misc as misc
+from datasets import crop_to_smallest_collate_fn, get_dataset
+from engine import bundled_evaluate, train
+from losses import get_bundled_loss, get_loss
+from models import get_ensemble_model, get_single_modal_model
+from opt import get_opt
+def main(opt):
+    # get tensorboard writer
+    writer = misc.setup_env(opt)
+    # dataset
+    # training sets
+    train_loaders = {}
+    if not opt.eval:
+        train_transform = A.Compose(
+            [
+                A.HorizontalFlip(0.5),
+                A.SmallestMaxSize(int(opt.input_size * 1.5))
+                if opt.resize_aug
+                else A.NoOp(),
+                A.RandomSizedCrop(
+                    (opt.input_size, int(opt.input_size * 1.5)),
+                    opt.input_size,
+                    opt.input_size,
+                )
+                if opt.resize_aug
+                else A.NoOp(),
+                A.NoOp() if opt.no_gaussian_blur else A.GaussianBlur(p=0.5),
+                A.NoOp() if opt.no_color_jitter else A.ColorJitter(p=0.5),
+                A.NoOp() if opt.no_jpeg_compression else A.ImageCompression(p=0.5),
+            ]
+        )
+        train_sets = get_dataset(opt.train_datalist, "train", train_transform, opt)
+        for k, dataset in train_sets.items():
+            train_loaders[k] = DataLoader(
+                dataset,
+                batch_size=opt.batch_size,
+                shuffle=True,
+                pin_memory=True,
+                num_workers=0 if opt.debug else opt.num_workers,
+                collate_fn=partial(
+                    crop_to_smallest_collate_fn,
+                    max_size=opt.input_size,
+                    uncorrect_label=opt.uncorrect_label,
+                ),
+            )
+    # validation sets
+    if opt.large_image_strategy == "rescale":
+        val_transform = A.Compose([A.SmallestMaxSize(opt.tile_size)])
+    else:
+        val_transform = None
+    val_sets = get_dataset(opt.val_datalist, opt.val_set, val_transform, opt)
+    val_loaders = {}
+    for k, dataset in val_sets.items():
+        val_loaders[k] = DataLoader(
+            dataset,
+            batch_size=1,
+            shuffle=opt.val_shuffle,
+            pin_memory=True,
+            num_workers=0 if opt.debug else opt.num_workers,
+        )
+    # multi-view models and optimizers
+    optimizer_dict = {}
+    scheduler_dict = {}
+    model = get_ensemble_model(opt).to(opt.device)
+    n_param = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    print(
+        f"Number of total params: {n_param}, num params per model: {int(n_param / len(opt.modality))}"
+    )
+    # optimizer and scheduler
+    for modality in opt.modality:
+        if opt.optimizer.lower() == "adamw":
+            optimizer = optim.AdamW(
+                model.sub_models[modality].parameters(),
+                opt.lr,
+                weight_decay=opt.weight_decay,
+            )
+        elif opt.optimizer.lower() == "sgd":
+            optimizer = optim.SGD(
+                model.sub_models[modality].parameters(),
+                opt.lr,
+                opt.momentum,
+                weight_decay=opt.weight_decay,
+            )
+        else:
+            raise RuntimeError(f"Unsupported optimizer {opt.optimizer}.")
+        scheduler, num_epoch = create_scheduler(opt, optimizer)
+        optimizer_dict[modality] = optimizer
+        scheduler_dict[modality] = scheduler
+    opt.epochs = num_epoch
+    # loss functions
+    # loss function including the multi-view consistency loss, for training
+    bundled_criterion = get_bundled_loss(opt).to(opt.device)
+    # loss function excluding the multi-view consistency loss, for evaluation
+    single_criterion = get_loss(opt).to(opt.device)
+    if opt.resume:
+        misc.resume_from(model, opt.resume)
+    if opt.eval:
+        bundled_evaluate(
+            model, val_loaders, single_criterion, 0, writer, suffix="val", opt=opt
+        )
+        return
+    cprint("The training will last for {} epochs.".format(opt.epochs), "blue")
+    best_ensemble_image_f1 = -math.inf
+    for epoch in range(opt.epochs):
+        for title, dataloader in train_loaders.items():
+            train(
+                model,
+                dataloader,
+                title,
+                optimizer_dict,
+                bundled_criterion,
+                epoch,
+                writer,
+                suffix="train",
+                opt=opt,
+            )
+        for sched_idx, scheduler in enumerate(scheduler_dict.values()):
+            if sched_idx == 0 and writer is not None:
+                writer.add_scalar("lr", scheduler._get_lr(epoch)[0], epoch)
+            scheduler.step(epoch)
+        if (epoch + 1) % opt.eval_freq == 0 or epoch in [opt.epochs - 1]:
+            result = bundled_evaluate(
+                model,
+                val_loaders,
+                single_criterion,
+                epoch,
+                writer,
+                suffix="val",
+                opt=opt,
+            )
+            misc.save_model(
+                os.path.join(
+                    opt.save_root_path, opt.dir_name, "checkpoint", f"{epoch}.pt"
+                ),
+                model,
+                epoch,
+                opt,
+                performance=result,
+            )
+            if result["image_f1/AVG_ensemble"] > best_ensemble_image_f1:
+                best_ensemble_image_f1 = result["image_f1/AVG_ensemble"]
+                misc.save_model(
+                    os.path.join(
+                        opt.save_root_path, opt.dir_name, "checkpoint", "best.pt"
+                    ),
+                    model,
+                    epoch,
+                    opt,
+                    performance=result,
+                )
+                misc.update_record(result, epoch, opt, "best_record")
+            misc.update_record(result, epoch, opt, "latest_record")
+    print("best performance:", best_ensemble_image_f1)
+if __name__ == "__main__":
+    opt = get_opt()
+    # import cProfile
+    # import pstats
+    # profiler = cProfile.Profile()
+    # profiler.enable()
+    st = datetime.datetime.now()
+    main(opt)
+    total_time = datetime.datetime.now() - st
+    total_time = str(datetime.timedelta(seconds=total_time.seconds))
+    print(f"Total time: {total_time}")
+    print("finished")
+    # profiler.disable()
+    # stats = pstats.Stats(profiler).sort_stats('cumtime')
+    # stats.strip_dirs()
+    # stats_name = f'cprofile-data{opt.suffix}'
+    # if not opt.debug and not opt.eval:
+    #     stats_name = os.path.join(opt.save_root_path, opt.dir_name, stats_name)
+    # else:
+    #     stats_name = os.path.join('tmp', stats_name)
+    # stats.dump_stats(stats_name)

models/__init__.py ADDED Viewed

	@@ -0,0 +1,65 @@

+import torch.nn as nn
+from .bayar_conv import BayarConv2d
+from .early_fusion_pre_filter import EarlyFusionPreFilter
+from .ensemble_model import EnsembleModel
+from .main_model import MainModel
+from .models import ModelBuilder, SegmentationModule
+from .srm_conv import SRMConv2d
+def get_ensemble_model(opt):
+    models = {}
+    for modality in opt.modality:
+        models[modality] = get_single_modal_model(opt, modality)
+    ensemble_model = EnsembleModel(
+        models=models, mvc_single_weight=opt.mvc_single_weight
+    )
+    return ensemble_model
+def get_single_modal_model(opt, modality):
+    encoder = ModelBuilder.build_encoder(  # TODO check the implementation of FCN
+        arch=opt.encoder.lower(), fc_dim=opt.fc_dim, weights=opt.encoder_weight
+    )
+    decoder = ModelBuilder.build_decoder(
+        arch=opt.decoder.lower(),
+        fc_dim=opt.fc_dim,
+        weights=opt.decoder_weight,
+        num_class=opt.num_class,
+        dropout=opt.dropout,
+        fcn_up=opt.fcn_up,
+    )
+    if modality.lower() == "bayar":
+        pre_filter = BayarConv2d(
+            3, 3, 5, stride=1, padding=2, magnitude=opt.bayar_magnitude
+        )
+    elif modality.lower() == "srm":
+        pre_filter = SRMConv2d(
+            stride=1, padding=2, clip=opt.srm_clip
+        )  # TODO check the implementation of SRM filter
+    elif modality.lower() == "rgb":
+        pre_filter = nn.Identity()
+    else:  # early
+        pre_filter = EarlyFusionPreFilter(
+            bayar_magnitude=opt.bayar_magnitude, srm_clip=opt.srm_clip
+        )
+    model = MainModel(
+        encoder,
+        decoder,
+        opt.fc_dim,
+        opt.volume_block_idx,
+        opt.share_embed_head,
+        pre_filter,
+        opt.gem,
+        opt.gem_coef,
+        opt.gsm,
+        opt.map_portion,
+        opt.otsu_sel,
+        opt.otsu_portion,
+    )
+    return model

models/bayar_conv.py ADDED Viewed

	@@ -0,0 +1,67 @@

+import torch
+import torch.nn as nn
+from einops import rearrange
+class BayarConv2d(nn.Module):
+    def __init__(
+        self,
+        in_channles: int,
+        out_channels: int,
+        kernel_size: int = 5,
+        stride: int = 1,
+        padding: int = 0,
+        magnitude: float = 1.0,
+    ):
+        super().__init__()
+        assert kernel_size > 1, "Bayar conv kernel size must be greater than 1"
+        self.in_channels = in_channles
+        self.out_channels = out_channels
+        self.kernel_size = kernel_size
+        self.stride = stride
+        self.padding = padding
+        self.magnitude = magnitude
+        self.center_weight = nn.Parameter(
+            torch.ones(self.in_channels, self.out_channels, 1) * -1.0 * magnitude,
+            requires_grad=False,
+        )
+        self.kernel_weight = nn.Parameter(
+            torch.rand((self.in_channels, self.out_channels, kernel_size**2 - 1)),
+            requires_grad=True,
+        )
+    def _constraint_weight(self):
+        self.kernel_weight.data = self.kernel_weight.permute(2, 0, 1)
+        self.kernel_weight.data = torch.div(
+            self.kernel_weight.data, self.kernel_weight.data.sum(0)
+        )
+        self.kernel_weight.data = self.kernel_weight.permute(1, 2, 0) * self.magnitude
+        center_idx = self.kernel_size**2 // 2
+        full_kernel = torch.cat(
+            [
+                self.kernel_weight[:, :, :center_idx],
+                self.center_weight,
+                self.kernel_weight[:, :, center_idx:],
+            ],
+            dim=2,
+        )
+        full_kernel = rearrange(
+            full_kernel, "ci co (kw kh) -> ci co kw kh", kw=self.kernel_size
+        )
+        return full_kernel
+    def forward(self, x):
+        x = nn.functional.conv2d(
+            x, self._constraint_weight(), stride=self.stride, padding=self.padding
+        )
+        return x
+if __name__ == "__main__":
+    device = "cuda"
+    bayer_conv2d = BayarConv2d(3, 3, 3, magnitude=1).to(device)
+    bayer_conv2d._constraint_weight()
+    i = torch.rand(16, 3, 16, 16).to(device)
+    o = bayer_conv2d(i)

models/early_fusion_pre_filter.py ADDED Viewed

	@@ -0,0 +1,25 @@

+import torch
+import torch.nn as nn
+from .bayar_conv import BayarConv2d
+from .srm_conv import SRMConv2d
+class EarlyFusionPreFilter(nn.Module):
+    def __init__(self, bayar_magnitude: float, srm_clip: float):
+        super().__init__()
+        self.bayar_filter = BayarConv2d(
+            3, 3, 5, stride=1, padding=2, magnitude=bayar_magnitude
+        )
+        self.srm_filter = SRMConv2d(stride=1, padding=2, clip=srm_clip)
+        self.rgb_filter = nn.Identity()
+        self.map = nn.Conv2d(9, 3, 1, stride=1, padding=0)
+    def forward(self, x):
+        x_bayar = self.bayar_filter(x)
+        x_srm = self.srm_filter(x)
+        x_rgb = self.rgb_filter(x)
+        x_concat = torch.cat([x_bayar, x_srm, x_rgb], dim=1)
+        x_concat = self.map(x_concat)
+        return x_concat

models/ensemble_model.py ADDED Viewed

	@@ -0,0 +1,32 @@

+from typing import Dict, List
+import torch
+import torch.nn as nn
+class EnsembleModel(nn.Module):
+    def __init__(self, models: Dict, mvc_single_weight: Dict):
+        super().__init__()
+        self.sub_models = nn.ModuleDict(models)
+        self.modality = list(self.sub_models.keys())
+        self.mvc_single_weight = mvc_single_weight
+        for k, v in self.mvc_single_weight.items():
+            assert 0 <= v <= 1, "The weight of {} for {} is out of range".format(v, k)
+    def forward(self, image, seg_size=None):
+        result = {}
+        for modality in self.modality:
+            result[modality] = self.sub_models[modality](image, seg_size)
+        avg_result = {}
+        for k in result[self.modality[0]].keys():
+            avg_result[k] = torch.zeros_like(result[self.modality[0]][k])
+            for modality in self.modality:
+                avg_result[k] = (
+                    avg_result[k]
+                    + self.mvc_single_weight[modality] * result[modality][k]
+                )
+        result["ensemble"] = avg_result
+        return result

models/hrnet.py ADDED Viewed

	@@ -0,0 +1,537 @@

+"""
+This HRNet implementation is modified from the following repository:
+https://github.com/HRNet/HRNet-Semantic-Segmentation
+"""
+import logging
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from .lib.nn import SynchronizedBatchNorm2d
+from .utils import load_url
+BatchNorm2d = SynchronizedBatchNorm2d
+BN_MOMENTUM = 0.1
+logger = logging.getLogger(__name__)
+__all__ = ["hrnetv2"]
+model_urls = {
+    "hrnetv2": "http://sceneparsing.csail.mit.edu/model/pretrained_resnet/hrnetv2_w48-imagenet.pth",
+}
+def conv3x3(in_planes, out_planes, stride=1):
+    """3x3 convolution with padding"""
+    return nn.Conv2d(
+        in_planes, out_planes, kernel_size=3, stride=stride, padding=1, bias=False
+    )
+class BasicBlock(nn.Module):
+    expansion = 1
+    def __init__(self, inplanes, planes, stride=1, downsample=None):
+        super(BasicBlock, self).__init__()
+        self.conv1 = conv3x3(inplanes, planes, stride)
+        self.bn1 = BatchNorm2d(planes, momentum=BN_MOMENTUM)
+        self.relu = nn.ReLU(inplace=True)
+        self.conv2 = conv3x3(planes, planes)
+        self.bn2 = BatchNorm2d(planes, momentum=BN_MOMENTUM)
+        self.downsample = downsample
+        self.stride = stride
+    def forward(self, x):
+        residual = x
+        out = self.conv1(x)
+        out = self.bn1(out)
+        out = self.relu(out)
+        out = self.conv2(out)
+        out = self.bn2(out)
+        if self.downsample is not None:
+            residual = self.downsample(x)
+        out += residual
+        out = self.relu(out)
+        return out
+class Bottleneck(nn.Module):
+    expansion = 4
+    def __init__(self, inplanes, planes, stride=1, downsample=None):
+        super(Bottleneck, self).__init__()
+        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
+        self.bn1 = BatchNorm2d(planes, momentum=BN_MOMENTUM)
+        self.conv2 = nn.Conv2d(
+            planes, planes, kernel_size=3, stride=stride, padding=1, bias=False
+        )
+        self.bn2 = BatchNorm2d(planes, momentum=BN_MOMENTUM)
+        self.conv3 = nn.Conv2d(
+            planes, planes * self.expansion, kernel_size=1, bias=False
+        )
+        self.bn3 = BatchNorm2d(planes * self.expansion, momentum=BN_MOMENTUM)
+        self.relu = nn.ReLU(inplace=True)
+        self.downsample = downsample
+        self.stride = stride
+    def forward(self, x):
+        residual = x
+        out = self.conv1(x)
+        out = self.bn1(out)
+        out = self.relu(out)
+        out = self.conv2(out)
+        out = self.bn2(out)
+        out = self.relu(out)
+        out = self.conv3(out)
+        out = self.bn3(out)
+        if self.downsample is not None:
+            residual = self.downsample(x)
+        out += residual
+        out = self.relu(out)
+        return out
+class HighResolutionModule(nn.Module):
+    def __init__(
+        self,
+        num_branches,
+        blocks,
+        num_blocks,
+        num_inchannels,
+        num_channels,
+        fuse_method,
+        multi_scale_output=True,
+    ):
+        super(HighResolutionModule, self).__init__()
+        self._check_branches(
+            num_branches, blocks, num_blocks, num_inchannels, num_channels
+        )
+        self.num_inchannels = num_inchannels
+        self.fuse_method = fuse_method
+        self.num_branches = num_branches
+        self.multi_scale_output = multi_scale_output
+        self.branches = self._make_branches(
+            num_branches, blocks, num_blocks, num_channels
+        )
+        self.fuse_layers = self._make_fuse_layers()
+        self.relu = nn.ReLU(inplace=True)
+    def _check_branches(
+        self, num_branches, blocks, num_blocks, num_inchannels, num_channels
+    ):
+        if num_branches != len(num_blocks):
+            error_msg = "NUM_BRANCHES({}) <> NUM_BLOCKS({})".format(
+                num_branches, len(num_blocks)
+            )
+            logger.error(error_msg)
+            raise ValueError(error_msg)
+        if num_branches != len(num_channels):
+            error_msg = "NUM_BRANCHES({}) <> NUM_CHANNELS({})".format(
+                num_branches, len(num_channels)
+            )
+            logger.error(error_msg)
+            raise ValueError(error_msg)
+        if num_branches != len(num_inchannels):
+            error_msg = "NUM_BRANCHES({}) <> NUM_INCHANNELS({})".format(
+                num_branches, len(num_inchannels)
+            )
+            logger.error(error_msg)
+            raise ValueError(error_msg)
+    def _make_one_branch(self, branch_index, block, num_blocks, num_channels, stride=1):
+        downsample = None
+        if (
+            stride != 1
+            or self.num_inchannels[branch_index]
+            != num_channels[branch_index] * block.expansion
+        ):
+            downsample = nn.Sequential(
+                nn.Conv2d(
+                    self.num_inchannels[branch_index],
+                    num_channels[branch_index] * block.expansion,
+                    kernel_size=1,
+                    stride=stride,
+                    bias=False,
+                ),
+                BatchNorm2d(
+                    num_channels[branch_index] * block.expansion, momentum=BN_MOMENTUM
+                ),
+            )
+        layers = []
+        layers.append(
+            block(
+                self.num_inchannels[branch_index],
+                num_channels[branch_index],
+                stride,
+                downsample,
+            )
+        )
+        self.num_inchannels[branch_index] = num_channels[branch_index] * block.expansion
+        for i in range(1, num_blocks[branch_index]):
+            layers.append(
+                block(self.num_inchannels[branch_index], num_channels[branch_index])
+            )
+        return nn.Sequential(*layers)
+    def _make_branches(self, num_branches, block, num_blocks, num_channels):
+        branches = []
+        for i in range(num_branches):
+            branches.append(self._make_one_branch(i, block, num_blocks, num_channels))
+        return nn.ModuleList(branches)
+    def _make_fuse_layers(self):
+        if self.num_branches == 1:
+            return None
+        num_branches = self.num_branches
+        num_inchannels = self.num_inchannels
+        fuse_layers = []
+        for i in range(num_branches if self.multi_scale_output else 1):
+            fuse_layer = []
+            for j in range(num_branches):
+                if j > i:
+                    fuse_layer.append(
+                        nn.Sequential(
+                            nn.Conv2d(
+                                num_inchannels[j],
+                                num_inchannels[i],
+                                1,
+                                1,
+                                0,
+                                bias=False,
+                            ),
+                            BatchNorm2d(num_inchannels[i], momentum=BN_MOMENTUM),
+                        )
+                    )
+                elif j == i:
+                    fuse_layer.append(None)
+                else:
+                    conv3x3s = []
+                    for k in range(i - j):
+                        if k == i - j - 1:
+                            num_outchannels_conv3x3 = num_inchannels[i]
+                            conv3x3s.append(
+                                nn.Sequential(
+                                    nn.Conv2d(
+                                        num_inchannels[j],
+                                        num_outchannels_conv3x3,
+                                        3,
+                                        2,
+                                        1,
+                                        bias=False,
+                                    ),
+                                    BatchNorm2d(
+                                        num_outchannels_conv3x3, momentum=BN_MOMENTUM
+                                    ),
+                                )
+                            )
+                        else:
+                            num_outchannels_conv3x3 = num_inchannels[j]
+                            conv3x3s.append(
+                                nn.Sequential(
+                                    nn.Conv2d(
+                                        num_inchannels[j],
+                                        num_outchannels_conv3x3,
+                                        3,
+                                        2,
+                                        1,
+                                        bias=False,
+                                    ),
+                                    BatchNorm2d(
+                                        num_outchannels_conv3x3, momentum=BN_MOMENTUM
+                                    ),
+                                    nn.ReLU(inplace=True),
+                                )
+                            )
+                    fuse_layer.append(nn.Sequential(*conv3x3s))
+            fuse_layers.append(nn.ModuleList(fuse_layer))
+        return nn.ModuleList(fuse_layers)
+    def get_num_inchannels(self):
+        return self.num_inchannels
+    def forward(self, x):
+        if self.num_branches == 1:
+            return [self.branches[0](x[0])]
+        for i in range(self.num_branches):
+            x[i] = self.branches[i](x[i])
+        x_fuse = []
+        for i in range(len(self.fuse_layers)):
+            y = x[0] if i == 0 else self.fuse_layers[i][0](x[0])
+            for j in range(1, self.num_branches):
+                if i == j:
+                    y = y + x[j]
+                elif j > i:
+                    width_output = x[i].shape[-1]
+                    height_output = x[i].shape[-2]
+                    y = y + F.interpolate(
+                        self.fuse_layers[i][j](x[j]),
+                        size=(height_output, width_output),
+                        mode="bilinear",
+                        align_corners=False,
+                    )
+                else:
+                    y = y + self.fuse_layers[i][j](x[j])
+            x_fuse.append(self.relu(y))
+        return x_fuse
+blocks_dict = {"BASIC": BasicBlock, "BOTTLENECK": Bottleneck}
+class HRNetV2(nn.Module):
+    def __init__(self, n_class, **kwargs):
+        super(HRNetV2, self).__init__()
+        extra = {
+            "STAGE2": {
+                "NUM_MODULES": 1,
+                "NUM_BRANCHES": 2,
+                "BLOCK": "BASIC",
+                "NUM_BLOCKS": (4, 4),
+                "NUM_CHANNELS": (48, 96),
+                "FUSE_METHOD": "SUM",
+            },
+            "STAGE3": {
+                "NUM_MODULES": 4,
+                "NUM_BRANCHES": 3,
+                "BLOCK": "BASIC",
+                "NUM_BLOCKS": (4, 4, 4),
+                "NUM_CHANNELS": (48, 96, 192),
+                "FUSE_METHOD": "SUM",
+            },
+            "STAGE4": {
+                "NUM_MODULES": 3,
+                "NUM_BRANCHES": 4,
+                "BLOCK": "BASIC",
+                "NUM_BLOCKS": (4, 4, 4, 4),
+                "NUM_CHANNELS": (48, 96, 192, 384),
+                "FUSE_METHOD": "SUM",
+            },
+            "FINAL_CONV_KERNEL": 1,
+        }
+        # stem net
+        self.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=2, padding=1, bias=False)
+        self.bn1 = BatchNorm2d(64, momentum=BN_MOMENTUM)
+        self.conv2 = nn.Conv2d(64, 64, kernel_size=3, stride=2, padding=1, bias=False)
+        self.bn2 = BatchNorm2d(64, momentum=BN_MOMENTUM)
+        self.relu = nn.ReLU(inplace=True)
+        self.layer1 = self._make_layer(Bottleneck, 64, 64, 4)
+        self.stage2_cfg = extra["STAGE2"]
+        num_channels = self.stage2_cfg["NUM_CHANNELS"]
+        block = blocks_dict[self.stage2_cfg["BLOCK"]]
+        num_channels = [
+            num_channels[i] * block.expansion for i in range(len(num_channels))
+        ]
+        self.transition1 = self._make_transition_layer([256], num_channels)
+        self.stage2, pre_stage_channels = self._make_stage(
+            self.stage2_cfg, num_channels
+        )
+        self.stage3_cfg = extra["STAGE3"]
+        num_channels = self.stage3_cfg["NUM_CHANNELS"]
+        block = blocks_dict[self.stage3_cfg["BLOCK"]]
+        num_channels = [
+            num_channels[i] * block.expansion for i in range(len(num_channels))
+        ]
+        self.transition2 = self._make_transition_layer(pre_stage_channels, num_channels)
+        self.stage3, pre_stage_channels = self._make_stage(
+            self.stage3_cfg, num_channels
+        )
+        self.stage4_cfg = extra["STAGE4"]
+        num_channels = self.stage4_cfg["NUM_CHANNELS"]
+        block = blocks_dict[self.stage4_cfg["BLOCK"]]
+        num_channels = [
+            num_channels[i] * block.expansion for i in range(len(num_channels))
+        ]
+        self.transition3 = self._make_transition_layer(pre_stage_channels, num_channels)
+        self.stage4, pre_stage_channels = self._make_stage(
+            self.stage4_cfg, num_channels, multi_scale_output=True
+        )
+    def _make_transition_layer(self, num_channels_pre_layer, num_channels_cur_layer):
+        num_branches_cur = len(num_channels_cur_layer)
+        num_branches_pre = len(num_channels_pre_layer)
+        transition_layers = []
+        for i in range(num_branches_cur):
+            if i < num_branches_pre:
+                if num_channels_cur_layer[i] != num_channels_pre_layer[i]:
+                    transition_layers.append(
+                        nn.Sequential(
+                            nn.Conv2d(
+                                num_channels_pre_layer[i],
+                                num_channels_cur_layer[i],
+                                3,
+                                1,
+                                1,
+                                bias=False,
+                            ),
+                            BatchNorm2d(
+                                num_channels_cur_layer[i], momentum=BN_MOMENTUM
+                            ),
+                            nn.ReLU(inplace=True),
+                        )
+                    )
+                else:
+                    transition_layers.append(None)
+            else:
+                conv3x3s = []
+                for j in range(i + 1 - num_branches_pre):
+                    inchannels = num_channels_pre_layer[-1]
+                    outchannels = (
+                        num_channels_cur_layer[i]
+                        if j == i - num_branches_pre
+                        else inchannels
+                    )
+                    conv3x3s.append(
+                        nn.Sequential(
+                            nn.Conv2d(inchannels, outchannels, 3, 2, 1, bias=False),
+                            BatchNorm2d(outchannels, momentum=BN_MOMENTUM),
+                            nn.ReLU(inplace=True),
+                        )
+                    )
+                transition_layers.append(nn.Sequential(*conv3x3s))
+        return nn.ModuleList(transition_layers)
+    def _make_layer(self, block, inplanes, planes, blocks, stride=1):
+        downsample = None
+        if stride != 1 or inplanes != planes * block.expansion:
+            downsample = nn.Sequential(
+                nn.Conv2d(
+                    inplanes,
+                    planes * block.expansion,
+                    kernel_size=1,
+                    stride=stride,
+                    bias=False,
+                ),
+                BatchNorm2d(planes * block.expansion, momentum=BN_MOMENTUM),
+            )
+        layers = []
+        layers.append(block(inplanes, planes, stride, downsample))
+        inplanes = planes * block.expansion
+        for i in range(1, blocks):
+            layers.append(block(inplanes, planes))
+        return nn.Sequential(*layers)
+    def _make_stage(self, layer_config, num_inchannels, multi_scale_output=True):
+        num_modules = layer_config["NUM_MODULES"]
+        num_branches = layer_config["NUM_BRANCHES"]
+        num_blocks = layer_config["NUM_BLOCKS"]
+        num_channels = layer_config["NUM_CHANNELS"]
+        block = blocks_dict[layer_config["BLOCK"]]
+        fuse_method = layer_config["FUSE_METHOD"]
+        modules = []
+        for i in range(num_modules):
+            # multi_scale_output is only used last module
+            if not multi_scale_output and i == num_modules - 1:
+                reset_multi_scale_output = False
+            else:
+                reset_multi_scale_output = True
+            modules.append(
+                HighResolutionModule(
+                    num_branches,
+                    block,
+                    num_blocks,
+                    num_inchannels,
+                    num_channels,
+                    fuse_method,
+                    reset_multi_scale_output,
+                )
+            )
+            num_inchannels = modules[-1].get_num_inchannels()
+        return nn.Sequential(*modules), num_inchannels
+    def forward(self, x, return_feature_maps=False):
+        x = self.conv1(x)
+        x = self.bn1(x)
+        x = self.relu(x)
+        x = self.conv2(x)
+        x = self.bn2(x)
+        x = self.relu(x)
+        x = self.layer1(x)
+        x_list = []
+        for i in range(self.stage2_cfg["NUM_BRANCHES"]):
+            if self.transition1[i] is not None:
+                x_list.append(self.transition1[i](x))
+            else:
+                x_list.append(x)
+        y_list = self.stage2(x_list)
+        x_list = []
+        for i in range(self.stage3_cfg["NUM_BRANCHES"]):
+            if self.transition2[i] is not None:
+                x_list.append(self.transition2[i](y_list[-1]))
+            else:
+                x_list.append(y_list[i])
+        y_list = self.stage3(x_list)
+        x_list = []
+        for i in range(self.stage4_cfg["NUM_BRANCHES"]):
+            if self.transition3[i] is not None:
+                x_list.append(self.transition3[i](y_list[-1]))
+            else:
+                x_list.append(y_list[i])
+        x = self.stage4(x_list)
+        # Upsampling
+        x0_h, x0_w = x[0].size(2), x[0].size(3)
+        x1 = F.interpolate(
+            x[1], size=(x0_h, x0_w), mode="bilinear", align_corners=False
+        )
+        x2 = F.interpolate(
+            x[2], size=(x0_h, x0_w), mode="bilinear", align_corners=False
+        )
+        x3 = F.interpolate(
+            x[3], size=(x0_h, x0_w), mode="bilinear", align_corners=False
+        )
+        x = torch.cat([x[0], x1, x2, x3], 1)
+        # x = self.last_layer(x)
+        return [x]
+def hrnetv2(pretrained=False, **kwargs):
+    model = HRNetV2(n_class=1000, **kwargs)
+    if pretrained:
+        model.load_state_dict(load_url(model_urls["hrnetv2"]), strict=False)
+    return model

models/main_model.py ADDED Viewed

	@@ -0,0 +1,290 @@

+from typing import Optional
+import torch
+import torch.nn as nn
+from einops import rearrange
+class MainModel(nn.Module):
+    def __init__(
+        self,
+        encoder,
+        decoder,
+        fc_dim: int,
+        volume_block_idx: int,
+        share_embed_head: bool,
+        pre_filter=None,
+        use_gem: bool = False,
+        gem_coef: Optional[float] = None,
+        use_gsm: bool = False,
+        map_portion: float = 0,
+        otsu_sel: bool = False,
+        otsu_portion: float = 1,
+    ):
+        super().__init__()
+        self.encoder = encoder
+        self.decoder = decoder
+        self.use_gem = use_gem
+        self.gem_coef = gem_coef
+        self.use_gsm = use_gsm
+        self.map_portion = map_portion
+        assert self.map_portion <= 0.5, "Map_portion must be less than 0.5"
+        self.otsu_sel = otsu_sel
+        self.otsu_portion = otsu_portion
+        self.volume_block_idx = volume_block_idx
+        volume_in_channel = int(fc_dim * (2 ** (self.volume_block_idx - 3)))
+        volume_out_channel = volume_in_channel // 2
+        self.scale = volume_out_channel**0.5
+        self.share_embed_head = share_embed_head
+        self.proj_head1 = nn.Sequential(
+            nn.Conv2d(
+                volume_in_channel, volume_in_channel, kernel_size=1, stride=1, padding=0
+            ),
+            nn.LeakyReLU(),
+            nn.Conv2d(
+                volume_in_channel,
+                volume_out_channel,
+                kernel_size=1,
+                stride=1,
+                padding=0,
+            ),
+        )
+        if not share_embed_head:
+            self.proj_head2 = nn.Sequential(
+                nn.Conv2d(
+                    volume_in_channel,
+                    volume_in_channel,
+                    kernel_size=1,
+                    stride=1,
+                    padding=0,
+                ),
+                nn.LeakyReLU(),
+                nn.Conv2d(
+                    volume_in_channel,
+                    volume_out_channel,
+                    kernel_size=1,
+                    stride=1,
+                    padding=0,
+                ),
+            )
+        self.pre_filter = pre_filter
+    def forward(self, image, seg_size=None):
+        """
+        for output maps, the return value is the raw logits
+        for consistency volume, the return value is the value after sigmoid
+        """
+        bs = image.shape[0]
+        if self.pre_filter is not None:
+            image = self.pre_filter(image)
+        # get output map
+        encoder_feature = self.encoder(image, return_feature_maps=True)
+        output_map = self.decoder(encoder_feature, segSize=seg_size)
+        output_map = output_map.sigmoid()
+        # b, _, h, w = output_map.shape
+        # get image-level prediction
+        if self.use_gem:
+            mh, mw = output_map.shape[-2:]
+            image_pred = output_map.flatten(1)
+            image_pred = torch.linalg.norm(image_pred, ord=self.gem_coef, dim=1)
+            image_pred = image_pred / (mh * mw)
+        elif self.use_gsm:
+            image_pred = output_map.flatten(1)
+            weight = project_onto_l1_ball(image_pred, 1.0)
+            image_pred = (image_pred * weight).sum(1)
+        else:
+            if self.otsu_sel:
+                n_pixel = output_map.shape[-1] * output_map.shape[-2]
+                image_pred = output_map.flatten(1)
+                image_pred, _ = torch.sort(image_pred, dim=1)
+                tmp = []
+                for b in range(bs):
+                    num_otsu_sel = get_otsu_k(image_pred[b, ...], sorted=True)
+                    num_otsu_sel = max(num_otsu_sel, n_pixel // 2 + 1)
+                    tpk = int(max(1, (n_pixel - num_otsu_sel) * self.otsu_portion))
+                    topk_output = torch.topk(image_pred[b, ...], k=tpk, dim=0)[0]
+                    tmp.append(topk_output.mean())
+                image_pred = torch.stack(tmp)
+            else:
+                if self.map_portion == 0:
+                    image_pred = nn.functional.max_pool2d(
+                        output_map, kernel_size=output_map.shape[-2:]
+                    )
+                    image_pred = image_pred.squeeze(1).squeeze(1).squeeze(1)
+                else:
+                    n_pixel = output_map.shape[-1] * output_map.shape[-2]
+                    k = int(max(1, int(self.map_portion * n_pixel)))
+                    topk_output = torch.topk(output_map.flatten(1), k, dim=1)[0]
+                    image_pred = topk_output.mean(1)
+        if seg_size is not None:
+            output_map = nn.functional.interpolate(
+                output_map, size=seg_size, mode="bilinear", align_corners=False
+            )
+            output_map = output_map.clamp(0, 1)
+        # compute consistency volume, 0 for consistency, and 1 for inconsistency
+        feature_map1 = self.proj_head1(encoder_feature[self.volume_block_idx])
+        if not self.share_embed_head:
+            feature_map2 = self.proj_head2(encoder_feature[self.volume_block_idx])
+        else:
+            feature_map2 = feature_map1.clone()
+        b, c, h, w = feature_map1.shape
+        feature_map1 = rearrange(feature_map1, "b c h w -> b c (h w)")
+        feature_map2 = rearrange(feature_map2, "b c h w -> b c (h w)")
+        consistency_volume = torch.bmm(feature_map1.transpose(-1, -2), feature_map2)
+        consistency_volume = rearrange(
+            consistency_volume, "b (h1 w1) (h2 w2) -> b h1 w1 h2 w2", h1=h, h2=h
+        )
+        consistency_volume = consistency_volume / self.scale
+        consistency_volume = 1 - consistency_volume.sigmoid()
+        vh, vw = consistency_volume.shape[-2:]
+        if self.use_gem:
+            volume_image_pred = consistency_volume.flatten(1)
+            volume_image_pred = torch.linalg.norm(
+                volume_image_pred, ord=self.gem_coef, dim=1
+            )
+            volume_image_pred = volume_image_pred / (vh * vw * vh * vw)
+        elif self.use_gsm:
+            volume_image_pred = consistency_volume.flatten(1)
+            weight = project_onto_l1_ball(volume_image_pred, 1.0)
+            volume_image_pred = (volume_image_pred * weight).sum(1)
+        else:
+            # FIXME skip Otsu's selection on volume due to its slowness
+            # if self.otsu_sel:
+            #     n_ele = vh * vw * vh * vw
+            #     volume_image_pred = consistency_volume.flatten(1)
+            #     volume_image_pred, _ = torch.sort(volume_image_pred, dim=1)
+            #     tmp = []
+            #     for b in range(bs):
+            #         num_otsu_sel = get_otsu_k(volume_image_pred[b, ...], sorted=True)
+            #         num_otsu_sel = max(num_otsu_sel, n_ele // 2 + 1)
+            #         tpk = int(max(1, (n_ele - num_otsu_sel) * self.otsu_portion))
+            #         topk_output = torch.topk(volume_image_pred[b, ...], k=tpk, dim=0)[0]
+            #         tmp.append(topk_output.mean())
+            #     volume_image_pred = torch.stack(tmp)
+            # else:
+            if self.map_portion == 0:
+                volume_image_pred = torch.max(consistency_volume.flatten(1), dim=1)[0]
+            else:
+                n_ele = vh * vw * vh * vw
+                k = int(max(1, int(self.map_portion * n_ele)))
+                topk_output = torch.topk(consistency_volume.flatten(1), k, dim=1)[0]
+                volume_image_pred = topk_output.mean(1)
+        return {
+            "out_map": output_map,
+            "map_pred": image_pred,
+            "out_vol": consistency_volume,
+            "vol_pred": volume_image_pred,
+        }
+def project_onto_l1_ball(x, eps):
+    """
+    Compute Euclidean projection onto the L1 ball for a batch.
+      min ||x - u||_2 s.t. ||u||_1 <= eps
+    Inspired by the corresponding numpy version by Adrien Gaidon.
+    Parameters
+    ----------
+    x: (batch_size, *) torch array
+      batch of arbitrary-size tensors to project, possibly on GPU
+    eps: float
+      radius of l-1 ball to project onto
+    Returns
+    -------
+    u: (batch_size, *) torch array
+      batch of projected tensors, reshaped to match the original
+    Notes
+    -----
+    The complexity of this algorithm is in O(dlogd) as it involves sorting x.
+    References
+    ----------
+    [1] Efficient Projections onto the l1-Ball for Learning in High Dimensions
+        John Duchi, Shai Shalev-Shwartz, Yoram Singer, and Tushar Chandra.
+        International Conference on Machine Learning (ICML 2008)
+    """
+    with torch.no_grad():
+        original_shape = x.shape
+        x = x.view(x.shape[0], -1)
+        mask = (torch.norm(x, p=1, dim=1) < eps).float().unsqueeze(1)
+        mu, _ = torch.sort(torch.abs(x), dim=1, descending=True)
+        cumsum = torch.cumsum(mu, dim=1)
+        arange = torch.arange(1, x.shape[1] + 1, device=x.device)
+        rho, _ = torch.max((mu * arange > (cumsum - eps)) * arange, dim=1)
+        theta = (cumsum[torch.arange(x.shape[0]), rho.cpu() - 1] - eps) / rho
+        proj = (torch.abs(x) - theta.unsqueeze(1)).clamp(min=0)
+        x = mask * x + (1 - mask) * proj * torch.sign(x)
+        x = x.view(original_shape)
+    return x
+def get_otsu_k(attention, return_value=False, sorted=False):
+    def _get_weighted_var(seq, pivot: int):
+        # seq is of shape [t], in ascending order
+        length = seq.shape[0]
+        wb = pivot / length
+        vb = seq[:pivot].var()
+        wf = 1 - pivot / length
+        vf = seq[pivot:].var()
+        return wb * vb + wf * vf
+    # attention shape: t
+    # TODO use half
+    length = attention.shape[0]
+    if length == 1:
+        return 0
+    elif length == 2:
+        return 1
+    if not sorted:
+        attention, _ = torch.sort(attention)
+    optimal_i = length // 2
+    min_intra_class_var = _get_weighted_var(attention, optimal_i)
+    # for i in range(1, length):
+    #     intra_class_var = _get_weighted_var(attention, i)
+    #     if intra_class_var < min_intra_class_var:
+    #         min_intra_class_var = intra_class_var
+    #         optimal_i = i
+    got_it = False
+    # look left
+    for i in range(optimal_i - 1, 0, -1):
+        intra_class_var = _get_weighted_var(attention, i)
+        if intra_class_var > min_intra_class_var:
+            break
+        else:
+            min_intra_class_var = intra_class_var
+            optimal_i = i
+            got_it = True
+    # look right
+    if not got_it:
+        for i in range(optimal_i + 1, length):
+            intra_class_var = _get_weighted_var(attention, i)
+            if intra_class_var > min_intra_class_var:
+                break
+            else:
+                min_intra_class_var = intra_class_var
+                optimal_i = i
+    if return_value:
+        return attention[optimal_i]
+    else:
+        return optimal_i
+if __name__ == "__main__":
+    model = MainModel(None, None, 1024, 2, True, "srm")

models/mobilenet.py ADDED Viewed

	@@ -0,0 +1,166 @@

+"""
+This MobileNetV2 implementation is modified from the following repository:
+https://github.com/tonylins/pytorch-mobilenet-v2
+"""
+import math
+import torch.nn as nn
+from .lib.nn import SynchronizedBatchNorm2d
+from .utils import load_url
+BatchNorm2d = SynchronizedBatchNorm2d
+__all__ = ["mobilenetv2"]
+model_urls = {
+    "mobilenetv2": "http://sceneparsing.csail.mit.edu/model/pretrained_resnet/mobilenet_v2.pth.tar",
+}
+def conv_bn(inp, oup, stride):
+    return nn.Sequential(
+        nn.Conv2d(inp, oup, 3, stride, 1, bias=False),
+        BatchNorm2d(oup),
+        nn.ReLU6(inplace=True),
+    )
+def conv_1x1_bn(inp, oup):
+    return nn.Sequential(
+        nn.Conv2d(inp, oup, 1, 1, 0, bias=False),
+        BatchNorm2d(oup),
+        nn.ReLU6(inplace=True),
+    )
+class InvertedResidual(nn.Module):
+    def __init__(self, inp, oup, stride, expand_ratio):
+        super(InvertedResidual, self).__init__()
+        self.stride = stride
+        assert stride in [1, 2]
+        hidden_dim = round(inp * expand_ratio)
+        self.use_res_connect = self.stride == 1 and inp == oup
+        if expand_ratio == 1:
+            self.conv = nn.Sequential(
+                # dw
+                nn.Conv2d(
+                    hidden_dim, hidden_dim, 3, stride, 1, groups=hidden_dim, bias=False
+                ),
+                BatchNorm2d(hidden_dim),
+                nn.ReLU6(inplace=True),
+                # pw-linear
+                nn.Conv2d(hidden_dim, oup, 1, 1, 0, bias=False),
+                BatchNorm2d(oup),
+            )
+        else:
+            self.conv = nn.Sequential(
+                # pw
+                nn.Conv2d(inp, hidden_dim, 1, 1, 0, bias=False),
+                BatchNorm2d(hidden_dim),
+                nn.ReLU6(inplace=True),
+                # dw
+                nn.Conv2d(
+                    hidden_dim, hidden_dim, 3, stride, 1, groups=hidden_dim, bias=False
+                ),
+                BatchNorm2d(hidden_dim),
+                nn.ReLU6(inplace=True),
+                # pw-linear
+                nn.Conv2d(hidden_dim, oup, 1, 1, 0, bias=False),
+                BatchNorm2d(oup),
+            )
+    def forward(self, x):
+        if self.use_res_connect:
+            return x + self.conv(x)
+        else:
+            return self.conv(x)
+class MobileNetV2(nn.Module):
+    def __init__(self, n_class=1000, input_size=224, width_mult=1.0):
+        super(MobileNetV2, self).__init__()
+        block = InvertedResidual
+        input_channel = 32
+        last_channel = 1280
+        interverted_residual_setting = [
+            # t, c, n, s
+            [1, 16, 1, 1],
+            [6, 24, 2, 2],
+            [6, 32, 3, 2],
+            [6, 64, 4, 2],
+            [6, 96, 3, 1],
+            [6, 160, 3, 2],
+            [6, 320, 1, 1],
+        ]
+        # building first layer
+        assert input_size % 32 == 0
+        input_channel = int(input_channel * width_mult)
+        self.last_channel = (
+            int(last_channel * width_mult) if width_mult > 1.0 else last_channel
+        )
+        self.features = [conv_bn(3, input_channel, 2)]
+        # building inverted residual blocks
+        for t, c, n, s in interverted_residual_setting:
+            output_channel = int(c * width_mult)
+            for i in range(n):
+                if i == 0:
+                    self.features.append(
+                        block(input_channel, output_channel, s, expand_ratio=t)
+                    )
+                else:
+                    self.features.append(
+                        block(input_channel, output_channel, 1, expand_ratio=t)
+                    )
+                input_channel = output_channel
+        # building last several layers
+        self.features.append(conv_1x1_bn(input_channel, self.last_channel))
+        # make it nn.Sequential
+        self.features = nn.Sequential(*self.features)
+        # building classifier
+        self.classifier = nn.Sequential(
+            nn.Dropout(0.2),
+            nn.Linear(self.last_channel, n_class),
+        )
+        self._initialize_weights()
+    def forward(self, x):
+        x = self.features(x)
+        x = x.mean(3).mean(2)
+        x = self.classifier(x)
+        return x
+    def _initialize_weights(self):
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
+                m.weight.data.normal_(0, math.sqrt(2.0 / n))
+                if m.bias is not None:
+                    m.bias.data.zero_()
+            elif isinstance(m, BatchNorm2d):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+            elif isinstance(m, nn.Linear):
+                n = m.weight.size(1)
+                m.weight.data.normal_(0, 0.01)
+                m.bias.data.zero_()
+def mobilenetv2(pretrained=False, **kwargs):
+    """Constructs a MobileNet_V2 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = MobileNetV2(n_class=1000, **kwargs)
+    if pretrained:
+        model.load_state_dict(load_url(model_urls["mobilenetv2"]), strict=False)
+    return model

models/models.py ADDED Viewed

	@@ -0,0 +1,687 @@

+from typing import List
+import torch
+import torch.nn as nn
+from . import hrnet, mobilenet, resnet, resnext
+from .lib.nn import SynchronizedBatchNorm2d
+BatchNorm2d = SynchronizedBatchNorm2d
+class SegmentationModuleBase(nn.Module):
+    def __init__(self):
+        super(SegmentationModuleBase, self).__init__()
+    def pixel_acc(self, pred, label):
+        _, preds = torch.max(pred, dim=1)
+        valid = (label >= 0).long()
+        acc_sum = torch.sum(valid * (preds == label).long())
+        pixel_sum = torch.sum(valid)
+        acc = acc_sum.float() / (pixel_sum.float() + 1e-10)
+        return acc
+class SegmentationModule(SegmentationModuleBase):
+    def __init__(self, net_enc, net_dec, crit, deep_sup_scale=None):
+        super(SegmentationModule, self).__init__()
+        self.encoder = net_enc
+        self.decoder = net_dec
+        self.crit = crit
+        self.deep_sup_scale = deep_sup_scale
+    def forward(self, feed_dict, *, segSize=None):
+        # training
+        if segSize is None:
+            if self.deep_sup_scale is not None:  # use deep supervision technique
+                (pred, pred_deepsup) = self.decoder(
+                    self.encoder(feed_dict["img_data"], return_feature_maps=True)
+                )
+            else:
+                pred = self.decoder(
+                    self.encoder(feed_dict["img_data"], return_feature_maps=True)
+                )
+            loss = self.crit(pred, feed_dict["seg_label"])
+            if self.deep_sup_scale is not None:
+                loss_deepsup = self.crit(pred_deepsup, feed_dict["seg_label"])
+                loss = loss + loss_deepsup * self.deep_sup_scale
+            acc = self.pixel_acc(pred, feed_dict["seg_label"])
+            return loss, acc
+        # inference
+        else:
+            pred = self.decoder(
+                self.encoder(feed_dict["img_data"], return_feature_maps=True),
+                segSize=segSize,
+            )
+            return pred
+class ModelBuilder:
+    # custom weights initialization
+    @staticmethod
+    def weights_init(m):
+        classname = m.__class__.__name__
+        if classname.find("Conv") != -1:
+            nn.init.kaiming_normal_(m.weight.data)
+        elif classname.find("BatchNorm") != -1:
+            m.weight.data.fill_(1.0)
+            m.bias.data.fill_(1e-4)
+        # elif classname.find('Linear') != -1:
+        #    m.weight.data.normal_(0.0, 0.0001)
+    @staticmethod
+    def build_encoder(arch="resnet50dilated", fc_dim=512, weights=""):
+        pretrained = True if len(weights) == 0 else False
+        arch = arch.lower()
+        if arch == "mobilenetv2dilated":
+            orig_mobilenet = mobilenet.__dict__["mobilenetv2"](pretrained=pretrained)
+            net_encoder = MobileNetV2Dilated(orig_mobilenet, dilate_scale=8)
+        elif arch == "resnet18":
+            orig_resnet = resnet.__dict__["resnet18"](pretrained=pretrained)
+            net_encoder = Resnet(orig_resnet)
+        elif arch == "resnet18dilated":
+            orig_resnet = resnet.__dict__["resnet18"](pretrained=pretrained)
+            net_encoder = ResnetDilated(orig_resnet, dilate_scale=8)
+        elif arch == "resnet34":
+            raise NotImplementedError
+            orig_resnet = resnet.__dict__["resnet34"](pretrained=pretrained)
+            net_encoder = Resnet(orig_resnet)
+        elif arch == "resnet34dilated":
+            raise NotImplementedError
+            orig_resnet = resnet.__dict__["resnet34"](pretrained=pretrained)
+            net_encoder = ResnetDilated(orig_resnet, dilate_scale=8)
+        elif arch == "resnet50":
+            orig_resnet = resnet.__dict__["resnet50"](pretrained=pretrained)
+            net_encoder = Resnet(orig_resnet)
+        elif arch == "resnet50dilated":
+            orig_resnet = resnet.__dict__["resnet50"](pretrained=pretrained)
+            net_encoder = ResnetDilated(orig_resnet, dilate_scale=8)
+        elif arch == "resnet101":
+            orig_resnet = resnet.__dict__["resnet101"](pretrained=pretrained)
+            net_encoder = Resnet(orig_resnet)
+        elif arch == "resnet101dilated":
+            orig_resnet = resnet.__dict__["resnet101"](pretrained=pretrained)
+            net_encoder = ResnetDilated(orig_resnet, dilate_scale=8)
+        elif arch == "resnext101":
+            orig_resnext = resnext.__dict__["resnext101"](pretrained=pretrained)
+            net_encoder = Resnet(orig_resnext)  # we can still use class Resnet
+        elif arch == "hrnetv2":
+            net_encoder = hrnet.__dict__["hrnetv2"](pretrained=pretrained)
+        else:
+            raise Exception("Architecture undefined!")
+        # encoders are usually pretrained
+        # net_encoder.apply(ModelBuilder.weights_init)
+        if len(weights) > 0:
+            print("Loading weights for net_encoder")
+            net_encoder.load_state_dict(
+                torch.load(weights, map_location=lambda storage, loc: storage),
+                strict=False,
+            )
+        return net_encoder
+    @staticmethod
+    def build_decoder(
+        arch="ppm_deepsup",
+        fc_dim=512,
+        num_class=150,
+        weights="",
+        use_softmax=False,
+        dropout=0.0,
+        fcn_up: int = 32,
+    ):
+        arch = arch.lower()
+        if arch == "c1_deepsup":
+            net_decoder = C1DeepSup(
+                num_class=num_class, fc_dim=fc_dim, use_softmax=use_softmax
+            )
+        elif arch == "c1":  # currently only support C1
+            net_decoder = C1(
+                num_class=num_class,
+                fc_dim=fc_dim,
+                use_softmax=use_softmax,
+                dropout=dropout,
+                fcn_up=fcn_up,
+            )
+        elif arch == "ppm":
+            net_decoder = PPM(
+                num_class=num_class, fc_dim=fc_dim, use_softmax=use_softmax
+            )
+        elif arch == "ppm_deepsup":
+            net_decoder = PPMDeepsup(
+                num_class=num_class, fc_dim=fc_dim, use_softmax=use_softmax
+            )
+        elif arch == "upernet_lite":
+            net_decoder = UPerNet(
+                num_class=num_class, fc_dim=fc_dim, use_softmax=use_softmax, fpn_dim=256
+            )
+        elif arch == "upernet":
+            net_decoder = UPerNet(
+                num_class=num_class, fc_dim=fc_dim, use_softmax=use_softmax, fpn_dim=512
+            )
+        else:
+            raise Exception("Architecture undefined!")
+        net_decoder.apply(ModelBuilder.weights_init)
+        if len(weights) > 0:
+            print("Loading weights for net_decoder")
+            net_decoder.load_state_dict(
+                torch.load(weights, map_location=lambda storage, loc: storage),
+                strict=False,
+            )
+        return net_decoder
+def conv3x3_bn_relu(in_planes, out_planes, stride=1):
+    "3x3 convolution + BN + relu"
+    return nn.Sequential(
+        nn.Conv2d(
+            in_planes, out_planes, kernel_size=3, stride=stride, padding=1, bias=False
+        ),
+        BatchNorm2d(out_planes),
+        nn.ReLU(inplace=True),
+    )
+class Resnet(nn.Module):
+    def __init__(self, orig_resnet):
+        super(Resnet, self).__init__()
+        # take pretrained resnet, except AvgPool and FC
+        self.conv1 = orig_resnet.conv1
+        self.bn1 = orig_resnet.bn1
+        self.relu1 = orig_resnet.relu1
+        self.conv2 = orig_resnet.conv2
+        self.bn2 = orig_resnet.bn2
+        self.relu2 = orig_resnet.relu2
+        self.conv3 = orig_resnet.conv3
+        self.bn3 = orig_resnet.bn3
+        self.relu3 = orig_resnet.relu3
+        self.maxpool = orig_resnet.maxpool
+        self.layer1 = orig_resnet.layer1
+        self.layer2 = orig_resnet.layer2
+        self.layer3 = orig_resnet.layer3
+        self.layer4 = orig_resnet.layer4
+    def forward(self, x, return_feature_maps=False):
+        conv_out = []
+        x = self.relu1(self.bn1(self.conv1(x)))
+        x = self.relu2(self.bn2(self.conv2(x)))
+        x = self.relu3(self.bn3(self.conv3(x)))
+        x = self.maxpool(x)  # b, 128, h / 2, w / 2
+        x = self.layer1(x)
+        conv_out.append(x)
+        # b, 128, h / 4, w / 4
+        x = self.layer2(x)
+        conv_out.append(x)
+        # b, 128, h / 8, w / 8
+        x = self.layer3(x)
+        conv_out.append(x)
+        # b, 128, h / 16, w / 16
+        x = self.layer4(x)
+        conv_out.append(x)
+        # b, 128, h / 32, w / 32
+        if return_feature_maps:
+            return conv_out
+        return [x]
+class ResnetDilated(nn.Module):
+    def __init__(self, orig_resnet, dilate_scale=8):
+        super(ResnetDilated, self).__init__()
+        from functools import partial
+        if dilate_scale == 8:
+            orig_resnet.layer3.apply(partial(self._nostride_dilate, dilate=2))
+            orig_resnet.layer4.apply(partial(self._nostride_dilate, dilate=4))
+        elif dilate_scale == 16:
+            orig_resnet.layer4.apply(partial(self._nostride_dilate, dilate=2))
+        # take pretrained resnet, except AvgPool and FC
+        self.conv1 = orig_resnet.conv1
+        self.bn1 = orig_resnet.bn1
+        self.relu1 = orig_resnet.relu1
+        self.conv2 = orig_resnet.conv2
+        self.bn2 = orig_resnet.bn2
+        self.relu2 = orig_resnet.relu2
+        self.conv3 = orig_resnet.conv3
+        self.bn3 = orig_resnet.bn3
+        self.relu3 = orig_resnet.relu3
+        self.maxpool = orig_resnet.maxpool
+        self.layer1 = orig_resnet.layer1
+        self.layer2 = orig_resnet.layer2
+        self.layer3 = orig_resnet.layer3
+        self.layer4 = orig_resnet.layer4
+    def _nostride_dilate(self, m, dilate):
+        classname = m.__class__.__name__
+        if classname.find("Conv") != -1:
+            # the convolution with stride
+            if m.stride == (2, 2):
+                m.stride = (1, 1)
+                if m.kernel_size == (3, 3):
+                    m.dilation = (dilate // 2, dilate // 2)
+                    m.padding = (dilate // 2, dilate // 2)
+            # other convoluions
+            else:
+                if m.kernel_size == (3, 3):
+                    m.dilation = (dilate, dilate)
+                    m.padding = (dilate, dilate)
+    def forward(self, x, return_feature_maps=False):
+        conv_out = []
+        x = self.relu1(self.bn1(self.conv1(x)))
+        x = self.relu2(self.bn2(self.conv2(x)))
+        x = self.relu3(self.bn3(self.conv3(x)))
+        x = self.maxpool(x)
+        x = self.layer1(x)
+        conv_out.append(x)
+        x = self.layer2(x)
+        conv_out.append(x)
+        x = self.layer3(x)
+        conv_out.append(x)
+        x = self.layer4(x)
+        conv_out.append(x)
+        if return_feature_maps:
+            return conv_out
+        return [x]
+class MobileNetV2Dilated(nn.Module):
+    def __init__(self, orig_net, dilate_scale=8):
+        super(MobileNetV2Dilated, self).__init__()
+        from functools import partial
+        # take pretrained mobilenet features
+        self.features = orig_net.features[:-1]
+        self.total_idx = len(self.features)
+        self.down_idx = [2, 4, 7, 14]
+        if dilate_scale == 8:
+            for i in range(self.down_idx[-2], self.down_idx[-1]):
+                self.features[i].apply(partial(self._nostride_dilate, dilate=2))
+            for i in range(self.down_idx[-1], self.total_idx):
+                self.features[i].apply(partial(self._nostride_dilate, dilate=4))
+        elif dilate_scale == 16:
+            for i in range(self.down_idx[-1], self.total_idx):
+                self.features[i].apply(partial(self._nostride_dilate, dilate=2))
+    def _nostride_dilate(self, m, dilate):
+        classname = m.__class__.__name__
+        if classname.find("Conv") != -1:
+            # the convolution with stride
+            if m.stride == (2, 2):
+                m.stride = (1, 1)
+                if m.kernel_size == (3, 3):
+                    m.dilation = (dilate // 2, dilate // 2)
+                    m.padding = (dilate // 2, dilate // 2)
+            # other convoluions
+            else:
+                if m.kernel_size == (3, 3):
+                    m.dilation = (dilate, dilate)
+                    m.padding = (dilate, dilate)
+    def forward(self, x, return_feature_maps=False):
+        if return_feature_maps:
+            conv_out = []
+            for i in range(self.total_idx):
+                x = self.features[i](x)
+                if i in self.down_idx:
+                    conv_out.append(x)
+            conv_out.append(x)
+            return conv_out
+        else:
+            return [self.features(x)]
+# last conv, deep supervision
+class C1DeepSup(nn.Module):
+    def __init__(self, num_class=150, fc_dim=2048, use_softmax=False):
+        super(C1DeepSup, self).__init__()
+        self.use_softmax = use_softmax
+        self.cbr = conv3x3_bn_relu(fc_dim, fc_dim // 4, 1)
+        self.cbr_deepsup = conv3x3_bn_relu(fc_dim // 2, fc_dim // 4, 1)
+        # last conv
+        self.conv_last = nn.Conv2d(fc_dim // 4, num_class, 1, 1, 0)
+        self.conv_last_deepsup = nn.Conv2d(fc_dim // 4, num_class, 1, 1, 0)
+    def forward(self, conv_out, segSize=None):
+        conv5 = conv_out[-1]
+        x = self.cbr(conv5)
+        x = self.conv_last(x)
+        if self.use_softmax:  # is True during inference
+            x = nn.functional.interpolate(
+                x, size=segSize, mode="bilinear", align_corners=False
+            )
+            x = nn.functional.softmax(x, dim=1)
+            return x
+        # deep sup
+        conv4 = conv_out[-2]
+        _ = self.cbr_deepsup(conv4)
+        _ = self.conv_last_deepsup(_)
+        x = nn.functional.log_softmax(x, dim=1)
+        _ = nn.functional.log_softmax(_, dim=1)
+        return (x, _)
+# last conv
+class C1(nn.Module):
+    def __init__(
+        self,
+        num_class=150,
+        fc_dim: int = 2048,
+        use_softmax=False,
+        dropout=0.0,
+        fcn_up: int = 32,
+    ):
+        super(C1, self).__init__()
+        self.use_softmax = use_softmax
+        self.fcn_up = fcn_up
+        if fcn_up == 32:
+            in_dim = fc_dim
+        elif fcn_up == 16:
+            in_dim = int(fc_dim / 2 * 3)
+        else:  # 8
+            in_dim = int(fc_dim / 2 * 3 + fc_dim / 4)
+        self.cbr = conv3x3_bn_relu(in_dim, fc_dim // 4, 1)
+        # last conv
+        self.dropout = nn.Dropout2d(dropout)
+        self.conv_last = nn.Conv2d(fc_dim // 4, num_class, 1, 1, 0)
+    def forward(self, conv_out: List, segSize=None):
+        if self.fcn_up == 32:
+            conv5 = conv_out[-1]
+        elif self.fcn_up == 16:
+            conv4 = conv_out[-2]
+            tgt_shape = conv4.shape[-2:]
+            conv5 = conv_out[-1]
+            conv5 = nn.functional.interpolate(
+                conv5, size=tgt_shape, mode="bilinear", align_corners=False
+            )
+            conv5 = torch.cat([conv4, conv5], dim=1)
+        else:  # 8
+            conv3 = conv_out[-3]
+            tgt_shape = conv3.shape[-2:]
+            conv4 = conv_out[-2]
+            conv5 = conv_out[-1]
+            conv4 = nn.functional.interpolate(
+                conv4, size=tgt_shape, mode="bilinear", align_corners=False
+            )
+            conv5 = nn.functional.interpolate(
+                conv5, size=tgt_shape, mode="bilinear", align_corners=False
+            )
+            conv5 = torch.cat([conv3, conv4, conv5], dim=1)
+        x = self.cbr(conv5)
+        x = self.dropout(x)
+        x = self.conv_last(x)
+        return x
+# pyramid pooling
+class PPM(nn.Module):
+    def __init__(
+        self, num_class=150, fc_dim=4096, use_softmax=False, pool_scales=(1, 2, 3, 6)
+    ):
+        super(PPM, self).__init__()
+        self.use_softmax = use_softmax
+        self.ppm = []
+        for scale in pool_scales:
+            self.ppm.append(
+                nn.Sequential(
+                    nn.AdaptiveAvgPool2d(scale),
+                    nn.Conv2d(fc_dim, 512, kernel_size=1, bias=False),
+                    BatchNorm2d(512),
+                    nn.ReLU(inplace=True),
+                )
+            )
+        self.ppm = nn.ModuleList(self.ppm)
+        self.conv_last = nn.Sequential(
+            nn.Conv2d(
+                fc_dim + len(pool_scales) * 512,
+                512,
+                kernel_size=3,
+                padding=1,
+                bias=False,
+            ),
+            BatchNorm2d(512),
+            nn.ReLU(inplace=True),
+            nn.Dropout2d(0.1),
+            nn.Conv2d(512, num_class, kernel_size=1),
+        )
+    def forward(self, conv_out, segSize=None):
+        conv5 = conv_out[-1]
+        input_size = conv5.size()
+        ppm_out = [conv5]
+        for pool_scale in self.ppm:
+            ppm_out.append(
+                nn.functional.interpolate(
+                    pool_scale(conv5),
+                    (input_size[2], input_size[3]),
+                    mode="bilinear",
+                    align_corners=False,
+                )
+            )
+        ppm_out = torch.cat(ppm_out, 1)
+        x = self.conv_last(ppm_out)
+        if segSize is not None:  # for inference
+            x = nn.functional.interpolate(
+                x, size=segSize, mode="bilinear", align_corners=False
+            )
+        return x
+# pyramid pooling, deep supervision
+class PPMDeepsup(nn.Module):
+    def __init__(
+        self, num_class=150, fc_dim=4096, use_softmax=False, pool_scales=(1, 2, 3, 6)
+    ):
+        super(PPMDeepsup, self).__init__()
+        self.use_softmax = use_softmax
+        self.ppm = []
+        for scale in pool_scales:
+            self.ppm.append(
+                nn.Sequential(
+                    nn.AdaptiveAvgPool2d(scale),
+                    nn.Conv2d(fc_dim, 512, kernel_size=1, bias=False),
+                    BatchNorm2d(512),
+                    nn.ReLU(inplace=True),
+                )
+            )
+        self.ppm = nn.ModuleList(self.ppm)
+        self.cbr_deepsup = conv3x3_bn_relu(fc_dim // 2, fc_dim // 4, 1)
+        self.conv_last = nn.Sequential(
+            nn.Conv2d(
+                fc_dim + len(pool_scales) * 512,
+                512,
+                kernel_size=3,
+                padding=1,
+                bias=False,
+            ),
+            BatchNorm2d(512),
+            nn.ReLU(inplace=True),
+            nn.Dropout2d(0.1),
+            nn.Conv2d(512, num_class, kernel_size=1),
+        )
+        self.conv_last_deepsup = nn.Conv2d(fc_dim // 4, num_class, 1, 1, 0)
+        self.dropout_deepsup = nn.Dropout2d(0.1)
+    def forward(self, conv_out, segSize=None):
+        conv5 = conv_out[-1]
+        input_size = conv5.size()
+        ppm_out = [conv5]
+        for pool_scale in self.ppm:
+            ppm_out.append(
+                nn.functional.interpolate(
+                    pool_scale(conv5),
+                    (input_size[2], input_size[3]),
+                    mode="bilinear",
+                    align_corners=False,
+                )
+            )
+        ppm_out = torch.cat(ppm_out, 1)
+        x = self.conv_last(ppm_out)
+        if self.use_softmax:  # is True during inference
+            x = nn.functional.interpolate(
+                x, size=segSize, mode="bilinear", align_corners=False
+            )
+            x = nn.functional.softmax(x, dim=1)
+            return x
+        # deep sup
+        conv4 = conv_out[-2]
+        _ = self.cbr_deepsup(conv4)
+        _ = self.dropout_deepsup(_)
+        _ = self.conv_last_deepsup(_)
+        x = nn.functional.log_softmax(x, dim=1)
+        _ = nn.functional.log_softmax(_, dim=1)
+        return (x, _)
+# upernet
+class UPerNet(nn.Module):
+    def __init__(
+        self,
+        num_class=150,
+        fc_dim=4096,
+        use_softmax=False,
+        pool_scales=(1, 2, 3, 6),
+        fpn_inplanes=(256, 512, 1024, 2048),
+        fpn_dim=256,
+    ):
+        super(UPerNet, self).__init__()
+        self.use_softmax = use_softmax
+        # PPM Module
+        self.ppm_pooling = []
+        self.ppm_conv = []
+        for scale in pool_scales:
+            self.ppm_pooling.append(nn.AdaptiveAvgPool2d(scale))
+            self.ppm_conv.append(
+                nn.Sequential(
+                    nn.Conv2d(fc_dim, 512, kernel_size=1, bias=False),
+                    BatchNorm2d(512),
+                    nn.ReLU(inplace=True),
+                )
+            )
+        self.ppm_pooling = nn.ModuleList(self.ppm_pooling)
+        self.ppm_conv = nn.ModuleList(self.ppm_conv)
+        self.ppm_last_conv = conv3x3_bn_relu(
+            fc_dim + len(pool_scales) * 512, fpn_dim, 1
+        )
+        # FPN Module
+        self.fpn_in = []
+        for fpn_inplane in fpn_inplanes[:-1]:  # skip the top layer
+            self.fpn_in.append(
+                nn.Sequential(
+                    nn.Conv2d(fpn_inplane, fpn_dim, kernel_size=1, bias=False),
+                    BatchNorm2d(fpn_dim),
+                    nn.ReLU(inplace=True),
+                )
+            )
+        self.fpn_in = nn.ModuleList(self.fpn_in)
+        self.fpn_out = []
+        for i in range(len(fpn_inplanes) - 1):  # skip the top layer
+            self.fpn_out.append(
+                nn.Sequential(
+                    conv3x3_bn_relu(fpn_dim, fpn_dim, 1),
+                )
+            )
+        self.fpn_out = nn.ModuleList(self.fpn_out)
+        self.conv_last = nn.Sequential(
+            conv3x3_bn_relu(len(fpn_inplanes) * fpn_dim, fpn_dim, 1),
+            nn.Conv2d(fpn_dim, num_class, kernel_size=1),
+        )
+    def forward(self, conv_out, segSize=None):
+        conv5 = conv_out[-1]
+        input_size = conv5.size()
+        ppm_out = [conv5]
+        for pool_scale, pool_conv in zip(self.ppm_pooling, self.ppm_conv):
+            ppm_out.append(
+                pool_conv(
+                    nn.functional.interpolate(
+                        pool_scale(conv5),
+                        (input_size[2], input_size[3]),
+                        mode="bilinear",
+                        align_corners=False,
+                    )
+                )
+            )
+        ppm_out = torch.cat(ppm_out, 1)
+        f = self.ppm_last_conv(ppm_out)
+        fpn_feature_list = [f]
+        for i in reversed(range(len(conv_out) - 1)):
+            conv_x = conv_out[i]
+            conv_x = self.fpn_in[i](conv_x)  # lateral branch
+            f = nn.functional.interpolate(
+                f, size=conv_x.size()[2:], mode="bilinear", align_corners=False
+            )  # top-down branch
+            f = conv_x + f
+            fpn_feature_list.append(self.fpn_out[i](f))
+        fpn_feature_list.reverse()  # [P2 - P5]
+        output_size = fpn_feature_list[0].size()[2:]
+        fusion_list = [fpn_feature_list[0]]
+        for i in range(1, len(fpn_feature_list)):
+            fusion_list.append(
+                nn.functional.interpolate(
+                    fpn_feature_list[i],
+                    output_size,
+                    mode="bilinear",
+                    align_corners=False,
+                )
+            )
+        fusion_out = torch.cat(fusion_list, 1)
+        x = self.conv_last(fusion_out)
+        if self.use_softmax:  # is True during inference
+            x = nn.functional.interpolate(
+                x, size=segSize, mode="bilinear", align_corners=False
+            )
+            x = nn.functional.softmax(x, dim=1)
+            return x
+        x = nn.functional.log_softmax(x, dim=1)
+        return x

models/resnet.py ADDED Viewed

	@@ -0,0 +1,229 @@

+import math
+import torch.nn as nn
+from .lib.nn import SynchronizedBatchNorm2d
+from .utils import load_url
+BatchNorm2d = SynchronizedBatchNorm2d
+__all__ = ["ResNet", "resnet18", "resnet50", "resnet101"]  # resnet101 is coming soon!
+model_urls = {
+    "resnet18": "http://sceneparsing.csail.mit.edu/model/pretrained_resnet/resnet18-imagenet.pth",
+    "resnet50": "http://sceneparsing.csail.mit.edu/model/pretrained_resnet/resnet50-imagenet.pth",
+    "resnet101": "http://sceneparsing.csail.mit.edu/model/pretrained_resnet/resnet101-imagenet.pth",
+}
+def conv3x3(in_planes, out_planes, stride=1):
+    "3x3 convolution with padding"
+    return nn.Conv2d(
+        in_planes, out_planes, kernel_size=3, stride=stride, padding=1, bias=False
+    )
+class BasicBlock(nn.Module):
+    expansion = 1
+    def __init__(self, inplanes, planes, stride=1, downsample=None):
+        super(BasicBlock, self).__init__()
+        self.conv1 = conv3x3(inplanes, planes, stride)
+        self.bn1 = BatchNorm2d(planes)
+        self.relu = nn.ReLU(inplace=True)
+        self.conv2 = conv3x3(planes, planes)
+        self.bn2 = BatchNorm2d(planes)
+        self.downsample = downsample
+        self.stride = stride
+    def forward(self, x):
+        residual = x
+        out = self.conv1(x)
+        out = self.bn1(out)
+        out = self.relu(out)
+        out = self.conv2(out)
+        out = self.bn2(out)
+        if self.downsample is not None:
+            residual = self.downsample(x)
+        out += residual
+        out = self.relu(out)
+        return out
+class Bottleneck(nn.Module):
+    expansion = 4
+    def __init__(self, inplanes, planes, stride=1, downsample=None):
+        super(Bottleneck, self).__init__()
+        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
+        self.bn1 = BatchNorm2d(planes)
+        self.conv2 = nn.Conv2d(
+            planes, planes, kernel_size=3, stride=stride, padding=1, bias=False
+        )
+        self.bn2 = BatchNorm2d(planes)
+        self.conv3 = nn.Conv2d(planes, planes * 4, kernel_size=1, bias=False)
+        self.bn3 = BatchNorm2d(planes * 4)
+        self.relu = nn.ReLU(inplace=True)
+        self.downsample = downsample
+        self.stride = stride
+    def forward(self, x):
+        residual = x
+        out = self.conv1(x)
+        out = self.bn1(out)
+        out = self.relu(out)
+        out = self.conv2(out)
+        out = self.bn2(out)
+        out = self.relu(out)
+        out = self.conv3(out)
+        out = self.bn3(out)
+        if self.downsample is not None:
+            residual = self.downsample(x)
+        out += residual
+        out = self.relu(out)
+        return out
+class ResNet(nn.Module):
+    def __init__(self, block, layers, num_classes=1000):
+        self.inplanes = 128
+        super(ResNet, self).__init__()
+        self.conv1 = conv3x3(3, 64, stride=2)
+        self.bn1 = BatchNorm2d(64)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv2 = conv3x3(64, 64)
+        self.bn2 = BatchNorm2d(64)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.conv3 = conv3x3(64, 128)
+        self.bn3 = BatchNorm2d(128)
+        self.relu3 = nn.ReLU(inplace=True)
+        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+        self.layer1 = self._make_layer(block, 64, layers[0])
+        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
+        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
+        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
+        self.avgpool = nn.AvgPool2d(7, stride=1)
+        self.fc = nn.Linear(512 * block.expansion, num_classes)
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
+                m.weight.data.normal_(0, math.sqrt(2.0 / n))
+            elif isinstance(m, BatchNorm2d):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+    def _make_layer(self, block, planes, blocks, stride=1):
+        downsample = None
+        if stride != 1 or self.inplanes != planes * block.expansion:
+            downsample = nn.Sequential(
+                nn.Conv2d(
+                    self.inplanes,
+                    planes * block.expansion,
+                    kernel_size=1,
+                    stride=stride,
+                    bias=False,
+                ),
+                BatchNorm2d(planes * block.expansion),
+            )
+        layers = []
+        layers.append(block(self.inplanes, planes, stride, downsample))
+        self.inplanes = planes * block.expansion
+        for i in range(1, blocks):
+            layers.append(block(self.inplanes, planes))
+        return nn.Sequential(*layers)
+    def forward(self, x):
+        x = self.relu1(self.bn1(self.conv1(x)))
+        x = self.relu2(self.bn2(self.conv2(x)))
+        x = self.relu3(self.bn3(self.conv3(x)))
+        x = self.maxpool(x)
+        x = self.layer1(x)
+        x = self.layer2(x)
+        x = self.layer3(x)
+        x = self.layer4(x)
+        x = self.avgpool(x)
+        x = x.view(x.size(0), -1)
+        x = self.fc(x)
+        return x
+def resnet18(pretrained=False, **kwargs):
+    """Constructs a ResNet-18 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(BasicBlock, [2, 2, 2, 2], **kwargs)
+    if pretrained:
+        model.load_state_dict(load_url(model_urls["resnet18"]))
+    return model
+'''
+def resnet34(pretrained=False, **kwargs):
+    """Constructs a ResNet-34 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(BasicBlock, [3, 4, 6, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(load_url(model_urls['resnet34']))
+    return model
+'''
+def resnet50(pretrained=False, **kwargs):
+    """Constructs a ResNet-50 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(Bottleneck, [3, 4, 6, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(load_url(model_urls["resnet50"]), strict=False)
+    return model
+def resnet101(pretrained=False, **kwargs):
+    """Constructs a ResNet-101 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(Bottleneck, [3, 4, 23, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(load_url(model_urls["resnet101"]), strict=False)
+    return model
+# def resnet152(pretrained=False, **kwargs):
+#     """Constructs a ResNet-152 model.
+#
+#     Args:
+#         pretrained (bool): If True, returns a model pre-trained on ImageNet
+#     """
+#     model = ResNet(Bottleneck, [3, 8, 36, 3], **kwargs)
+#     if pretrained:
+#         model.load_state_dict(load_url(model_urls['resnet152']))
+#     return model

models/resnext.py ADDED Viewed

	@@ -0,0 +1,178 @@

+import math
+import torch.nn as nn
+from .lib.nn import SynchronizedBatchNorm2d
+from .utils import load_url
+BatchNorm2d = SynchronizedBatchNorm2d
+__all__ = ["ResNeXt", "resnext101"]  # support resnext 101
+model_urls = {
+    #'resnext50': 'http://sceneparsing.csail.mit.edu/model/pretrained_resnet/resnext50-imagenet.pth',
+    "resnext101": "http://sceneparsing.csail.mit.edu/model/pretrained_resnet/resnext101-imagenet.pth"
+}
+def conv3x3(in_planes, out_planes, stride=1):
+    "3x3 convolution with padding"
+    return nn.Conv2d(
+        in_planes, out_planes, kernel_size=3, stride=stride, padding=1, bias=False
+    )
+class GroupBottleneck(nn.Module):
+    expansion = 2
+    def __init__(self, inplanes, planes, stride=1, groups=1, downsample=None):
+        super(GroupBottleneck, self).__init__()
+        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
+        self.bn1 = BatchNorm2d(planes)
+        self.conv2 = nn.Conv2d(
+            planes,
+            planes,
+            kernel_size=3,
+            stride=stride,
+            padding=1,
+            groups=groups,
+            bias=False,
+        )
+        self.bn2 = BatchNorm2d(planes)
+        self.conv3 = nn.Conv2d(planes, planes * 2, kernel_size=1, bias=False)
+        self.bn3 = BatchNorm2d(planes * 2)
+        self.relu = nn.ReLU(inplace=True)
+        self.downsample = downsample
+        self.stride = stride
+    def forward(self, x):
+        residual = x
+        out = self.conv1(x)
+        out = self.bn1(out)
+        out = self.relu(out)
+        out = self.conv2(out)
+        out = self.bn2(out)
+        out = self.relu(out)
+        out = self.conv3(out)
+        out = self.bn3(out)
+        if self.downsample is not None:
+            residual = self.downsample(x)
+        out += residual
+        out = self.relu(out)
+        return out
+class ResNeXt(nn.Module):
+    def __init__(self, block, layers, groups=32, num_classes=1000):
+        self.inplanes = 128
+        super(ResNeXt, self).__init__()
+        self.conv1 = conv3x3(3, 64, stride=2)
+        self.bn1 = BatchNorm2d(64)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv2 = conv3x3(64, 64)
+        self.bn2 = BatchNorm2d(64)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.conv3 = conv3x3(64, 128)
+        self.bn3 = BatchNorm2d(128)
+        self.relu3 = nn.ReLU(inplace=True)
+        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+        self.layer1 = self._make_layer(block, 128, layers[0], groups=groups)
+        self.layer2 = self._make_layer(block, 256, layers[1], stride=2, groups=groups)
+        self.layer3 = self._make_layer(block, 512, layers[2], stride=2, groups=groups)
+        self.layer4 = self._make_layer(block, 1024, layers[3], stride=2, groups=groups)
+        self.avgpool = nn.AvgPool2d(7, stride=1)
+        self.fc = nn.Linear(1024 * block.expansion, num_classes)
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels // m.groups
+                m.weight.data.normal_(0, math.sqrt(2.0 / n))
+            elif isinstance(m, BatchNorm2d):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+    def _make_layer(self, block, planes, blocks, stride=1, groups=1):
+        downsample = None
+        if stride != 1 or self.inplanes != planes * block.expansion:
+            downsample = nn.Sequential(
+                nn.Conv2d(
+                    self.inplanes,
+                    planes * block.expansion,
+                    kernel_size=1,
+                    stride=stride,
+                    bias=False,
+                ),
+                BatchNorm2d(planes * block.expansion),
+            )
+        layers = []
+        layers.append(block(self.inplanes, planes, stride, groups, downsample))
+        self.inplanes = planes * block.expansion
+        for i in range(1, blocks):
+            layers.append(block(self.inplanes, planes, groups=groups))
+        return nn.Sequential(*layers)
+    def forward(self, x):
+        x = self.relu1(self.bn1(self.conv1(x)))
+        x = self.relu2(self.bn2(self.conv2(x)))
+        x = self.relu3(self.bn3(self.conv3(x)))
+        x = self.maxpool(x)
+        x = self.layer1(x)
+        x = self.layer2(x)
+        x = self.layer3(x)
+        x = self.layer4(x)
+        x = self.avgpool(x)
+        x = x.view(x.size(0), -1)
+        x = self.fc(x)
+        return x
+'''
+def resnext50(pretrained=False, **kwargs):
+    """Constructs a ResNet-50 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on Places
+    """
+    model = ResNeXt(GroupBottleneck, [3, 4, 6, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(load_url(model_urls['resnext50']), strict=False)
+    return model
+'''
+def resnext101(pretrained=False, **kwargs):
+    """Constructs a ResNet-101 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on Places
+    """
+    model = ResNeXt(GroupBottleneck, [3, 4, 23, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(load_url(model_urls["resnext101"]), strict=False)
+    return model
+# def resnext152(pretrained=False, **kwargs):
+#     """Constructs a ResNeXt-152 model.
+#
+#     Args:
+#         pretrained (bool): If True, returns a model pre-trained on Places
+#     """
+#     model = ResNeXt(GroupBottleneck, [3, 8, 36, 3], **kwargs)
+#     if pretrained:
+#         model.load_state_dict(load_url(model_urls['resnext152']))
+#     return model

models/srm_conv.py ADDED Viewed

	@@ -0,0 +1,68 @@

+import numpy as np
+import torch
+import torch.nn as nn
+class SRMConv2d(nn.Module):
+    def __init__(self, stride: int = 1, padding: int = 2, clip: float = 2):
+        super().__init__()
+        self.stride = stride
+        self.padding = padding
+        self.clip = clip
+        self.conv = self._get_srm_filter()
+    def _get_srm_filter(self):
+        filter1 = [
+            [0, 0, 0, 0, 0],
+            [0, -1, 2, -1, 0],
+            [0, 2, -4, 2, 0],
+            [0, -1, 2, -1, 0],
+            [0, 0, 0, 0, 0],
+        ]
+        filter2 = [
+            [-1, 2, -2, 2, -1],
+            [2, -6, 8, -6, 2],
+            [-2, 8, -12, 8, -2],
+            [2, -6, 8, -6, 2],
+            [-1, 2, -2, 2, -1],
+        ]
+        filter3 = [
+            [0, 0, 0, 0, 0],
+            [0, 0, 0, 0, 0],
+            [0, 1, -2, 1, 0],
+            [0, 0, 0, 0, 0],
+            [0, 0, 0, 0, 0],
+        ]
+        q = [4.0, 12.0, 2.0]
+        filter1 = np.asarray(filter1, dtype=float) / q[0]
+        filter2 = np.asarray(filter2, dtype=float) / q[1]
+        filter3 = np.asarray(filter3, dtype=float) / q[2]
+        filters = [
+            [filter1, filter1, filter1],
+            [filter2, filter2, filter2],
+            [filter3, filter3, filter3],
+        ]
+        filters = torch.tensor(filters).float()
+        conv2d = nn.Conv2d(
+            3,
+            3,
+            kernel_size=5,
+            stride=self.stride,
+            padding=self.padding,
+            padding_mode="zeros",
+        )
+        conv2d.weight = nn.Parameter(filters, requires_grad=False)
+        conv2d.bias = nn.Parameter(torch.zeros_like(conv2d.bias), requires_grad=False)
+        return conv2d
+    def forward(self, x):
+        x = self.conv(x)
+        if self.clip != 0.0:
+            x = x.clamp(-self.clip, self.clip)
+        return x
+if __name__ == "__main__":
+    srm = SRMConv2d()
+    x = torch.rand((63, 3, 64, 64))
+    x = srm(x)

models/utils.py ADDED Viewed

	@@ -0,0 +1,20 @@

+import os
+import sys
+try:
+    from urllib import urlretrieve
+except ImportError:
+    from urllib.request import urlretrieve
+import torch
+def load_url(url, model_dir="./pretrained", map_location=torch.device("cpu")):
+    if not os.path.exists(model_dir):
+        os.makedirs(model_dir)
+    filename = url.split("/")[-1]
+    cached_file = os.path.join(model_dir, filename)
+    if not os.path.exists(cached_file):
+        sys.stderr.write('Downloading: "{}" to {}\n'.format(url, cached_file))
+        urlretrieve(url, cached_file)
+    return torch.load(cached_file, map_location=map_location)

opt.py ADDED Viewed

	@@ -0,0 +1,483 @@

+import argparse
+import os
+import sys
+import time
+from typing import List, Optional
+import prettytable as pt
+import torch
+import yaml
+from termcolor import cprint
+def load_dataset_arguments(opt):
+    if opt.load is None:
+        return
+    # exclude parameters assigned in the command
+    if len(sys.argv) > 1:
+        arguments = sys.argv[1:]
+        arguments = list(
+            map(lambda x: x.replace("--", ""), filter(lambda x: "--" in x, arguments))
+        )
+    else:
+        arguments = []
+    # load parameters in the yaml file
+    assert os.path.exists(opt.load)
+    with open(opt.load, "r") as f:
+        yaml_arguments = yaml.safe_load(f)
+    # TODO this should be verified
+    for k, v in yaml_arguments.items():
+        if not k in arguments:
+            setattr(opt, k, v)
+def get_opt(additional_parsers: Optional[List] = None):
+    parents = [get_arguments_parser()]
+    if additional_parsers:
+        parents.extend(additional_parsers)
+    parser = argparse.ArgumentParser(
+        "Options for training and evaluation", parents=parents, allow_abbrev=False
+    )
+    opt = parser.parse_known_args()[0]
+    # load dataset argument file
+    load_dataset_arguments(opt)
+    # user-defined warnings and assertions
+    if opt.decoder.lower() not in ["c1"]:
+        cprint("Not supported yet! Check if the output use log_softmax!", "red")
+        time.sleep(3)
+    if opt.map_mask_weight > 0.0 or opt.volume_mask_weight > 0.0:
+        cprint("Mask loss is not 0!", "red")
+        time.sleep(3)
+    if opt.val_set != "val":
+        cprint(f"Evaluating on {opt.val_set} set!", "red")
+        time.sleep(3)
+    if opt.mvc_spixel:
+        assert (
+            not opt.loss_on_mid_map
+        ), "Middle map supervision is not supported with spixel!"
+    if "early" in opt.modality:
+        assert (
+            len(opt.modality) == 1
+        ), "Early fusion is not supported for multi-modality!"
+    for modal in opt.modality:
+        assert modal in [
+            "rgb",
+            "srm",
+            "bayar",
+            "early",
+        ], f"Unsupported modality {modal}!"
+    if opt.resume:
+        assert os.path.exists(opt.resume)
+    # if opt.mvc_weight <= 0. and opt.consistency_weight > 0.:
+    #     assert opt.consistency_source == 'self', 'Ensemble consistency is not supported when mvc_weight is 0!'
+    # automatically set parameters
+    if len(sys.argv) > 1:
+        arguments = sys.argv[1:]
+        arguments = list(
+            map(lambda x: x.replace("--", ""), filter(lambda x: "--" in x, arguments))
+        )
+        params = []
+        for argument in arguments:
+            if not argument in [
+                "suffix",
+                "save_root_path",
+                "dataset",
+                "source",
+                "resume",
+                "num_workers",
+                "eval_freq",
+                "print_freq",
+                "lr_steps",
+                "rgb_resume",
+                "srm_resume",
+                "bayar_resume",
+                "teacher_resume",
+                "occ",
+                "load",
+                "amp_opt_level",
+                "val_shuffle",
+                "tile_size",
+                "modality",
+            ]:
+                try:
+                    value = (
+                        str(eval("opt.{}".format(argument.split("=")[0])))
+                        .replace("[", "")
+                        .replace("]", "")
+                        .replace(" ", "-")
+                        .replace(",", "")
+                    )
+                    params.append(
+                        argument.split("=")[0].replace("_", "").replace(" ", "")
+                        + "="
+                        + value
+                    )
+                except:
+                    cprint("Unknown argument: {}".format(argument), "red")
+            if "early" in opt.modality:
+                params.append("modality=early")
+        test_name = "_".join(params)
+    else:
+        test_name = ""
+    time_stamp = time.strftime("%b-%d-%H-%M-%S", time.localtime())
+    dir_name = "{}_{}{}_{}".format(
+        "-".join(list(opt.train_datalist.keys())).upper(),
+        test_name,
+        opt.suffix,
+        time_stamp,
+    ).replace("__", "_")
+    opt.time_stamp = time_stamp
+    opt.dir_name = dir_name
+    opt.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    if opt.debug or opt.wholetest:
+        opt.val_shuffle = True
+        cprint("Setting val_shuffle to True in debug and wholetest mode!", "red")
+        time.sleep(3)
+    if len(opt.modality) < 2 and opt.mvc_weight != 0.0:
+        opt.mvc_weight = 0.0
+        cprint(
+            "Setting multi-view consistency weight to 0. for single modality training",
+            "red",
+        )
+        time.sleep(3)
+    if "early" in opt.modality:
+        opt.mvc_single_weight = {"early": 1.0}
+    else:
+        if "rgb" not in opt.modality:
+            opt.mvc_single_weight[0] = 0.0
+        if "srm" not in opt.modality:
+            opt.mvc_single_weight[1] = 0.0
+        if "bayar" not in opt.modality:
+            opt.mvc_single_weight[2] = 0.0
+        weight_sum = sum(opt.mvc_single_weight)
+        single_weight = list(map(lambda x: x / weight_sum, opt.mvc_single_weight))
+        opt.mvc_single_weight = {
+            "rgb": single_weight[0],
+            "srm": single_weight[1],
+            "bayar": single_weight[2],
+        }
+    cprint(
+        "Change mvc single modality weight to {}".format(opt.mvc_single_weight), "blue"
+    )
+    time.sleep(3)
+    # print parameters
+    tb = pt.PrettyTable(field_names=["Arguments", "Values"])
+    for k, v in vars(opt).items():
+        # some parameters might be too long to display
+        if k not in ["dir_name", "resume", "rgb_resume", "srm_resume", "bayar_resume"]:
+            tb.add_row([k, v])
+    print(tb)
+    return opt
+def get_arguments_parser():
+    parser = argparse.ArgumentParser(
+        "CVPR2022 image manipulation detection model", add_help=False
+    )
+    parser.add_argument("--debug", action="store_true", default=False)
+    parser.add_argument("--wholetest", action="store_true", default=False)
+    parser.add_argument(
+        "--load", default="configs/final.yaml", help="Load configuration YAML file."
+    )
+    parser.add_argument("--num_class", type=int, default=1, help="Use sigmoid.")
+    # loss-related
+    parser.add_argument("--map_label_weight", type=float, default=1.0)
+    parser.add_argument("--volume_label_weight", type=float, default=1.0)
+    parser.add_argument(
+        "--map_mask_weight",
+        type=float,
+        default=0.0,
+        help="Only use this for debug purpose.",
+    )
+    parser.add_argument(
+        "--volume_mask_weight",
+        type=float,
+        default=0.0,
+        help="Only use this for debug purpose.",
+    )
+    parser.add_argument(
+        "--consistency_weight",
+        type=float,
+        default=0.0,
+        help="Consitency between output map and volume within a single view.",
+    )
+    parser.add_argument(
+        "--consistency_type", type=str, default="l2", choices=["l1", "l2"]
+    )
+    parser.add_argument(
+        "--consistency_kmeans",
+        action="store_true",
+        default=False,
+        help="Perform k-means on the volume to determine pristine and modified areas.",
+    )
+    parser.add_argument(
+        "--consistency_stop_map_grad",
+        action="store_true",
+        default=False,
+        help="Stop gradient for the map.",
+    )
+    parser.add_argument(
+        "--consistency_source", type=str, default="self", choices=["self", "ensemble"]
+    )
+    parser.add_argument("--map_entropy_weight", type=float, default=0.0)
+    parser.add_argument("--volume_entropy_weight", type=float, default=0.0)
+    parser.add_argument("--mvc_weight", type=float, default=0.0)
+    parser.add_argument(
+        "--mvc_time_dependent",
+        action="store_true",
+        default=False,
+        help="Use Gaussian smooth on the MVCW weight.",
+    )
+    parser.add_argument("--mvc_soft", action="store_true", default=False)
+    parser.add_argument("--mvc_zeros_on_au", action="store_true", default=False)
+    parser.add_argument(
+        "--mvc_single_weight",
+        type=float,
+        nargs="+",
+        default=[1.0, 1.0, 1.0],
+        help="Weight for the RGB, SRM and Bayar modality for MVC training.",
+    )
+    parser.add_argument(
+        "--mvc_steepness", type=float, default=5.0, help="The large the slower."
+    )
+    parser.add_argument("--mvc_spixel", action="store_true", default=False)
+    parser.add_argument("--mvc_num_spixel", type=int, default=100)
+    parser.add_argument(
+        "--loss_on_mid_map",
+        action="store_true",
+        default=False,
+        help="This only applies for the output map, but not for the consistency volume.",
+    )
+    parser.add_argument(
+        "--label_loss_on_whole_map",
+        action="store_true",
+        default=False,
+        help="Apply cls loss on the avg(map) for pristine images, instead of max(map).",
+    )
+    # network architecture
+    parser.add_argument("--modality", type=str, default=["rgb"], nargs="+")
+    parser.add_argument("--srm_clip", type=float, default=5.0)
+    parser.add_argument("--bayar_magnitude", type=float, default=1.0)
+    parser.add_argument("--encoder", type=str, default="ResNet50")
+    parser.add_argument("--encoder_weight", type=str, default="")
+    parser.add_argument("--decoder", type=str, default="C1")
+    parser.add_argument("--decoder_weight", type=str, default="")
+    parser.add_argument(
+        "--fc_dim",
+        type=int,
+        default=2048,
+        help="Changing this might leads to error in the conjunction between encoder and decoder.",
+    )
+    parser.add_argument(
+        "--volume_block_idx",
+        type=int,
+        default=1,
+        choices=[0, 1, 2, 3],
+        help="Compute the consistency volume at certain block.",
+    )
+    parser.add_argument("--share_embed_head", action="store_true", default=False)
+    parser.add_argument(
+        "--fcn_up",
+        type=int,
+        default=32,
+        choices=[8, 16, 32],
+        help="FCN architecture, 32s, 16s, or 8s.",
+    )
+    parser.add_argument("--gem", action="store_true", default=False)
+    parser.add_argument("--gem_coef", type=float, default=100)
+    parser.add_argument("--gsm", action="store_true", default=False)
+    parser.add_argument(
+        "--map_portion",
+        type=float,
+        default=0,
+        help="Select topk portion of the output map for the image-level classification. 0 for use max.",
+    )
+    parser.add_argument("--otsu_sel", action="store_true", default=False)
+    parser.add_argument("--otsu_portion", type=float, default=1.0)
+    # training parameters
+    parser.add_argument("--no_gaussian_blur", action="store_true", default=False)
+    parser.add_argument("--no_color_jitter", action="store_true", default=False)
+    parser.add_argument("--no_jpeg_compression", action="store_true", default=False)
+    parser.add_argument("--resize_aug", action="store_true", default=False)
+    parser.add_argument(
+        "--uncorrect_label",
+        action="store_true",
+        default=False,
+        help="This will not correct image-level labels caused by image cropping.",
+    )
+    parser.add_argument("--input_size", type=int, default=224)
+    parser.add_argument("--dropout", type=float, default=0.0)
+    parser.add_argument(
+        "--optimizer", type=str, default="adamw", choices=["sgd", "adamw"]
+    )
+    parser.add_argument("--resume", type=str, default="")
+    parser.add_argument("--eval", action="store_true", default=False)
+    parser.add_argument(
+        "--val_set",
+        type=str,
+        default="val",
+        choices=["train", "val"],
+        help="Change to train for debug purpose.",
+    )
+    parser.add_argument(
+        "--val_shuffle", action="store_true", default=False, help="Shuffle val set."
+    )
+    parser.add_argument("--save_figure", action="store_true", default=False)
+    parser.add_argument("--figure_path", type=str, default="figures")
+    parser.add_argument("--batch_size", type=int, default=36)
+    parser.add_argument("--epochs", type=int, default=60)
+    parser.add_argument("--eval_freq", type=int, default=3)
+    parser.add_argument("--weight_decay", type=float, default=5e-4)
+    parser.add_argument("--num_workers", type=int, default=36)
+    parser.add_argument("--grad_clip", type=float, default=0.0)
+    # lr
+    parser.add_argument(
+        "--sched",
+        default="cosine",
+        type=str,
+        metavar="SCHEDULER",
+        help='LR scheduler (default: "cosine"',
+    )
+    parser.add_argument(
+        "--lr",
+        type=float,
+        default=1e-4,
+        metavar="LR",
+        help="learning rate (default: 5e-4)",
+    )
+    parser.add_argument(
+        "--lr-noise",
+        type=float,
+        nargs="+",
+        default=None,
+        metavar="pct, pct",
+        help="learning rate noise on/off epoch percentages",
+    )
+    parser.add_argument(
+        "--lr-noise-pct",
+        type=float,
+        default=0.67,
+        metavar="PERCENT",
+        help="learning rate noise limit percent (default: 0.67)",
+    )
+    parser.add_argument(
+        "--lr-noise-std",
+        type=float,
+        default=1.0,
+        metavar="STDDEV",
+        help="learning rate noise std-dev (default: 1.0)",
+    )
+    parser.add_argument(
+        "--warmup-lr",
+        type=float,
+        default=2e-7,
+        metavar="LR",
+        help="warmup learning rate (default: 1e-6)",
+    )
+    parser.add_argument(
+        "--min-lr",
+        type=float,
+        default=2e-6,
+        metavar="LR",
+        help="lower lr bound for cyclic schedulers that hit 0 (1e-5)",
+    )
+    parser.add_argument(
+        "--decay-epochs",
+        type=float,
+        default=20,
+        metavar="N",
+        help="epoch interval to decay LR",
+    )
+    parser.add_argument(
+        "--warmup-epochs",
+        type=int,
+        default=5,
+        metavar="N",
+        help="epochs to warmup LR, if scheduler supports",
+    )
+    parser.add_argument(
+        "--cooldown-epochs",
+        type=int,
+        default=5,
+        metavar="N",
+        help="epochs to cooldown LR at min_lr, after cyclic schedule ends",
+    )
+    parser.add_argument(
+        "--patience-epochs",
+        type=int,
+        default=5,
+        metavar="N",
+        help="patience epochs for Plateau LR scheduler (default: 10",
+    )
+    parser.add_argument(
+        "--decay-rate",
+        "-dr",
+        type=float,
+        default=0.5,
+        metavar="RATE",
+        help="LR decay rate (default: 0.1)",
+    )
+    parser.add_argument("--lr_cycle_limit", "-lcl", type=int, default=1)
+    parser.add_argument("--lr_cycle_mul", "-lcm", type=float, default=1)
+    # inference hyperparameters
+    parser.add_argument("--mask_threshold", type=float, default=0.5)
+    parser.add_argument(
+        "-lis",
+        "--large_image_strategy",
+        choices=["rescale", "slide", "none"],
+        default="slide",
+        help="Slide will get better performance than rescale.",
+    )
+    parser.add_argument(
+        "--tile_size",
+        type=int,
+        default=768,
+        help="If the testing image is larger than tile_size, I will use sliding window to do the inference.",
+    )
+    parser.add_argument("--tile_overlap", type=float, default=0.1)
+    parser.add_argument("--spixel_postproc", action="store_true", default=False)
+    parser.add_argument("--convcrf_postproc", action="store_true", default=False)
+    parser.add_argument("--convcrf_shape", type=int, default=512)
+    parser.add_argument("--crf_postproc", action="store_true", default=False)
+    parser.add_argument("--max_pool_postproc", type=int, default=1)
+    parser.add_argument("--crf_downsample", type=int, default=1)
+    parser.add_argument("--crf_iter_max", type=int, default=5)
+    parser.add_argument("--crf_pos_w", type=int, default=3)
+    parser.add_argument("--crf_pos_xy_std", type=int, default=1)
+    parser.add_argument("--crf_bi_w", type=int, default=4)
+    parser.add_argument("--crf_bi_xy_std", type=int, default=67)
+    parser.add_argument("--crf_bi_rgb_std", type=int, default=3)
+    # save
+    parser.add_argument("--save_root_path", type=str, default="tmp")
+    parser.add_argument("--suffix", type=str, default="")
+    parser.add_argument("--print_freq", type=int, default=100)
+    # misc
+    parser.add_argument("--seed", type=int, default=1)
+    return parser

requirements.txt ADDED Viewed

	@@ -0,0 +1,29 @@

+albumentations==1.0.0
+einops==0.4.1
+fast_pytorch_kmeans==0.1.6
+glob2==0.7
+gpustat==0.6.0
+h5py==3.6.0
+matplotlib==3.3.4
+numpy==1.22.4
+opencv_contrib_python==4.5.3.56
+opencv_python==4.4.0.46
+opencv_python_headless==4.5.3.56
+pandas==1.3.5
+pathlib2==2.3.5
+Pillow==9.4.0
+prettytable==2.2.1
+pydensecrf==1.0rc2
+PyYAML==5.4.1
+scikit_image==0.18.3
+scikit_learn==0.24.1
+scipy==1.7.3
+spatial_correlation_sampler==0.4.0
+SQLAlchemy==1.4.15
+sync_batchnorm==0.0.1
+tensorboard==2.12.2
+termcolor==2.4.0
+timm==0.9.12
+torch==1.12.1+cu116
+torchvision==0.13.1+cu116
+tqdm==4.64.1

utils/__init__.py ADDED Viewed

File without changes

utils/convcrf/__init__.py ADDED Viewed

File without changes

utils/convcrf/convcrf.py ADDED Viewed

	@@ -0,0 +1,669 @@

+"""
+The MIT License (MIT)
+Copyright (c) 2017 Marvin Teichmann
+"""
+from __future__ import absolute_import, division, print_function
+import logging
+import math
+import os
+import sys
+import warnings
+import numpy as np
+import scipy as scp
+logging.basicConfig(
+    format="%(asctime)s %(levelname)s %(message)s",
+    level=logging.INFO,
+    stream=sys.stdout,
+)
+try:
+    import pyinn as P
+    has_pyinn = True
+except ImportError:
+    #  PyInn is required to use our cuda based message-passing implementation
+    #  Torch 0.4 provides a im2col operation, which will be used instead.
+    #  It is ~15% slower.
+    has_pyinn = False
+    pass
+import gc
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.autograd import Variable
+from torch.nn import functional as nnfun
+from torch.nn.parameter import Parameter
+# Default config as proposed by Philipp Kraehenbuehl and Vladlen Koltun,
+default_conf = {
+    "filter_size": 11,
+    "blur": 4,
+    "merge": True,
+    "norm": "none",
+    "weight": "vector",
+    "unary_weight": 1,
+    "weight_init": 0.2,
+    "trainable": False,
+    "convcomp": False,
+    "logsoftmax": True,  # use logsoftmax for numerical stability
+    "softmax": True,
+    "skip_init_softmax": False,
+    "final_softmax": False,
+    "pos_feats": {
+        "sdims": 3,
+        "compat": 3,
+    },
+    "col_feats": {
+        "sdims": 80,
+        "schan": 13,  # schan depend on the input scale.
+        # use schan = 13 for images in [0, 255]
+        # for normalized images in [-0.5, 0.5] try schan = 0.1
+        "compat": 10,
+        "use_bias": False,
+    },
+    "trainable_bias": False,
+    "pyinn": False,
+}
+# Config used for test cases on 10 x 10 pixel greyscale inpu
+test_config = {
+    "filter_size": 5,
+    "blur": 1,
+    "merge": False,
+    "norm": "sym",
+    "trainable": False,
+    "weight": "scalar",
+    "unary_weight": 1,
+    "weight_init": 0.5,
+    "convcomp": False,
+    "trainable": False,
+    "convcomp": False,
+    "logsoftmax": True,  # use logsoftmax for numerical stability
+    "softmax": True,
+    "pos_feats": {
+        "sdims": 1.5,
+        "compat": 3,
+    },
+    "col_feats": {"sdims": 2, "schan": 2, "compat": 3, "use_bias": True},
+    "trainable_bias": False,
+}
+class GaussCRF(nn.Module):
+    """Implements ConvCRF with hand-crafted features.
+    It uses the more generic ConvCRF class as basis and utilizes a config
+    dict to easily set hyperparameters and follows the design choices of:
+    Philipp Kraehenbuehl and Vladlen Koltun, "Efficient Inference in Fully
+    "Connected CRFs with Gaussian Edge Pots" (arxiv.org/abs/1210.5644)
+    """
+    def __init__(self, conf, shape, nclasses=None, use_gpu=True):
+        super(GaussCRF, self).__init__()
+        self.conf = conf
+        self.shape = shape
+        self.nclasses = nclasses
+        self.trainable = conf["trainable"]
+        if not conf["trainable_bias"]:
+            self.register_buffer("mesh", self._create_mesh())
+        else:
+            self.register_parameter("mesh", Parameter(self._create_mesh()))
+        if self.trainable:
+            def register(name, tensor):
+                self.register_parameter(name, Parameter(tensor))
+        else:
+            def register(name, tensor):
+                self.register_buffer(name, Variable(tensor))
+        register("pos_sdims", torch.Tensor([1 / conf["pos_feats"]["sdims"]]))
+        if conf["col_feats"]["use_bias"]:
+            register("col_sdims", torch.Tensor([1 / conf["col_feats"]["sdims"]]))
+        else:
+            self.col_sdims = None
+        register("col_schan", torch.Tensor([1 / conf["col_feats"]["schan"]]))
+        register("col_compat", torch.Tensor([conf["col_feats"]["compat"]]))
+        register("pos_compat", torch.Tensor([conf["pos_feats"]["compat"]]))
+        if conf["weight"] is None:
+            weight = None
+        elif conf["weight"] == "scalar":
+            val = conf["weight_init"]
+            weight = torch.Tensor([val])
+        elif conf["weight"] == "vector":
+            val = conf["weight_init"]
+            weight = val * torch.ones(1, nclasses, 1, 1)
+        self.CRF = ConvCRF(
+            shape,
+            nclasses,
+            mode="col",
+            conf=conf,
+            use_gpu=use_gpu,
+            filter_size=conf["filter_size"],
+            norm=conf["norm"],
+            blur=conf["blur"],
+            trainable=conf["trainable"],
+            convcomp=conf["convcomp"],
+            weight=weight,
+            final_softmax=conf["final_softmax"],
+            unary_weight=conf["unary_weight"],
+            pyinn=conf["pyinn"],
+        )
+        return
+    def forward(self, unary, img, num_iter=5):
+        """Run a forward pass through ConvCRF.
+        Arguments:
+            unary: torch.Tensor with shape [bs, num_classes, height, width].
+                The unary predictions. Logsoftmax is applied to the unaries
+                during inference. When using CNNs don't apply softmax,
+                use unnormalized output (logits) instead.
+            img: torch.Tensor with shape [bs, 3, height, width]
+                The input image. Default config assumes image
+                data in [0, 255]. For normalized images adapt
+                `schan`. Try schan = 0.1 for images in [-0.5, 0.5]
+        """
+        conf = self.conf
+        bs, c, x, y = img.shape
+        pos_feats = self.create_position_feats(sdims=self.pos_sdims, bs=bs)
+        col_feats = self.create_colour_feats(
+            img,
+            sdims=self.col_sdims,
+            schan=self.col_schan,
+            bias=conf["col_feats"]["use_bias"],
+            bs=bs,
+        )
+        compats = [self.pos_compat, self.col_compat]
+        self.CRF.add_pairwise_energies([pos_feats, col_feats], compats, conf["merge"])
+        prediction = self.CRF.inference(unary, num_iter=num_iter)
+        self.CRF.clean_filters()
+        return prediction
+    def _create_mesh(self, requires_grad=False):
+        hcord_range = [range(s) for s in self.shape]
+        mesh = np.array(np.meshgrid(*hcord_range, indexing="ij"), dtype=np.float32)
+        return torch.from_numpy(mesh)
+    def create_colour_feats(self, img, schan, sdims=0.0, bias=True, bs=1):
+        norm_img = img * schan
+        if bias:
+            norm_mesh = self.create_position_feats(sdims=sdims, bs=bs)
+            feats = torch.cat([norm_mesh, norm_img], dim=1)
+        else:
+            feats = norm_img
+        return feats
+    def create_position_feats(self, sdims, bs=1):
+        if type(self.mesh) is Parameter:
+            return torch.stack(bs * [self.mesh * sdims])
+        else:
+            return torch.stack(bs * [Variable(self.mesh) * sdims])
+def show_memusage(device=0, name=""):
+    import gpustat
+    gc.collect()
+    gpu_stats = gpustat.GPUStatCollection.new_query()
+    item = gpu_stats.jsonify()["gpus"][device]
+    logging.info(
+        "{:>5}/{:>5} MB Usage at {}".format(
+            item["memory.used"], item["memory.total"], name
+        )
+    )
+def exp_and_normalize(features, dim=0):
+    """
+    Aka "softmax" in deep learning literature
+    """
+    normalized = torch.nn.functional.softmax(features, dim=dim)
+    return normalized
+def _get_ind(dz):
+    if dz == 0:
+        return 0, 0
+    if dz < 0:
+        return 0, -dz
+    if dz > 0:
+        return dz, 0
+def _negative(dz):
+    """
+    Computes -dz for numpy indexing. Goal is to use as in array[i:-dz].
+    However, if dz=0 this indexing does not work.
+    None needs to be used instead.
+    """
+    if dz == 0:
+        return None
+    else:
+        return -dz
+class MessagePassingCol:
+    """Perform the Message passing of ConvCRFs.
+    The main magic happens here.
+    """
+    def __init__(
+        self,
+        feat_list,
+        compat_list,
+        merge,
+        npixels,
+        nclasses,
+        norm="sym",
+        filter_size=5,
+        clip_edges=0,
+        use_gpu=False,
+        blur=1,
+        matmul=False,
+        verbose=False,
+        pyinn=False,
+    ):
+        if not norm == "sym" and not norm == "none":
+            raise NotImplementedError
+        span = filter_size // 2
+        assert filter_size % 2 == 1
+        self.span = span
+        self.filter_size = filter_size
+        self.use_gpu = use_gpu
+        self.verbose = verbose
+        self.blur = blur
+        self.pyinn = pyinn
+        self.merge = merge
+        self.npixels = npixels
+        if not self.blur == 1 and self.blur % 2:
+            raise NotImplementedError
+        self.matmul = matmul
+        self._gaus_list = []
+        self._norm_list = []
+        for feats, compat in zip(feat_list, compat_list):
+            gaussian = self._create_convolutional_filters(feats)
+            if not norm == "none":
+                mynorm = self._get_norm(gaussian)
+                self._norm_list.append(mynorm)
+            else:
+                self._norm_list.append(None)
+            gaussian = compat * gaussian
+            self._gaus_list.append(gaussian)
+        if merge:
+            self.gaussian = sum(self._gaus_list)
+            if not norm == "none":
+                raise NotImplementedError
+    def _get_norm(self, gaus):
+        norm_tensor = torch.ones([1, 1, self.npixels[0], self.npixels[1]])
+        normalization_feats = torch.autograd.Variable(norm_tensor)
+        if self.use_gpu:
+            normalization_feats = normalization_feats.cuda()
+        norm_out = self._compute_gaussian(normalization_feats, gaussian=gaus)
+        return 1 / torch.sqrt(norm_out + 1e-20)
+    def _create_convolutional_filters(self, features):
+        span = self.span
+        bs = features.shape[0]
+        if self.blur > 1:
+            off_0 = (self.blur - self.npixels[0] % self.blur) % self.blur
+            off_1 = (self.blur - self.npixels[1] % self.blur) % self.blur
+            pad_0 = math.ceil(off_0 / 2)
+            pad_1 = math.ceil(off_1 / 2)
+            if self.blur == 2:
+                assert pad_0 == self.npixels[0] % 2
+                assert pad_1 == self.npixels[1] % 2
+            features = torch.nn.functional.avg_pool2d(
+                features,
+                kernel_size=self.blur,
+                padding=(pad_0, pad_1),
+                count_include_pad=False,
+            )
+            npixels = [
+                math.ceil(self.npixels[0] / self.blur),
+                math.ceil(self.npixels[1] / self.blur),
+            ]
+            assert npixels[0] == features.shape[2]
+            assert npixels[1] == features.shape[3]
+        else:
+            npixels = self.npixels
+        gaussian_tensor = features.data.new(
+            bs, self.filter_size, self.filter_size, npixels[0], npixels[1]
+        ).fill_(0)
+        gaussian = Variable(gaussian_tensor)
+        for dx in range(-span, span + 1):
+            for dy in range(-span, span + 1):
+                dx1, dx2 = _get_ind(dx)
+                dy1, dy2 = _get_ind(dy)
+                feat_t = features[:, :, dx1 : _negative(dx2), dy1 : _negative(dy2)]
+                feat_t2 = features[
+                    :, :, dx2 : _negative(dx1), dy2 : _negative(dy1)
+                ]  # NOQA
+                diff = feat_t - feat_t2
+                diff_sq = diff * diff
+                exp_diff = torch.exp(torch.sum(-0.5 * diff_sq, dim=1))
+                gaussian[
+                    :, dx + span, dy + span, dx2 : _negative(dx1), dy2 : _negative(dy1)
+                ] = exp_diff
+        return gaussian.view(
+            bs, 1, self.filter_size, self.filter_size, npixels[0], npixels[1]
+        )
+    def compute(self, input):
+        if self.merge:
+            pred = self._compute_gaussian(input, self.gaussian)
+        else:
+            assert len(self._gaus_list) == len(self._norm_list)
+            pred = 0
+            for gaus, norm in zip(self._gaus_list, self._norm_list):
+                pred += self._compute_gaussian(input, gaus, norm)
+        return pred
+    def _compute_gaussian(self, input, gaussian, norm=None):
+        if norm is not None:
+            input = input * norm
+        shape = input.shape
+        num_channels = shape[1]
+        bs = shape[0]
+        if self.blur > 1:
+            off_0 = (self.blur - self.npixels[0] % self.blur) % self.blur
+            off_1 = (self.blur - self.npixels[1] % self.blur) % self.blur
+            pad_0 = int(math.ceil(off_0 / 2))
+            pad_1 = int(math.ceil(off_1 / 2))
+            input = torch.nn.functional.avg_pool2d(
+                input,
+                kernel_size=self.blur,
+                padding=(pad_0, pad_1),
+                count_include_pad=False,
+            )
+            npixels = [
+                math.ceil(self.npixels[0] / self.blur),
+                math.ceil(self.npixels[1] / self.blur),
+            ]
+            assert npixels[0] == input.shape[2]
+            assert npixels[1] == input.shape[3]
+        else:
+            npixels = self.npixels
+        if self.verbose:
+            show_memusage(name="Init")
+        if self.pyinn:
+            input_col = P.im2col(input, self.filter_size, 1, self.span)
+        else:
+            # An alternative implementation of num2col.
+            #
+            # This has implementation uses the torch 0.4 im2col operation.
+            # This implementation was not avaible when we did the experiments
+            # published in our paper. So less "testing" has been done.
+            #
+            # It is around ~20% slower then the pyinn implementation but
+            # easier to use as it removes a dependency.
+            input_unfold = F.unfold(input, self.filter_size, 1, self.span)
+            input_unfold = input_unfold.view(
+                bs,
+                num_channels,
+                self.filter_size,
+                self.filter_size,
+                npixels[0],
+                npixels[1],
+            )
+            input_col = input_unfold
+        k_sqr = self.filter_size * self.filter_size
+        if self.verbose:
+            show_memusage(name="Im2Col")
+        product = gaussian * input_col
+        if self.verbose:
+            show_memusage(name="Product")
+        product = product.view([bs, num_channels, k_sqr, npixels[0], npixels[1]])
+        message = product.sum(2)
+        if self.verbose:
+            show_memusage(name="FinalNorm")
+        if self.blur > 1:
+            in_0 = self.npixels[0]
+            in_1 = self.npixels[1]
+            message = message.view(bs, num_channels, npixels[0], npixels[1])
+            with warnings.catch_warnings():
+                warnings.simplefilter("ignore")
+                # Suppress warning regarding corner alignment
+                message = torch.nn.functional.upsample(
+                    message, scale_factor=self.blur, mode="bilinear"
+                )
+            message = message[:, :, pad_0 : pad_0 + in_0, pad_1 : in_1 + pad_1]
+            message = message.contiguous()
+            message = message.view(shape)
+            assert message.shape == shape
+        if norm is not None:
+            message = norm * message
+        return message
+class ConvCRF(nn.Module):
+    """
+        Implements a generic CRF class.
+    This class provides tools to build
+    your own ConvCRF based model.
+    """
+    def __init__(
+        self,
+        npixels,
+        nclasses,
+        conf,
+        mode="conv",
+        filter_size=5,
+        clip_edges=0,
+        blur=1,
+        use_gpu=False,
+        norm="sym",
+        merge=False,
+        verbose=False,
+        trainable=False,
+        convcomp=False,
+        weight=None,
+        final_softmax=True,
+        unary_weight=10,
+        pyinn=False,
+        skip_init_softmax=False,
+        eps=1e-8,
+    ):
+        super(ConvCRF, self).__init__()
+        self.nclasses = nclasses
+        self.filter_size = filter_size
+        self.clip_edges = clip_edges
+        self.use_gpu = use_gpu
+        self.mode = mode
+        self.norm = norm
+        self.merge = merge
+        self.kernel = None
+        self.verbose = verbose
+        self.blur = blur
+        self.final_softmax = final_softmax
+        self.pyinn = pyinn
+        self.skip_init_softmax = skip_init_softmax
+        self.eps = eps
+        self.conf = conf
+        self.unary_weight = unary_weight
+        if self.use_gpu:
+            if not torch.cuda.is_available():
+                logging.error("GPU mode requested but not avaible.")
+                logging.error("Please run using use_gpu=False.")
+                raise ValueError
+        self.npixels = npixels
+        if type(npixels) is tuple or type(npixels) is list:
+            self.height = npixels[0]
+            self.width = npixels[1]
+        else:
+            self.npixels = npixels
+        if trainable:
+            def register(name, tensor):
+                self.register_parameter(name, Parameter(tensor))
+        else:
+            def register(name, tensor):
+                self.register_buffer(name, Variable(tensor))
+        if weight is None:
+            self.weight = None
+        else:
+            register("weight", weight)
+        if convcomp:
+            self.comp = nn.Conv2d(
+                nclasses, nclasses, kernel_size=1, stride=1, padding=0, bias=False
+            )
+            self.comp.weight.data.fill_(0.1 * math.sqrt(2.0 / nclasses))
+        else:
+            self.comp = None
+    def clean_filters(self):
+        self.kernel = None
+    def add_pairwise_energies(self, feat_list, compat_list, merge):
+        assert len(feat_list) == len(compat_list)
+        self.kernel = MessagePassingCol(
+            feat_list=feat_list,
+            compat_list=compat_list,
+            merge=merge,
+            npixels=self.npixels,
+            filter_size=self.filter_size,
+            nclasses=self.nclasses,
+            use_gpu=self.use_gpu,
+            norm=self.norm,
+            verbose=self.verbose,
+            blur=self.blur,
+            pyinn=self.pyinn,
+        )
+    def inference(self, unary, num_iter=5):
+        if not self.skip_init_softmax:
+            if not self.conf["logsoftmax"]:
+                lg_unary = torch.log(unary)
+                prediction = exp_and_normalize(lg_unary, dim=1)
+            else:
+                lg_unary = nnfun.log_softmax(unary, dim=1, _stacklevel=5)
+                prediction = lg_unary
+        else:
+            unary = unary + self.eps
+            unary = unary.clamp(0, 1)
+            lg_unary = torch.log(unary)
+            prediction = lg_unary
+        for i in range(num_iter):
+            message = self.kernel.compute(prediction)
+            if self.comp is not None:
+                # message_r = message.view(tuple([1]) + message.shape)
+                comp = self.comp(message)
+                message = message + comp
+            if self.weight is None:
+                prediction = lg_unary + message
+            else:
+                prediction = (
+                    self.unary_weight - self.weight
+                ) * lg_unary + self.weight * message
+            if not i == num_iter - 1 or self.final_softmax:
+                if self.conf["softmax"]:
+                    prediction = exp_and_normalize(prediction, dim=1)
+        return prediction
+    def start_inference(self):
+        pass
+    def step_inference(self):
+        pass
+def get_test_conf():
+    return test_config.copy()
+def get_default_conf():
+    return default_conf.copy()

utils/crf.py ADDED Viewed

	@@ -0,0 +1,41 @@

+#!/usr/bin/env python
+# coding: utf-8
+#
+# Author: Kazuto Nakashima
+# URL:    https://kazuto1011.github.io
+# Date:   09 January 2019
+import numpy as np
+import pydensecrf.densecrf as dcrf
+import pydensecrf.utils as utils
+class DenseCRF(object):
+    def __init__(self, iter_max, pos_w, pos_xy_std, bi_w, bi_xy_std, bi_rgb_std):
+        self.iter_max = iter_max
+        self.pos_w = pos_w
+        self.pos_xy_std = pos_xy_std
+        self.bi_w = bi_w
+        self.bi_xy_std = bi_xy_std
+        self.bi_rgb_std = bi_rgb_std
+    def __call__(self, image, probmap):
+        C, H, W = probmap.shape
+        U = utils.unary_from_softmax(probmap)
+        U = np.ascontiguousarray(U)
+        image = np.ascontiguousarray(image)
+        d = dcrf.DenseCRF2D(W, H, C)
+        d.setUnaryEnergy(U)
+        d.addPairwiseGaussian(sxy=self.pos_xy_std, compat=self.pos_w)
+        d.addPairwiseBilateral(
+            sxy=self.bi_xy_std, srgb=self.bi_rgb_std, rgbim=image, compat=self.bi_w
+        )
+        Q = d.inference(self.iter_max)
+        Q = np.array(Q).reshape((C, H, W))
+        return Q

utils/misc.py ADDED Viewed

	@@ -0,0 +1,370 @@

+import copy
+import datetime
+import json
+import math
+import os
+import random
+import signal
+import subprocess
+import sys
+import time
+import warnings
+from collections import defaultdict
+from shutil import copy2
+from typing import Dict
+import numpy as np
+import prettytable as pt
+import torch
+import torch.nn as nn
+from termcolor import cprint
+from torch.utils.tensorboard import SummaryWriter
+class Logger(object):
+    def __init__(self, filename, stream=sys.stdout):
+        self.terminal = stream
+        self.log = open(filename, "a")
+    def write(self, message):
+        self.terminal.write(message)
+        self.log.write(message)
+    def flush(self):
+        pass
+class AverageMeter(object):
+    """Computes and stores the average and current value"""
+    def __init__(self):
+        self.sum = 0
+        self.avg = 0
+        self.val = 0
+        self.count = 0
+    def reset(self):
+        self.sum = 0
+        self.avg = 0
+        self.val = 0
+        self.count = 0
+    def update(self, val, n=1):
+        self.val = val
+        self.sum = self.sum + val * n
+        self.count = self.count + n
+        self.avg = self.sum / self.count
+    def __str__(self):
+        return f"{self.avg: .5f}"
+def get_sha():
+    """Get git current status"""
+    cwd = os.path.dirname(os.path.abspath(__file__))
+    def _run(command):
+        return subprocess.check_output(command, cwd=cwd).decode("ascii").strip()
+    sha = "N/A"
+    diff = "clean"
+    branch = "N/A"
+    message = "N/A"
+    try:
+        sha = _run(["git", "rev-parse", "HEAD"])
+        sha = sha[:8]
+        subprocess.check_output(["git", "diff"], cwd=cwd)
+        diff = _run(["git", "diff-index", "HEAD"])
+        diff = "has uncommited changes" if diff else "clean"
+        branch = _run(["git", "rev-parse", "--abbrev-ref", "HEAD"])
+        message = _run(["git", "log", "--pretty=format:'%s'", sha, "-1"]).replace(
+            "'", ""
+        )
+    except Exception:
+        pass
+    return {"sha": sha, "status": diff, "branch": branch, "prev_commit": message}
+def setup_env(opt):
+    if opt.eval or opt.debug:
+        opt.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        torch.autograd.set_detect_anomaly(True)
+        return None
+    dir_name = opt.dir_name
+    save_root_path = opt.save_root_path
+    if not os.path.exists(save_root_path):
+        os.mkdir(save_root_path)
+    # deterministic
+    torch.manual_seed(opt.seed)
+    np.random.seed(opt.seed)
+    random.seed(opt.seed)
+    torch.backends.cudnn.deterministic = True
+    torch.backends.cudnn.benchmark = True
+    # mkdir subdirectories
+    checkpoint = "checkpoint"
+    if not os.path.exists(os.path.join(save_root_path, dir_name)):
+        os.mkdir(os.path.join(save_root_path, dir_name))
+        os.mkdir(os.path.join(save_root_path, dir_name, checkpoint))
+    # save log
+    sys.stdout = Logger(os.path.join(save_root_path, dir_name, "log.log"), sys.stdout)
+    sys.stderr = Logger(os.path.join(save_root_path, dir_name, "error.log"), sys.stderr)
+    # save parameters
+    params = copy.deepcopy(vars(opt))
+    params.pop("device")
+    with open(os.path.join(save_root_path, dir_name, "params.json"), "w") as f:
+        json.dump(params, f)
+    # print info
+    print(
+        "Running on {}, PyTorch version {}, files will be saved at {}".format(
+            opt.device, torch.__version__, os.path.join(save_root_path, dir_name)
+        )
+    )
+    print("Devices:")
+    for i in range(torch.cuda.device_count()):
+        print("    {}:".format(i), torch.cuda.get_device_name(i))
+    print(f"Git: {get_sha()}.")
+    # return tensorboard summarywriter
+    return SummaryWriter("{}/{}/".format(opt.save_root_path, opt.dir_name))
+class MetricLogger(object):
+    def __init__(self, delimiter=" ", writer=None, suffix=None):
+        self.meters = defaultdict(AverageMeter)
+        self.delimiter = delimiter
+        self.writer = writer
+        self.suffix = suffix
+    def update(self, **kwargs):
+        for k, v in kwargs.items():
+            if isinstance(v, torch.Tensor):
+                v = v.item()
+            assert isinstance(v, (float, int)), f"Unsupport type {type(v)}."
+            self.meters[k].update(v)
+    def add_meter(self, name, meter):
+        self.meters[name] = meter
+    def get_meters(self):
+        result = {}
+        for k, v in self.meters.items():
+            result[k] = v.avg
+        return result
+    def prepend_subprefix(self, subprefix: str):
+        old_keys = list(self.meters.keys())
+        for k in old_keys:
+            self.meters[k.replace("/", f"/{subprefix}")] = self.meters[k]
+        for k in old_keys:
+            del self.meters[k]
+    def log_every(self, iterable, print_freq=10, header=""):
+        i = 0
+        start_time = time.time()
+        end = time.time()
+        iter_time = AverageMeter()
+        space_fmt = ":" + str(len(str(len(iterable)))) + "d"
+        log_msg = self.delimiter.join(
+            [
+                header,
+                "[{0" + space_fmt + "}/{1}]",
+                "eta: {eta}",
+                "{meters}",
+                "iter time: {time}s",
+            ]
+        )
+        for obj in iterable:
+            yield i, obj
+            iter_time.update(time.time() - end)
+            if (i + 1) % print_freq == 0 or i == len(iterable) - 1:
+                eta_seconds = iter_time.avg * (len(iterable) - i)
+                eta_string = str(datetime.timedelta(seconds=int(eta_seconds)))
+                print(
+                    log_msg.format(
+                        i + 1,
+                        len(iterable),
+                        eta=eta_string,
+                        meters=str(self),
+                        time=str(iter_time),
+                    ).replace("  ", " ")
+                )
+            i += 1
+            end = time.time()
+        total_time = time.time() - start_time
+        total_time_str = str(datetime.timedelta(seconds=int(total_time)))
+        print(
+            "{} Total time: {} ({:.4f}s / it)".format(
+                header, total_time_str, total_time / len(iterable)
+            )
+        )
+    def write_tensorboard(self, step):
+        if self.writer is not None:
+            for k, v in self.meters.items():
+                # if self.suffix:
+                #     self.writer.add_scalar(
+                #         '{}/{}'.format(k, self.suffix), v.avg, step)
+                # else:
+                self.writer.add_scalar(k, v.avg, step)
+    def stat_table(self):
+        tb = pt.PrettyTable(field_names=["Metrics", "Values"])
+        for name, meter in self.meters.items():
+            tb.add_row([name, str(meter)])
+        return tb.get_string()
+    def __getattr__(self, attr):
+        if attr in self.meters:
+            return self.meters[attr]
+        if attr in self.__dict__:
+            return self.__dict__[attr]
+        raise AttributeError(
+            "'{}' object has no attribute '{}'".format(type(self).__name__, attr)
+        )
+    def __str__(self):
+        loss_str = []
+        for name, meter in self.meters.items():
+            loss_str.append("{}: {}".format(name, str(meter)))
+        return self.delimiter.join(loss_str).replace("  ", " ")
+def save_model(path, model: nn.Module, epoch, opt, performance=None):
+    if not opt.debug:
+        try:
+            torch.save(
+                {
+                    "model": model.state_dict(),
+                    "epoch": epoch,
+                    "opt": opt,
+                    "performance": performance,
+                },
+                path,
+            )
+        except Exception as e:
+            cprint("Failed to save {} because {}".format(path, str(e)))
+def resume_from(model: nn.Module, resume_path: str):
+    checkpoint = torch.load(resume_path, map_location="cpu")
+    state_dict = checkpoint["model"]
+    performance = checkpoint["performance"]
+    try:
+        model.load_state_dict(state_dict)
+    except Exception as e:
+        model.load_state_dict(state_dict, strict=False)
+        cprint("Failed to load full model because {}".format(str(e)), "red")
+        time.sleep(3)
+    print(f"{resume_path} model loaded. It performance is")
+    if performance is not None:
+        for k, v in performance.items():
+            print(f"{k}: {v}")
+def update_record(result: Dict, epoch: int, opt, file_name: str = "latest_record"):
+    if not opt.debug:
+        # save txt file
+        tb = pt.PrettyTable(field_names=["Metrics", "Values"])
+        with open(
+            os.path.join(opt.save_root_path, opt.dir_name, f"{file_name}.txt"), "w"
+        ) as f:
+            f.write(f"Performance at {epoch}-th epoch:\n\n")
+            for k, v in result.items():
+                tb.add_row([k, "{:.7f}".format(v)])
+            f.write(tb.get_string())
+        # save json file
+        result["epoch"] = epoch
+        with open(
+            os.path.join(opt.save_root_path, opt.dir_name, f"{file_name}.json"), "w"
+        ) as f:
+            json.dump(result, f)
+def pixel_acc(pred, label):
+    """Compute pixel-level prediction accuracy."""
+    warnings.warn("I am not sure if this implementation is correct.")
+    label_size = label.shape[-2:]
+    if pred.shape[-2] != label_size:
+        pred = torch.nn.functional.interpolate(
+            pred, size=label_size, mode="bilinear", align_corners=False
+        )
+    pred[torch.where(pred > 0.5)] = 1
+    pred[torch.where(pred <= 0.5)] = 0
+    correct = torch.sum((pred + label) == 1.0)
+    total = torch.numel(pred)
+    return correct / (total + 1e-8)
+def calculate_pixel_f1(pd, gt, prefix="", suffix=""):
+    if np.max(pd) == np.max(gt) and np.max(pd) == 0:
+        f1, iou = 1.0, 1.0
+        return f1, 0.0, 0.0
+    seg_inv, gt_inv = np.logical_not(pd), np.logical_not(gt)
+    true_pos = float(np.logical_and(pd, gt).sum())
+    false_pos = np.logical_and(pd, gt_inv).sum()
+    false_neg = np.logical_and(seg_inv, gt).sum()
+    f1 = 2 * true_pos / (2 * true_pos + false_pos + false_neg + 1e-6)
+    precision = true_pos / (true_pos + false_pos + 1e-6)
+    recall = true_pos / (true_pos + false_neg + 1e-6)
+    return {
+        f"{prefix}pixel_f1{suffix}": f1,
+        f"{prefix}pixel_prec{suffix}": precision,
+        f"{prefix}pixel_recall{suffix}": recall,
+    }
+def calculate_img_score(pd, gt, prefix="", suffix="", eta=1e-6):
+    seg_inv, gt_inv = np.logical_not(pd), np.logical_not(gt)
+    true_pos = float(np.logical_and(pd, gt).sum())
+    false_pos = float(np.logical_and(pd, gt_inv).sum())
+    false_neg = float(np.logical_and(seg_inv, gt).sum())
+    true_neg = float(np.logical_and(seg_inv, gt_inv).sum())
+    acc = (true_pos + true_neg) / (true_pos + true_neg + false_neg + false_pos + eta)
+    sen = true_pos / (true_pos + false_neg + eta)
+    spe = true_neg / (true_neg + false_pos + eta)
+    precision = true_pos / (true_pos + false_pos + eta)
+    recall = true_pos / (true_pos + false_neg + eta)
+    try:
+        f1 = 2 * sen * spe / (sen + spe)
+    except:
+        f1 = -math.inf
+    return {
+        f"{prefix}image_acc{suffix}": acc,
+        f"{prefix}image_sen{suffix}": sen,
+        f"{prefix}image_spe{suffix}": spe,
+        f"{prefix}image_f1{suffix}": f1,
+        f"{prefix}image_true_pos{suffix}": true_pos,
+        f"{prefix}image_true_neg{suffix}": true_neg,
+        f"{prefix}image_false_pos{suffix}": false_pos,
+        f"{prefix}image_false_neg{suffix}": false_neg,
+        f"{prefix}image_prec{suffix}": precision,
+        f"{prefix}image_recall{suffix}": recall,
+    }
+class timeout:
+    def __init__(self, seconds=1, error_message="Timeout"):
+        self.seconds = seconds
+        self.error_message = error_message
+    def handle_timeout(self, signum, frame):
+        raise TimeoutError(self.error_message)
+    def __enter__(self):
+        signal.signal(signal.SIGALRM, self.handle_timeout)
+        signal.alarm(self.seconds)
+    def __exit__(self, type, value, traceback):
+        signal.alarm(0)