anime-aesthetic / anime_aesthetic.py

Update anime_aesthetic.py

0b4ff36 almost 2 years ago

16.6 kB

	import argparse
	import json
	import os
	import random
	from copy import deepcopy

	import numpy as np
	import pytorch_lightning as pl
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import torch.optim as optim
	from PIL import Image
	from pytorch_lightning import Trainer
	from pytorch_lightning.callbacks import ModelCheckpoint
	from timm.models.layers import DropPath, trunc_normal_
	from torch.utils.data import DataLoader, Dataset
	from torchvision import transforms
	from torchvision.transforms import functional


	# ========= Model =========

	# copy from https://github.com/facebookresearch/ConvNeXt-V2/blob/main/models/convnextv2.py


	class LayerNorm(nn.Module):
	"""LayerNorm that supports two data formats: channels_last (default) or channels_first.
	The ordering of the dimensions in the inputs. channels_last corresponds to inputs with
	shape (batch_size, height, width, channels) while channels_first corresponds to inputs
	with shape (batch_size, channels, height, width).
	"""

	def __init__(self, normalized_shape, eps=1e-6, data_format="channels_last"):
	super().__init__()
	self.weight = nn.Parameter(torch.ones(normalized_shape))
	self.bias = nn.Parameter(torch.zeros(normalized_shape))
	self.eps = eps
	self.data_format = data_format
	if self.data_format not in ["channels_last", "channels_first"]:
	raise NotImplementedError
	self.normalized_shape = (normalized_shape,)

	def forward(self, x):
	if self.data_format == "channels_last":
	return F.layer_norm(
	x, self.normalized_shape, self.weight, self.bias, self.eps
	)
	elif self.data_format == "channels_first":
	u = x.mean(1, keepdim=True)
	s = (x - u).pow(2).mean(1, keepdim=True)
	x = (x - u) / torch.sqrt(s + self.eps)
	x = self.weight[:, None, None] * x + self.bias[:, None, None]
	return x


	class GRN(nn.Module):
	"""GRN (Global Response Normalization) layer"""

	def __init__(self, dim):
	super().__init__()
	self.gamma = nn.Parameter(torch.zeros(1, 1, 1, dim))
	self.beta = nn.Parameter(torch.zeros(1, 1, 1, dim))

	def forward(self, x):
	Gx = torch.norm(x, p=2, dim=(1, 2), keepdim=True)
	Nx = Gx / (Gx.mean(dim=-1, keepdim=True) + 1e-6)
	return self.gamma * (x * Nx) + self.beta + x


	class Block(nn.Module):
	"""ConvNeXtV2 Block.

	Args:
	dim (int): Number of input channels.
	drop_path (float): Stochastic depth rate. Default: 0.0
	"""

	def __init__(self, dim, drop_path=0.0):
	super().__init__()
	self.dwconv = nn.Conv2d(
	dim, dim, kernel_size=7, padding=3, groups=dim
	) # depthwise conv
	self.norm = LayerNorm(dim, eps=1e-6)
	self.pwconv1 = nn.Linear(
	dim, 4 * dim
	) # pointwise/1x1 convs, implemented with linear layers
	self.act = nn.GELU()
	self.grn = GRN(4 * dim)
	self.pwconv2 = nn.Linear(4 * dim, dim)
	self.drop_path = DropPath(drop_path) if drop_path > 0.0 else nn.Identity()

	def forward(self, x):
	input = x
	x = self.dwconv(x)
	x = x.permute(0, 2, 3, 1) # (N, C, H, W) -> (N, H, W, C)
	x = self.norm(x)
	x = self.pwconv1(x)
	x = self.act(x)
	x = self.grn(x)
	x = self.pwconv2(x)
	x = x.permute(0, 3, 1, 2) # (N, H, W, C) -> (N, C, H, W)

	x = input + self.drop_path(x)
	return x


	class ConvNeXtV2(nn.Module):
	"""ConvNeXt V2

	Args:
	in_chans (int): Number of input image channels. Default: 3
	num_classes (int): Number of classes for classification head. Default: 1000
	depths (tuple(int)): Number of blocks at each stage. Default: [3, 3, 9, 3]
	dims (int[]): Feature dimension at each stage. Default: [96, 192, 384, 768]
	drop_path_rate (float): Stochastic depth rate. Default: 0.
	head_init_scale (float): Init scaling value for classifier weights and biases. Default: 1.
	"""

	def __init__(
	self,
	in_chans=3,
	num_classes=1000,
	depths=[3, 3, 9, 3],
	dims=[96, 192, 384, 768],
	drop_path_rate=0.0,
	head_init_scale=1.0,
	):
	super().__init__()
	self.depths = depths
	self.downsample_layers = (
	nn.ModuleList()
	) # stem and 3 intermediate downsampling conv layers
	stem = nn.Sequential(
	nn.Conv2d(in_chans, dims[0], kernel_size=4, stride=4),
	LayerNorm(dims[0], eps=1e-6, data_format="channels_first"),
	)
	self.downsample_layers.append(stem)
	for i in range(3):
	downsample_layer = nn.Sequential(
	LayerNorm(dims[i], eps=1e-6, data_format="channels_first"),
	nn.Conv2d(dims[i], dims[i + 1], kernel_size=2, stride=2),
	)
	self.downsample_layers.append(downsample_layer)

	self.stages = (
	nn.ModuleList()
	) # 4 feature resolution stages, each consisting of multiple residual blocks
	dp_rates = [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))]
	cur = 0
	for i in range(4):
	stage = nn.Sequential(
	*[
	Block(dim=dims[i], drop_path=dp_rates[cur + j])
	for j in range(depths[i])
	]
	)
	self.stages.append(stage)
	cur += depths[i]

	self.norm = nn.LayerNorm(dims[-1], eps=1e-6) # final norm layer
	self.head = nn.Linear(dims[-1], num_classes)

	self.apply(self._init_weights)
	self.head.weight.data.mul_(head_init_scale)
	self.head.bias.data.mul_(head_init_scale)

	def _init_weights(self, m):
	if isinstance(m, (nn.Conv2d, nn.Linear)):
	trunc_normal_(m.weight, std=0.02)
	nn.init.constant_(m.bias, 0)

	def forward_features(self, x):
	for i in range(4):
	x = self.downsample_layers[i](x)
	x = self.stages[i](x)
	return self.norm(
	x.mean([-2, -1])
	) # global average pooling, (N, C, H, W) -> (N, C)

	def forward(self, x):
	x = self.forward_features(x)
	x = self.head(x)
	return x


	model_cfgs = {
	"atto": [[2, 2, 6, 2], [40, 80, 160, 320]],
	"femto": [[2, 2, 6, 2], [48, 96, 192, 384]],
	"pico": [[2, 2, 6, 2], [64, 128, 256, 512]],
	"nano": [[2, 2, 8, 2], [80, 160, 320, 640]],
	"tiny": [[3, 3, 9, 3], [96, 192, 384, 768]],
	"base": [[3, 3, 27, 3], [128, 256, 512, 1024]],
	"large": [[3, 3, 27, 3], [192, 384, 768, 1536]],
	"huge": [[3, 3, 27, 3], [352, 704, 1408, 2816]],
	}


	def convnextv2(cfg_name, **kwargs):
	cfg = model_cfgs[cfg_name]
	model = ConvNeXtV2(depths=cfg[0], dims=cfg[1], **kwargs)
	return model


	# ========= Dataset =========

	EXTENSION = [".png", ".jpg", ".jpeg"]


	def file_ext(fname):
	return os.path.splitext(fname)[1].lower()


	def rescale_pad(image, output_size, random_pad=False):
	h, w = image.shape[-2:]
	if h != output_size or w != output_size:
	r = min(output_size / h, output_size / w)
	new_h, new_w = int(h * r), int(w * r)
	if random_pad:
	r2 = random.uniform(0.9, 1)
	new_h, new_w = int(new_h * r2), int(new_w * r2)
	ph = output_size - new_h
	pw = output_size - new_w
	left = random.randint(0, pw) if random_pad else pw // 2
	right = pw - left
	top = random.randint(0, ph) if random_pad else ph // 2
	bottom = ph - top
	image = transforms.functional.resize(image, [new_h, new_w])
	image = transforms.functional.pad(
	image, [left, top, right, bottom], random.uniform(0, 1) if random_pad else 0
	)
	return image


	def random_crop(image, min_rate=0.8):
	h, w = image.shape[-2:]
	new_h, new_w = int(h * random.uniform(min_rate, 1)), int(w * random.uniform(min_rate, 1))
	top = np.random.randint(0, h - new_h)
	left = np.random.randint(0, w - new_w)
	image = image[:, top: top + new_h, left: left + new_w]
	return image


	class AnimeAestheticDataset(Dataset):
	def __init__(self, path, img_size, xflip=True):
	all_files = {
	os.path.relpath(os.path.join(root, fname), path)
	for root, _dirs, files in os.walk(path)
	for fname in files
	}
	all_images = sorted(
	fname for fname in all_files if file_ext(fname) in EXTENSION
	)
	with open(os.path.join(path, "label.json"), "r", encoding="utf8") as f:
	labels = json.load(f)
	image_list = []
	label_list = []
	for fname in all_images:
	if fname not in labels:
	continue
	image_list.append(fname)
	label_list.append(labels[fname])
	self.path = path
	self.img_size = img_size
	self.xflip = xflip
	self.image_list = image_list
	self.label_list = label_list

	def __len__(self):
	length = len(self.image_list)
	if self.xflip:
	length *= 2
	return length

	def __getitem__(self, index):
	real_len = len(self.image_list)
	fname = self.image_list[index % real_len]
	label = self.label_list[index % real_len]
	image = Image.open(os.path.join(self.path, fname)).convert("RGB")
	image = transforms.functional.to_tensor(image)
	image = random_crop(image, 0.8)
	image = rescale_pad(image, self.img_size, True)
	if index // real_len != 0:
	image = transforms.functional.hflip(image)
	label = torch.tensor([label], dtype=torch.float32)
	return image, label


	# ========= Train =========


	class AnimeAesthetic(pl.LightningModule):
	def __init__(self, cfg: str, drop_path_rate=0.0, ema_decay=0):
	super().__init__()
	self.net = convnextv2(cfg, in_chans=3, num_classes=1, drop_path_rate=drop_path_rate)
	self.ema_decay = ema_decay
	self.ema = None
	if ema_decay > 0:
	self.ema = deepcopy(self.net)
	self.ema.requires_grad_(False)

	def configure_optimizers(self):
	optimizer = optim.Adam(
	self.net.parameters(),
	lr=0.001,
	betas=(0.9, 0.999),
	eps=1e-08,
	weight_decay=0,
	)
	return optimizer

	def forward(self, x, use_ema=False):
	x = (x - 0.5) / 0.5
	net = self.ema if use_ema else self.net
	return net(x)

	def training_step(self, batch, batch_idx):
	images, labels = batch
	loss = F.mse_loss(self.forward(images, False), labels)
	self.log_dict({"train/loss": loss})
	return loss

	def validation_step(self, batch, batch_idx):
	images, labels = batch
	mae = F.l1_loss(self.forward(images, False), labels)
	logs = {"val/mae": mae}
	if self.ema is not None:
	mae_ema = F.l1_loss(self.forward(images, True), labels)
	logs["val/mae_ema"] = mae_ema
	self.log_dict(logs, sync_dist=True)

	def on_train_batch_end(self, outputs, batch, batch_idx):
	if self.ema is not None:
	with torch.no_grad():
	for ema_v, model_v in zip(
	self.ema.state_dict().values(), self.net.state_dict().values()
	):
	ema_v.copy_(
	self.ema_decay * ema_v + (1.0 - self.ema_decay) * model_v
	)


	def main(opt):
	if not os.path.exists("lightning_logs"):
	os.mkdir("lightning_logs")
	torch.manual_seed(0)
	np.random.seed(0)
	print("---load dataset---")
	full_dataset = AnimeAestheticDataset(opt.data, opt.img_size)
	full_dataset_len = len(full_dataset)
	train_dataset_len = int(full_dataset_len * opt.data_split)
	val_dataset_len = full_dataset_len - train_dataset_len
	train_dataset, val_dataset = torch.utils.data.random_split(
	full_dataset, [train_dataset_len, val_dataset_len]
	)
	train_dataloader = DataLoader(
	train_dataset,
	batch_size=opt.batch_size_train,
	shuffle=True,
	persistent_workers=True,
	num_workers=opt.workers_train,
	pin_memory=True,
	)
	val_dataloader = DataLoader(
	val_dataset,
	batch_size=opt.batch_size_val,
	shuffle=False,
	persistent_workers=True,
	num_workers=opt.workers_val,
	pin_memory=True,
	)
	print(f"train: {len(train_dataset)}")
	print(f"val: {len(val_dataset)}")
	print("---define model---")
	if opt.resume != "":
	anime_aesthetic = AnimeAesthetic.load_from_checkpoint(
	opt.resume, cfg=opt.cfg, drop_path_rate=opt.drop_path, ema_decay=opt.ema_decay
	)
	else:
	anime_aesthetic = AnimeAesthetic(cfg=opt.cfg, drop_path_rate=opt.drop_path, ema_decay=opt.ema_decay)

	print("---start train---")

	checkpoint_callback = ModelCheckpoint(
	monitor="val/mae",
	mode="min",
	save_top_k=1,
	save_last=True,
	auto_insert_metric_name=False,
	filename="epoch={epoch},mae={val/mae:.4f}",
	)
	callbacks = [checkpoint_callback]
	if opt.ema_decay > 0:
	checkpoint_ema_callback = ModelCheckpoint(
	monitor="val/mae_ema",
	mode="min",
	save_top_k=1,
	save_last=False,
	auto_insert_metric_name=False,
	filename="epoch={epoch},mae-ema={val/mae_ema:.4f}",
	)
	callbacks.append(checkpoint_ema_callback)
	trainer = Trainer(
	precision=32 if opt.fp32 else 16,
	accelerator=opt.accelerator,
	devices=opt.devices,
	max_epochs=opt.epoch,
	benchmark=opt.benchmark,
	accumulate_grad_batches=opt.acc_step,
	val_check_interval=opt.val_epoch,
	log_every_n_steps=opt.log_step,
	strategy="ddp_find_unused_parameters_false" if opt.devices > 1 else None,
	callbacks=callbacks,
	)
	trainer.fit(anime_aesthetic, train_dataloader, val_dataloader)


	if __name__ == "__main__":
	parser = argparse.ArgumentParser()
	# model args
	parser.add_argument(
	"--cfg",
	type=str,
	default="tiny",
	choices=list(model_cfgs.keys()),
	help="model configure",
	)
	parser.add_argument(
	"--resume", type=str, default="", help="resume training from ckpt"
	)
	parser.add_argument(
	"--img-size",
	type=int,
	default=768,
	help="image size for training and validation",
	)

	# dataset args
	parser.add_argument(
	"--data", type=str, default="./data", help="dataset path"
	)
	parser.add_argument(
	"--data-split",
	type=float,
	default=0.9999,
	help="split rate for training and validation",
	)

	# training args
	parser.add_argument("--epoch", type=int, default=100, help="epoch num")
	parser.add_argument(
	"--batch-size-train", type=int, default=16, help="batch size for training"
	)
	parser.add_argument(
	"--batch-size-val", type=int, default=2, help="batch size for val"
	)
	parser.add_argument(
	"--workers-train",
	type=int,
	default=4,
	help="workers num for training dataloader",
	)
	parser.add_argument(
	"--workers-val",
	type=int,
	default=4,
	help="workers num for validation dataloader",
	)
	parser.add_argument(
	"--acc-step", type=int, default=8, help="gradient accumulation step"
	)
	parser.add_argument(
	"--drop-path", type=float, default=0.1, help="Drop path rate"
	)
	parser.add_argument(
	"--ema-decay", type=float, default=0.9999, help="use ema if ema-decay > 0"
	)
	parser.add_argument(
	"--accelerator",
	type=str,
	default="gpu",
	choices=["cpu", "gpu", "tpu", "ipu", "hpu", "auto"],
	help="accelerator",
	)
	parser.add_argument("--devices", type=int, default=4, help="devices num")
	parser.add_argument(
	"--fp32", action="store_true", default=False, help="disable mix precision"
	)
	parser.add_argument(
	"--benchmark", action="store_true", default=True, help="enable cudnn benchmark"
	)
	parser.add_argument(
	"--log-step", type=int, default=2, help="log training loss every n steps"
	)
	parser.add_argument(
	"--val-epoch", type=int, default=0.025, help="valid and save every n epoch"
	)

	opt = parser.parse_args()
	print(opt)

	main(opt)