Spaces:

Ricoooo
/

EditGuard

Runtime error

App Files Files Community

EditGuard / train_bit.py

Ricoooo

Add local files to repository

8da8f47 about 2 months ago

raw

history blame

10.4 kB

	import os
	import math
	import argparse
	import random
	import logging

	import torch
	import torch.distributed as dist
	import torch.multiprocessing as mp
	from data.data_sampler import DistIterSampler

	import options.options as option
	from utils import util
	from data import create_dataloader, create_dataset
	from models import create_model


	def init_dist(backend='nccl', **kwargs):
	''' initialization for distributed training'''
	# if mp.get_start_method(allow_none=True) is None:
	if mp.get_start_method(allow_none=True) != 'spawn':
	mp.set_start_method('spawn')
	rank = int(os.environ['RANK'])
	num_gpus = torch.cuda.device_count()
	torch.cuda.set_device(rank % num_gpus)
	dist.init_process_group(backend=backend, **kwargs)

	def cal_pnsr(sr_img, gt_img):
	# calculate PSNR
	gt_img = gt_img / 255.
	sr_img = sr_img / 255.
	psnr = util.calculate_psnr(sr_img * 255, gt_img * 255)

	return psnr

	def main():
	# options
	parser = argparse.ArgumentParser()
	parser.add_argument('-opt', type=str, help='Path to option YMAL file.') # config 文件
	parser.add_argument('--launcher', choices=['none', 'pytorch'], default='none',
	help='job launcher')
	parser.add_argument('--local_rank', type=int, default=0)
	args = parser.parse_args()
	opt = option.parse(args.opt, is_train=True)

	# distributed training settings
	if args.launcher == 'none': # disabled distributed training
	opt['dist'] = False
	rank = -1
	print('Disabled distributed training.')
	else:
	opt['dist'] = True
	init_dist()
	world_size = torch.distributed.get_world_size()
	rank = torch.distributed.get_rank()

	# loading resume state if exists
	if opt['path'].get('resume_state', None):
	# distributed resuming: all load into default GPU
	device_id = torch.cuda.current_device()
	resume_state = torch.load(opt['path']['resume_state'],
	map_location=lambda storage, loc: storage.cuda(device_id))
	# resume_state = torch.load(opt['path']['resume_state'],
	# map_location=lambda storage, loc: storage.cuda(device_id), strict=False)
	option.check_resume(opt, resume_state['iter']) # check resume options
	else:
	resume_state = None

	# mkdir and loggers
	if rank <= 0: # normal training (rank -1) OR distributed training (rank 0)
	if resume_state is None:
	util.mkdir_and_rename(
	opt['path']['experiments_root']) # rename experiment folder if exists
	util.mkdirs((path for key, path in opt['path'].items() if not key == 'experiments_root'
	and 'pretrain_model' not in key and 'resume' not in key))

	# config loggers. Before it, the log will not work
	util.setup_logger('base', opt['path']['log'], 'train_' + opt['name'], level=logging.INFO,
	screen=True, tofile=True)
	util.setup_logger('val', opt['path']['log'], 'val_' + opt['name'], level=logging.INFO,
	screen=True, tofile=True)
	logger = logging.getLogger('base')
	logger.info(option.dict2str(opt))
	# tensorboard logger
	if opt['use_tb_logger'] and 'debug' not in opt['name']:
	version = float(torch.__version__[0:3])
	if version >= 1.1: # PyTorch 1.1
	from torch.utils.tensorboard import SummaryWriter
	else:
	logger.info(
	'You are using PyTorch {}. Tensorboard will use [tensorboardX]'.format(version))
	from tensorboardX import SummaryWriter
	tb_logger = SummaryWriter(log_dir='../tb_logger/' + opt['name'])
	else:
	util.setup_logger('base', opt['path']['log'], 'train', level=logging.INFO, screen=True)
	logger = logging.getLogger('base')

	# convert to NoneDict, which returns None for missing keys
	opt = option.dict_to_nonedict(opt)

	# random seed
	seed = opt['train']['manual_seed']
	if seed is None:
	seed = random.randint(1, 10000)
	if rank <= 0:
	logger.info('Random seed: {}'.format(seed))
	util.set_random_seed(seed)

	torch.backends.cudnn.benchmark = True
	# torch.backends.cudnn.deterministic = True

	#### create train and val dataloader
	dataset_ratio = 200 # enlarge the size of each epoch
	for phase, dataset_opt in opt['datasets'].items():
	if phase == 'train':
	train_set = create_dataset(dataset_opt)
	train_size = int(math.ceil(len(train_set) / dataset_opt['batch_size']))
	total_iters = int(opt['train']['niter'])
	total_epochs = int(math.ceil(total_iters / train_size))
	if opt['dist']:
	train_sampler = DistIterSampler(train_set, world_size, rank, dataset_ratio)
	total_epochs = int(math.ceil(total_iters / (train_size * dataset_ratio)))
	else:
	train_sampler = None
	train_loader = create_dataloader(train_set, dataset_opt, opt, train_sampler)
	if rank <= 0:
	logger.info('Number of train images: {:,d}, iters: {:,d}'.format(
	len(train_set), train_size))
	logger.info('Total epochs needed: {:d} for iters {:,d}'.format(
	total_epochs, total_iters))
	elif phase == 'val':
	val_set = create_dataset(dataset_opt)
	val_loader = create_dataloader(val_set, dataset_opt, opt, None)
	if rank <= 0:
	logger.info('Number of val images in [{:s}]: {:d}'.format(
	dataset_opt['name'], len(val_set)))
	else:
	raise NotImplementedError('Phase [{:s}] is not recognized.'.format(phase))
	assert train_loader is not None

	# create model
	model = create_model(opt)
	# resume training
	if resume_state:
	logger.info('Resuming training from epoch: {}, iter: {}.'.format(
	resume_state['epoch'], resume_state['iter']))

	start_epoch = resume_state['epoch']
	current_step = resume_state['iter']
	model.resume_training(resume_state) # handle optimizers and schedulers
	else:
	current_step = 0
	start_epoch = 0

	# training
	logger.info('Start training from epoch: {:d}, iter: {:d}'.format(start_epoch, current_step))
	for epoch in range(start_epoch, total_epochs + 1):
	if opt['dist']:
	train_sampler.set_epoch(epoch)
	for _, train_data in enumerate(train_loader):
	current_step += 1
	if current_step > total_iters:
	break
	# training
	model.feed_data(train_data)
	model.optimize_parameters(current_step)

	# update learning rate
	model.update_learning_rate(current_step, warmup_iter=opt['train']['warmup_iter'])

	# log
	if current_step % opt['logger']['print_freq'] == 0:
	logs = model.get_current_log()
	message = '<epoch:{:3d}, iter:{:8,d}, lr:{:.3e}> '.format(
	epoch, current_step, model.get_current_learning_rate())
	for k, v in logs.items():
	message += '{:s}: {:.4e} '.format(k, v)
	# tensorboard logger
	if opt['use_tb_logger'] and 'debug' not in opt['name']:
	if rank <= 0:
	tb_logger.add_scalar(k, v, current_step)
	if rank <= 0:
	logger.info(message)

	# validation
	if current_step % opt['train']['val_freq'] == 0 and rank <= 0:
	avg_psnr = 0.0
	avg_psnr_h = [0.0]*opt['num_image']
	avg_psnr_lr = 0.0
	avg_biterr = 0.0
	idx = 0
	for image_id, val_data in enumerate(val_loader):
	img_dir = os.path.join(opt['path']['val_images'])
	util.mkdir(img_dir)

	model.feed_data(val_data)
	model.test(image_id)

	visuals = model.get_current_visuals()

	t_step = visuals['recmessage'].shape[0]
	idx += t_step
	n = 1
	# print(visuals['message'].shape)
	avg_biterr += util.decoded_message_error_rate_batch(visuals['recmessage'][0], visuals['message'][0])
	print(util.decoded_message_error_rate_batch(visuals['recmessage'][0], visuals['message'][0]))

	for i in range(t_step):

	gt_img = util.tensor2img(visuals['GT'][i]) # uint8
	lr_img = util.tensor2img(visuals['LR'][i])

	save_img_path = os.path.join(img_dir,'{:d}_{:d}_{:s}.png'.format(image_id, i, 'GT'))
	util.save_img(gt_img, save_img_path)

	save_img_path = os.path.join(img_dir,'{:d}_{:d}_{:s}.png'.format(image_id, i, 'LR'))
	util.save_img(lr_img, save_img_path)
	psnr_lr = cal_pnsr(lr_img, gt_img)
	avg_psnr_lr += psnr_lr

	avg_psnr_lr = avg_psnr_lr / idx
	avg_biterr = avg_biterr / idx

	logger.info('# Validation # PSNR_Stego: {:.4e}, Bit_acc: {: .4e}'.format(avg_psnr_lr, avg_biterr))
	logger_val = logging.getLogger('val') # validation logger
	logger_val.info('<epoch:{:3d}, iter:{:8,d}> PSNR_Stego: {:.4e}, Bit_acc: {: .4e}'.format(
	epoch, current_step, avg_psnr_lr, avg_biterr))
	# tensorboard logger
	if opt['use_tb_logger'] and 'debug' not in opt['name']:
	tb_logger.add_scalar('psnr', avg_psnr, current_step)

	# save models and training states
	if current_step % opt['logger']['save_checkpoint_freq'] == 0:
	if rank <= 0:
	logger.info('Saving models and training states.')
	model.save(current_step)
	model.save_training_state(epoch, current_step)

	if rank <= 0:
	logger.info('Saving the final model.')
	model.save('latest')
	logger.info('End of training.')


	if __name__ == '__main__':
	main()