Spaces:

CVPR
/

VizWiz-CLIP-VQA

Build error

App Files Files Community

VizWiz-CLIP-VQA / model /vqa_model.py

Skyy93

Add all files

a4fb052 over 2 years ago

raw

history blame contribute delete

3.82 kB

	import torch

	class HeadVQA(torch.nn.Module):
	def __init__(self, train_config):
	super().__init__()

	embedding_size = {'RN50': 1024,
	'RN101': 512,
	'RN50x4': 640,
	'RN50x16': 768,
	'RN50x64': 1024,
	'ViT-B/32': 512,
	'ViT-B/16': 512,
	'ViT-L/14': 768,
	'ViT-L/14@336px': 768}

	n_aux_classes = len(set(train_config.aux_mapping.values()))

	self.ln1 = torch.nn.LayerNorm(embedding_size[train_config.model]*2)
	self.dp1 = torch.nn.Dropout(0.5)
	self.fc1 = torch.nn.Linear(embedding_size[train_config.model] * 2, 512)

	self.ln2 = torch.nn.LayerNorm(512)
	self.dp2 = torch.nn.Dropout(0.5)
	self.fc2 = torch.nn.Linear(512, train_config.n_classes)

	self.fc_aux = torch.nn.Linear(512, n_aux_classes)
	self.fc_gate = torch.nn.Linear(n_aux_classes, train_config.n_classes)
	self.act_gate = torch.nn.Sigmoid()


	def forward(self, img_features, question_features):
	xc = torch.cat((img_features, question_features), dim=-1)

	x = self.ln1(xc)
	x = self.dp1(x)
	x = self.fc1(x)

	aux = self.fc_aux(x)

	gate = self.fc_gate(aux)
	gate = self.act_gate(gate)

	x = self.ln2(x)
	x = self.dp2(x)
	vqa = self.fc2(x)

	output = vqa * gate

	return output, aux


	class NetVQA(torch.nn.Module):
	def __init__(self, train_config):
	super().__init__()

	self.heads = torch.nn.ModuleList()

	if isinstance(train_config.folds, list):
	self.num_heads = len(train_config.folds)
	else:
	self.num_heads = train_config.folds

	for i in range(self.num_heads):
	self.heads.append(HeadVQA(train_config))


	def forward(self, img_features, question_features):

	output = []
	output_aux = []

	for head in self.heads:

	logits, logits_aux = head(img_features, question_features)

	probs = logits.softmax(-1)
	probs_aux = logits_aux.softmax(-1)

	output.append(probs)
	output_aux.append(probs_aux)

	output = torch.stack(output, dim=-1).mean(-1)
	output_aux = torch.stack(output_aux, dim=-1).mean(-1)

	return output, output_aux

	def merge_vqa(train_config):

	# Initialize model
	model = NetVQA(train_config)


	for fold in train_config.folds:

	print("load weights from fold {} into head {}".format(fold, fold))

	checkpoint_path = "{}/{}/fold_{}".format(train_config.model_path, train_config.model, fold)

	if train_config.crossvalidation:
	# load best checkpoint
	model_state_dict = torch.load('{}/weights_best.pth'.format(checkpoint_path))
	else:
	# load checkpoint on train end
	model_state_dict = torch.load('{}/weights_end.pth'.format(checkpoint_path))

	model.heads[fold].load_state_dict(model_state_dict, strict=True)

	checkpoint_path = "{}/{}/weights_merged.pth".format(train_config.model_path, train_config.model)

	print("Saving weights of merged model:", checkpoint_path)

	torch.save(model.state_dict(), checkpoint_path)

	return model