Metric3D / training /mono /model /losses /NormalBranchLoss.py

zach

initial commit based on github repo

3ef1661 11 months ago

31.9 kB

	import torch
	import torch.nn as nn
	import numpy as np
	import torch.nn.functional as F
	from .depth_to_normal import Depth2Normal

	# compute loss
	class NormalBranchLoss(nn.Module):
	def __init__(self, loss_weight=1.0, data_type=['sfm', 'stereo', 'denselidar', 'denselidar_syn'], d2n_dataset=['ScanNetAll'], loss_fn='UG_NLL_ours', **kwargs):
	"""loss_fn can be one of following:
	- L1 - L1 loss (no uncertainty)
	- L2 - L2 loss (no uncertainty)
	- AL - Angular loss (no uncertainty)
	- NLL_vMF - NLL of vonMF distribution
	- NLL_ours - NLL of Angular vonMF distribution
	- UG_NLL_vMF - NLL of vonMF distribution (+ pixel-wise MLP + uncertainty-guided sampling)
	- UG_NLL_ours - NLL of Angular vonMF distribution (+ pixel-wise MLP + uncertainty-guided sampling)
	- NLL_ours_GRU - NLL of Angular vonMF distribution for GRU sequence
	"""
	super(NormalBranchLoss, self).__init__()
	self.loss_type = loss_fn
	if self.loss_type in ['L1', 'L2', 'AL', 'NLL_vMF', 'NLL_ours']:
	# self.loss_fn = self.forward_R
	raise NotImplementedError
	elif self.loss_type in ['UG_NLL_vMF']:
	# self.loss_fn = self.forward_UG
	raise NotImplementedError
	elif self.loss_type in ['UG_NLL_ours']:
	self.loss_fn = self.forward_UG
	elif self.loss_type in ['NLL_ours_GRU', 'NLL_ours_GRU_auxi']:
	self.loss_type = 'NLL_ours'
	self.loss_fn = self.forward_GRU
	self.loss_gamma = 0.9
	try:
	self.loss_weight_auxi = kwargs['loss_weight_auxi']
	except:
	self.loss_weight_auxi = 0.0
	else:
	raise Exception('invalid loss type')

	self.loss_weight = loss_weight
	self.data_type = data_type

	#self.d2n_dataset = d2n_dataset
	#self.depth2normal = Depth2Normal()



	def forward(self, **kwargs):
	# device = kwargs['mask'].device
	# B, _, H, W = kwargs['mask'].shape
	# pad_mask = torch.zeros_like(kwargs['mask'], device=device)
	# for b in range(B):
	# pad = kwargs['pad'][b].squeeze()
	# pad_mask[b, :, pad[0]:H-pad[1], pad[2]:W-pad[3]] = True

	# loss = self.loss_fn(pad_mask=pad_mask, **kwargs)
	loss = self.loss_fn(**kwargs)

	return loss * self.loss_weight


	def forward_GRU(self, normal_out_list, normal, target, mask, intrinsic, pad_mask=None, auxi_normal=None, **kwargs):
	n_predictions = len(normal_out_list)
	assert n_predictions >= 1
	loss = 0.0

	# device = pad_mask.device
	# batches_dataset = kwargs['dataset']
	# self.batch_with_d2n = torch.tensor([0 if batch_dataset not in self.d2n_dataset else 1 \
	# for batch_dataset in batches_dataset], device=device)[:,None,None,None]

	# scale = kwargs['scale'][:, None, None].float()
	# normal_d2n, new_mask_d2n = self.depth2normal(target, intrinsic, pad_mask, scale)

	gt_normal_mask = ~torch.all(normal == 0, dim=1, keepdim=True) & mask

	if auxi_normal != None:
	auxi_normal_mask = ~gt_normal_mask

	#normal = normal * (1 - self.batch_with_d2n) + normal_d2n * self.batch_with_d2n
	# gt_normal_mask = gt_normal_mask * (1 - self.batch_with_d2n) + mask * new_mask_d2n * self.batch_with_d2n

	if gt_normal_mask.sum() < 10:
	if auxi_normal == None:
	for norm_out in normal_out_list:
	loss += norm_out.sum() * 0
	return loss

	for i, norm_out in enumerate(normal_out_list):
	# We adjust the loss_gamma so it is consistent for any number of RAFT-Stereo iterations
	adjusted_loss_gamma = self.loss_gamma**(15/(n_predictions - 1))
	i_weight = adjusted_loss_gamma**(n_predictions - i - 1)

	curr_loss = self.forward_R(norm_out.clone(), normal, gt_normal_mask)
	if auxi_normal != None:
	auxi_loss = self.forward_R(norm_out.clone(), auxi_normal[:, :3], auxi_normal_mask)
	curr_loss = curr_loss + self.loss_weight_auxi * auxi_loss

	if torch.isnan(curr_loss).item() \| torch.isinf(curr_loss).item():
	curr_loss = 0 * torch.sum(norm_out)
	print(f'NormalBranchLoss forward_GRU NAN error, {curr_loss}')

	loss += curr_loss * i_weight

	return loss

	def forward_R(self, norm_out, gt_norm, gt_norm_mask):
	pred_norm, pred_kappa = norm_out[:, 0:3, :, :], norm_out[:, 3:, :, :]

	if self.loss_type == 'L1':
	l1 = torch.sum(torch.abs(gt_norm - pred_norm), dim=1, keepdim=True)
	loss = torch.mean(l1[gt_norm_mask])

	elif self.loss_type == 'L2':
	l2 = torch.sum(torch.square(gt_norm - pred_norm), dim=1, keepdim=True)
	loss = torch.mean(l2[gt_norm_mask])

	elif self.loss_type == 'AL':
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.0

	al = torch.acos(dot[valid_mask])
	loss = torch.mean(al)

	elif self.loss_type == 'NLL_vMF':
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.0

	dot = dot[valid_mask]
	kappa = pred_kappa[:, 0, :, :][valid_mask]

	loss_pixelwise = - torch.log(kappa) \
	- (kappa * (dot - 1)) \
	+ torch.log(1 - torch.exp(- 2 * kappa))
	loss = torch.mean(loss_pixelwise)

	elif self.loss_type == 'NLL_ours':
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.5

	dot = dot[valid_mask]
	kappa = pred_kappa[:, 0, :, :][valid_mask]

	loss_pixelwise = - torch.log(torch.square(kappa) + 1) \
	+ kappa * torch.acos(dot) \
	+ torch.log(1 + torch.exp(-kappa * np.pi))
	loss = torch.mean(loss_pixelwise)

	else:
	raise Exception('invalid loss type')

	return loss


	def forward_UG(self, normal_pred_list, normal_coord_list, normal, mask, **kwargs):
	gt_normal_mask = ~torch.all(normal == 0, dim=1, keepdim=True) & mask

	# gt_norm = norms[0]
	# gt_normal_mask = (gt_norm[:, 0:1, :, :] == 0) & (gt_norm[:, 1:2, :, :] == 0) & (gt_norm[:, 2:3, :, :] == 0)
	# gt_normal_mask = ~gt_normal_mask
	loss = 0.0

	if gt_normal_mask[gt_normal_mask].numel() < 10:
	for (pred, coord) in zip(normal_pred_list, normal_coord_list):
	if pred is not None:
	loss += pred.sum() * 0.
	if coord is not None:
	loss += coord.sum() * 0.
	return loss


	for (pred, coord) in zip(normal_pred_list, normal_coord_list):
	if coord is None:
	pred = F.interpolate(pred, size=[normal.size(2), normal.size(3)], mode='bilinear', align_corners=True)
	pred_norm, pred_kappa = pred[:, 0:3, :, :], pred[:, 3:, :, :]

	# if self.loss_type == 'UG_NLL_vMF':
	# dot = torch.cosine_similarity(pred_norm, normal, dim=1)

	# valid_mask = normal_mask[:, 0, :, :].float() \
	# * (dot.detach() < 0.999).float() \
	# * (dot.detach() > -0.999).float()
	# valid_mask = valid_mask > 0.5

	# # mask
	# dot = dot[valid_mask]
	# kappa = pred_kappa[:, 0, :, :][valid_mask]

	# loss_pixelwise = - torch.log(kappa) \
	# - (kappa * (dot - 1)) \
	# + torch.log(1 - torch.exp(- 2 * kappa))
	# loss = loss + torch.mean(loss_pixelwise)

	if self.loss_type == 'UG_NLL_ours':
	dot = torch.cosine_similarity(pred_norm, normal, dim=1)

	valid_mask = gt_normal_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.5

	dot = dot[valid_mask]
	kappa = pred_kappa[:, 0, :, :][valid_mask]

	loss_pixelwise = - torch.log(torch.square(kappa) + 1) \
	+ kappa * torch.acos(dot) \
	+ torch.log(1 + torch.exp(-kappa * np.pi))
	loss = loss + torch.mean(loss_pixelwise)

	else:
	raise Exception

	else:
	# coord: B, 1, N, 2
	# pred: B, 4, N
	gt_norm_ = F.grid_sample(normal, coord, mode='nearest', align_corners=True) # (B, 3, 1, N)
	gt_norm_mask_ = F.grid_sample(gt_normal_mask.float(), coord, mode='nearest', align_corners=True) # (B, 1, 1, N)
	gt_norm_ = gt_norm_[:, :, 0, :] # (B, 3, N)
	gt_norm_mask_ = gt_norm_mask_[:, :, 0, :] > 0.5 # (B, 1, N)

	pred_norm, pred_kappa = pred[:, 0:3, :], pred[:, 3:, :]

	# if self.loss_type == 'UG_NLL_vMF':
	# dot = torch.cosine_similarity(pred_norm, gt_norm_, dim=1) # (B, N)

	# valid_mask = gt_norm_mask_[:, 0, :].float() \
	# * (dot.detach() < 0.999).float() \
	# * (dot.detach() > -0.999).float()
	# valid_mask = valid_mask > 0.5

	# dot = dot[valid_mask]
	# kappa = pred_kappa[:, 0, :][valid_mask]

	# loss_pixelwise = - torch.log(kappa) \
	# - (kappa * (dot - 1)) \
	# + torch.log(1 - torch.exp(- 2 * kappa))
	# loss = loss + torch.mean(loss_pixelwise)

	if self.loss_type == 'UG_NLL_ours':
	dot = torch.cosine_similarity(pred_norm, gt_norm_, dim=1) # (B, N)

	valid_mask = gt_norm_mask_[:, 0, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.5

	dot = dot[valid_mask]
	kappa = pred_kappa[:, 0, :][valid_mask]

	loss_pixelwise = - torch.log(torch.square(kappa) + 1) \
	+ kappa * torch.acos(dot) \
	+ torch.log(1 + torch.exp(-kappa * np.pi))
	loss = loss + torch.mean(loss_pixelwise)

	else:
	raise Exception
	return loss




	# confidence-guided sampling
	@torch.no_grad()
	def sample_points(init_normal, confidence_map, gt_norm_mask, sampling_ratio, beta=1):
	device = init_normal.device
	B, _, H, W = init_normal.shape
	N = int(sampling_ratio * H * W)
	beta = beta

	# confidence map
	# confidence_map = init_normal[:, 3, :, :] # B, H, W

	# gt_invalid_mask (B, H, W)
	if gt_norm_mask is not None:
	gt_invalid_mask = F.interpolate(gt_norm_mask.float(), size=[H, W], mode='nearest')
	gt_invalid_mask = gt_invalid_mask < 0.5
	confidence_map[gt_invalid_mask] = -1e4

	# (B, H*W)
	_, idx = confidence_map.view(B, -1).sort(1, descending=True)

	# confidence sampling
	if int(beta * N) > 0:
	importance = idx[:, :int(beta * N)] # B, beta*N

	# remaining
	remaining = idx[:, int(beta * N):] # B, HW - betaN

	# coverage
	num_coverage = N - int(beta * N)

	if num_coverage <= 0:
	samples = importance
	else:
	coverage_list = []
	for i in range(B):
	idx_c = torch.randperm(remaining.size()[1]) # shuffles "HW - betaN"
	coverage_list.append(remaining[i, :][idx_c[:num_coverage]].view(1, -1)) # 1, N-beta*N
	coverage = torch.cat(coverage_list, dim=0) # B, N-beta*N
	samples = torch.cat((importance, coverage), dim=1) # B, N

	else:
	# remaining
	remaining = idx[:, :] # B, H*W

	# coverage
	num_coverage = N

	coverage_list = []
	for i in range(B):
	idx_c = torch.randperm(remaining.size()[1]) # shuffles "HW - betaN"
	coverage_list.append(remaining[i, :][idx_c[:num_coverage]].view(1, -1)) # 1, N-beta*N
	coverage = torch.cat(coverage_list, dim=0) # B, N-beta*N
	samples = coverage

	# point coordinates
	rows_int = samples // W # 0 for first row, H-1 for last row
	# rows_float = rows_int / float(H-1) # 0 to 1.0
	# rows_float = (rows_float * 2.0) - 1.0 # -1.0 to 1.0

	cols_int = samples % W # 0 for first column, W-1 for last column
	# cols_float = cols_int / float(W-1) # 0 to 1.0
	# cols_float = (cols_float * 2.0) - 1.0 # -1.0 to 1.0

	# point_coords = torch.zeros(B, 1, N, 2)
	# point_coords[:, 0, :, 0] = cols_float # x coord
	# point_coords[:, 0, :, 1] = rows_float # y coord
	# point_coords = point_coords.to(device)
	# return point_coords, rows_int, cols_int

	sample_mask = torch.zeros((B,1,H,W), dtype=torch.bool, device=device)
	for i in range(B):
	sample_mask[i, :, rows_int[i,:], cols_int[i,:]] = True
	return sample_mask

	# depth-normal consistency loss
	class DeNoConsistencyLoss(nn.Module):
	def __init__(self, loss_weight=1.0, data_type=['stereo', 'lidar', 'denselidar', 'denselidar_nometric', 'denselidar_syn'], loss_fn='NLL_ours', \
	sky_id=142, scale=1, norm_dataset=['Taskonomy', 'Matterport3D', 'Replica', 'Hypersim', 'NYU'], no_sky_dataset=['BigData', 'DIODE', 'Completion', 'Matterport3D'], disable_dataset=[], depth_detach=False, **kwargs):
	"""loss_fn can be one of following:
	- L1 - L1 loss (no uncertainty)
	- L2 - L2 loss (no uncertainty)
	- AL - Angular loss (no uncertainty)
	- NLL_vMF - NLL of vonMF distribution
	- NLL_ours - NLL of Angular vonMF distribution
	- UG_NLL_vMF - NLL of vonMF distribution (+ pixel-wise MLP + uncertainty-guided sampling)
	- UG_NLL_ours - NLL of Angular vonMF distribution (+ pixel-wise MLP + uncertainty-guided sampling)
	- NLL_ours_GRU - NLL of Angular vonMF distribution for GRU sequence
	- CEL - cosine embedding loss
	- CEL_GRU
	"""
	super(DeNoConsistencyLoss, self).__init__()
	self.loss_type = loss_fn
	if self.loss_type in ['L1', 'L2', 'NLL_vMF']:
	# self.loss_fn = self.forward_R
	raise NotImplementedError
	elif self.loss_type in ['UG_NLL_vMF']:
	# self.loss_fn = self.forward_UG
	raise NotImplementedError
	elif self.loss_type in ['UG_NLL_ours']:
	# self.loss_fn = self.forward_UG
	raise NotImplementedError
	elif self.loss_type in ['NLL_ours']:
	self.loss_fn = self.forward_J # confidence Joint optimization
	self.loss_gamma = 0.9
	elif self.loss_type in ['AL', 'CEL', 'CEL_L2']:
	self.loss_fn = self.forward_S # confidence Sample
	elif self.loss_type in ['CEL_GRU']:
	self.loss_fn = self.forward_S_GRU # gru
	self.loss_gamma = 0.9
	elif 'Search' in self.loss_type:
	self.loss_fn = self.forward_S_Search
	else:
	raise Exception('invalid loss type')

	self.loss_weight = loss_weight
	self.data_type = data_type
	self.sky_id = sky_id

	# For datasets without surface normal gt, enhance its weight (decrease the weight of the dataset with gt).
	self.nonorm_data_scale = scale
	self.norm_dataset = norm_dataset
	self.no_sky_dataset = no_sky_dataset
	self.disable_dataset = disable_dataset

	self.depth_detach = depth_detach
	self.depth2normal = Depth2Normal()

	def forward(self, **kwargs):
	device = kwargs['mask'].device

	batches_dataset = kwargs['dataset']
	self.batch_with_norm = torch.tensor([self.nonorm_data_scale if batch_dataset not in self.norm_dataset else 1 \
	for batch_dataset in batches_dataset], device=device)[:,None,None,None]

	self.batch_enabled= torch.tensor([1 if batch_dataset not in self.disable_dataset else 0 \
	for batch_dataset in batches_dataset], device=device, dtype=torch.bool)[:,None,None,None]
	self.batch_with_norm = self.batch_with_norm * self.batch_enabled


	self.batch_with_norm_sky = torch.tensor([1 if batch_dataset not in self.no_sky_dataset else 0 \
	for batch_dataset in batches_dataset], device=device, dtype=torch.bool)[:,None,None,None]

	B, _, H, W = kwargs['mask'].shape
	pad_mask = torch.zeros_like(kwargs['mask'], device=device)
	for b in range(B):
	pad = kwargs['pad'][b].squeeze()
	pad_mask[b, :, pad[0]:H-pad[1], pad[2]:W-pad[3]] = True

	loss = self.loss_fn(pad_mask=pad_mask, **kwargs)
	return loss * self.loss_weight


	def forward_J(self, prediction, confidence, normal_out_list, intrinsic, pad_mask, sem_mask=None, **kwargs):
	prediction_normal = normal_out_list[-1].clone()

	# get normal from depth-prediction
	normal, new_mask = self.depth2normal(prediction.detach() if self.depth_detach else prediction, intrinsic, pad_mask)
	# mask sky
	sky_mask = sem_mask != self.sky_id
	new_mask = new_mask & sky_mask
	# normal = normal * (~sky_mask)
	# normal[:,1:2,:,:][sky_mask] = 1
	# confidence sampling (sample good depth -> good normal -> to )
	sample_mask_d = sample_points(prediction, confidence, new_mask, sampling_ratio=0.7)

	# all mask
	normal_mask = ~torch.all(normal == 0, dim=1, keepdim=True) & new_mask & sample_mask_d
	if normal_mask.sum() < 10:
	return 0 * prediction_normal.sum()

	loss = self.forward_R(prediction_normal, normal, normal_mask)
	if torch.isnan(loss).item() \| torch.isinf(loss).item():
	loss = 0 * torch.sum(prediction_normal)
	print(f'NormalBranchLoss forward_GRU NAN error, {loss}')

	return loss

	#def forward_S(self, prediction, confidence, normal_out_list, intrinsic, pad_mask, sem_mask=None, **kwargs):
	def forward_S(self, prediction, confidence, intrinsic, pad_mask, normal_pred=None, sem_mask=None, target=None, is_initial_pair=False, **kwargs):

	if normal_pred is None:
	prediction_normal = kwargs['normal_out_list'][-1]
	else:
	prediction_normal = normal_pred

	# get normal from depth-prediction
	#try:
	scale = kwargs['scale'][:, None, None].float()
	#except:
	#scale = 1.0
	normal, new_mask = self.depth2normal(prediction.detach() if self.depth_detach else prediction, intrinsic, pad_mask, scale)

	sky_mask = sem_mask != self.sky_id
	if target != None:
	sampling_ratio = 0.7
	target_mask = (target > 0)
	if is_initial_pair == False:
	pass
	# mask sky
	else:
	sky_mask = torch.nn.functional.interpolate(sky_mask.float(), scale_factor=0.25).bool()
	target_mask = torch.nn.functional.interpolate(target_mask.float(), scale_factor=0.25).bool()
	new_mask = new_mask & ((sky_mask & self.batch_with_norm_sky) \| target_mask)
	else:
	new_mask = torch.ones_like(prediction).bool()
	sampling_ratio = 0.5

	# normal = normal * (~sky_mask)
	# normal[:,1:2,:,:][sky_mask] = 1

	# dual sampling
	confidence_normal = prediction_normal[:, 3:, :, :]
	sample_mask_n = sample_points(prediction_normal, confidence_normal, new_mask, sampling_ratio=sampling_ratio)
	sample_mask_d = sample_points(prediction, confidence, new_mask, sampling_ratio=sampling_ratio)
	conf_mask = confidence > 0.5

	# all mask
	normal_mask = ~torch.all(normal == 0, dim=1, keepdim=True) & new_mask & sample_mask_n & sample_mask_d & conf_mask
	if normal_mask.sum() < 10:
	return 0 * prediction_normal.sum()

	loss = self.forward_R(prediction_normal, normal, normal_mask)
	if torch.isnan(loss).item() \| torch.isinf(loss).item():
	loss = 0 * torch.sum(prediction_normal)
	print(f'NormalBranchLoss forward_GRU NAN error, {loss}')

	return loss

	def forward_S_GRU(self, predictions_list, confidence_list, normal_out_list, intrinsic, pad_mask, sem_mask, target, low_resolution_init, **kwargs):
	n_predictions = len(normal_out_list)
	assert n_predictions >= 1
	loss = 0.0

	for i, (norm, conf, depth) in enumerate(zip(normal_out_list, confidence_list, predictions_list)):
	# We adjust the loss_gamma so it is consistent for any number of RAFT-Stereo iterations
	adjusted_loss_gamma = self.loss_gamma**(15/(n_predictions - 1))
	i_weight = adjusted_loss_gamma**(n_predictions - i - 1)

	if i == 0:
	is_initial_pair = True
	new_intrinsic = torch.cat((intrinsic[:, :2, :]/4, intrinsic[:, 2:3, :]), dim=1)
	curr_loss = self.forward_S(low_resolution_init[0], low_resolution_init[1], new_intrinsic, torch.nn.functional.interpolate(pad_mask.float(), scale_factor=0.25).bool(), low_resolution_init[2], sem_mask, target, is_initial_pair, scale=kwargs['scale'])
	else:
	is_initial_pair = False
	curr_loss = self.forward_S(depth, conf, intrinsic, pad_mask, norm, sem_mask, target, is_initial_pair, scale=kwargs['scale'])

	if torch.isnan(curr_loss).item() \| torch.isinf(curr_loss).item():
	curr_loss = 0 * torch.sum(norm)
	print(f'NormalBranchLoss forward_GRU NAN error, {curr_loss}')

	loss += curr_loss * i_weight

	return loss


	def forward_R(self, norm_out, gt_norm, gt_norm_mask, pred_kappa=None):
	pred_norm = norm_out[:, 0:3, :, :]
	if pred_kappa is None:
	pred_kappa = norm_out[:, 3:, :, :]

	if self.loss_type == 'L1':
	l1 = torch.sum(torch.abs(gt_norm - pred_norm), dim=1, keepdim=True)
	loss = torch.mean(l1[gt_norm_mask])

	elif self.loss_type == 'L2' or self.loss_type == 'CEL_L2':
	l2 = torch.sum(torch.square(gt_norm - pred_norm), dim=1, keepdim=True)
	loss = torch.mean(l2[gt_norm_mask])

	elif self.loss_type == 'AL':
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.0

	al = torch.acos(dot * valid_mask)
	al = al * self.batch_with_norm[:, 0, :, :]
	loss = torch.mean(al)

	elif self.loss_type == 'CEL' or self.loss_type == 'CEL_GRU':
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.0

	al = 1 - dot * valid_mask
	al = al * self.batch_with_norm[:, 0, :, :]
	loss = torch.mean(al)

	elif self.loss_type == 'NLL_vMF':
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.0

	dot = dot[valid_mask]
	kappa = pred_kappa[:, 0, :, :][valid_mask]

	loss_pixelwise = - torch.log(kappa) \
	- (kappa * (dot - 1)) \
	+ torch.log(1 - torch.exp(- 2 * kappa))
	loss = torch.mean(loss_pixelwise)

	elif self.loss_type == 'NLL_ours':
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.5

	dot = dot * valid_mask
	kappa = pred_kappa[:, 0, :, :] * valid_mask

	loss_pixelwise = - torch.log(torch.square(kappa) + 1) \
	+ kappa * torch.acos(dot) \
	+ torch.log(1 + torch.exp(-kappa * np.pi))
	loss_pixelwise = loss_pixelwise * self.batch_with_norm[:, 0, :, :]
	loss = torch.mean(loss_pixelwise)

	else:
	raise Exception('invalid loss type')

	return loss

	def forward_S_Search(self, prediction, confidence, intrinsic, pad_mask, normal_pred=None, sem_mask=None, target=None, is_initial_pair=False, **kwargs):

	if normal_pred is None:
	prediction_normal = kwargs['normal_out_list'][-1]
	else:
	prediction_normal = normal_pred

	# get normal from depth-prediction
	scale = kwargs['scale'][:, None, None].float()
	candidate_scale = kwargs['candidate_scale'][:, None, None, None].float()
	normal, new_mask = self.depth2normal(prediction.detach() if self.depth_detach else prediction, intrinsic, pad_mask, scale)

	sky_mask = sem_mask != self.sky_id
	if target != None:
	sampling_ratio = 0.7
	target_mask = (target > 0)
	if is_initial_pair == False:
	pass
	# mask sky
	else:
	sky_mask = torch.nn.functional.interpolate(sky_mask.float(), scale_factor=0.25).bool()
	target_mask = torch.nn.functional.interpolate(target_mask.float(), scale_factor=0.25).bool()
	new_mask = new_mask & ((sky_mask & self.batch_with_norm_sky) \| target_mask)
	else:
	new_mask = torch.ones_like(prediction).bool()
	sampling_ratio = 0.5

	# normal = normal * (~sky_mask)
	# normal[:,1:2,:,:][sky_mask] = 1

	# dual sampling
	confidence_normal = prediction_normal[:, 3:, :, :]
	sample_mask_n = sample_points(prediction_normal, confidence_normal, new_mask, sampling_ratio=sampling_ratio)
	sample_mask_d = sample_points(prediction, confidence, new_mask, sampling_ratio=sampling_ratio)
	conf_mask = confidence > 0.5

	# all mask
	normal_mask = ~torch.all(normal == 0, dim=1, keepdim=True) & new_mask & sample_mask_n & sample_mask_d & conf_mask
	if normal_mask.sum() < 10:
	return 0 * prediction_normal.sum()

	prediction_normal = torch.cat((prediction_normal[:,:2]torch.ones_like(candidate_scale), prediction_normal[:,2:3]candidate_scale, prediction_normal[:,3:4]*torch.ones_like(candidate_scale)), dim=1)

	norm_x = prediction_normal[:,0:1]
	norm_y = prediction_normal[:,1:2]
	norm_z = prediction_normal[:,2:3]

	prediction_normal[:,:3] = prediction_normal[:,:3] / (torch.sqrt(norm_x 2.0 + norm_y 2.0 + norm_z ** 2.0) + 1e-10)

	loss = self.forward_R_Search(prediction_normal, normal, normal_mask)
	#if torch.isnan(loss).item() \| torch.isinf(loss).item():
	#loss = 0 * torch.sum(prediction_normal)
	#print(f'NormalBranchLoss forward_GRU NAN error, {loss}')

	return loss


	def forward_R_Search(self, norm_out, gt_norm, gt_norm_mask, pred_kappa=None):
	pred_norm = norm_out[:, 0:3, :, :]
	if pred_kappa is None:
	pred_kappa = norm_out[:, 3:, :, :]

	if 'L1' in self.loss_type:
	l1 = torch.sum(torch.abs(gt_norm - pred_norm), dim=1, keepdim=True)
	loss = torch.mean(l1*gt_norm_mask, dim=[1, 2, 3])

	elif 'L2' in self.loss_type:
	l2 = torch.sum(torch.square(gt_norm - pred_norm), dim=1, keepdim=True)
	loss = torch.mean(l2*gt_norm_mask, dim=[1, 2, 3])

	elif 'AL' in self.loss_type:
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.0

	al = torch.acos(dot * valid_mask)
	loss = torch.mean(al, dim=[1, 2])

	elif 'CEL' in self.loss_type:
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.0

	al = 1 - dot * valid_mask
	loss = torch.mean(al, dim=[1, 2])

	elif 'NLL_vMF' in self.loss_type:
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.0

	dot = dot[valid_mask]
	kappa = pred_kappa[:, 0, :, :][valid_mask]

	loss_pixelwise = - torch.log(kappa) \
	- (kappa * (dot - 1)) \
	+ torch.log(1 - torch.exp(- 2 * kappa))
	loss = torch.mean(loss_pixelwise, dim=[1, 2])

	elif 'NLL_ours' in self.loss_type:
	dot = torch.cosine_similarity(pred_norm, gt_norm, dim=1)

	valid_mask = gt_norm_mask[:, 0, :, :].float() \
	* (dot.detach() < 0.999).float() \
	* (dot.detach() > -0.999).float()
	valid_mask = valid_mask > 0.5

	dot = dot * valid_mask
	kappa = pred_kappa[:, 0, :, :] * valid_mask

	loss_pixelwise = - torch.log(torch.square(kappa) + 1) \
	+ kappa * torch.acos(dot) \
	+ torch.log(1 + torch.exp(-kappa * np.pi))
	loss = torch.mean(loss_pixelwise, dim=[1, 2])

	else:
	raise Exception('invalid loss type')

	return loss