GlowCheese
/

minBERT

Text Classification

Inference Endpoints

Model card Files Files and versions Community

minBERT / optimizer.py

GlowCheese's picture

Transfer code from Kaggle

a0b398e 3 months ago

history blame contribute delete

3.42 kB

	from typing import Callable, Iterable, Tuple
	import math

	import torch
	from torch.optim import Optimizer


	class AdamW(Optimizer):
	def __init__(
	self,
	params: Iterable[torch.nn.parameter.Parameter],
	lr: float = 1e-3,
	betas: Tuple[float, float] = (0.9, 0.999),
	eps: float = 1e-6,
	weight_decay: float = 0.0,
	correct_bias: bool = True,
	):
	if lr < 0.0:
	raise ValueError("Invalid learning rate: {} - should be >= 0.0".format(lr))
	if not 0.0 <= betas[0] < 1.0:
	raise ValueError("Invalid beta parameter: {} - should be in [0.0, 1.0[".format(betas[0]))
	if not 0.0 <= betas[1] < 1.0:
	raise ValueError("Invalid beta parameter: {} - should be in [0.0, 1.0[".format(betas[1]))
	if not 0.0 <= eps:
	raise ValueError("Invalid epsilon value: {} - should be >= 0.0".format(eps))
	defaults = dict(lr=lr, betas=betas, eps=eps, weight_decay=weight_decay, correct_bias=correct_bias)
	super().__init__(params, defaults)

	def step(self, closure: Callable = None):
	loss = None
	if closure is not None:
	loss = closure()

	for group in self.param_groups:
	for p in group["params"]:
	if p.grad is None:
	continue
	grad = p.grad.data
	if grad.is_sparse:
	raise RuntimeError("Adam does not support sparse gradients, please consider SparseAdam instead")

	# Access state
	state = self.state[p]

	# Initialize state if not already done
	if len(state) == 0:
	state["step"] = 0
	state["exp_avg"] = torch.zeros_like(p.data)
	state["exp_avg_sq"] = torch.zeros_like(p.data)

	# Hyperparameters
	alpha = group["lr"]
	beta1, beta2 = group["betas"]
	eps = group["eps"]
	weight_decay = group["weight_decay"]
	correct_bias = group["correct_bias"]

	# Retrieve state variables
	exp_avg = state["exp_avg"]
	exp_avg_sq = state["exp_avg_sq"]
	step = state["step"]

	# Update step
	step += 1
	state["step"] = step

	# Update biased first and second moment estimates
	exp_avg.mul_(beta1).add_(grad, alpha=(1 - beta1))
	exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=(1 - beta2))

	# Compute bias-corrected moments
	if correct_bias:
	bias_correction1 = 1 - beta1 ** step
	bias_correction2 = 1 - beta2 ** step
	exp_avg_corr = exp_avg / bias_correction1
	exp_avg_sq_corr = exp_avg_sq / bias_correction2
	else:
	exp_avg_corr = exp_avg
	exp_avg_sq_corr = exp_avg_sq

	# Update parameters
	denom = exp_avg_sq_corr.sqrt().add_(eps)
	step_size = alpha
	p.data.addcdiv_(exp_avg_corr, denom, value=-step_size)

	# Apply weight decay
	if weight_decay != 0:
	p.data.add_(p.data, alpha=-alpha * weight_decay)

	return loss