#

adaBelief 优化器

这是基于 AdaBeLief Optimizer 论文《AdaBeLief Optimizer：通过对观察到的梯度的信念调整步长》的官方实现。

这是在 PyTorch 中作为对 RadAM 的扩展实现的。

Adam optimizer 和 AdaBeLief 之间的主要区别在于，它如何计算自适应学习率；AdaBeLief 不是除以梯度平方的指数移动平均值，而是除以方差的指数均值。

m_{t} s_{t} \overset{m}{^}_{t} \overset{s}{^}_{t} θ_{t} \leftarrow β_{1} m_{t - 1} + (1 - β_{1}) \cdot g_{t} \leftarrow β_{2} s_{t - 1} + (1 - β_{2}) \cdot (g_{t} - m_{t})^{2} \leftarrow \frac{m _{t}}{1 - β _{1} ^{t}} \leftarrow \frac{s _{t} + ϵ}{1 - β _{2} ^{t}} \leftarrow θ_{t - 1} - α \cdot \frac{m ^ _{t}}{s ^ _{t} + ϵ}

🤔 本文将方差计算为 $(g_{t} - m_{t})^{2}$ ，但我认为它应该使用偏差校正的动量 $(g_{t} - \overset{m}{^}_{t})^{2}$ 。我想这对事情的影响不大，因为偏差校正是在最初的训练步骤 $\approx 1$ 之后进行的。

36from typing import Dict, Any
37
38import torch
39from torch import nn
40
41from labml_nn.optimizers import WeightDecay
42from labml_nn.optimizers.radam import RAdam

#

adaBelief 优化器

这个类是从中定义的 RadAM 优化器扩展而来的radam.py 。

45class AdaBelief(RAdam):

#

初始化优化器

params 是参数列表
lr 是学习率 $α$
betas 是 ( $β_{1}$ , $β_{2}$ ) 的元组
eps 是 $\overset{ϵ}{^}$ 或 $ϵ$ 基于optimized_update
weight_decay 是在中WeightDecay 定义的类的实例 __init__.py
optimized_update 是一个标志，是否在添加后通过这样做来优化第二个时刻的偏差校正 $ϵ$
amsgrad 是一个标志，指示是使用 AmsGrad 还是回退到普通的 Adam
degenerate_to_sgd 纠正条款 $r_{t}$ 难以处理时是否使用 sgd
rectify 是否使用 raDAM 更新
defaults 是组值的默认字典。当你想扩展类时，这很有用AdaBelief 。

52    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-16,
53                 weight_decay: WeightDecay = WeightDecay(), amsgrad=False,
54                 degenerate_to_sgd=True,
55                 rectify=True, defaults=None):

#

73        defaults = {} if defaults is None else defaults
74        super().__init__(params, lr, betas, eps, weight_decay, amsgrad, degenerate_to_sgd, defaults)
75        self.rectify = rectify

#

初始化参数状态

state 是参数（张量）的优化器状态
group 存储参数组的优化程序属性
param 是参数张量 $θ_{t - 1}$

77    def init_state(self, state: Dict[str, any], group: Dict[str, any], param: nn.Parameter):

#

85        state['step'] = 0

#

梯度值的指数移动平均线

87        state['exp_avg'] = torch.zeros_like(param, memory_format=torch.preserve_format)

#

方差的指数移动平均线

89        state['exp_avg_var'] = torch.zeros_like(param, memory_format=torch.preserve_format)

#

如果 famsgrad lagTrue 用于此参数组，则我们维持方差的指数移动平均线的最大值

93        if group['amsgrad']:

#

保持所有 exp. 移动平均 sq. grad. 值的最大值

95            state['max_exp_avg_var'] = torch.zeros_like(param, memory_format=torch.preserve_format)

#

计算 $m_{t}$ 和 $s_{t}$ 或 $m a x (s_{1}, s_{2}, ..., s_{t - 1}, s_{t})$

state 是参数（张量）的优化器状态
group 存储参数组的优化程序属性
grad 是参数的当前梯 $g_{t}$ 度张量 $θ_{t - 1}$

97    def get_ms(self, state: Dict[str, Any], group: Dict[str, Any], grad: torch.Tensor):

#

获取 $β_{1}$ 和 $β_{2}$

107        beta1, beta2 = group['betas']

#

获取 $m_{t - 1}$ 和 $s_{t - 1}$

110        m, s = state['exp_avg'], state['exp_avg_var']

#

就地计算 $m_{t}$ $m_{t} \leftarrow β_{1} m_{t - 1} + (1 - β_{1}) \cdot g_{t}$

114        m.mul_(beta1).add_(grad, alpha=1 - beta1)

#

梯度和动量之间的区别

116        grad_residual = grad - m

#

就地计算 $s_{t}$ $s_{t} \leftarrow β_{2} s_{t - 1} + (1 - β_{2}) \cdot (g_{t} - m_{t})^{2}$

119        s.mul_(beta2).addcmul_(grad_residual, grad_residual, value=1 - beta2)

#

如果此参数组正在使用amsgrad

122        if group['amsgrad']:

#

得到 $max (s_{1}, s_{2}, ..., s_{t - 1})$ 。

124            s_max = state['max_exp_avg_var']

#

计算 $m a x (s_{1}, s_{2}, ..., s_{t - 1}, s_{t})$ 。

126            torch.maximum(s_max, s, out=s_max)
127
128            return m, s_max
129        else:

#

$m_{t}$ $s_{t}$ 否则

131            return m, s

#

对给定参数张量执行更新步骤

state 是参数（张量）的优化器状态
group 存储参数组的优化程序属性
grad 是参数的当前梯 $g_{t}$ 度张量 $θ_{t - 1}$
param 是参数张量 $θ_{t - 1}$

133    def step_param(self, state: Dict[str, any], group: Dict[str, any], grad: torch.Tensor, param: torch.nn.Parameter):

#

计算体重衰减

144        grad = self.weight_decay(param, grad, group)

#

获取 $m_{t}$ 和 $v_{t}$

147        m, s = self.get_ms(state, group, grad)

#

$t$ 增加优化器步数

150        state['step'] += 1
151
152        if not self.rectify:

#

执行 Adam 更新，在中定义 adam.py ，用 $s_{t} + ϵ$ 代替 $v_{t}$ 。

155            self.adam_update(state, group, param, m, s + group['eps'])
156        else:

#

执行中定义的已校正的 Adam 更新 radam.py $s_{t} + ϵ$ ，用代替 $v_{t}$ 。

159            self.r_adam_update(state, group, param, m, s + group['eps'])

adaBelief 优化器

adaBelief 优化器

初始化优化器

初始化参数状态

计算mt​和st​或max(s1​,s2​,...,st−1​,st​)

对给定参数张量执行更新步骤

计算 $m_{t}$ 和 $s_{t}$ 或 $m a x (s_{1}, s_{2}, ..., s_{t - 1}, s_{t})$