重量標準化

バッチ正規化により、損失の状況がスムーズになり、排除特異点が回避されます。除去特異点とは、ネットワークのノードが役に立たなくなることです（たとえば、常に 0 を返す ReLU など）

。

ただし、バッチサイズが小さすぎる場合、バッチ正規化はうまく機能しません。これは、デバイスのメモリ制限のために大規模なネットワークをトレーニングするときに発生します。この論文では、より良い代替手段として、バッチチャネル正規化による重み標準化を紹介しています

。

重量標準化:1.グラデーション 2 を正規化します。風景を滑らかにします (リップシッツ定数を減らします) 3.排除特異点を回避

リップシッツ定数は、関数の 2 点間の最大勾配です。つまり、 $L$ $L$ はどこを満たす最小値のリプシッツ定数です

。

\forall a, b \in A : ∥ f (a) - f (b)∥ \leq L ∥ a - b ∥

f : A \to R^{m}, A \in R^{n}

除去特異点は、出力の統計が入力と同様に保たれるため、回避されます。したがって、入力が正規分布している限り、出力は正常に近いままです。これにより、ノードの出力がアクティベーション関数のアクティブ範囲を常に超えることがなくなります (たとえば、ReLU の場合は常に負の入力になります

)。

。

48import torch

#

$\hat{W}_{i, j} = \frac{W _{i, j} - μ _{W_{i, \cdot}}}{σ _{W_{i, \cdot}}}$

どこ、

W μ_{W_{i, \cdot}} σ_{W_{i, \cdot}} \in R^{O \times I} = \frac{1}{I} j = 1 \sum I W_{i, j} = \frac{1}{I} j = 1 \sum I W_{i, j}^{2} - μ_{W_{i, \cdot}}^{2} + ϵ

2Dコンボリューション層の場合、 $O$ は出力チャネル数 ( $O = C_{o u t}$ ) で、入力チャネル数にカーネルサイズ () $I$ を掛けたものです。 $I = C_{in} \times k_{H} \times k_{W}$

51def weight_standardization(weight: torch.Tensor, eps: float):

#

Get $C_{o u t}$ 、 $C_{in}$ およびカーネルシェイプ

70    c_out, c_in, *kernel_shape = weight.shape

#

形状を次の形式に変更 $W$ $O \times I$

72    weight = weight.view(c_out, -1)

#

計算

μ_{W_{i, \cdot}} σ_{W_{i, \cdot}}^{2} = \frac{1}{I} j = 1 \sum I W_{i, j} = \frac{1}{I} j = 1 \sum I W_{i, j}^{2} - μ_{W_{i, \cdot}}^{2}

79    var, mean = torch.var_mean(weight, dim=1, keepdim=True)

#

ノーマライズ $\hat{W}_{i, j} = \frac{W _{i, j} - μ _{W_{i, \cdot}}}{σ _{W_{i, \cdot}}}$

82    weight = (weight - mean) / (torch.sqrt(var + eps))

#

元の形状に戻して戻る

84    return weight.view(c_out, c_in, *kernel_shape)