#

位置別フィードフォワードネットワーク (FFN)

これは、トランスフォーマーで使用される位置単位フィードフォワードネットワークのPyTorch実装です。

FFN は、完全に接続された 2 つのレイヤーで構成されています。隠しレイヤーの次元数は $d_{f f}$ 、通常、 $d_{m o d e l}$ トークン埋め込みの約4倍に設定されます。そのため、エクスパンド・コントラクト・ネットワークと呼ばれることもあります

。

隠れ層にアクティベーションがあり、通常はReLU (Rectified Linear Unit) アクティベーションに設定されています。 $max (0, x)$

つまり、FFN 関数は、、、、 $W_{1}$ $W_{2}$ $b_{1}$ 、 $FFN (x, W_{1}, W_{2}, b_{1}, b_{2}) = max (0, x W_{1} + b_{1}) W_{2} + b_{2}$ $b_{2}$ は学習可能なパラメーターです。

ReLU の代わりに GELU (ガウス誤差線形単位) アクティベーションが使用されることもあります。 $x Φ (x)$ どこ $Φ (x) = P (X \leq x), X \sim N (0, 1)$

ゲートリニアユニット

これは、ゲートリニアユニット (GLU) を含むさまざまなバリアントをサポートする一般的な実装です。また、以下の実験も行っています

。

38import torch
39from torch import nn as nn
40
41from labml_helpers.module import Module

#

FFN モジュール

44class FeedForward(Module):

#

d_model トークン埋め込みに含まれる機能の数
d_ff は FFN の隠れレイヤーにあるフィーチャの数です
dropout は隠れ層のドロップアウト確率です
is_gated 隠れレイヤーをゲートするかどうかを指定します
bias1 最初の完全接続層に学習可能なバイアスを付けるかどうかを指定しました
bias2 2 番目の完全接続層に学習可能なバイアスを付けるかどうかを指定しました
bias_gate ゲートの全接続層に学習可能なバイアスを設けるべきかどうかを指定

49    def __init__(self, d_model: int, d_ff: int,
50                 dropout: float = 0.1,
51                 activation=nn.ReLU(),
52                 is_gated: bool = False,
53                 bias1: bool = True,
54                 bias2: bool = True,
55                 bias_gate: bool = True):

#

65        super().__init__()

#

重みとバイアスでパラメータ化されたレイヤー 1 $W_{1}$ $b_{1}$

67        self.layer1 = nn.Linear(d_model, d_ff, bias=bias1)

#

重みとバイアスでパラメータ化されたレイヤー 1 $W_{1}$ $b_{1}$

69        self.layer2 = nn.Linear(d_ff, d_model, bias=bias2)

#

隠しレイヤーのドロップアウト

71        self.dropout = nn.Dropout(dropout)

#

アクティベーション機能 $f$

73        self.activation = activation

#

ゲートがあるかどうか

75        self.is_gated = is_gated
76        if is_gated:

#

ゲートがある場合は、入力を変換してゲートを掛け、ウェイトとバイアスをパラメータ化して入力を変換する線形レイヤー $V$ $c$

79            self.linear_v = nn.Linear(d_model, d_ff, bias=bias_gate)

#

81    def forward(self, x: torch.Tensor):

#

$f (x W_{1} + b_{1})$

83        g = self.activation(self.layer1(x))

#

ゲートされている場合、 $f (x W_{1} + b_{1}) \otimes (x V + b)$

85        if self.is_gated:
86            x = g * self.linear_v(x)

#

それ以外の場合

88        else:
89            x = g

#

ドロップアウトを適用

91        x = self.dropout(x)

#

$(f (x W_{1} + b_{1}) \otimes (x V + b)) W_{2} + b_{2}$ $f (x W_{1} + b_{1}) W_{2} + b_{2}$ ゲート付きか否かによるけど

94        return self.layer2(x)