このモジュールには、PyTorchの実装と、論文「Attention IsAll You Need」に掲載されたオリジナルのトランスフォーマーの説明、およびその派生品と拡張機能が含まれています。
これは、相対的なマルチヘッドアテンションを使用したトランスフォーマーXLモデルを実装しています。
これはロータリー・ポジショナル・エンベディング (RoPE) を実装しています。
これは、線形バイアス(AliBi)によるアテンションを実装したものです。
これは検索強化トランスフォーマー (RETRO) を実装しています。
これは圧縮トランスフォーマーの実装で、Transformer XLを拡張したもので、最も古いメモリを圧縮してアテンションスパンを長くします。
これは GPT-2 アーキテクチャの実装です。
これは論文「GLUバリアント改良トランスフォーマー」の実装です。
これは、「記憶による一般化:最近傍言語モデル」という論文の実装です。
これは、「フィードバックメモリを用いたシーケンシャル・トランスフォーマーの高位表現へのアクセス」という論文の実装です。
これは、論文の「スイッチトランスフォーマー:シンプルで効率的なスパース性を備えた1兆パラメータモデルへのスケーリング」のミニチュア実装です。私たちの実装には数百万のパラメーターしかなく、モデルの並列分散トレーニングは行いません。シングルGPUトレーニングを行いますが、論文で説明されているようにスイッチングの概念を実装しています
。これは、PyTorchの論文「リニアトランスフォーマーは密かに高速ウェイトメモリシステム」の実装です。
これは論文「FNet: トークンをフーリエ変換と混合する」の実装です。
これは論文「アテンション・フリー・トランスフォーマー」の実装です。
これは、論文「BERT:言語理解のためのディープ双方向トランスフォーマーの事前トレーニング」の事前トレーニングに使用されたマスク言語モデルの実装です。
これは、論文「MLPミキサー:ビジョン用のオールMLPアーキテクチャ」の実装です。
これは、論文「MLPに注意を払う」の実装です。
これは、「画像は16x16の言葉に値する」という論文「大規模画像認識のためのトランスフォーマー」の実装です。
これは、「入門書:言語モデリングのための効率的なトランスフォーマーの探求」という論文の実装です。
これは、「階層型トランスフォーマーはより効率的な言語モデル」という論文の実装です。
112from .configs import TransformerConfigs
113from .models import TransformerLayer, Encoder, Decoder, Generator, EncoderDecoder
114from .mha import MultiHeadAttention
115from labml_nn.transformers.xl.relative_mha import RelativeMultiHeadAttention