トランスフォーマー

このモジュールには、PyTorchの実装と、論文「Attention IsAll You Need」に掲載されたオリジナルのトランスフォーマーの説明、およびその派生品と拡張機能が含まれています。

トランスフォーマー XL

これは、相対的なマルチヘッドアテンションを使用したトランスフォーマーXLモデルを実装しています

ロータリーポジショナルエンベディング

これはロータリー・ポジショナル・エンベディング (RoPE) を実装しています。

線形バイアスによる注意

これは、線形バイアス(AliBi)によるアテンションを実装したものです。

レトロ

これは検索強化トランスフォーマー (RETRO) を実装しています。

圧縮変圧器

これは圧縮トランスフォーマーの実装で、Transformer XLを拡張したもので、最も古いメモリを圧縮してアテンションスパンを長くします。

GPT アーキテクチャ

これは GPT-2 アーキテクチャの実装です。

GLU バリアント

これは論文「GLUバリアント改良トランスフォーマー」の実装です。

KNN-LM

これは、「記憶による一般化:最近傍言語モデル」という論文の実装です。

フィードバック変圧器

これは、「フィードバックメモリを用いたシーケンシャル・トランスフォーマーの高位表現へのアクセス」という論文の実装です

スイッチトランス

これは、論文の「スイッチトランスフォーマー:シンプルで効率的なスパース性を備えた1兆パラメータモデルへのスケーリング」のミニチュア実装です。私たちの実装には数百万のパラメーターしかなく、モデルの並列分散トレーニングは行いません。シングルGPUトレーニングを行いますが、論文で説明されているようにスイッチングの概念を実装しています

高速ウェイトトランス

これは、PyTorchの論文「リニアトランスフォーマーは密かに高速ウェイトメモリシステム」の実装です

FNet: フーリエ変換によるトークンの混合

これは論文「FNet: トークンをフーリエ変換と混合する」の実装です。

アテンションフリー変圧器

これは論文「アテンション・フリー・トランスフォーマー」の実装です。

マスク言語モデル

これは、論文「BERT:言語理解のためのディープ双方向トランスフォーマーの事前トレーニング」の事前トレーニングに使用されたマスク言語モデルの実装です

MLPミキサー:ビジョン用のオールMLPアーキテクチャ

これは、論文「MLPミキサー:ビジョン用のオールMLPアーキテクチャ」の実装です。

MLP (GMLP) にご注意ください

これは、論文「MLPに注意を払う」の実装です。

ビジョントランスフォーマー (ViT)

これは、「画像は16x16の言葉に値する」という論文「大規模画像認識のためのトランスフォーマー」の実装です。

プライマー EZ

これは、「入門書:言語モデリングのための効率的なトランスフォーマーの探求」という論文の実装です

砂時計

これは、「階層型トランスフォーマーはより効率的な言語モデル」という論文の実装です。

112from .configs import TransformerConfigs
113from .models import TransformerLayer, Encoder, Decoder, Generator, EncoderDecoder
114from .mha import MultiHeadAttention
115from labml_nn.transformers.xl.relative_mha import RelativeMultiHeadAttention