Transformers

这是论文《 Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 》的一个简化实现。我们的实现仅包含几百万个参数，并且只在单 GPU 上进行训练，不涉及并行分布式训练，但我们仍然实现了论文中描述的 Switch 概念。

快速权重 Transformer

这是论文《 Linear Transformers Are Secretly Fast Weight Memory Systems in PyTorch 》的实现。

Fnet：使用傅里叶变换混合 token

这是论文《 FNet: Mixing Tokens with Fourier Transforms 》的实现。

无注意力 Transformer

这是论文《 An Attention Free Transformer 》的实现。

掩码语言模型

这是论文《 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 》中用于预训练的掩码语言模型的实现

MLP-Mixer：一种用于视觉的全 MLP 架构

这是论文《 MLP-Mixer: An all-MLP Architecture for Vision 》的实现。

门控多层感知器 (gMLP)

这是论文《 Pay Attention to MLPs 》的实现。

视觉 Transformer (ViT)

这是论文《 An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale 》的实现。

Primer

这是论文《 Primer: Searching for Efficient Transformers for Language Modeling 》的实现。

沙漏网络

这是论文《 Hierarchical Transformers Are More Efficient Language Models 》的实现

112from .configs import TransformerConfigs
113from .models import TransformerLayer, Encoder, Decoder, Generator, EncoderDecoder
114from .mha import MultiHeadAttention
115from labml_nn.transformers.xl.relative_mha import RelativeMultiHeadAttention