本模块包含 PyTorch 实现和论文 Attronger Is All You Need 中对原创变压器的解释,以及它的衍生品和增强功能。
这使用相对的多头注意力实现了变形金刚 XL 模型
这实现了旋转位置嵌入 (roPE)
这实现了线性偏差注意力(AliBI)。
这实现了检索增强型转换器(RETRO)。
这是一种压缩变压器的实现,它通过压缩最古老的存储器来延长注意力跨度,从而在Transformer XL 上扩展。
这是 GPT-2 体系结构的实现。
这是论文 GLU 变体改进变压器的实现。
这是论文《通过记忆推广:最近邻语言模型》的实现。
这是一篇论文《使用反馈存储器访问顺序变压器中的更高层次表示》的实现。
这是论文《开关变压器:以简单高效的稀疏度缩放到万亿参数模型》的微型实现。我们的实现只有几百万个参数,不对并行分布式训练进行建模。它进行单个 GPU 训练,但我们实现了白皮书中描述的切换概念。
这是 PyTorch 中线性变压器是秘密的快速重量存储系统论文的实现。
这是论文《FNet:将令牌与傅里叶变换混合》的实现。
这是论文《无注意力变压器》的实现。
这是在论文《B ERT:用于语言理解的深度双向变换器的预训练》中用于预训练的蒙面语言模型的实现。
这是论文 MLP-Mixer:视觉的全 MLP 架构的实现。
这是 “注意 MLP” 一文的实现。
这是论文《图像值得 16x16 Words:大规模图像识别的变形金刚》的实现。
这是论文《入门:为语言建模寻找高效的变换器》的实现。
这是论文《分层变换器是更有效的语言模型》的实现
112from .configs import TransformerConfigs
113from .models import TransformerLayer, Encoder, Decoder, Generator, EncoderDecoder
114from .mha import MultiHeadAttention
115from labml_nn.transformers.xl.relative_mha import RelativeMultiHeadAttention