变压器

本模块包含 PyTorch 实现和论文 Attention Is All You Need 中对原创变压器的解释,以及它的衍生品和增强功能。

变压器 XL

这使用相对的多头注意力实现了变形金刚 XL 模型

旋转位置嵌入

这实现了旋转位置嵌入 (roPE)

注意线性偏差

这实现了线性偏差注意力(AliBI)。

复古

这实现了检索增强型转换器(RETRO)。

压缩变压器

这是一种压缩变压器的实现,它通过压缩最古老的存储器来延长注意力跨度,从而在Transformer XL 上扩展。

GPT 架构

这是 GPT-2 体系结构的实现。

GLU 变体

这是论文 GLU 变体改进变压器的实现。

knn-lm

这是论文《通过记忆推广:最近邻语言模型》的实现。

反馈变压器

这是一篇论文《使用反馈存储器访问顺序变压器中的更高层次表示》的实现。

开关变压器

这是论文《开关变压器:以简单高效的稀疏度缩放到万亿参数模型》的微型实现。我们的实现只有几百万个参数,不对并行分布式训练进行建模。它进行单个 GPU 训练,但我们实现了白皮书中描述的切换概念。

快速重量变压器

这是 PyTorch 中线性变压器是秘密的快速重量存储系统论文的实现。

FNet:将令牌与傅里叶变换混合

这是论文《FNet:将令牌与傅里叶变换混合》的实现。

免注意变压器

这是论文《无注意力变压器》的实现。

屏蔽语言模型

这是在论文《B ERT:用于语言理解的深度双向变换器的预训练》中用于预训练的蒙面语言模型的实现。

MLP 混音器:面向视觉的全 MLP 架构

这是论文 MLP-Mixer:视觉的全 MLP 架构的实现。

注意 MLP (gMLP)

这是 “注意 MLP” 一文的实现。

视觉变压器 (ViT)

这是论文《图像值得 16x16 Words:大规模图像识别的变形金刚》的实现。

Primer

这是论文《入门:为语言建模寻找高效的变换器》的实现。

沙漏

这是论文《分层变换器是更有效的语言模型》的实现

112from .configs import TransformerConfigs
113from .models import TransformerLayer, Encoder, Decoder, Generator, EncoderDecoder
114from .mha import MultiHeadAttention
115from labml_nn.transformers.xl.relative_mha import RelativeMultiHeadAttention