#

线性偏差（AliBI）实验中的注意力

这是一项带注释的 PyTorch 实验，用于训练 A liBI 模型。

14import torch
15from torch.utils.data import DataLoader
16
17from labml import experiment, tracker
18from labml.configs import option, calculate
19from labml_helpers.datasets.text import SequentialUnBatchedDataset
20from labml_nn.transformers.alibi import AlibiMultiHeadAttention
21from labml_nn.experiments.nlp_autoregression import transpose_batch
22from labml_nn.transformers import TransformerConfigs
23from labml_nn.transformers.gpt import Configs as GPTConfigs

#

配置

我们扩展了 GPT 配置并更改了注意机制。

26class Configs(GPTConfigs):

#

基于 AliBI 的转换器（定义见下文）

34    transformer: TransformerConfigs = 'GPT_ALiBi'

#

更长的验证集

36    valid_seq_len: int = 128
37    valid_loader = 'shuffled_longer_valid_loader'

#

记录初始和最终代币的损失

39    def other_metrics(self, output: torch.Tensor, target: torch.Tensor):

#

如果训练序列长度（在验证期间）有更多的令牌，

44        if self.seq_len < output.shape[0]:

#

记录训练序列长度的损失

46            tracker.add(f'loss.{self.seq_len - 1}.', self.loss_func(output[self.seq_len - 1], target[self.seq_len - 1]))

#

记录第一个令牌的损失

48            tracker.add(f'loss.0.', self.loss_func(output[0], target[0]))

#

记录最终代币的损失

50        tracker.add(f'loss.{int(output.shape[0]) - 1}.', self.loss_func(output[-1], target[-1]))

#

创建一个 AliBI 注意力模块

53def _alibi_mha(c: TransformerConfigs):

#

57    return AlibiMultiHeadAttention(c.n_heads, c.d_model, dropout_prob=c.dropout)

#

将所有关注机制设置为 AliBI

61calculate(TransformerConfigs.encoder_attn, 'alibi_mha', _alibi_mha)
62calculate(TransformerConfigs.decoder_attn, 'alibi_mha', _alibi_mha)
63calculate(TransformerConfigs.decoder_mem_attn, 'alibi_mha', _alibi_mha)

#

使用valid_seq_len 序列长度改组验证数据加载器

66@option(Configs.valid_loader)
67def shuffled_longer_valid_loader(c: Configs):

#

71    return DataLoader(SequentialUnBatchedDataset(text=c.text.valid,
72                                                 dataset=c.text,
73                                                 seq_len=c.valid_seq_len),
74                      batch_size=c.batch_size,
75                      collate_fn=transpose_batch,
76                      shuffle=True)

#

基于 AliBI 的变压器配置

79@option(Configs.transformer, 'GPT_ALiBi')
80def _transformer_configs(c: Configs):

#

我们使用我们的可配置变压器实现

87    conf = TransformerConfigs()

#

设置嵌入和生成 logit 的词汇量大小

89    conf.n_src_vocab = c.n_tokens
90    conf.n_tgt_vocab = c.n_tokens

#

GPT 使用 GELU 激活进行位置明智前馈

92    conf.ffn.activation = 'GELU'

#

AliBI 不使用位置嵌入

95    conf.src_embed = 'no_pos'
96    conf.tgt_embed = 'no_pos'

#

将所有关注机制设置为 AliBI

99    conf.encoder_attn = 'alibi_mha'
100    conf.decoder_attn = 'alibi_mha'
101    conf.decoder_mem_attn = 'alibi_mha'

#

104    return conf

#

107def main():

#

创建实验

109    experiment.create(name="gpt_alibi")

#

创建配置

111    conf = Configs()

#

覆盖配置

113    experiment.configs(conf, {

#

使用角色等级分词器

115        'tokenizer': 'character',

#

提示分隔符为空

117        'prompt_separator': '',

#

开始采样提示

119        'prompt': 'It is ',

#

使用小莎士比亚数据集

121        'text': 'tiny_shakespeare',

#

'text': 'tiny_shakespeare_no_split '，

#

使用上下文大小为 $128$

125        'seq_len': 64,

#

使用上下文大小为 $128$

127        'valid_seq_len': 80,

#

为 $32$ 时代而训练

129        'epochs': 128,

#

批量大小 $128$

131        'batch_size': 128,

#

在训练和验证之间切换每个纪元的 $10$ 次数

134        'inner_iterations': 10,

#

变压器配置

137        'transformer.d_model': 128,
138        'transformer.ffn.d_ff': 512,
139        'transformer.n_heads': 8,
140        'transformer.n_layers': 4,
141        'transformer.dropout': 0.1,
142    })

#

设置用于保存和加载的模型

145    experiment.add_pytorch_models({'model': conf.model})

#

开始实验

148    with experiment.start():

#

跑步训练

150        conf.run()

#

154if __name__ == '__main__':
155    main()