K 近邻语言模型

这是论文《通过记忆推广：最近邻语言模型》的 PyTorch 实现。它使用 k 最近邻来改善自回归变压器模型的困惑度。

自回归语言模型估计 $p (w_{t} ∣ c_{t})$ ，步骤中的标记在哪里 $w_{t}$ $t$ ， $c_{t}$ 是上下文， $c_{t} = (w_{1}, w_{2}, ..., w_{t - 1})$ 。

本文改进了 $p (w_{t} ∣ c_{t})$ 使用带搜索键的键值对 $(f (c_{i}), w_{i})$ 使用 k 最近邻搜索的功能 $f (c_{t})$ 。 $f (c_{t})$ 这是上下文的嵌入 $c_{t}$ 。本文（以及本实现）使用变压器最后一层前馈层的输入作为 $f (c_{t})$ 。

我们使用 FAISS 进行索引 $f (c_{i})$ 。

实施

因此，要运行 $k$ NN-LM，我们需要：

训练变压器模型
建立索引 $(f (c_{i}), w_{i})$
使用 NN 搜索来评估 k $k$ nn-ML $(f (c_{i}), w_{i})$ $f (c_{t})$

这个实验使用了一个小数据集，这样我们就可以在不占用几百千兆字节的索引磁盘空间的情况下运行它。

$k$ NN-LM 的官方实现可以在这里找到。