论文：Denoising Self-attentive Sequential Recommendation

以下是对这篇论文的详细总结：

一、论文题目

《Denoising Self - Attentive Sequential Recommendation》

二、作者

Huiyuan Chen, Yusan Lin, Menghai Pan, Lan Wang, Chin - Chia Michael Yeh, Xiaoting Li, Yan Zheng, Fei Wang, Hao Yang

三、研究背景与动机

基于Transformer的序列推荐器在捕捉短期和长期序列项目依赖关系方面非常强大，但现实世界的项目序列通常是有噪声的，尤其是对于隐式反馈，这可能导致推荐性能下降。
现有基于Transformer的模型使用全注意力分布，会给不相关的项目分配一定的权重，可能导致性能不理想，需要对Transformer进行正则化以应对噪声问题。

四、相关工作

序列推荐：传统的马尔可夫链模型和近年来的深度神经网络（如循环神经网络、卷积神经网络、记忆网络和图神经网络等）被用于序列推荐，Transformer模型在序列推荐中也取得了很好的效果，但很少有研究关注其鲁棒性。
稀疏Transformer：许多轻量化的Transformer试图实现稀疏注意力地图，以减少计算复杂度，一些模型使用固定的稀疏模式，另一些模型使用可学习的注意力分布，本文的Rec - Denoiser与后一类工作相关。

五、问题与背景

问题设定：在序列推荐中，给定用户的历史行为序列，预测下一个项目。
自注意力推荐器：以SASRec为例，介绍了基于Transformer的推荐器的结构，包括嵌入层、Transformer块（包含自注意力层和点积前馈层）和学习目标。
噪声注意力问题：SASRec等模型的全注意力分布会给不相关项目分配权重，导致项目依赖关系复杂化、训练难度增加和性能下降，一些尝试手动定义稀疏注意力模式的方法存在灵活性和适应性不足的问题，而随机 dropout技术可能导致过激进的修剪问题。

六、Rec - Denoiser

可微分掩码：通过在每个自注意力层附加一个可训练的二进制掩码，来修剪噪声或任务无关的注意力，从而实现稀疏注意力分布，提高模型的可解释性和性能。
- 学习稀疏注意力：引入二进制矩阵来表示连接是否存在，通过最小化非零元素的数量来鼓励稀疏性。
- 高效梯度计算：使用augment - REINFORCE - merge（ARM）估计器来优化二进制掩码，解决了非可微和方差大的问题，通过重参数化技巧和随机投影来计算梯度，在训练和推理阶段分别更新和使用掩码。
雅各比正则化：通过正则化Transformer块的雅各比矩阵，来提高Transformer对噪声序列的鲁棒性，使用经典的Hutchinson估计器来近似计算雅各比矩阵的范数。
优化：联合训练可微分掩码和雅各比正则化，与原始Transformer模型的训练相结合，模型复杂度与原始Transformer相同，在推理时计算更快。

七、实验

实验设置：在五个基准数据集上进行实验，包括MovieLens、Beauty、Games、Movies&TV和Steam，对比了不同的序列推荐模型和稀疏Transformer模型，使用Hit@N和NDCG@N作为评估指标。
整体性能（RQ1）：Rec - Denoiser在所有数据集上均取得最佳性能，自我注意序列模型优于传统模型，引入双向注意力、时间间隔和用户个性化等信息有助于提高模型性能，Rec - Denoiser相对其基础模型有显著改进。
对噪声的鲁棒性（RQ2）：Rec - Denoiser在不同噪声比例下均优于其他稀疏Transformer模型，可微分掩码和雅各比正则化能够减少噪声序列的负面影响，提高自我注意模型的鲁棒性。
Rec - Denoiser的研究（RQ3）：研究了Rec - Denoiser的参数敏感性，包括最大长度n和正则化参数β和γ，发现SASRec - Denoiser在较长序列上表现更好，性能对正则化参数的设置相对稳定。

八、结论与未来工作