“Sequential Evaluation and Generation Framework for Combinatorial Recommender System”由百度的Jiucheng Tao、Zhiming Peng等学者撰写。文章提出评估 - 生成框架,将组合推荐建模为从候选集生成项目序列问题,以最大化序列预期整体效用,通过离线测试和在线实验验证了框架有效性。
-
研究背景:推荐系统中考虑列表内相关性对提升用户体验很重要,但现有研究存在不足,如多样性评估缺乏金标准、对相关性假设过强、传统排序方法忽视局部最优损失。同时,组合推荐系统的离线评估也具有挑战性。
-
相关工作:列表内相关性研究常聚焦于多样性,如子模块化、图方法和DPP等,但这些方法存在假设与现实不符的问题。本文框架借鉴基于模型的强化学习和无模型强化学习思想,与以往专注于通用优化问题的研究不同,更深入研究列表内相关性。
-
方法
- 问题设定:将组合推荐系统问题形式化,目标是最大化推荐序列的预期整体效用,整体效用通常是各位置效用之和,主要关注点击量,也可扩展到其他反馈。
- 评估 - 生成框架概述:由评估器 和生成器 组成,通过优化评估器参数 使其逼近真实效用,利用生成器规划搜索更好序列,解决优化问题以逼近最优解。
- 评估器:采用序列编码结构,如递归神经网络和自注意力层,对序列整体编码以捕捉位置偏差、多样性和其他相关性,使用MSE损失优化。介绍了MLP、GRNN、双向GRNN、Transformer等模型架构,以及Deep DPP模型。
- 生成器:选择顺序生成范式,通过启发式值指导策略,采用贪婪策略或分类采样策略生成序列。学习指标有监督学习和强化学习,强化学习中提出SetToSeq结构,使用Q学习和模拟反馈或真实反馈训练。
-
实验
- 评估指标:使用AUC、SeqRMSE和SeqCorr评估评估器精度,将评估器作为模拟器比较生成器,通过在线A/B测试比较不同排序框架。
- 评估器实验结果:Bi - GRNN和Transformer在评估指标上表现更优,证明 和 对点击有影响;Transformer自注意力层可视化显示了列表内相关性的复杂现象。
- 生成器实验结果:不同模型架构、学习指标和策略的比较,表明考虑上下文和候选集很重要,RL在搜索全局最优解上更有效;生成列表分析显示评估分数与“好模式”比例相关。
- 在线性能:Bi - GRNN评估器与在线A/B测试性能相关性高,验证了评估器作为模拟器的有效性;在线A/B测试表明评估 - 生成框架有最优性能,且提高了曝光多样性。
-
讨论:强化学习在面对在线策略干扰时的鲁棒性有待提高;推荐系统应平衡探索与利用,随机探索不同项目组合;构建统一框架处理列表内和列表间关系是未来研究方向。