在工业推荐系统中,数据的长尾分布导致模型过度依赖基于ID的特征,影响非ID元特征学习和模型泛化。为解决该问题,文章提出了AdaF²M²(Adaptive Feature Modeling with Feature Mask)框架,它包含特征掩码机制和状态感知适配器。通过多轮在线实验和离线实验,结果表明AdaF²M²能有效提升模型性能,在用户活跃天数和应用使用时长上分别实现了+1.37%和+1.89%的累积提升,已在抖音集团多个应用的检索和排序任务中广泛部署,展现出其有效性和通用性。
研究背景
在个性化推荐系统中,特征工程极为关键。随着技术发展,推荐模型从传统矩阵分解方法逐步演进到深度神经网络,对特征的利用能力不断提升,处理的特征类型也日益复杂。然而,工业推荐系统的数据分布呈现高度倾斜的长尾模式,受流行度偏差影响,5%的用户/物品占据了超过80%的样本。这使得模型过度依赖基于ID的特征,如用户/物品ID和交互ID序列,严重影响了对非ID元特征(如用户/物品特征)的学习,降低了模型的泛化能力,增加了对数据噪声的敏感性。
相关工作
-
特征表示学习:研究旨在捕获特征间关联以改进特征表示。早期有基于因子分解机(FM)的方法捕捉高阶交互,后来出现了利用多层感知机、多头注意力机制、AutoML等方式进行特征交互。此外,还有方法专注于提升特定特征的表示,但这些方法大多忽视了对不同状态用户/物品有效特征表示利用的重要性,且缺乏额外监督信号。
-
特征表示利用:主要通过模型训练识别有用的特征交互。注意力机制常被用于特征选择,部分方法可学习特征重要性并重新训练模型。然而,这些方法易受头部用户和物品主导,基于ID的特征通常被赋予较高权重。
AdaF²M²框架
-
推荐任务设置:以二元分类任务(如CTR预测)为例,样本由输入原始特征和标签组成。深度推荐模型一般包含特征嵌入层、特征交互层和深度网络。输入特征可分为用户特征、物品特征和上下文特征,其中既有基于ID的个性化特征,也有非ID元特征,本文着重对所有特征进行综合学习和响应式利用。
-
特征掩码:提出特征掩码机制,通过从给定范围内随机采样概率,对部分特征嵌入进行随机掩码,生成多个增强样本。利用任务导向的优化过程对这些样本进行多前向训练,提升模型对所有特征的学习效果。该机制不仅能模拟真实推荐系统中的噪声情况,增强模型的鲁棒性和泛化能力,还能促使模型关注非ID元特征。
-
自适应特征建模:提出带有状态感知适配器的自适应特征建模方法,根据用户/物品的状态为特征分配自适应权重。引入了活跃天数、ID嵌入、ID嵌入范数和交互计数这四种经验状态信号,状态感知适配器以这些信号的连接作为输入,生成自适应权重。同时,为缓解现有方法中消失梯度的问题,分别训练状态感知适配器和由特征掩码机制生成的增强样本。
-
整体框架:AdaF²M²框架由状态感知适配器和特征掩码机制构成。训练阶段,使用交叉熵损失训练整体框架,并结合辅助损失进行综合特征学习;服务阶段,直接使用状态感知适配器生成的预测作为最终结果,特征掩码机制不影响服务阶段的延迟。该框架可应用于多种现有推荐模型,如排名任务模型和双塔检索模型。
实验结果
-
实验设置:使用公共数据集(MovieLens-1M)和大规模工业数据集(DouyinMusic-4B、DouyinMusic-20B)进行实验,对比方法包括流行检索方法(FM、YouTube DNN)和先进排名方法(AFN、DCN-V2、EulerNet),AdaF²M²应用于这些基础模型以验证其有效性和通用性。
-
在线A/B测试:在抖音音乐应用的排名、检索和物品冷启动任务中进行实验。评估指标包括活跃天数、时长等主要指标,以及点赞/不喜欢、完成、评论等约束指标。结果显示,在排名任务中,所有用户的活跃天数和时长分别提升了+0.212%和+0.442%;检索任务中,也实现了显著提升;物品冷启动任务中,能提高冷启动物品的曝光、点击等指标。
-
离线实验:在工业数据集上报告AUC和UAUC的相对提升,在公共数据集上报告AUC及相对提升。结果表明,AdaF²M²能使大多数基础模型性能显著提升,证明了其有效性和通用性。
-
分析:通过消融实验验证了AdaF²M²各模块的有效性,发现整体框架性能优于仅包含单个模块的模型。分析不同状态用户/物品的重要特征,结果符合实际经验,表明AdaF²M²能捕捉不同状态下特征重要性的分布。
研究结论
提出的AdaF²M²框架包含特征掩码机制和状态感知适配器,可综合学习特征并自适应地利用特征以响应不同用户/物品状态。离线实验展示了其卓越性能,在线A/B测试在多个推荐场景中实现了用户活跃天数和应用时长的显著提升,已在抖音集团多个应用的检索和排序任务中广泛部署,证明了其有效性和通用性。
任务类型 | 数据集 | 评估指标 | AdaF²M²相对基线提升 |
---|---|---|---|
排名任务 | DouyinMusic(工业数据集) | 活跃天数、时长、点赞、完成、评论、不喜欢 | 活跃天数+0.212% 时长+0.442%(所有用户) |
检索任务 | DouyinMusic(工业数据集) | 活跃天数、时长 | 活跃天数+0.073%(基于双塔模型) 时长+0.184%(基于双塔模型) |
物品冷启动任务 | DouyinMusic(工业数据集) | 点赞、完成 | 不同物品组有不同提升,如点赞提升最高达19.638% |
离线实验 | DouyinMusic-20B、DouyinMusic-4B(工业数据集) | AUC、UAUC | 不同基础模型下AUC和UAUC有不同程度提升,如FM模型AUC提升0.41% - 0.46% |
离线实验 | MovieLens-1M(公共数据集) | AUC、相对提升 | 不同基础模型下AUC有提升,如FM模型AUC提升0.53% |
-
AdaF²M²框架如何解决数据长尾分布带来的问题?
- 答:AdaF²M²框架通过特征掩码机制,随机掩码部分特征生成增强样本,使模型基于多样的特征组合进行预测,避免过度依赖重要特征,从而学习到所有特征,包括非ID元特征,提高模型的鲁棒性和泛化能力。同时,状态感知适配器根据用户/物品的活跃天数、ID嵌入、ID嵌入范数和交互计数等经验状态信号,为不同状态的用户/物品分配自适应权重,解决了现有方法对ID特征的过度依赖问题,使模型能更好地适应不同状态。
-
在实验中,AdaF²M²在不同类型任务中的表现有何不同?
- 答:在排名任务中,应用于DCN-V2-based多任务模型,所有用户的活跃天数和时长分别提升了+0.212%和+0.442% ,对不同状态用户(新用户、老用户及老用户细分的不同活跃度用户)的推荐性能均有提升。在检索任务中,部署在FM - based模型和双塔模型上,活跃天数和时长均实现显著提升,如基于双塔模型时活跃天数提升+0.073%。在物品冷启动任务中,应用于双塔冷启动模型,能提高冷启动物品的曝光、点赞、完成等指标,不同物品组的提升情况不同,点赞提升最高达19.638%。
-
与其他特征表示学习和利用的方法相比,AdaF²M²的创新点是什么?
- 答:其他方法大多只关注特征提取和交互,或仅从特征本身学习来选择特征,易受头部用户/物品主导,忽视不同状态用户/物品的有效特征表示利用。而AdaF²M²的创新点在于,提出特征掩码机制,通过多前向训练增强样本学习所有特征;引入状态感知适配器,利用经验状态信号为不同状态的用户/物品特征分配自适应权重,同时分别训练适配器和增强样本以缓解消失梯度问题,从而实现对所有特征的综合学习和响应式利用,提高模型性能和泛化能力。