LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders


一段话总结

工业推荐系统中,超长用户行为序列建模对捕捉用户长短期偏好至关重要。本文提出LONGER框架,通过全局令牌机制稳定长上下文注意力,令牌合并模块结合轻量级InnerTransformers和混合注意力策略降低二次复杂度,并进行混合精度训练、激活重计算、KV缓存服务等工程优化。实验表明,LONGER在字节跳动广告和电商场景中离线AUC达0.8529在线A/B测试中广告ADSS提升1.06%-2.09%、电商GMV/U提升5.27%-6.54%,已部署于超10个场景服务十亿用户。


## **背景与挑战**
- 超长序列建模需求:捕捉长短期偏好,现有方法存在信息丢失和效率问题
- 传统方法局限:两阶段检索、预训练嵌入、内存增强模型的不足
## **LONGER框架设计**
- **全局令牌机制**:稳定注意力,聚合全局信息
- **令牌合并模块**:压缩序列长度,InnerTrans捕捉局部交互
- **混合注意力机制**:交叉因果注意力+自因果注意力层
- **工程优化**:混合精度训练、激活重计算、KV缓存服务、全同步训练框架
## **核心创新**
- 端到端超长序列建模(最长5000 tokens)
- 计算效率提升:FLOPs减少~50%,性能几乎无损
- 工业级部署:支持十亿用户规模,多场景落地
## **实验结果**
- 离线性能:AUC达0.8529,超越Transformer 0.21%
- 在线A/B测试:广告ADSS提升1.06%-2.09%,电商GMV/U提升5.27%-6.54%
- 消融实验:令牌合并+InnerTrans提升AUC 1.63%,近期采样策略最优
## **未来方向**
- 更高效序列建模技术
- 跨域行为建模优化

详细总结

1. 研究背景与挑战

工业推荐系统中,超长用户行为序列(长度>10³)对捕捉用户长短期偏好、提升推荐准确性和多样性至关重要。现有方法如两阶段检索(SIM、TWIN)预训练用户嵌入内存增强模型(MIMN、LMN)虽提升计算效率,但存在上游-下游不一致导致的信息丢失间接建模的局限性。传统Transformer因二次注意力复杂度(O(L²d))难以处理长序列,需兼顾效率与性能的端到端解决方案。

2. LONGER框架设计

2.1 全局令牌机制(Global Tokens)
  • 作用:作为全局信息锚点,聚合用户历史、上下文和候选 item 特征,稳定长序列注意力分布,避免“注意力下沉”效应。
  • 构成:包含目标 item 表示、用户ID嵌入、可学习CLS令牌等高阶交互特征,具备全注意力接收域。
2.2 令牌合并模块(Token Merge)
  • 核心思想:将相邻令牌分组压缩,降低序列长度(压缩因子K),平衡效率与表征保真度。
  • 实现
  • 简单拼接:分组令牌直接拼接,减少FLOPs。
  • InnerTrans:在每组内引入轻量级Transformer块,捕捉局部交互,避免信息丢失。
  • 计算效率:当L=2048、d=32、K=4时,FLOPs从587M降至336M(减少42.8%)。
2.3 混合注意力机制(Hybrid Attention)
  • 交叉因果注意力(第一层):查询矩阵O(全局令牌+采样序列令牌)与输入令牌R进行注意力计算,突出序列关键部分。
  • 自因果注意力(后续层):捕捉采样令牌内部的高阶依赖关系,堆叠N层迭代优化表示。
2.4 工程优化
  • 全同步训练框架:GPU集群统一更新密集/稀疏参数,分层存储高频特征于HBM、中频于内存、低频于SSD,减少通信开销。
  • 混合精度训练与激活重计算:BF16/FP16混合精度降低内存占用( dense层减少28%),重计算策略以计算换内存,提升训练效率。
  • KV缓存服务:预计算并缓存用户序列的键值对,候选item仅需计算与缓存的交互,服务延迟降低33.2%(从-40%至-6.8%)。

3. 实验结果

3.1 离线性能对比
模型 AUC LogLoss Δ AUC (%) Δ LogLoss (%)
Base 0.83968 0.48758 - -
Transformer 0.85111 0.47293 +1.36 -3.00
LONGER 0.85290 0.47103 +1.57 -3.39
- 优势:相比Transformer,AUC提升0.21%,LogLoss降低0.4%,证明长序列建模有效性。
3.2 消融实验
  • 令牌合并+InnerTrans:FLOPs减少19%,AUC提升1.63%,LogLoss降至0.47052。
  • 查询策略:采样最近100个令牌(Recent 100)性能最优(AUC=0.85290),优于可学习令牌或均匀采样。
3.3 在线A/B测试
场景 指标 直播 短视频 商城
广告 ADSS提升 +1.063% +2.097% +1.816%
ADVV提升 +1.168% +2.151% +1.407%
电商 Order/U提升 +7.9222% +4.6125% -
GMV/U提升 +6.5404% +5.2771% -

4. 结论与未来工作

LONGER通过全局令牌、令牌合并、混合注意力及工程优化,实现了工业级超长序列建模,在离线和在线场景中均显著提升性能,已部署于字节跳动超10个场景。未来将探索更高效序列建模技术跨域行为建模,进一步优化推荐系统的泛化能力。


关键问题

  1. LONGER如何解决长序列建模的计算效率问题?
  2. 答案:通过令牌合并模块将序列长度压缩K倍,结合轻量级InnerTrans捕捉局部交互,减少约50% FLOPs;采用KV缓存服务预计算用户序列键值对,避免候选item重复计算,服务延迟降低33.2%。

  3. 全局令牌机制在LONGER中的具体作用是什么?

  4. 答案:全局令牌(如目标item嵌入、用户ID)作为信息锚点,聚合全局上下文,稳定长序列注意力分布,避免深层注意力集中于早期令牌的“注意力下沉”问题,提升长程依赖建模能力。

  5. LONGER在工业场景中的实际效果如何?

  6. 答案:在字节跳动广告和电商场景中,广告ADSS提升1.06%-2.09%,电商GMV/U提升5.27%-6.54%;已部署于超10个场景,服务十亿用户,离线AUC达0.8529,超越传统Transformer模型。