[2006.03236] Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing

一段话总结

随着语言预训练的发展,为降低成本并提升效率,本文提出Funnel-Transformer模型。该模型通过逐渐压缩隐藏状态序列长度减少计算量,将节省的计算资源用于构建更深或更宽的模型以提升能力,还设计解码器满足预训练时对每个token的预测需求。实验表明,在相似或更少的计算量下,Funnel-Transformer在多种序列级预测任务上优于标准Transformer,如文本分类、语言理解和阅读理解等。

思维导图

image_2025-04-08_10-18-13.jpg

详细总结

  1. 研究背景:语言预训练推动了自然语言处理的发展,但预训练和微调Transformer模型成本高昂,限制了其应用。当前减少成本的方法包括蒸馏、剪枝、量化以及设计高效架构等,本文聚焦于Transformer中隐藏状态序列的冗余问题。

  2. Funnel-Transformer模型

    • 架构:继承Transformer的整体结构,由编码器和解码器组成。编码器通过逐渐压缩隐藏状态序列长度来降低计算量,解码器用于恢复token级表示,以满足预训练任务需求。
    • 编码器设计:编码器由多个Transformer层块组成,块内序列长度不变,块间通过特定池化操作减少序列长度。采用“pool-query-only”设计,用池化后的序列构建查询向量,未池化序列作为键值向量,增强了压缩效果。如使用步长为2、窗口大小为2的滑动窗口平均池化,可使序列长度减半。
    • 解码器设计:对于需要token级预测的任务,解码器通过对编码器输出进行上采样,并结合第一层块的隐藏状态,形成深度token级表示。一般使用2个Transformer层来融合高低层特征。
    • 复杂度与容量分析:序列压缩可显著降低计算复杂度,在相同计算量下可增加网络深度。虽然压缩会导致单层容量下降,但可通过堆叠更多层或增加模型宽度来弥补。不过,增加参数可能带来内存和通信成本的增加。
  3. 相关工作:与现有模型相比,Funnel-Transformer在序列长度压缩、池化和上采样设计等方面具有独特性。该模型还借鉴了计算机视觉领域的思想,同时与图神经网络中减少节点数量获取向量表示的研究相关。

  4. 实验评估

    • 实验设置:预训练考虑基础规模(1M步,批次大小256)和大规模(500K步,批次大小8K)两种设置,微调主要关注序列级任务,包括GLUE基准、文本分类和阅读理解等任务,同时也测试了token级预测任务。
    • 实验结果:在基础规模下,Funnel-Transformer在大多数任务上优于标准Transformer,尤其在较小模型中表现更优;大规模实验中,Funnel-Transformer在多数任务上也超越了基线模型,在RACE阅读理解任务中优势明显,但在需要详细token级信息的SQuAD任务中,对于大模型,Funnel-Transformer性能稍逊。
    • 消融实验:研究了池化操作、“pool-query-only”设计、分离[cls]向量和相对位置注意力参数化等设计的重要性。发现平均池化和最大池化性能相似且优于基于注意力分数选择“hub”状态的池化方式;“pool-query-only”和分离[cls]向量能提升模型性能;相对位置注意力参数化对模型性能至关重要,3块设计的性能最佳。
  5. 结论与展望:Funnel-Transformer通过压缩序列分辨率节省计算资源并提升模型性能,但仍有改进空间,如优化压缩方案、块布局设计以及将其与其他模型压缩技术结合等。

模型 参数设置 GLUE基准平均得分 文本分类错误率(IMDB) FLOPs相对值 参数数量相对值
L24H1024 24层,隐藏层大小1024 86.6 4.440 1.00x 1.00x
B10-10-10 3块,每块10层,隐藏层大小1024 87.0 4.404 0.73x 1.22x
L12H768 12层,隐藏层大小768 84.4 5.328 1.00x 1.00x
B6-6-6 3块,每块6层,隐藏层大小768 85.3 4.908 0.88x 1.39x

关键问题

  1. Funnel-Transformer模型中编码器的“pool-query-only”设计有什么优势?

    • 答案:“pool-query-only”设计使压缩不仅取决于池化操作,还与自注意力对未池化序列的加权求和有关,能将T个基组合成较少的T'个“压缩基”,在最小计算开销下使压缩操作更具表现力,相比仅用池化操作控制压缩的朴素方法,能实现更好的压缩效果。
  2. 在实验中,Funnel-Transformer在不同规模设置下的表现如何?

    • 答案:在基础规模下,Funnel-Transformer在多数任务上优于标准Transformer,尤其在较小模型中优势明显;在大规模设置下,Funnel-Transformer在多数任务上也超越了基线模型,在RACE阅读理解任务中优势显著,但在需要详细token级信息的SQuAD任务中,对于大模型,Funnel-Transformer性能稍落后于标准Transformer。
  3. Funnel-Transformer模型未来的研究方向有哪些?

    • 答案:未来可探索更好的压缩方案、优化块布局设计、研究如何更有效地重新分配节省的FLOPs以进一步提升模型性能。此外,将Funnel-Transformer与知识蒸馏和量化等模型压缩技术相结合,也是增强其实际应用效果的重要方向。