“Training Compute-Optimal Large Language Models”主要探讨了在给定计算预算下如何确定训练Transformer语言模型的最优模型规模和训练数据量,并通过实验验证了相关结论,还分析了模型的性能、优势及潜在问题,具体内容如下:

  1. 研究背景:随着大型语言模型(LLMs)的发展,其训练所需的计算和能源成本大幅增加。确定给定计算预算下的最佳模型超参数至关重要。以往研究虽揭示了模型参数与性能的关系,但在模型规模和训练数据量的权衡上仍有改进空间。

  2. 相关工作

    • 大型语言模型:近年来涌现出多种大型语言模型,包括密集型Transformer模型和专家混合(MoE)模型等。这些模型在推动语言建模任务发展的同时,面临着计算需求高和高质量数据获取难等挑战。
    • 建模缩放行为:已有研究尝试理解语言模型的缩放行为和迁移特性。本文在模型训练设置、参数范围等方面与前人工作(如Kaplan等人)存在差异,旨在更准确地分析模型规模和训练数据量的关系。
    • 估计大型模型超参数:模型训练涉及多个重要超参数,本文聚焦于模型规模和训练步数,并参考已有研究确定其他超参数。
    • 改进模型架构:除传统密集型Transformer模型外,还出现了如MoE模型、基于检索机制增强的模型等改进架构,但它们在大规模应用中也存在一些问题。
  3. 估计最优参数/训练数据量分配

    • 研究方法:提出三种不同方法来确定在固定计算量(FLOPs)预算下模型规模和训练数据量的最优权衡。假设计算与模型规模呈幂律关系,通过训练大量不同配置的模型并分析训练曲线来拟合经验估计器。

    • 具体方法及结果

    • 方法一:固定模型规模,改变训练数据量。对不同规模模型(70M - 10B参数)进行训练,每个模型采用4种不同训练序列长度,通过分析训练损失曲线确定给定FLOPs下的最优模型规模和训练数据量,结果表明两者应近似等比例增长(指数均约为0.50)。

    • 方法二:IsoFLOP曲线法。固定不同的训练FLOPs数量(9种),改变模型规模,绘制最终训练损失与参数数量的关系曲线,找到损失最小的模型规模,拟合结果也支持模型规模和训练数据量近似等比例增长(指数分别约为0.49和0.51)。
    • 方法三:参数化损失函数法。将实验中的最终损失建模为模型参数数量和训练数据量的参数化函数,通过最小化Huber损失拟合函数参数,得到的最优模型规模和训练数据量关系同样显示两者应大致等比例增长(指数分别约为0.46和0.54)。
    • 最优模型缩放结论:三种方法均表明,随着计算预算增加,模型规模和训练数据量应按相近比例增长。与以往研究结论不同,当前大多数大型语言模型在其计算预算下规模过大,应在更多数据上训练更小的模型以达到最优性能。
  4. Chinchilla模型

    • 模型及训练细节:基于上述分析,训练了70B参数的Chinchilla模型,在相同计算预算下使用比Gopher更多的数据(1.4T tokens)。采用与Gopher相同的模型架构和训练设置,但在数据集子集分布、优化器(使用AdamW)、分词器(不进行NFKC标准化)和权重存储精度等方面存在差异。

    • 实验结果

    • 语言建模:在多个评估子集上显著优于Gopher和Jurassic - 1,如在The Pile数据集的多数子集上表现更好,在Wikitext - 103上困惑度低于Gopher,但由于训练数据量差异需谨慎对比。

    • MMLU:在该基准测试上平均准确率达67.6%,显著高于Gopher(提升7.6%),在多个学科任务上表现出色,甚至在部分任务上超过专家预测的2023年准确率。
    • 阅读理解:在LAMBADA、RACE - h和RACE - m等数据集上表现优于Gopher和MT - NLG 530B。
    • BIG - bench:在多数任务上优于Gopher,平均性能提升10.7%。
    • 常识推理:在多个常识基准测试上表现优于Gopher、GPT - 3和MT - NLG 530B,在TruthfulQA上的准确率提升显著。
    • 闭卷问答:在Natural Questions和TriviaQA等数据集上取得新的闭卷SOTA准确率,优于Gopher和GPT - 3。
    • 性别偏见和毒性:在性别偏见测试中,Chinchilla比Gopher更能准确解析代词,但仍存在一定程度的性别偏见;在毒性评估中,与Gopher生成的样本相比,Chinchilla生成的样本毒性水平无显著差异,表明模型质量提升不一定导致毒性增加。
  5. 讨论与结论

    • 以往大型语言模型训练倾向于增加模型规模而不增加训练数据量,本文研究表明这种做法可能导致模型性能未达最优。通过提出的三种方法预测并通过Chinchilla模型验证,在相同计算预算下,更小且在更多数据上训练的模型性能更好。
    • 研究存在局限性,如大规模训练对比实验较少、假设的计算前沿关系可能不准确、训练数据未覆盖多个epoch等。
    • 未来研究应更关注数据集的扩展,注重数据质量,同时要考虑大规模数据训练带来的伦理和隐私问题。本文方法虽针对自回归语言模型,但预计在其他模态中也存在类似的模型规模与数据量权衡关系,且方法具有可重复性。