变革之路:在大语言模型微调中,稀疏足够

在当今人工智能的浪潮中,预训练和微调的模式已成为了大语言模型(LLMs)适应下游任务的主流方法。然而,随着大语言模型参数数量的不断增加,全参数微调的代价变得异常高昂。如何以低成本实现高效适应,成为了一个引人关注的问题。最近,Weixi Song 及其团队提出了一种新的方法——稀疏增量微调(Sparse Increment Fine-Tuning, SIFT),为这一难题提供了新的解法。

一、从理论到实践的探索

在研究中,作者们首先运用了 PAC-贝叶斯泛化误差界限理论,分析了预训练模型微调的原理。通过将预训练视作先验分布的转变,研究表明,这一过程导致了泛化误差界限的收紧。这意味着,预训练模型在下游任务中的表现,往往优于随机初始化的模型。通过对损失地形的观察,研究者发现,预训练模型的损失波动从随机初始化的平坦震荡,变成了更为尖锐的震荡。

在这一过程中,梯度分布的变化也显示出“准稀疏”的特性,即少数参数对梯度的主导作用。简单来说,预训练模型只需微调部分参数,就能有效适应新任务。这一发现为 SIFT 的提出奠定了基础。

二、SIFT 的核心机制

SIFT 方法的核心在于只更新参数的一部分,具体来说,作者们定义了微调参数为预训练参数与增量的和,即 x_{ft} = x_{pt} + \Delta x,其中\Delta x是一个稀疏矩阵。这一方法的优势在于,能够在保持性能的同时,大幅度减少所需更新的参数数量。

在实现过程中,SIFT 采用了一种记忆高效的实现方式,通过后向传播中插入钩子函数,获取稀疏梯度,并对参数进行就地稀疏更新。这意味着,SIFT 不仅在参数更新上高效,更在内存使用上达到了优化。

三、实验验证与结果分析

在一系列实验中,SIFT 在 GLUE 基准测试和指令微调任务中表现出色。以 GLUE 基准为例,SIFT 在多个任务上与全参数微调的方法相比,展现出了相当的性能,同时更新的参数数量却大幅减少。例如,在 RoBERTa-Large 模型上,SIFT 的 0.8M 可训练参数与其他方法的表现相当,充分体现了其参数利用效率。

在指令微调任务中,SIFT 也展现了其强大的适应能力。使用 Llama 模型进行实验,SIFT 在 MMLU 和 HumanEval 基准上同样表现突出,充分说明了其在大规模模型微调中的应用潜力。

四、SIFT 的优势与未来展望

SIFT 的提出,不仅为大语言模型的微调提供了一种新的思路,也为深度学习领域的研究者们提供了新的工具。通过对预训练模型的深入分析,研究者们揭示了其潜在的高效性和适应性,从而使得模型微调不再需要全参数的改动。

未来,SIFT 有望与其他高效微调方法结合,进一步提升大语言模型在下游任务中的表现。同时,在资源受限的环境下,SIFT 的记忆高效性也将使其成为更多应用场景中的首选方法。

总之,稀疏足够,微调不再是奢侈。随着 SIFT 的推广与应用,未来的模型微调将更加高效、灵活,开启新的研究与应用篇章。

参考文献

  1. Weixi Song, Zuchao Li, Lefei Zhang, Hai Zhao, Bo Du. (2024). Sparse is Enough in Fine-tuning Pre-trained Large Language Models. Proceedings of the 41st International Conference on Machine Learning.
  2. McAllester, D. (2003). PAC-Bayesian Generalization Error Bounds.
  3. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
  4. Hu, E. J., et al. (2021). LoRA: Low-Rank Adaptation of Large Pre-trained Models.
  5. Wang, A., et al. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding.

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...