变革之路：在大语言模型微调中，稀疏足够

在当今人工智能的浪潮中，预训练和微调的模式已成为了大语言模型（LLMs）适应下游任务的主流方法。然而，随着大语言模型参数数量的不断增加，全参数微调的代价变得异常高昂。如何以低成本实现高效适应，成为了一个引人关注的问题。最近，Weixi Song 及其团队提出了一种新的方法——稀疏增量微调（Sparse Increment Fine-Tuning, SIFT），为这一难题提供了新的解法。

一、从理论到实践的探索

在研究中，作者们首先运用了 PAC-贝叶斯泛化误差界限理论，分析了预训练模型微调的原理。通过将预训练视作先验分布的转变，研究表明，这一过程导致了泛化误差界限的收紧。这意味着，预训练模型在下游任务中的表现，往往优于随机初始化的模型。通过对损失地形的观察，研究者发现，预训练模型的损失波动从随机初始化的平坦震荡，变成了更为尖锐的震荡。

在这一过程中，梯度分布的变化也显示出“准稀疏”的特性，即少数参数对梯度的主导作用。简单来说，预训练模型只需微调部分参数，就能有效适应新任务。这一发现为 SIFT 的提出奠定了基础。

二、SIFT 的核心机制

SIFT 方法的核心在于只更新参数的一部分，具体来说，作者们定义了微调参数为预训练参数与增量的和，即 x_{ft} = x_{pt} + \Delta x，其中\Delta x是一个稀疏矩阵。这一方法的优势在于，能够在保持性能的同时，大幅度减少所需更新的参数数量。

在实现过程中，SIFT 采用了一种记忆高效的实现方式，通过后向传播中插入钩子函数，获取稀疏梯度，并对参数进行就地稀疏更新。这意味着，SIFT 不仅在参数更新上高效，更在内存使用上达到了优化。

三、实验验证与结果分析

在一系列实验中，SIFT 在 GLUE 基准测试和指令微调任务中表现出色。以 GLUE 基准为例，SIFT 在多个任务上与全参数微调的方法相比，展现出了相当的性能，同时更新的参数数量却大幅减少。例如，在 RoBERTa-Large 模型上，SIFT 的 0.8M 可训练参数与其他方法的表现相当，充分体现了其参数利用效率。

在指令微调任务中，SIFT 也展现了其强大的适应能力。使用 Llama 模型进行实验，SIFT 在 MMLU 和 HumanEval 基准上同样表现突出，充分说明了其在大规模模型微调中的应用潜力。

四、SIFT 的优势与未来展望

SIFT 的提出，不仅为大语言模型的微调提供了一种新的思路，也为深度学习领域的研究者们提供了新的工具。通过对预训练模型的深入分析，研究者们揭示了其潜在的高效性和适应性，从而使得模型微调不再需要全参数的改动。

未来，SIFT 有望与其他高效微调方法结合，进一步提升大语言模型在下游任务中的表现。同时，在资源受限的环境下，SIFT 的记忆高效性也将使其成为更多应用场景中的首选方法。

总之，稀疏足够，微调不再是奢侈。随着 SIFT 的推广与应用，未来的模型微调将更加高效、灵活，开启新的研究与应用篇章。

参考文献

Weixi Song, Zuchao Li, Lefei Zhang, Hai Zhao, Bo Du. (2024). Sparse is Enough in Fine-tuning Pre-trained Large Language Models. Proceedings of the 41st International Conference on Machine Learning.
McAllester, D. (2003). PAC-Bayesian Generalization Error Bounds.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
Hu, E. J., et al. (2021). LoRA: Low-Rank Adaptation of Large Pre-trained Models.
Wang, A., et al. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding.

变革之路：在大语言模型微调中，稀疏足够

一、从理论到实践的探索

二、SIFT 的核心机制

三、实验验证与结果分析

四、SIFT 的优势与未来展望

参考文献

相关帖子

SiYuan HarmonyOS NEXT 版本 3.1.16 版本打开后立即闪退

v3.1.16 电脑版本启动时间过长

我想咨询一下，思源笔记里面这种分享到社区点错能否撤回？如果已经分享成功了，为什么在社区看不到相关内容？？？

[js][css] 高亮提示当前正在编辑的块、高亮提示超级块范围

话说闪卡没有复习提示的吗？

从 CiteSpace 思考双链知识图谱的可能改进方向

文章尾部动态加载卡退

欢迎来到这里！

变革之路：在大语言模型微调中，稀疏足够

一、从理论到实践的探索

二、SIFT 的核心机制

三、实验验证与结果分析

四、SIFT 的优势与未来展望

参考文献

相关帖子

SiYuan HarmonyOS NEXT 版本 3.1.16 版本打开后立即闪退

v3.1.16 电脑版本启动时间过长

我想咨询一下，思源笔记里面这种分享到社区点错能否撤回？ 如果已经分享成功了，为什么在社区看不到相关内容？？？

[js][css] 高亮提示当前正在编辑的块、高亮提示超级块范围

话说闪卡没有复习提示的吗？

从 CiteSpace 思考双链知识图谱的可能改进方向

文章尾部动态加载卡退

欢迎来到这里！

我想咨询一下，思源笔记里面这种分享到社区点错能否撤回？如果已经分享成功了，为什么在社区看不到相关内容？？？