突破性技术 LoRA2: 让 AI 大模型更聪明、更高效

在人工智能领域,大语言模型(LLM)已成为自然语言处理的基石。然而,随着模型规模的不断扩大,如何高效地对这些庞然大物进行微调成为一大挑战。最近,来自上海工程技术大学电子电气工程学院的研究团队提出了一种名为 LoRA2 的创新方法,有望彻底改变 AI 大模型的微调范式。

大模型微调的困境与机遇

大语言模型凭借其强大的涌现能力,在各类 NLP 任务中表现出色。但随着模型参数的急剧膨胀 - 例如 PaLM 拥有 5400 亿参数,GPT-4 更是高达 100 万亿参数 - 传统的全参数微调方法在计算资源和时间成本上已变得难以承受。

为应对这一挑战,研究人员提出了各种参数高效微调(PEFT)方法。其中,低秩自适应(LoRA)技术通过学习两个小矩阵的乘积来近似权重增量,大幅降低了可训练参数数量。然而,LoRA 仍存在局限性,如预先指定每个增量矩阵的秩相同。

LoRA2:多尺度正交低秩近似

针对 LoRA 的不足,上海工程技术大学的研究团队提出了 LoRA2 方法。该方法的核心创新在于:

  1. 利用正交投影理论,在两个互相正交的平面上训练一组 LoRA,显著扩大了模型在低秩环境下的可学习空间。
  2. 改进了重要性得分算法,使其适应 LoRA2 的复杂矩阵结构。这一改进将参数敏感度得分的计算量减少了约 98.5%,同时保持性能不降。
  3. 通过基于重要性得分动态分配参数预算,实现了对各种下游任务的适应性。

LoRA2 的前向传播过程如下:

W = W^{(0)} + \Delta = W^{(0)} + P\Lambda Q = W^{(0)} + (uv)\Lambda(UV)

其中,v \in \mathbb{R}^{(d_{in},k)}, u \in \mathbb{R}^{(k,r)}, V \in \mathbb{R}^{(k,d_{out})}U \in \mathbb{R}^{(r,k)}是两组正交 LoRA 矩阵。k是一个用于确定数据投影维度的超参数。\Lambda是一个对角矩阵,初始化为零,而uvUV采用随机高斯初始化,以确保训练开始时\Delta = 0

为增强矩阵的正交性,LoRA2 还引入了正则化项:

R(P, Q) = \|P^TP - I\|_F^2 + \|QQ^T - I\|_F^2
R(U, V) = \|U^TU - I\|_F^2 + \|VV^T - I\|_F^2
R(u, v) = \|u^Tu - I\|_F^2 + \|vv^T - I\|_F^2

这种双重正则化有助于提高矩阵优化的稳定性,并通过最小化 LoRA 之间的重叠来扩大学习空间。

实验验证:性能卓越、参数高效

研究团队在 GLUE 自然语言理解基准测试上对 LoRA2 进行了广泛的实验评估。结果表明,LoRA2 在大多数任务中始终优于基线方法:

  • 在 RTE 任务上,LoRA2 的准确率达到 89.53%,比 AdaLoRA(r=2)高出 2.17%。
  • 平均而言,在 K/R=1 的条件下,LoRA2 在 GLUE 基准测试中分别超过 LoRA 和 SoRA 2.03% 和 1.41%。
  • 当参数量增加到 K/R=8 时,LoRA2 的性能进一步提升,平均超过 LoRA 和 SoRA 1.29% 和 0.31%。

更令人惊叹的是,即使将 LoRA2(k=1)与其他具有(r=8)的基线进行比较,它仍略微优于基线方法。

在 RoBERTa-large 模型上的实验进一步彰显了 LoRA2 的卓越能力。它仅使用 0.4M 参数就达到了与 335M 参数(全参数微调)相当的结果,实现了 99.97% 的压缩率。与 LoRA 相比,LoRA2 在减少 0.37M 参数的同时,性能提升了 2%。

突破性意义:为 AI 大模型开辟新天地

LoRA2 的成功不仅仅是技术上的进步,更代表着 AI 大模型应用的一次重要突破。它为解决大模型微调面临的计算资源瓶颈提供了一种高效可行的方案,有望大幅降低 AI 技术的应用门槛,加速其在各行各业的落地。

具体而言,LoRA2 的重要意义体现在以下几个方面:

  1. 极致的参数效率:相比全参数微调,LoRA2 将可训练参数数量减少到仅 0.72%,同时保持甚至提升了性能。这意味着企业和研究机构可以用更少的计算资源来适应和优化大语言模型,大幅降低应用成本。
  2. 出色的任务适应性:通过动态分配参数预算,LoRA2 展现出对各种下游任务的强大适应能力。这为 AI 模型在不同领域的快速部署和 fine-tuning 铺平了道路。
  3. 计算效率的大幅提升:改进后的重要性得分算法将参数敏感度计算量减少了 98.5%,显著加快了模型训练和优化速度。这不仅节省了时间和能源,也使得在资源受限的环境下进行大模型微调成为可能。
  4. 为大模型研究开辟新方向:LoRA2 的多尺度正交低秩近似方法为探索大语言模型的内部结构和优化机制提供了新的视角,可能激发更多创新性的模型压缩和优化技术。

未来展望:AI 大模型的新纪元

LoRA2 的出现无疑为 AI 大模型的发展注入了新的活力。随着这项技术的进一步完善和应用,我们可以期待:

  1. 更加普及的 AI 应用:降低的计算门槛将使更多中小企业和个人开发者能够利用和定制大语言模型,推动 AI 技术的广泛应用。
  2. 模型效能的持续提升:LoRA2 为大模型优化开辟了新思路,未来可能诞生更多基于多尺度和正交性的创新方法,进一步提升模型性能。
  3. 绿色 AI 的实现:通过极大地提高参数效率,LoRA2 有助于降低 AI 模型的能耗,推动更加环保的 AI 发展方向。
  4. 个性化 AI 服务的普及:高效的任务适应能力使得为不同领域和用户定制 AI 模型变得更加容易,有望催生更多针对特定需求的 AI 解决方案。

总的来说,LoRA2 的突破性进展为 AI 大模型的发展开启了新的篇章。它不仅解决了当前面临的技术挑战,更为 AI 技术的普及应用和持续创新奠定了坚实基础。随着这项技术的不断完善和推广,我们有理由相信,一个更智能、更高效、更普惠的 AI 时代正在加速到来。

【参考文献】

  1. Zhang, J. C., Xiong, Y. J., Qiu, H. X., Zhu, D. H., & Xia, C. M. (2024). LoRA2: Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models. arXiv preprint arXiv:2408.06854.

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...