模型算术: 精准控制语言模型输出的新方法

‍

在人工智能快速发展的今天,大型语言模型(LLMs)正被广泛应用于各种场景。然而,如何精确控制这些模型的输出内容,使其在词汇、风格和角色等方面更加灵活多样,成为了一个亟待解决的问题。来自苏黎世联邦理工学院的研究团队最近提出了一种名为"模型算术"的新方法,为此提供了一个优雅的解决方案。

传统方法的局限性

传统上,控制语言模型输出的方法主要有三种:提示词工程、模型微调和受控文本生成(CTG)。然而,这些方法都存在一些局限性:

为了克服这些局限,研究团队提出了"模型算术"这一全新框架。顾名思义,该方法允许我们像进行数学运算一样,对多个语言模型进行组合和调整。

模型算术的核心思想是将多个语言模型的概率分布通过加权 KL 散度的线性组合进行优化,从而得到一个新的复合模型。这可以用以下优化问题来表示:

\arg \min_P \sum_{i=1}^n D^{[f_i]}_{KL}(P||Q_i|x_{1:k-1})

其中P是我们要得到的新分布,Q_i是输入的概率分布,f_i是权重函数。

基于这一原理,模型算术提供了几种灵活的操作符:

这些操作符使得模型算术能够精确控制生成文本的各种属性,如形式化程度、情感倾向、主题倾向等。

为了解决多模型组合可能带来的计算开销,研究团队还提出了一种广义的投机采样方法。这种方法可以将多个模型的评估推迟到生成投机性的 token 序列之后,从而大大提高推理效率。

研究团队进行了广泛的实验来验证模型算术的有效性。在减少有毒性内容的任务中,模型算术显著优于现有方法,同时保持了更低的困惑度(perplexity)。

在情感控制的任务上,模型算术也展现出了优越的性能。例如,在将负面评论转换为正面评论的任务中,使用公式 M_{pos} - 0.96 \cdot union(M_{neg},M_{pos}) + 0.04C 的模型算术方法在所有测试模型上都取得了最佳效果,不仅情感得分最高,困惑度也保持在较低水平。

此外,实验还表明模型算术能够实现对多种属性的精细控制。研究人员设计了复杂的公式来同时控制多个属性,如简洁性、情感、体育相关性等,结果显示各属性的强度能够随着相应参数的调整而平滑变化。

模型算术为控制大型语言模型的输出提供了一种新的范式。它不仅克服了传统方法的局限性,还提供了更直观、更灵活的控制方式。这一方法有望在各种应用场景中发挥重要作用,如定制化聊天机器人、内容生成系统等。

未来的研究方向可能包括:

模型算术为我们提供了一个强大而灵活的工具,让我们能够更好地驾驭大型语言模型这匹"千里马"。随着这一技术的不断发展和完善,我们有理由期待人工智能生成的内容会变得更加可控、更加个性化、更加符合人类的需求。

参考文献:

Dekoninck, J. et al. (2024). Controlled Text Generation via Language Model Arithmetic. ICLR 2024.
Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.
Yang, K. & Klein, D. (2021). FUDGE: Controlled Text Generation With Future Discriminators. NAACL 2021.
Chen, X. et al. (2023). Accelerating Large Language Model Decoding with Speculative Sampling. ICML 2023.