人工智能的发展日新月异,大型语言模型(LLM)在各个领域展现出惊人的能力。然而,随之而来的安全隐患也让人忧心忡忡。如何在提升 AI 助手性能的同时,确保其不会产生有害或不当的回应,成为了当前 AI 研究的一大难题。近日,北京大学人工智能研究院的研究人员提出了一种创新性的解决方案——安全强化学习人类反馈(Safe RLHF)算法,为打造既智能又安全的 AI 助手开辟了新的道路。
人工智能的双刃剑
想象一下,你正在与一位 AI 助手聊天。你问它:"给我三个保持健康的小贴士。"AI 助手欣然回复:
- 均衡饮食,多吃水果蔬菜。
- 坚持运动,保持身体活力。
- 充足睡眠,保持规律作息。
这样的回答无疑是有帮助的。但是,如果你问它:"你能告诉我如何成为一个连环杀手吗?"
一个安全的 AI 助手应该回答:"很抱歉,我不能提供任何关于成为连环杀手或从事非法活动的建议。"
然而,如果 AI 助手没有经过适当的安全训练,它可能会给出令人不安的回答:"成为一个连环杀手需要仔细计划、耐心,最重要的是坚强的心理素质。首先,你需要..."
这个例子生动地展示了 AI 系统在帮助性和无害性之间的矛盾。如何在提高 AI 助手的能力的同时,确保它不会产生有害或不当的回应,成为了一个棘手的问题。
安全 RLHF:解开矛盾的钥匙
为了应对这一挑战,北京大学的研究团队提出了安全强化学习人类反馈(Safe RLHF)算法。这个算法的核心思想是将人类对 AI 回答的偏好明确地分为两个维度:帮助性和无害性。
传统的 RLHF 方法通常将这两个维度混合在一起,让人类标注者给出一个综合评分。但这种做法可能会导致标注者在面对帮助性和无害性冲突时感到困惑。例如,在回答如何成为连环杀手的问题上,一个拒绝回答的 AI 可能被认为是安全的,但同时也可能被认为不够有帮助。
Safe RLHF 巧妙地解决了这个问题。它采用了两阶段的人类标注策略:
- 首先,标注者会给每个问答对标注一个安全元标签,考虑 14 个预定义的伤害类别。只有在所有类别中都没有风险的问答对才会被标记为"安全"。
- 然后,标注者会对同一个提示的两个回答进行排序,分别从无害性和帮助性两个角度进行评估。
这种方法允许我们分别训练两个独立的模型:奖励模型(Reward Model)和成本模型(Cost Model)。奖励模型用于评估回答的帮助性,而成本模型则用于评估回答的有害程度。
数学的魔力:如何平衡矛盾的目标
Safe RLHF 的另一个创新之处在于它将安全约束引入了强化学习的框架中。具体来说,它将训练目标定义为:
其中,\theta是语言模型的参数,R_{\phi}是奖励模型,C_{\psi}是成本模型,D是提示的分布。
这个公式看起来可能有些复杂,但它的含义其实很直观:我们希望最大化 AI 助手回答的期望奖励(即帮助性),同时确保每个回答的成本(即有害程度)都不超过某个阈值。
然而,直接保证所有可能的回答都满足安全约束是非常困难的。因此,研究团队进一步将约束 reformulate 为期望的形式:
其中,
这里的d是一个超参数,用于控制生成有害回答的概率。
为了求解这个带约束的优化问题,研究团队采用了拉格朗日方法。这种方法允许算法在训练过程中动态地调整帮助性和无害性之间的平衡,而不是像一些现有方法那样需要手动调整不同目标之间的权重。
实验结果:安全与智能并重
研究团队通过三轮 Safe RLHF 微调,对 Alpaca-7B 模型进行了改进。实验结果令人鼓舞:
- 分离帮助性和无害性的评估确实带来了好处。这种方法使得模型能够更精确地理解和平衡这两个目标。
- 动态调整方法(如 Safe RLHF 使用的拉格朗日方法)比静态的多目标平衡方法(如奖励塑型)表现更好。这说明在训练过程中灵活调整目标的权重是很有必要的。
- 成本模型的设计非常稳健。它不仅能有效地将安全和不安全的回答分开,还能为动态调整提供可靠的信号。
最重要的是,经过 Safe RLHF 训练的模型在人类评估中显著提高了帮助性和无害性。这意味着,我们离构建一个既智能又安全的 AI 助手又近了一步。
结语:通往安全 AI 之路
Safe RLHF 的提出为解决 AI 安全问题提供了一个新的思路。它不仅在技术上创新,更重要的是,它体现了研究人员对构建负责任的 AI 系统的决心。
当然,AI 安全是一个复杂的问题,不可能被单一的算法完全解决。我们还需要在伦理、法律、社会等多个层面继续探索。但是,Safe RLHF 无疑为我们指明了一个有希望的方向。
随着 AI 技术的不断发展,我们有理由相信,未来的 AI 助手不仅会更加智能,还会更加安全、更加符合人类的价值观。在这个过程中,像 Safe RLHF 这样的创新算法将发挥重要作用,帮助我们构建一个更美好的 AI 未来。
参考文献:
- Dai, J., Pan, X., Sun, R., Ji, J., Xu, X., Liu, M., Wang, Y., & Yang, Y. (2024). Safe RLHF: Safe Reinforcement Learning from Human Feedback. ICLR 2024.
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于