没等来 Q\* 等来了 Agent Q:具有规划和自我修复能力的 AI Agents

大型语言模型(LLM)在需要复杂推理的自然语言任务中展现出惊人能力,但要将它们应用于交互环境中的多步推理,仍然是一个巨大的挑战。 尽管诸如 ChatGPT、Gemini 和 LLaMA-3 等前沿模型展现出接近人类水平的推理能力,但它们在动态环境中进行复杂决策的能力,例如网页导航,仍有待提高。

传统的监督式预训练方法在静态数据集上进行训练,无法满足自主代理在动态环境中进行复杂决策的需求。 为了弥补这一差距,一些研究尝试在人工标注的专家演示数据上进行监督式微调,但这往往会导致错误累积和探索数据有限,从而导致策略结果不理想。

Agent Q:融合搜索、自我反思和强化学习

为了克服这些挑战,本文作者提出了 Agent Q,这是一种将引导式蒙特卡洛树搜索(MCTS)与自我反思机制和迭代式微调相结合的新方法,使用的是直接偏好优化(DPO)算法的离线策略变体。

Agent Q 的核心思想是让 LLM 代理从成功和失败的轨迹中学习,从而提高其在复杂、多步推理任务中的泛化能力。

1. 引导式蒙特卡洛树搜索

Agent Q 利用 MCTS 在网页上进行搜索,以指导代理的探索。鉴于环境的复杂性,它使用基础 LLM 来采样可能的推理路径和网页操作。 虽然这种简单的搜索策略在成功率方面有显著提高,但由于环境奖励的稀疏性,它在长期任务中仍然面临挑战。

2. 自我反思机制

为了克服这个问题,Agent Q 使用 AI 反馈和自我批评来进一步提示 LLM 在每个节点提供自我评估反馈,这些反馈作为中间奖励,有助于指导搜索步骤。

3. 强化学习和 DPO 算法

为了进一步提高代理的能力,Agent Q 使用搜索过程生成的轨迹,通过离线强化学习从成功和失败的轨迹中学习,利用的是直接偏好优化(DPO)算法。 它在节点级别上创建对不同分支的偏好,并使用 AI 过程反馈奖励和已探索分支的最终成功率的混合来对这些偏好进行评分。

模拟和真实环境中的测试结果

研究人员在模拟电子商务平台 WebShop 和真实世界的餐厅预订网站 OpenTable 上对 Agent Q 进行了评估。

1. WebShop 环境

在 WebShop 环境中,Agent Q 始终优于行为克隆和强化学习微调的基线模型,并且在具备在线搜索能力时,其性能超过了普通人类。

2. OpenTable 环境

在 OpenTable 预订餐厅任务中,Agent Q 在仅经过一天的自主数据收集后,就将 LLaMA-3 70B 模型的零样本成功率从 18.6% 提高到 81.7%(相对提高了 340%)。 当为 Agent Q 配备在线搜索能力时,其成功率进一步提高到 95.4%。

Agent Q 的意义和未来展望

研究人员认为,Agent Q 通过其搜索和自我反思能力,代表了自主网络代理发展的重要一步,为在交互环境中进行可靠的多步决策设定了新的基准。

当然,Agent Q 的研究仍处于早期阶段,未来还有许多值得探索的方向,例如:

  • 设计更强大的推理算法,以提高代理的探索和搜索策略。
  • 探索更优的搜索算法,以减少代理在真实环境中进行搜索时的风险。
  • 研究如何弥合零样本性能与搜索结果之间的差距,以提高代理在不同环境下的泛化能力。
  • 解决在线安全和交互问题,以确保代理在执行任务时的安全性。

Agent Q 的提出为构建更加智能、自主的 AI 代理开辟了新的道路,并为解决当前 LLM 在实际应用中面临的挑战提供了新的思路。

  • 待分类

    用户发帖时如果不填标签,则默认加上“待分类”。这样做是为了减少用户发帖的负担,同时也减少运营维护的工作量。具有帖子更新权限的用户可以帮助社区进行帖子整理,让大家可以更方便地找到所需内容。这里是关于这样设计的一些思考,欢迎讨论。

    2 引用 • -270 回帖 • 4 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...