没等来 Q\* 等来了 Agent Q：具有规划和自我修复能力的 AI Agents

大型语言模型（LLM）在需要复杂推理的自然语言任务中展现出惊人能力，但要将它们应用于交互环境中的多步推理，仍然是一个巨大的挑战。 尽管诸如 ChatGPT、Gemini 和 LLaMA-3 等前沿模型展现出接近人类水平的推理能力，但它们在动态环境中进行复杂决策的能力，例如网页导航，仍有待提高。

传统的监督式预训练方法在静态数据集上进行训练，无法满足自主代理在动态环境中进行复杂决策的需求。 为了弥补这一差距，一些研究尝试在人工标注的专家演示数据上进行监督式微调，但这往往会导致错误累积和探索数据有限，从而导致策略结果不理想。

让我们来打个比方吧！

假设你是一名侦探，接到一个任务：要在迷宫一样的购物中心里找到一个特定的玩具店。

以前的 AI 侦探呢，就像是被训练过但不太聪明的狗狗。 你可以教它一些基本指令，比如“直走”，“左转”，“看到玩具就停下”。但如果玩具店藏得很深，路线复杂，狗狗就很容易迷路，找不到地方。

而 Agent Q 就像是一个不断学习和改进的侦探小孩！ 他一开始也像狗狗一样，只有一些基础的推理能力。但他有三个秘密武器：

地图搜索（MCTS）： 就好像这个小孩手里有一张购物中心的地图，他可以用它来规划路线，尝试不同的路径，看看哪条路能最快找到玩具店。
自我反思： 小孩在走的过程中，会不断思考“这条路对吗？”，“我是不是走错了？”。他会根据自己的判断，以及地图上的信息，来调整路线，避免走冤枉路。
经验学习（DPO）： 每次走完迷宫，小孩都会记住哪些路线是正确的，哪些是错误的。下次再找玩具店的时候，他就会选择走那些成功率更高的路线，并且不断优化自己的策略。

最终，Agent Q 就会成为一个非常厉害的“寻宝专家”，能够快速、准确地在各种复杂的“迷宫”中找到目标！

怎么样，现在是不是更容易理解了呢？😊

Agent Q：融合搜索、自我反思和强化学习

为了克服这些挑战，本文作者提出了 Agent Q，这是一种将引导式蒙特卡洛树搜索（MCTS）与自我反思机制和迭代式微调相结合的新方法，使用的是直接偏好优化（DPO）算法的离线策略变体。

Agent Q 的核心思想是让 LLM 代理从成功和失败的轨迹中学习，从而提高其在复杂、多步推理任务中的泛化能力。

1. 引导式蒙特卡洛树搜索

Agent Q 利用 MCTS 在网页上进行搜索，以指导代理的探索。鉴于环境的复杂性，它使用基础 LLM 来采样可能的推理路径和网页操作。 虽然这种简单的搜索策略在成功率方面有显著提高，但由于环境奖励的稀疏性，它在长期任务中仍然面临挑战。

2. 自我反思机制

为了克服这个问题，Agent Q 使用 AI 反馈和自我批评来进一步提示 LLM 在每个节点提供自我评估反馈，这些反馈作为中间奖励，有助于指导搜索步骤。

3. 强化学习和 DPO 算法

为了进一步提高代理的能力，Agent Q 使用搜索过程生成的轨迹，通过离线强化学习从成功和失败的轨迹中学习，利用的是直接偏好优化（DPO）算法。 它在节点级别上创建对不同分支的偏好，并使用 AI 过程反馈奖励和已探索分支的最终成功率的混合来对这些偏好进行评分。

模拟和真实环境中的测试结果

研究人员在模拟电子商务平台 WebShop 和真实世界的餐厅预订网站 OpenTable 上对 Agent Q 进行了评估。

1. WebShop 环境

在 WebShop 环境中，Agent Q 始终优于行为克隆和强化学习微调的基线模型，并且在具备在线搜索能力时，其性能超过了普通人类。

2. OpenTable 环境

在 OpenTable 预订餐厅任务中，Agent Q 在仅经过一天的自主数据收集后，就将 LLaMA-3 70B 模型的零样本成功率从 18.6% 提高到 81.7%（相对提高了 340%）。 当为 Agent Q 配备在线搜索能力时，其成功率进一步提高到 95.4%。

Agent Q 的意义和未来展望

研究人员认为，Agent Q 通过其搜索和自我反思能力，代表了自主网络代理发展的重要一步，为在交互环境中进行可靠的多步决策设定了新的基准。

当然，Agent Q 的研究仍处于早期阶段，未来还有许多值得探索的方向，例如：

设计更强大的推理算法，以提高代理的探索和搜索策略。
探索更优的搜索算法，以减少代理在真实环境中进行搜索时的风险。
研究如何弥合零样本性能与搜索结果之间的差距，以提高代理在不同环境下的泛化能力。
解决在线安全和交互问题，以确保代理在执行任务时的安全性。

Agent Q 的提出为构建更加智能、自主的 AI 代理开辟了新的道路，并为解决当前 LLM 在实际应用中面临的挑战提供了新的思路。

没等来 Q\* 等来了 Agent Q：具有规划和自我修复能力的 AI Agents

Agent Q：融合搜索、自我反思和强化学习

1. 引导式蒙特卡洛树搜索

2. 自我反思机制

3. 强化学习和 DPO 算法

模拟和真实环境中的测试结果

1. WebShop 环境

2. OpenTable 环境

Agent Q 的意义和未来展望

相关帖子

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

添加标签出现问题

高亮后再高亮内容错位

导出的 PDF 中公式块与其他块间隔太大

提供同步到本地文件系统有什么意义，使用场景是什么？

我也遇到同步报错 “unexpected end of JSON input”了，导出了日志，大佬帮忙看看呢

欢迎来到这里！