自我博弈:人工智能的“内战”之路

🤖 引言:

强化学习 (RL) 是机器学习中一个重要的范式,它关注通过与环境的交互来优化决策过程。RL 的核心是马尔可夫决策过程 (MDP),一个描述环境状态、动作、转移和奖励的数学框架。在 MDP 中,智能体通过观察状态、根据策略执行动作、接收奖励并转移到下一个状态来与环境交互。RL 算法的目标是找到一个最优策略,最大化智能体在一段时间内获得的预期累积奖励。深度强化学习 (Deep RL) 通过使用深度神经网络作为函数逼近器来扩展传统的 RL。深度学习与 RL 的融合在处理高维状态空间方面发挥了重要作用,并在各种复杂任务中取得了突破。

然而,从单智能体过渡到多智能体强化学习 (MARL) 引入了复杂的动力学。在 MARL 中,智能体之间行动的相互依赖性带来了巨大的挑战,因为环境对每个智能体来说都是非平稳的。MARL 中的主要问题包括协调、通信和均衡选择,特别是在竞争场景中。这些挑战通常导致难以实现收敛、保持稳定和有效地探索解空间。

借助博弈论,一个对多个决策者之间交互进行建模的数学框架,自我博弈应运而生,成为解决 MARL 中一些固有挑战的优雅解决方案。通过解决非平稳性和协调问题,自我博弈提供了一种方法,让智能体与自身的副本或过去版本进行交互。这种方法有望实现更稳定和更易于管理的学习过程。自我博弈的能力扩展到各种场景,包括其在围棋 [8]–[11]、国际象棋 [10]、[11]、扑克 [12]、[13] 和电子游戏 [14]、[15] 中的突出应用。在这些场景中,自我博弈已经开发出超越人类专业水平的策略。尽管自我博弈的应用广泛且前景光明,但它也存在一些局限性,例如可能收敛到次优策略以及巨大的计算需求 [8]、[10]。

虽然一些研究通过经验博弈论分析 (EGTA) [16] 采取了广泛的视角,但值得注意的是,专门关注自我博弈的全面综述相对较少。其中,一些研究探讨了自我博弈的理论安全性 [17],而另一些研究则为自我博弈开发了一个算法框架,但不幸的是,该框架没有包含 Policy-Space Response Oracle (PSRO) 系列算法 [18]。此外,另一项研究专门关注 PSRO [19]。虽然这些不同的研究很有价值,但它们并没有提供一个全面捕捉自我博弈广度和深度的视角。因此,本综述旨在弥合这一差距。

🗺️ 自我博弈:一个统一的框架 🗺️

为了更好地理解自我博弈,我们首先需要一个统一的框架。本综述提出了一个基于现有自我博弈研究 [18]、[42]–[44] 的框架,它具有更高的表达能力和更强的泛化能力。该框架能够处理多同质玩家的通用和博弈。值得注意的是,虽然同质玩家代表了异质玩家的一个特定子集,但通过扩展输入向量的维度,可以将后者重新表述为前者,这实际上意味着嵌入智能体身份信息。此外,由于玩家是同质的,我们假设每个玩家共享相同的策略库。

为了更好地理解这个框架,我们可以将其比作一场“内战”。所有玩家都共享一个策略库,这个库的大小是固定的。在每次迭代中,都会初始化一个新的策略进行训练,并且从现有的策略库中随机抽取对手策略。在迭代过程中,对手策略通常保持不变,而只有被训练的策略会更新。在训练完成后,新的策略会替换策略库中的一个策略。然后,使用一个评估指标来评估更新后的策略库的性能。根据这个性能,调整下一次迭代中抽取对手的策略。这个过程不断重复。

🧠 自我博弈算法:四种主要类别 🧠

基于这个框架,我们可以将现有的自我博弈算法分为四类:传统自我博弈算法、PSRO 系列算法、持续训练系列算法和基于遗憾最小化的系列算法。

1️⃣ 传统自我博弈算法:

传统自我博弈算法涉及智能体通过不断地与自身进行博弈来改进策略,从而能够探索各种策略并提高其决策能力,无需外部输入。这些算法可以从智能体与自身最新版本进行训练开始,帮助识别和利用弱点。此外,其他方法涉及与来自不同迭代的策略集进行训练,使智能体能够开发出健壮且适应性强的策略。

2️⃣ PSRO 系列算法:

PSRO 系列算法与传统自我博弈算法类似,都是从单个策略开始,并通过加入新的预言机来逐渐扩展策略空间。这些预言机是近似于其他智能体当前元策略的最优响应的策略。此外,PSRO 使用 EGTA 来更新元策略分布,从而在策略选择中加入一定程度的探索,以减轻过度拟合的风险。

3️⃣ 持续训练系列算法:

PSRO 系列算法面临着两个主要挑战。首先,在预算有限的情况下,通常需要在每次迭代中截断 ABR 运算符。这会导致将次优训练的响应引入策略库。其次,在每次迭代中重新学习基本技能不仅效率低下,而且在面对越来越强大的对手时变得不可行 [43]。为了解决这些挑战,持续训练系列算法提倡对所有策略进行持续训练。也就是说,所有有效的策略都可能被选中进行训练。

4️⃣ 基于遗憾最小化的系列算法:

另一类自我博弈算法是基于遗憾最小化的。基于遗憾最小化的算法与其他类别的主要区别在于,它们优先考虑随着时间的推移而积累的收益,而不是仅仅关注单个回合。这种方法会导致更激进和更具适应性的策略,这对于避免随着时间的推移而被对手利用至关重要。此外,这些算法要求玩家在多个回合中推断和适应对手的策略。这种情况在重复博弈中很常见,而不是一次性博弈。例如,在德州扑克或狼人杀这样的游戏中,玩家必须使用欺骗、隐瞒和诈唬来争取整体胜利,而不仅仅是赢得单场比赛。值得注意的是,虽然传统的基于遗憾最小化的自我博弈通常不使用 RL,但许多后续的研究工作将遗憾最小化与 RL 相结合,以实现强大的性能。

📊 自我博弈的应用:从棋盘游戏到电子游戏 📊

自我博弈已经成功应用于各种领域,包括棋盘游戏、纸牌游戏和电子游戏。

1️⃣ 棋盘游戏:

棋盘游戏,其中大多数是完美信息博弈,曾经被两种关键技术的引入所改变:位置评估和蒙特卡洛树搜索 (MCTS) [94]、[95]。这些方法在经过少量修改后,在解决国际象棋 [96]、跳棋 [97]、黑白棋 [98]、西洋双陆棋 [99] 和拼字游戏 [100] 等棋盘游戏方面表现出超人的有效性。

相比之下,将这些技术应用于围棋,其估计有 2.1 × 10170 种合法棋盘配置,只能实现业余水平的性能 [101]–[105]。鉴于此,我们的讨论将专门关注围棋,以说明自我博弈的应用。除了围棋,我们还将扩展我们的探索,包括策略游戏,这是一个以不完美信息为特征的棋盘游戏,与大多数基于完美信息的棋盘游戏形成对比。

2️⃣ 纸牌游戏和麻将:

纸牌游戏和麻将通常涉及不完美信息,为人工智能带来了独特的挑战。

3️⃣ 电子游戏:

与传统的棋盘游戏和纸牌游戏相比,电子游戏通常具有实时动作、较长的时域以及更高的复杂性,因为它们具有更广泛的可能动作和观察范围。

🤔 自我博弈的挑战与未来方向 🤔

尽管自我博弈方法因其独特的迭代学习过程和适应复杂环境的能力而展现出优越的性能,但仍有一些领域需要进一步研究和发展。

1️⃣ 理论基础:

虽然已经证明在有限玩家和有限动作的博弈中存在纳什均衡 [145],但在更大的博弈中计算纳什均衡仍然具有挑战性,因此许多研究旨在实现近似纳什均衡 [146]。然而,在某些情况下,即使是计算近似纳什均衡也很困难 [65]。一些研究已经转向更高层次的均衡,例如相关均衡 [47] 和 α 秩 [46]。

2️⃣ 环境的非平稳性:

随着训练的进行,对手玩家的策略会发生变化,而对手是自我博弈框架中环境的一个重要因素。这种变化会导致相同的策略随着时间的推移而产生不同的结果,从而创建一个非平稳的环境。这个问题也是 MARL 领域所共有的。未来的研究应该旨在开发更健壮的算法,能够适应不断变化的条件。例如,将对手建模纳入自我博弈 [121] 可以帮助智能体预测对手策略的变化并主动调整自己的策略,使其对环境变化更加稳健。

3️⃣ 可扩展性和训练效率:

随着团队数量和团队中玩家数量的增加,自我博弈方法的可扩展性面临着巨大的挑战。随着参与者数量的增加,交互的复杂性呈爆炸式增长。例如,在 OpenAI Five [14] 中,英雄池的大小仅限于 17 个英雄。MOBA AI [135] 在课程学习的帮助下将英雄池扩展到 40 个英雄,但它仍然无法涵盖实际游戏中可用的所有英雄池。一个可能的解决方案是利用玩家之间固有的联系来优化学习过程。例如,使用基于图的模型来表示和利用玩家之间的关系可以帮助管理和降低大规模多智能体环境的复杂性。

4️⃣ 与大型语言模型的结合:

大型语言模型 (LLM) 以其非凡的能力和新兴的泛化能力而闻名,被认为是实现人类水平智能的潜在基础 [148]。自我博弈方法已被提议用于微调 LLM、增强 LLM 的推理性能以及构建具有强大决策能力的基于 LLM 的智能体。

5️⃣ 现实应用:

自我博弈是一种强大的技术,在各种领域都有广泛的应用。它在解决从现实世界情况中抽象出来的某些问题方面特别有效,因为它采用了迭代学习方法。例如,在经济学领域,自我博弈被用于增强多议题谈判任务中的监督学习模型 [157]。此外,自我博弈在解决组合优化问题 (COP) 方面也证明了其优势,例如旅行商问题 (TSP) 和容量车辆路径问题 (CVRP) [158]。在交通领域,自我博弈有助于开发类似于人类的自动驾驶行为 [159],并使车辆能够学习协商策略以在道路上合并或驶离 [160],尽管目前仍在二维模拟器中进行。

总结:

自我博弈是现代 RL 研究的基石,为开发先进的 AI 系统提供了深刻的见解和工具。本综述为研究人员和从业人员提供了宝贵的指南,为这一充满活力和不断发展的领域取得进一步进展铺平了道路。

参考文献:

[1] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, 2nd ed. Cambridge, MA: MIT Press, 2018.
[2] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski et al., “Human-level control through deep reinforcement learning,” Nature, vol. 518, no. 7540, pp. 529–533, 2015.
[3] M. J. Mataric, “Behavior-based robotics,” Adaptive Behavior, vol. 4, no. 1, pp. 7–20, 1996.
[4] J. R. Doyle, “Rationality and its roles in reasoning,” Computational Intelligence, vol. 8, no. 1, pp. 1–15, 1992.
[5] M. Wooldridge, An Introduction to MultiAgent Systems. Chichester, UK: John Wiley & Sons, 2009.
[6] D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton et al., “Mastering the game of Go without human knowledge,” Nature, vol. 550, no. 7676, pp. 354–359, 2017.
[7] S. J. Russell and P. Norvig, Artificial Intelligence: A Modern Approach, 3rd ed. Upper Saddle River, NJ: Pearson Education, 2010.
[8] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, D. Antonoglou, V. Panneershelvam, M. Lanctot et al., “Mastering the game of Go with deep neural networks and tree search,” Nature, vol. 529, no. 7587, pp. 484–489, 2016.
[9] D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton et al., “Mastering the game of Go without human knowledge,” Nature, vol. 550, no. 7676, pp. 354–359, 2017.
[10] T. Hubert, A. Huang, T. H. S. van den Driessche, J. Schrittwieser, S. P. Singh, K. Simonyan, D. Silver, and D. Hassabis, “Mastering chess and shogi by self-play with a general reinforcement learning algorithm,” Science, vol. 362, no. 6419, pp. 1140–1144, 2018.
[11] T. Schrittwieser, I. Antonoglou, T. Hubert, K. Simonyan, D. Silver, and D. Hassabis, “Mastering Atari, Go, chess and shogi by planning with a learned model,” Nature, vol. 588, no. 7839, pp. 604–609, 2020.
[12] M. Bowling, N. Zinkevich, M. Johanson, and O. L. V. de Jong, “Exploiting imperfect information in texas hold’em poker,” in Proceedings of the 18th ACM Conference on Information and Knowledge Management, 2009, pp. 1519–1522.
[13] D. S. Brown, “Fictitious play in games with incomplete information,” in Proceedings of the 2nd International Conference on Artificial Intelligence, 1971, pp. 289–299.
[14] O. OpenAI, “OpenAI Five,” https://openai.com/blog/openai-five/, 2018.
[15] O. Vinyals, I. Babuschkin, W. M. Czarnecki, M. Mathieu, A. Dudzik, J. Chung, D. Horgan, M. Reimann, T. Leblond, C. Beattie et al., “Grandmaster level in starcraft ii using multi-agent reinforcement learning,” Nature, vol. 575, no. 7782, pp. 350–354, 2019.
[16] M. Zinkevich, M. Bowling, M. Johanson, and C. Piccione, “Regret minimization in games with incomplete information,” in Proceedings of the 21st National Conference on Artificial Intelligence, 2006, pp. 1277–1282.
[17] T. Sandholm, “The state of solving large imperfect-information games,” in Proceedings of the 20th International Joint Conference on Artificial Intelligence, 2007, pp. 1–7.
[18] J. Heinrich, M. Lanctot, T. L. M. van den Driessche, and D. Silver, “Deep reinforcement learning from self-play in imperfect-information games,” in Proceedings of the 33rd International Conference on Machine Learning, 2016, pp. 1667–1676.
[19] M. Lanctot, V. Zambaldi, A. Guez, T. L. M. van den Driessche, S. P. Singh, and D. Silver, “A unified game-theoretic approach to multiagent reinforcement learning,” in Proceedings of the 31st AAAI Conference on Artificial Intelligence, 2017, pp. 3727–3734.

  • 待分类

    用户发帖时如果不填标签,则默认加上“待分类”。这样做是为了减少用户发帖的负担,同时也减少运营维护的工作量。具有帖子更新权限的用户可以帮助社区进行帖子整理,让大家可以更方便地找到所需内容。这里是关于这样设计的一些思考,欢迎讨论。

    5 引用 • -276 回帖 • 4 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 4 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 465 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖
  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    230 引用 • 1454 回帖
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 23 关注
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    8 引用 • 26 回帖 • 2 关注
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    98 引用 • 344 回帖
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    180 引用 • 400 回帖 • 1 关注
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    675 引用 • 535 回帖
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 160 关注
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 203 关注
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    110 引用 • 54 回帖 • 3 关注
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    14 引用 • 7 回帖 • 4 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 444 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 267 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    116 引用 • 99 回帖 • 247 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3170 引用 • 8209 回帖
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 624 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    22 引用 • 70 回帖
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 147 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 706 关注
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    5 引用 • 13 回帖 • 3 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 206 关注
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 113 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 329 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖 • 1 关注