人工智能在非完全信息下的动态博弈

2022-06-18 17:38:34 阅读：172 来源： 互联网

世界围棋冠军李世石败给谷歌公司开发的围棋机器人阿尔法狗，这无疑宣告了人类在完全信息动态博弈领域的完全败北。于是人们的目光自然而然投向了非完全信息动态博弈领域。在非完全信息动态博弈领域，人类是否还有胜机？要回答这个问题，首先必须了解在非完全信息下，人工智能如何动态博弈。

一、完全信息动态博弈和非完全信息动态博弈的区别

完全信息动态博弈，指的是博弈中的信息是完全透明的。经典的棋类游戏，如象棋，国际象棋，围棋，五子棋都是完全信息动态博弈。博弈双方对对手的战略空间和战略组合下的支付函数有完全的了解，也就是说，对手的所有可能的行动都是可以预测的。

与完全信息动态博弈概念相对的非完全信息动态博弈，则意味着人在进行博弈时不清楚博弈中的某些要素，比如扑克牌游戏和麻将中玩家并不清楚其他玩家的手牌。这种信息不透明的产生根本原因在于牌堆的随机性，如果牌堆不随机的，玩家的手牌可以预测，非完全信息动态博弈就不成立了。

而牌堆的随机性很大程度决定了博弈的胜负。举一个夸张的例子，麻将游戏中有着天胡的说法，指的是玩家的初始手牌不需要更换就能满足游戏的胜利条件。由此可见，非完全信息动态博弈可以说是运气游戏的一种，这也让在算力上远不如人工智能的人类看到了胜利的希望，可事实真的是如此吗？

二、非完全信息下，人工智能如何动态博弈

对于完全信息动态博弈，其游戏难度通常用“状态空间复杂度”来衡量。“状态空间复杂度”，指的是棋局进行过程中所有符合规则的状态总数量。例如围棋的状态空间复杂度为10^172，远超其他牌类游戏。

而非完全信息游戏，在状态空间复杂度的基础上引入“信息集”的概念。完全信息游戏中所有信息都是透明的，所以每个信息集只包含一个游戏状态，与状态空间数目相同。在非完全信息游戏中，与不透明的信息的假设对应，每个信息集包含着不同的游戏状态。例如麻将游戏中，平均每个状态空间对应着超过10^48个信息集，这意味着玩家看不到的牌可能有多达10^48个可能。

由于信息集平均大小较大，人工智能并不能直接采用阿尔法狗常用的蒙特卡洛树搜索算法。针对非完全信息游戏的特点，在人工智能自我博弈的训练阶段，透露一些不可见的信息给人工智能，可以使人工智能更加接近完全信息下的最优路径。这种方法的好处是倒逼人工智能更加深入理解可见信息，从而找到有效的决策依据。

三、人类能在非完全信息动态博弈中赢过人工智能吗

由于不可控的运气成分，人类也能在单局非完全信息动态博弈中赢过人工智能。但是随着对局数的增大，胜率受运气的影响会越来越小，向着选手的真实水平收敛。

就信息集平均大小而言，麻将远超其他牌类游戏。但事实上，早就已经有人工智能在麻将领域战胜人类。2019 年 3 月，Suphx 获批进入专业麻将平台“天凤”。短短四个月内，Suphx 在该平台对战 5760 次，成功达到了十段。可以说人类已经在非完全信息动态博弈领域败下阵来。

标签：博弈,游戏,人工智能,完全,信息,动态
来源： https://www.cnblogs.com/weinbery/p/16388782.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

人工智能在非完全信息下的动态博弈

一、完全信息动态博弈和非完全信息动态博弈的区别

二、非完全信息下，人工智能如何动态博弈

三、人类能在非完全信息动态博弈中赢过人工智能吗