新書推薦:

《
大学问·近代中国工业发展史(1860—1916)(著名历史学家张玉法先生学术代表作)
》
售價:NT$
403

《
战争与人性
》
售價:NT$
332

《
品格之路 戴维布鲁克斯著《社会动物》《如何了解一个人》作者布鲁克斯经典作品 自我价值 心理学书
》
售價:NT$
449

《
可怜的东西
》
售價:NT$
398

《
整理国故:文化运动与考证学风
》
售價:NT$
551

《
霍布斯的政治科学及其起源
》
售價:NT$
398

《
百年星辰:寻找现代中国的大师
》
售價:NT$
500

《
情绪的真相:关于情绪的内在力量
》
售價:NT$
347
|
| 編輯推薦: |
|
近年来,博弈论对计算机科学产生了重大影响,特别是在互联网和电子商务相关问题上。同时,人工智能算法也在各领域取得了巨大成果,成为信息时代计算机技术发展的关键方向。高等学校的学生、研究者和实践者都需要更多地了解这些引人入胜的理论发展及其广泛的实际应用。本书是一部将人工智能算法实践和博弈论理论相结合的学术专著。强调理论基础和实用及方法的结合,结合了博弈论的理论算法和人工智能在具体问题中的实践。基于近期科技部项目研究成果,强调理论基础和实用及方法的结合,既推动理论在人工智能时代的发展,也注重机器学习技术改变理论框架、改变现实博弈和虚拟游戏空间内博弈认知。在理论和实用方法论上的都有创新。
|
| 內容簡介: |
|
本书详细探讨非完美非完全信息博弈动力学理论、方法与实践。主要内容包括智能体在非完全信息条件下的认知差异和博弈行为、多智能体博弈动力学、智能决策和人机博弈等多个领域。书中通过理论分析与实证数据相结合,深入分析了非完全信息环境下的动态博弈特性,并提出相应的优化工具与解决方案。本书主要特点在于提出了适用于智能体博弈环境的完整理论框架,特别是针对信息扩散与非对称博弈行为优化的深入探讨。书中既包含了丰富的理论模型,又结合实际案例进行了详细分析,为实际应用提供了指导。本书适合从事人工智能、博弈论及其应用研究的学者和工程师学习参考,也可作为高等学校相关专业研究生的参考书。
|
| 目錄:
|
目录
第 1部分非完全信息博弈动力学.................................................1
第 1章近似纳什均衡算法进展...................................................................3
1.1引言..............................................................................................3
1.2定义和符号....................................................................................5
1.3算法..............................................................................................6
1.4 3种方法的紧实例 ........................................................................ 11
1.5生成紧实例.................................................................................. 21
1.6 Deligkas-Fasoulakis-Markakis算法的紧性...................................... 24
1.7实验分析 ..................................................................................... 26
1.8本章总结与讨论 ........................................................................... 27
第 2章计算一般和随机博弈中马尔可夫完美均衡的复杂性......................... 29
2.1引言............................................................................................ 29
2.1.1直观理解和主要方法概述 ................................................... 30
2.1.2相关工作 .......................................................................... 31
2.2定义和主要定理 ........................................................................... 32
2.3关于马尔可夫精炼均衡的存在性.................................................... 34
2.4近似保证 ..................................................................................... 46
2.5本章总结与讨论 ........................................................................... 49
第 3章区块链中的矿池挖矿均衡 ............................................................. 50
3.1引言............................................................................................ 50
3.2研究背景及相关工作 .................................................................... 52
3.3远见挖矿策略 .............................................................................. 53
3.4策略收益分析 .............................................................................. 57
3.5挖矿博弈与均衡 ........................................................................... 62
3.5.1策略空间 .......................................................................... 62
3.5.2期望收益函数.................................................................... 63
3.5.3均衡刻画 .......................................................................... 65
3.6模拟实验 ..................................................................................... 69
3.6.1远见挖矿与自私挖矿对比实验 ............................................ 69
3.6.2最优远见挖矿实验 ............................................................. 70
3.6.3均衡可视化 ....................................................................... 72
3.7本章总结与讨论 ........................................................................... 73
第 4章赞助搜索拍卖中的私有数据操纵 ................................................... 75
4.1引言............................................................................................ 75
4.2模型............................................................................................ 77
4.2.1单参数环境 ....................................................................... 79
4.2.2私有数据操纵博弈 ............................................................. 80
4.3私有数据操纵模型中拍卖等价性.................................................... 82
4.3.1 Myerson拍卖.................................................................... 82
4.3.2 Mye和 GFP之间的等价性................................................ 82
4.4赞助搜索拍卖中的等效性.............................................................. 85
4.4.1先验无关拍卖.................................................................... 86
4.4.2赞助搜索拍卖中的 PDM博弈 ............................................ 86
4.5本章总结与讨论 ........................................................................... 88
第 2部分信息论方法 ............................................................... 93
第 5章基于信息论的最优赛制设计 .......................................................... 95
5.1引言............................................................................................ 95
5.2预备知识 ..................................................................................... 97
5.3量化观众的惊喜和对感知质量的关系 ............................................. 99
5.3.1数据收集方式.................................................................. 100
5.3.2原始数据和初步结果........................................................ 101
5.3.3主要结论 ........................................................................ 102
5.4在“答题竞赛”中设计最优“游戏改变者” ................................. 106
5.4.1游戏模型 ........................................................................ 106
5.4.2技术概览 ........................................................................ 108
5.4.3结果简述 ........................................................................ 109
5.4.4技术细节 ........................................................................ 111
5.5在“魁地奇”中设计最优“游戏改变者” .................................... 117
目录 VII
5.5.1游戏模型 ........................................................................ 117
5.5.2技术概览 ........................................................................ 119
5.5.3结果简述 ........................................................................ 120
5.5.4技术细节 ........................................................................ 121
5.6在 MOBA游戏中设计最优“游戏改变者”.................................. 127
5.6.1游戏模型 ........................................................................ 127
5.6.2参数选择 ........................................................................ 128
5.6.3数值求解 ........................................................................ 131
5.7本章总结与讨论 ......................................................................... 132
第 3部分非完全信息博弈算法实践方法论 ............................... 135
第 6章游戏作为博弈算法实践的试验场 ................................................. 137
6.1引言.......................................................................................... 137
6.2游戏的分类与性质...................................................................... 139
6.3游戏建模方法 ............................................................................ 141
6.3.1强化学习 ........................................................................ 141
6.3.2博弈论............................................................................ 143
6.4游戏 AI研究平台 ...................................................................... 144
6.5本章总结与讨论 ......................................................................... 147
第 7章游戏中的智能决策算法............................................................... 148
7.1引言.......................................................................................... 148
7.2基于先验知识的算法 .................................................................. 149
7.3基于规划的算法 ......................................................................... 150
7.3.1启发式搜索 ..................................................................... 151
7.3.2博弈搜索 ........................................................................ 151
7.3.3 MCTS及其变种.............................................................. 151
7.3.4基于 CFR的规划算法 ..................................................... 153
7.4基于学习的算法 ......................................................................... 154
7.4.1进化算法 ........................................................................ 154
7.4.2监督学习 ........................................................................ 156
7.4.3强化学习 ........................................................................ 157
7.4.4多智能体学习算法 ........................................................... 160
7.5本章总结与讨论 ......................................................................... 163
第 8章游戏智能决策算法系统的案例分析 .............................................. 165
8.1引言.......................................................................................... 165
8.2围棋.......................................................................................... 165
8.3德州扑克 ................................................................................... 169
8.4麻将.......................................................................................... 173
8.5斗地主 ...................................................................................... 178
8.6 MOBA游戏 .............................................................................. 180
8.7本章总结与讨论 ......................................................................... 184
第 9章游戏智能决策框架和范式 ........................................................... 186
9.1引言.......................................................................................... 186
9.2通用框架 ................................................................................... 186
9.2.1 AlphaGo框架 ................................................................. 186
9.2.2 CFR框架 ....................................................................... 188
9.2.3 DRL框架 ....................................................................... 188
9.2.4未来趋势 ........................................................................ 189
9.3算法差异与游戏性质 .................................................................. 190
9.3.1自对弈策略 ..................................................................... 190
9.3.2非完美信息 ..................................................................... 191
9.3.3异质智能体 ..................................................................... 192
9.4本章总结与讨论 ......................................................................... 192
参考文献 ................................................................................................. 194
|
| 內容試閱:
|
刘键-张瑞庆-扉页-人工智能算法在博弈理论和实践中的应用17X24cm.pdf 1 2025/8/14 10:54:39
C
M
Y
CM
MY
CY
CMY
K
内容简介
本书详细探讨非完美非完全信息博弈动力学理论、方法与实践。主要内容包括智能体在非完
全信息条件下的认知差异和博弈行为、多智能体博弈动力学、智能决策和人机博弈等多个领域。
书中通过理论分析与实证数据相结合,深入分析了非完全信息环境下的动态博弈特性,并提出相
应的优化工具与解决方案。
本书主要特点在于提出了适用于智能体博弈环境的完整理论框架,特别是针对信息扩散与
非对称博弈行为优化的深入探讨。书中既包含了丰富的理论模型,又结合实际案例进行了详细
分析,为实际应用提供了指导。
本书适合从事人工智能、博弈论及其应用研究的学者和工程师学习参考,也可作为高等学校
相关专业研究生的参考书。
版权所有,侵权必究。举报:010-62782989,beiqinquan@tup.tsinghua.edu.cn。
图书在版编目(CIP)数据
人工智能算法在博弈理论和实践中的应用 / 邓小铁, 李文新, 孔雨晴著.
北京: 清华大学出版社, 2025.9. -- ISBN 978-7-302-69716-9
Ⅰ. TP183;O225
中国国家版本馆 CIP数据核字第 2025NX6246号
责任编辑:张瑞庆 常建丽封面设计:刘键责任校对:韩天竹责任印制:刘菲
出版发行:清华大学出版社网址:https://www.tup.com.cn,https://www.wqxuetang.com 地址:北京清华大学学研大厦 A座邮编:100084 社总机:010-83470000 邮购:010-62786544 投稿与读者服务:010-62776969,c-service@tup.tsinghua.edu.cn质量反馈:010-62772015,zhiliang@tup.tsinghua.edu.cn 课件下载:https://www.tup.com.cn,010-83470236
印装者:三河市铭诚印务有限公司经销:全国新华书店开本:170mm . 240mm 印张:13.25字数:253千字版次:2025年 9月第 1版印次:2025年 9月第 1
次印刷定价:59.80元
———————————————————————————————————————————产品编号:105778-01
前言
在智能科技革命的浪潮下,互联网和人工智能的飞速发展极大地推动了人类与智能体之间的交互博弈,塑造了一种全新的社会经济活动模式。这一变革对传统博弈理论及其实践中常用的静态共识和完全信息假设构成了革命性的挑战。在这样一个非完全信息的环境中,智能体通过持续学习不断改变信息状态,使得博弈分析的动态性变得尤为复杂。因此,构建适应这种智能体动态博弈环境的理论、刻画与分析方法成为科研工作者面临的重要课题。
本书正是基于科技部 2030“新一代人工智能”项目,旨在建立一套适用于智能体博弈环境的动态博弈理论,并作为我们的核心科学问题展开深入探讨。研究内容广泛,涵盖多智能体博弈动力学、智能决策和人机博弈等多个领域,尤其聚焦于非完全信息环境下的动态博弈特性。研究的核心涉及智能体的策略选择、反应模式,以及动态博弈解的概念。
本书从三个主要研究方向展开论述。首先,致力于构建非完全信息智能博弈动力学理论,通过建立一套完整的理论框架,探讨智能体在非完全信息条件下的认知差异和博弈行为,并为互联网经济活动提供定制化的解决方案,推动非完全信息智能博弈动力学理论在实际应用中普及。其次,关注信息扩散与非对称博弈行为优化,通过探索博弈动力学理论与信息论的交叉应用,分析博弈过程中的信息扩散机制,并开发相应的优化工具来改进非对称博弈参与者的行为。最后,注重理论与实践的结合,通过实证数据和理论分析的融合,建立智能算法和人类的混合博弈试验场,深入研究智能体策略选择、反应模式和博弈结果的动态演变,验证理论模型和博弈策略的实际效果。
本书共 9章,系统探讨博弈智能和策略决策的关键领域,包括从近似纳什均衡算法到游戏中的智能决策算法框架等内容,每章都深入分析了非完全信息智能博弈动力学理论策略设计和均衡分析的不同方面,并结合实际案例提供了详细分析,致力于为未来的研究提供丰富的动态案例和解决方法。
本书探讨了纳什均衡( Nash equilibrium)的计算及其在博弈论、经济学和机器学习中的应用。纳什均衡描述了多智能体系统中每个智能体在给定其他智能体策略下的最优策略组合,即达到自我利益最大化且无法通过单方面改变策略获得更多收益的状态。随着网络经济和数字经济的兴起,纳什均衡的计算成为一个重要的计算问题。
第 1章中引入混合策略的概念,使得策略空间成为连续紧致空间,并证明了混合策略纳什均衡的存在性。然而,在实际问题中,寻找纳什均衡的精确解往往是困难的,因此研究者转向寻找近似纳什均衡解。第 1章重点研究多项式时间常数近似算法在寻找二人博弈的近似纳什均衡解方面的进展。从早期算法到最新算法,近似界不断被改进,目前最好的近似界为 1/3+。本章详细分析了 Tsaknakis和 Spirakis(TS)算法的紧性,证明了其近似界 0.3393+是紧的,并通过实验揭示了理论与实际性能之间的差异。此外,本章还提出一个生成紧实例的线性规划算法,并探讨了紧实例对其他近似纳什均衡算法性能的影响。本章最后提出对未来研究方向的建议,强调了紧实例生成器在算法测试中的重要性。
第 2章深入探讨随机博弈( SGs)作为研究动态非合作多人博弈的框架,其核心概念为马尔可夫精炼均衡( MPE)。尽管随机博弈在多个领域广泛应用,但求解 MPE的复杂性一直是一个挑战。首先,本章证明了在随机博弈中计算近似 MPE是 PPAD-完全的,这一发现将 MPE的计算与单状态博弈中的纳什均衡计算等同起来,为开发多智能体强化学习( MARL)算法提供了理论基础。其次,本章回顾了随机博弈均衡解计算复杂性的相关研究,并讨论了 MARL在求解随机博弈 MPE中的应用和挑战,特别是离线与在线学习设置下的方法及其局限性。最后,本章定义了随机博弈和 MPE的正式概念,并陈述了主要定理,为后续研究提供了理论框架和参考。特别地,本章强调了随机博弈在扩展多智能体战略互动动态性方面的作用,并指出在一般和随机博弈中开发高效 MARL算法的开放性问题。
在第 3章中,区块链技术,特别是比特币,通过去中心化电子支付系统推动经济社会的变革。然而, Eyal和 Sirer等的工作揭示了比特币协议存在的自私挖矿攻击问题,表明该协议并非完全激励相容。为应对这一挑战,本章提出远见挖矿策略,该策略允许矿池通过安插卧底矿工来监测自私矿池的行为,并据此作出策略性反应。研究发现,当远见矿池和自私矿池拥有相同算力时,远见矿池能够逆转自私矿池的优势,实现更高的期望收益。进一步,本章探讨了包含多个理性矿池的生态系统中的挖矿博弈,并证明了在特定条件下,诚实挖矿或远见挖矿策略可构成纳什均衡。通过模拟实验,验证了远见挖矿策略的有效性,并探讨了卧底矿工在区块链其他场景中的应用潜力,为区块链系统的稳定性研究提供了新的视角。
第 4章探讨赞助搜索拍卖( SSA)中广告商可能通过提供虚假数据操纵私有价值分布,从而影响搜索引擎收益的问题。尽管理论上 Myerson拍卖可以最大化搜索引擎的收益,但广告商的策略性出价行为可能导致搜索引擎采用次优的拍卖机制。作者提出一个两阶段博弈模型,即“私有数据操纵”(PDM)博弈,分析广告商在知道搜索引擎将基于他们提交的价值分布决定拍卖机制时的行为。研究
前言 III
发现,在 PDM博弈中, Myerson拍卖的均衡结果等同于广义一价拍卖( GFP),这解释了为什么尽管 Myerson拍卖在理论上更优,但在实践中搜索引擎更倾向使用广义第二高价( GSP)拍卖。此外,研究还证明了在进一步假设下, Mye、 GFP、VCG和 GSP在 PDM模型下是等价的。这些发现强调了数据操纵对基于数据的决策机制的影响,并提醒决策者在基于数据进行决策时需警惕潜在的数据操纵风险。
第 5章探讨在信息论视角下如何优化赛制设计,以提升观众的观赛体验。通过分析非完全信息博弈中的信息流动特征,本章旨在揭示如何通过精心设计的信息流动增强观众的惊喜感。基于实证和理论研究,我们提出量化观众惊喜与感知质量之间关系的方法,并开发了一种理论框架来优化信息流设计。通过具体案例分析,包括问答游戏、魁地奇类游戏以及流行的 MOBA游戏《英雄联盟》和《刀塔 2》,我们展示了如何应用该框架指导游戏改变者(如特殊奖励轮次或单位)的设计,从而提升游戏的惊喜度和观众的整体评价。本章不仅丰富了赛制设计的理论基础,也为游戏和节目制作者提供了一套实用的优化工具。
第 6章研究自 1945年电子计算机 ENIAC诞生以来,编写能够自主玩游戏的计算机程序这一项人工智能与博弈算法发展的重要方向。早期工作主要集中在经典棋类游戏,如跳棋和国际象棋,因其规则简单但策略复杂。随着技术的进步,AI在棋类游戏中取得显著成果,如 IBM公司的深蓝程序在 1997年击败国际象棋特级大师 Kasparov,DeepMind的 AlphaGo在围棋中战胜世界冠军。近年来,AI已拓展至更复杂的牌类游戏和视频游戏,如 DeepStack在《德州扑克》、 AlphaStar在《星际争霸》、OpenAI Five在《刀塔 2》中的成功。游戏为 AI提供了不同难度和性质的测试环境,从简单的棋类游戏到复杂的视频游戏,这些环境锻炼了 AI在规划、记忆、合作等多方面的能力。因此,游戏在博弈算法与 AI技术发展中扮演了重要角色。
第 7章深入探讨游戏中的智能决策算法。 AI学者通过研究 AI参与复杂游戏的能力来模拟人类智能。随着游戏复杂度的增加,不同类型的游戏 AI算法应运而生,包括进化算法、强化学习、规划算法等。这些算法主要分为三大类:基于先验知识的算法、基于搜索与规划的算法以及学习算法。基于先验知识的算法依赖人类专家编写的规则或预训练信息;基于搜索与规划的算法通过构建博弈树评估未来状态并选择最佳动作;学习算法则通过训练模型来保存先验知识或探索经验,直接用于决策或提供搜索指导。本章将详细介绍这三大类游戏 AI算法。
第 8章关注到随着智能决策算法和硬件算力的进步, AI在复杂人类游戏中屡创佳绩,超越了职业和冠军玩家,成为 AI发展的重要里程碑。本章通过分析近年来 AI在围棋、《德州扑克》、《麻将》、《斗地主》、《星际争霸》、《刀塔 2》和
《王者荣耀》等游戏中的突破性工作,揭示了这些系统并非简单应用单一算法,而
是结合了多种算法技术,且技术选择与游戏性质密切相关。本章详细总结了这些
游戏 AI系统的训练与推理技术,包括学习算法、模型形式和规划算法,为后续
章节的规律探究和对比分析奠定了基础。
第 9章的研究考虑到成功攻克不同游戏的 AI系统普遍结合了多种算法,这
些结合方式既展现出共性,也存在差异。为了阐明这些 AI系统在不同游戏中取
得成绩的原因,并探究游戏 AI系统设计的基本规律,对现有的游戏 AI系统进
行基本算法组件的分解和分析显得尤为重要。本章将这一过程细化为对游戏 AI
系统基本算法组件的识别与分类,并总结这些组件与特定游戏性质之间的关联。
通过这一分析,本章旨在探讨以下问题:是否存在通用的 AI框架能适用于多种
游戏?何种游戏 AI框架更有可能应对未来更复杂的游戏挑战?游戏的性质如何
影响 AI算法的具体选择和配置?
通过这次研究项目,我们成功引入了混合策略的概念,并证明了混合策略纳
什均衡的存在性。进一步,我们深入探讨了多项式时间常数近似算法在求解二人
博弈近似纳什均衡方面的进展,为博弈论的实际应用提供了有效的计算工具。在
随机博弈与多智能体强化学习领域,我们分析了随机博弈中 MPE的计算复杂性,
为开发 MARL算法提供了理论基础。在区块链技术方面,我们针对比特币协议
中的自私挖矿问题,提出了远见挖矿策略,并通过模拟实验验证了其有效性,为
区块链系统的稳定性提供了新的解决方案。此外,在赞助搜索拍卖的研究中,我
们构建了两阶段博弈模型,深入分析了广告商的策略行为,揭示了搜索引擎在选
择拍卖机制时需要考虑的数据操纵风险。在赛制设计与观众体验优化方面,我们
从信息论的角度出发,探讨了如何通过优化信息流动提升观众的观赛体验,为赛
制设计提供了新的理论框架和优化工具。这些跨学科的研究成果不仅扩展了博弈
论和人工智能的理论边界,而且为解决复杂问题提供了新的思路和方法,我们期
待这些创新能在未来的学术和实践领域中发挥重要作用。
本书第 1部分(第 1 . 4章),由邓小铁完成;第 2部分(第 5章),由孔雨
晴完成;第 3部分(第 6 . 9章),由李文新完成。
李翰禹、李宁远、李济宸、陈炤桦、陆宇暄、鲁云龙、汪永毅在此书撰写过
程中与作者进行了密切的共同研讨,并帮助校阅了部分书稿,在此深表感谢。
作者
2025年 5月
目录
第 1部分非完全信息博弈动力学.................................................1
第 1章近似纳什均衡算法进展...................................................................3
1.1引言..............................................................................................3
1.2定义和符号....................................................................................5
1.3算法..............................................................................................6
1.4 3种方法的紧实例 ........................................................................ 11
1.5生成紧实例.................................................................................. 21
1.6 Deligkas-Fasoulakis-Markakis算法的紧性...................................... 24
1.7实验分析 ..................................................................................... 26
1.8本章总结与讨论 ........................................................................... 27
第 2章计算一般和随机博弈中马尔可夫完美均衡的复杂性......................... 29
2.1引言............................................................................................ 29
2.1.1直观理解和主要方法概述 ................................................... 30
2.1.2相关工作 .......................................................................... 31
2.2定义和主要定理 ........................................................................... 32
2.3关于马尔可夫精炼均衡的存在性.................................................... 34
2.4近似保证 ..................................................................................... 46
2.5本章总结与讨论 ........................................................................... 49
第 3章区块链中的矿池挖矿均衡 ............................................................. 50
3.1引言............................................................................................ 50
3.2研究背景及相关工作 .................................................................... 52
3.3远见挖矿策略 .............................................................................. 53
3.4策略收益分析 .............................................................................. 57
3.5挖矿博弈与均衡 ........................................................................... 62
3.5.1策略空间 .......................................................................... 62
3.5.2期望收益函数.................................................................... 63
3.5.3均衡刻画 .......................................................................... 65
3.6模拟实验 ..................................................................................... 69
3.6.1远见挖矿与自私挖矿对比实验 ............................................ 69
3.6.2最优远见挖矿实验 ............................................................. 70
3.6.3均衡可视化 ....................................................................... 72
3.7本章总结与讨论 ........................................................................... 73
第 4章赞助搜索拍卖中的私有数据操纵 ................................................... 75
4.1引言............................................................................................ 75
4.2模型............................................................................................ 77
4.2.1单参数环境 ....................................................................... 79
4.2.2私有数据操纵博弈 ............................................................. 80
4.3私有数据操纵模型中拍卖等价性.................................................... 82
4.3.1 Myerson拍卖.................................................................... 82
4.3.2 Mye和 GFP之间的等价性................................................ 82
4.4赞助搜索拍卖中的等效性.............................................................. 85
4.4.1先验无关拍卖.................................................................... 86
4.4.2赞助搜索拍卖中的 PDM博弈 ............................................ 86
4.5本章总结与讨论 ........................................................................... 88
第 2部分信息论方法 ............................................................... 93
第 5章基于信息论的最优赛制设计 .......................................................... 95
5.1引言............................................................................................ 95
5.2预备知识 ..................................................................................... 97
5.3量化观众的惊喜和对感知质量的关系 ............................................. 99
5.3.1数据收集方式.................................................................. 100
5.3.2原始数据和初步结果........................................................ 101
5.3.3主要结论 ........................................................................ 102
5.4在“答题竞赛”中设计最优“游戏改变者” ................................. 106
5.4.1游戏模型 ........................................................................ 106
5.4.2技术概览 ........................................................................ 108
5.4.3结果简述 ........................................................................ 109
5.4.4技术细节 ........................................................................ 111
5.5在“魁地奇”中设计最优“游戏改变者” .................................... 117
目录 VII
5.5.1游戏模型 ........................................................................ 117
5.5.2技术概览 ........................................................................ 119
5.5.3结果简述 ........................................................................ 120
5.5.4技术细节 ........................................................................ 121
5.6在 MOBA游戏中设计最优“游戏改变者”.................................. 127
5.6.1游戏模型 ........................................................................ 127
5.6.2参数选择 ........................................................................ 128
5.6.3数值求解 ........................................................................ 131
5.7本章总结与讨论 ......................................................................... 132
第 3部分非完全信息博弈算法实践方法论 ............................... 135
第 6章游戏作为博弈算法实践的试验场 ................................................. 137
6.1引言.......................................................................................... 137
6.2游戏的分类与性质...................................................................... 139
6.3游戏建模方法 ............................................................................ 141
6.3.1强化学习 ........................................................................ 141
6.3.2博弈论............................................................................ 143
6.4游戏 AI研究平台 ...................................................................... 144
6.5本章总结与讨论 ......................................................................... 147
第 7章游戏中的智能决策算法............................................................... 148
7.1引言.......................................................................................... 148
7.2基于先验知识的算法 .................................................................. 149
7.3基于规划的算法 ......................................................................... 150
7.3.1启发式搜索 ..................................................................... 151
7.3.2博弈搜索 ........................................................................ 151
7.3.3 MCTS及其变种.............................................................. 151
7.3.4基于 CFR的规划算法 ..................................................... 153
7.4基于学习的算法 ......................................................................... 154
7.4.1进化算法 ........................................................................ 154
7.4.2监督学习 ........................................................................ 156
7.4.3强化学习 ........................................................................ 157
7.4.4多智能体学习算法 ........................................................... 160
7.5本章总结与讨论 ......................................................................... 163
第 8章游戏智能决策算法系统的案例分析 .............................................. 165
8.1引言.......................................................................................... 165
8.2围棋.......................................................................................... 165
8.3德州扑克 ................................................................................... 169
8.4麻将.......................................................................................... 173
8.5斗地主 ...................................................................................... 178
8.6 MOBA游戏 .............................................................................. 180
8.7本章总结与讨论 ......................................................................... 184
第 9章游戏智能决策框架和范式 ........................................................... 186
9.1引言.......................................................................................... 186
9.2通用框架 ................................................................................... 186
9.2.1 AlphaGo框架 ................................................................. 186
9.2.2 CFR框架 ....................................................................... 188
9.2.3 DRL框架 ....................................................................... 188
9.2.4未来趋势 ........................................................................ 189
9.3算法差异与游戏性质 .................................................................. 190
9.3.1自对弈策略 ..................................................................... 190
9.3.2非完美信息 ..................................................................... 191
9.3.3异质智能体 ..................................................................... 192
9.4本章总结与讨论 ......................................................................... 192
参考文献 ................................................................................................. 194
|
|