博弈论读书笔记2024年_知识

博弈论（Game Theory），也称对策论或竞赛论 。是指研究多个个体或团队之间在特定条件制约下在对局中利用相关方的策略，而实施对应策略的学科。它是应用数学的一个分支，既是现代数学的一个新分支，也是运筹学的一个重要学科。目前在生物学、经济学、国际关系学、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

具有竞争或对抗性质的行为成为博弈行为。在这类行为中，参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋，打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案，以及如何找到这个合理的行为方案的数学理论和方法。

1）根据参与者之间是否具有一个具有约束力的协议，博弈可分为合作博弈和非合作博弈。

有：合作博弈（合作中如何分配利益问题，使协议框架内所有参与者都满意）。

没有：非合作博弈（如何争取自己最大化利益，不考虑其它参与者利益）。

2）根据参与者选择的策略，做出决定的先后顺序，博弈可分为静态博弈和动态博弈。

静态博弈：参与人同时选择策略或者虽非同时选择，但后做出决策的行动者并不知道先行动者采取了什么策略。

动态博弈：参与人的行动有先后顺序，且后行动者能够观察到先行动者采取策略的前提下制定自己的策略。

3）根据对其它参与者的信息掌握程度，博弈可分为完全信息博弈和不完全信息博弈 。

完全信息博弈：每一位参与人对其他参与人的特征、策略空间及收益函数(也叫支付)有准确的信息。

不完全信息博弈：每一位参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息。

一场博弈包含4个基本要素：

1至少两人参加

2参与者间的利益（博弈的目的）

3策略（行动方案）

4信息（制定策略的依据）

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。若二人都互相检举举，则二人同样判监8年。

博弈分析：

囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作要高，总体利益较合作低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

假设猪圈里有两头猪，一头大猪，一头小猪。猪圈很长，一头有一踏板，另一头是饲料的出口和食槽。猪每踩一下踏板，另一边就会有相当于10份的猪食进槽，但是踩踏板以后跑到食槽所需要付出的“劳动”，加起来要消耗相当于2份的猪食。踏板和食槽分置笼子的两端，如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。

博弈分析：

如果两只猪同时踩踏板，同时跑向食槽，大猪吃进7份，得益5份，小猪吃进3份，实得1份；如果大猪踩踏板后跑向食槽，这时小猪抢先，吃进4份，实得4份，大猪吃进6份，付出2份，得益4份；如果大猪等待，小猪踩踏板，大猪先吃，吃进9份，得益9份，小猪吃进1份，但是付出了2份，实得-1份；如果双方都懒得动，所得都是0。

利益分配格局决定两头猪的理性选择：小猪踩踏板只能吃到一份，不踩踏板反而能吃上4份。对小猪而言，无论大猪是否踩动踏板，小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边，这是最好的选择。

启发：

(商战)大企业与小企业：小企业（小猪）将行业老大（大猪）的实力转化为自己的助力。

(股市)大户与散户：大户设局形成猪圈，引小户（小猪）入套。

(奖惩)企业与员工：杜绝智猪博弈（搭便车现象）,（移动食物槽位并减少食物投放）。

(董事会)大股东与小股东：大股东为企业的盈利亏损负责，小股东不负责监管直接拿分红。

总结：

无论是商业中的"抱大腿"，还是人生奋斗历程中的搭"搭便车"都是一种策略，一次机会。只要我们以一种平实的心态就能以这种快捷的方式获得成功。

源自启蒙思想家卢梭的著作《论人类不平等的起源和基础》

古代的村庄有两个猎人。当地的猎物主要有两种：鹿和兔子。如果一个猎人单兵优作战，一天最多只能打到4只兔子。只有两个一起去才能猎获一只鹿。从填饱肚子的角度来说，4只兔子能保证一个人4天不挨饿，而一只鹿却能让两个人吃上10天。

博弈分析：

两个人的行为决策可以形成两个博弈结局：分别打兔子，每人得4；合作，每人得10。这样猎鹿博弈有两个纳什均衡点，那就是：要么分别打兔子，每人吃饱4天；要么合作，每人吃饱10天。

猎鹿博弈反应的是：合作带来的最大利益。

该模型可以简单概括为：实力越强死得越快。最能体现这个博弈的：赤壁之战。

甲乙丙三个枪手准备决斗。甲枪法最好，80%命中率。乙枪法次之，60%命中率。丙枪法最差，40%命中率。假设他们了解彼此实力，也能做出理性判断。问题一：如果三人同时开枪，并且每人只发一枪。第一轮枪战后，谁活下来的机会大？问题二：如果三人轮流开枪，并且由枪法最差的丙先开枪，他该怎么做？

博弈分析：

问题一：同时开枪

甲的最佳策略：先瞄准乙。因为乙对甲的威胁要比丙大，所以应该首先干掉乙，再干掉丙小菜一碟。

乙的最佳策略：先瞄准甲。一旦将甲干掉了，和丙进行对决，乙胜算的概率要大得多。

丙的最佳策略：也是先瞄准甲。毕竟对丙来说，乙的威胁还是比甲要小一些，先努力干掉甲再想如何面对乙，这是丙的正常思路。

在这种情况下，我们计算一下三个枪手开枪后各自存活的概率：

甲存活概率：40％X60％=24％。

乙存货概率：20%

丙存货概率：100%

问题二：轮流开枪

甲先开枪：必定把枪口对准乙，

乙先开枪：和第一种情况一致，丙的存活率依然最高。

丙先开枪：根据情况适当调整策略，随便开一空抢，接下来由甲开枪，甲会对乙开枪，丙的存活率仍然最高。向甲开枪时一种冒险的行为，因为万一杀死了甲，乙就会向丙开枪，此时丙的存活率为40%。

在现实中，会有信息不对称的情况。比如如果枪手甲伪装自己，让乙和丙认为他的枪法最差：这时，幸存者是甲的概率就会大幅上升。在现实中， 能力很强的人要学会韬光养晦 ，往往能成为最后的胜利者。能力差的人在竞争中耍弄手腕能赢一时，但往往不能最终成事；提升自己实力会在最后的对决中起到关键作用。无论是一次性博弈还是相继出招的序惯博弈，博弈者都要努力寻找自己最有力的策略。

如果自身没有优势策略，那就站在对方的角度上进行分析，确定对方的最优策略。得到的最终结果都不会超过最优势策略得到的结果，可大胆放心使用。

如果身处复杂的博弈当中，一时间无法确定自己的最佳策略，就先选择把自己的劣势策略排除,来简化博弈情况。

在一个小镇上，只有一名警察负责巡逻，保卫小镇的人生和财产安全。小镇分A，B两区，A区一酒馆，B区一仓库，镇上还仅住着一名小偷，他的目标时A区酒馆或者B区仓库。因为只有一名警察，每次只能选择A区或B区一个区域区巡逻，而小偷正是看到这一点，每次也到一个区域区偷窃。假设A区有2万元财产，B区有1万元财产。警察区A区巡逻，小偷去B区，则B区1万元财产归小偷；如果警察去B区巡逻，小偷也去A区，则被逮捕。警察去B区巡逻，小偷去A区，则2A区2万元财产归小偷，；如果警察去B区巡逻，小偷也去B区，则同样被逮捕。那警察采取那种方式巡逻，镇上的财产损失最少？

分析：

警察抽签的方式（2个A区签，1个B区签），去A区巡逻的概率2/3，去B去巡逻的概率1/3。

小偷抽签的方式（2个A区签，1个B区签），抽到A区签去B区巡逻，抽到B区签去A区巡逻。

试想有两只好斗的公鸡狭路相逢，每只鸡有两个行动选择：一是退下来，一是进攻。如果一方退下来，而对方没有退下来，对方获得胜利；如果对方也退下来，双方则打个平手；如果自己没退下来，而对方退下来，自己则胜利，对方则失败；如果两只鸡都前进，那么则两败俱伤。因此，对两只鸡来说，最好的结果是，对方退下来，而自己不退。

这个博弈有两个纯策略纳什均衡：一方前进，另一方后退；或一方后退，另一方前进。但关键是谁进谁退？当然，该博弈也存在一个混合策略均衡，即大家随机的选择前进或后退。不过相对而言，我们更关注于纯策略均衡。一博弈，如果有惟一的纳什均衡点，那么这个博弈是可预测的，即这个纳什均衡点就是事先知道的惟一的博弈结果。但是如果一博弈有多个纳什均衡，则要预测结果就必须附加另外的有关博弈的细节信息。比如，这里谁进谁退，可能就需要附加额外的细节信息才能做出判断。

斗鸡博弈强调的是，如何在博弈中采用妥协的方式取得利益。如果双方都换位思考，它们可以就补偿进行谈判，最后造成以补偿换退让的协议，问题就解决了。博弈中经常有妥协，双方能换位思考就可以较容易地达成协议。考虑自己得到多少补偿才愿意退，并用自己的想法来理解对方。只从自己立场出发考虑问题，不愿退，又不想给对方一定的补偿，僵局就难以打破。

协和谬误即某件事情在投入了一定成本、进行到一定程度而后发现不宜继续下去，却苦于各种原因而将错就错，欲罢不能。

当你进行了一项不理性的行动后，应该忘记已经发生的行为和你支付的成本，只要考虑这项活动之后需要耗费的精力和能够带来的好处，再综合评定它能否给自己带来正效用。比如进行投资时，把目光投向前方，审时度势，如果发现这项投资并不能赢利，应该及早停掉，不要惋惜已投下去的各项成本：精力、时间、金钱……

5个海盗抢得100枚金币，他们按抽签的顺序依次提方案：首先由1号提出分配方案，然后5人表决，超过半数同意方案才被通过，否则他将被扔入大海喂鲨鱼，依此类推。这是一个高度简化和抽象的模型，体现了博弈的思想。假定“每人海盗都是绝顶聪明且很理智”，那么“第一个海盗提出怎样的分配方案才能够使自己的收益最大化？”

博弈分析：

推理过程采用倒推的方式：

从后向前推，在只剩4号和5号的话，4号的方案一定是100，0，此时即使5号反对结果也无法反对。

在只剩3号4号和5号的话，根据5号之前的处境，3号会提出99，0，1的方案，该方案3号一定同意，4号肯定不同意，但5号一定回头赞成票。如果5号投了反对票，就会回到只剩4号和5号的情况。

在2号3号4号和5号共存的情况下，2号最好的分配方案是98，0，0，2，既笼络5号，放弃3号4号，2号和5号投赞成票，3号4号投反对票，方案半数人同意而通过。

那1至5号都在的情况下，假如1号海盗被扔进大海，由2号海盗来分配方案的话，3号和4号海盗什么也得不到，因此1号海盗的分配方案就会从处于劣势的3号和4号海盗入手，最优方案是98，0，1，1，0，这样1号3号4号投赞成票，2和5号投反对票，方案通过。

模型任意改变一个假设条件，最终结果都会不一样。

海盗分金是一个高度简化和抽象的模型，体现了博弈的思想。在“海盗分金”模型中，任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么，并用最小的代价获取最大收益，拉拢“挑战者”分配方案中最不得意的人们。企业中的一把手，在进行内部人员控制时，经常是抛开二号人物，而与会计和出纳们打得火热，就是因为公司里的小人物好收买。 1号看起来最有可能喂鲨鱼，但他牢牢地把握住先发优势，结果不但消除了死亡威胁，还收益最大。这不正是全球化过程中先进国家的先发优势吗？而5号，看起来最安全，没有死亡的威胁，甚至还能坐收渔人之利，却因不得不看别人脸色行事而只能分得一小杯羹。

一旦人们做了某种选择，就好比走上了一条不归之路，惯性的力量会使这一选择不断自我强化，并让你不能轻易走出去。

美国经济学家道格拉斯·诺思是第一个提出制度的“路径依赖”理论的学者，他认为，路径依赖类似于物理学中的“惯性”，一旦进入某一路径（无论是“好”的还是“坏”的）就可能对这种路径产生依赖。某一路径的既定方向会在以后发展中得到自我强化。人们过去做出的选择决定了他们现在及未来可能的选择。好的路径会对企业起到正反馈的作用，通过惯性和冲力，产生飞轮效应，企业发展因而进入良性循环；不好的路径会对企业起到负反馈的作用，就如厄运循环，企业可能会被锁定在某种无效率的状态下而导致停滞。而这些选择一旦进入锁定状态，想要脱身就会变得十分困难。

在现实生活中，路径依赖现象无处不在。一个著名的例子是：现代铁路两条铁轨之间的标准距离是四英尺又八点五英寸，为什么采用这个标准呢？原来，早期的铁路是由建电车的人所设计的，而四英尺又八点五英寸正是电车所用的轮距标准。那么，电车的标准又是从哪里来的呢？最先造电车的人以前是造马车的，所以电车的标准是沿用马车的轮距标准。马车又为什么要用这个轮距标准呢？因为古罗马人军队战车的宽度就是四英尺又八点五英寸。罗马人为什么以四英尺又八点五英寸为战车的轮距宽度呢？原因很简单，这是牵引一辆战车的两匹马屁股的宽度。

有趣的是，美国航天飞机燃料箱的两旁有两个火箭推进器，因为这些推进器造好之后要用火车运送，路上又要通过一些隧道，而这些隧道的宽度只比火车轨道宽一点，因此火箭助推器的宽度由铁轨的宽度所决定。所以，今天世界上最先进的运输系统的设计，在两千年前便由两匹马的屁股宽度决定了！

纳什均衡，又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。如果两个博弈的当事人的策略组合分别构成各自的支配性策略，那么这个组合就被定义为纳什均衡。一个策略组合被称为纳什均衡，当每个博弈者的均衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。

纳什均衡的重要影响：

1改变了经济学的体系和结构。

2扩展了经济学研究经济问题的范围。

3加强了经济学研究的深度。

4形成了基于经典博弈的研究范式体系。

5扩大和加强了经济学与其他社会科学、自然科学的联系。

帕累托最优（Pareto Optimality），也称为帕累托效率、帕累托改善，是博弈论中的重要概念，并且在经济学，工程学和社会科学中有着广泛的应用。

帕累托最优是指资源分配的一种理想状态，假定固有的一群人和可分配的资源，从一种分配状态到另一种状态的变化中，在没有使任何人境况变坏的前提下，使得至少一个人变得更好，这就是帕累托改进或帕累托最优化。帕累托最优的状态就是不可能在有更过的帕累托改进的余地；换句话说，帕累托改进是达到帕累托最优的路径和方法。帕累托最优是公平与效率的“理想王国”。

一般来说，达到帕累托最优时，会同时满足以下3个条件：

如果一个经济体不是帕累托最优，则存在一些人可以在不使其他人的境况变坏的情况下使自己的境况变好的情形。普遍认为这样低效的产出的情况是需要避免的，因此帕累托最优是评价一个经济体和政治方针的非常重要的标准。

夏普利值指所得与自己的贡献相等，是一种分配方式。核心是付出和收益成正比。

考虑这样一个联盟博弈。有这样一个三人财产分配问题。假定财产为100万元，假定这100万元在三个人之间进行分配。A拥有50%的票力，b拥有40%的票力，c拥有10%的票力。规则规定，当超过50%的票认可了某种方案时，才能获得整个财产，否则三人将一无所获。

我们看到，任何单独一个人的票力都不超过50%，从而不能单独决定财产的分配。要超过50%的票力必须要形成联盟。也就是说，在这个例子中任何人的权利都不是“决定性的”，也没有一个人是“无权利的”或权利为0

此时财产应当按票力分配吗？如果是的话，即a、b、c的财产分配为：50%，40%，10%。但如果这样分配的话，c可以提出这样的方案，a：70%，b：0，c：30%。这个方案能被a、c接受，因为对a、c来说这是一个比按票力分配有明显改进的方案，尽管b被排除出去，但是a、c的票力构成大多数（60%）。

在这样的情况下，b会向a提出这样一个方案，a：80%，b20%，c：0。此时a和b所得均比刚才c提出的方案要好，但c成了一无所有，但a、b票力综合构成多数（90%）……这样的过程可以一直进行下去。

在这个过程中，理性的人会形成联盟ab、ac或abc。但哪个联盟能够形成呢？最终的分配结果应该是怎样的呢？

夏普里值是这样的一个值：在各种可能的联盟次序下，参与者对联盟的边际贡献之和除以各种可能的联盟组合。在财产分配问题上，我们可以写出各种可能的联盟顺序。而边际贡献就在于在这个顺序中谁是这个联盟的“关键加入者”。如果是关键加入者，那么他的边际贡献就为100万元。下表：财产问题中各种排列下的关键加入者：

由上表，我们得到abc的夏普里值分别为： A=4/6，b=1/6，c=1/6

从这个例子可以看到，票力是虚假的实力表示。b、c票里不同，但是夏普里值相同，即权利相同，他们在形成获胜联盟中作为关键加入者的课程性是一样的。

公共资源悲剧最初由哈定提出。哈定举了这样一个具体事例：一群牧民面对向他们开放的草地，每一个牧民都想多养一头牛，因为多养一头牛增加的收益大于其购养成本，是合算的，尽管因平均草量下降，可能使整个牧区的牛的单位收益下降。每个牧民都可能多增加一头牛，草地将可能被过度放牧，从而不能满足牛的食量，致使所有牧民的牛均饿死。这就是公共资源的悲剧。

“公地悲剧”展现的是一幅私人利用免费午餐时的狼狈景象——无休止地掠夺。“悲剧”的意义就在于此。根据哈丁的讨论，结合我们对挣扎在生活磨难中的人们的理解，“公地悲剧”的发生机理似乎可以这样来理解：勤劳的人为个人的生计而算计，在一番忽视远期利益的计算后，开始为眼前利益而“杀鸡取卵”，没有规则，没有产权制度，没有强制，最后，导致公共财产——那个人们赖依生存的摇篮的崩溃，公地悲剧”的更准确的提法是：无节制的、开放式的、资源利用的灾难。

应对之策：

1、明确和稳定产权。

2、配合企业制度改革，力争做到公共产品私人供给。

3、加强制度建设，重视委托、代理、搭便车、机会主义问题研究。

在二人零和博弈中，参与者的利益严格相反（一人所得等于另一人所失），每个参与者都会尽最大努力使对手的最大收益最小化，而他的对手则正好相反，他们努力使自己的最小收益最大化。

假定一只鳄鱼咬住你的脚，如果你用手去试图挣脱你的脚，鳄鱼便会同时咬住你的脚与手。你愈挣扎，就被咬住得越多。所以，万一鳄鱼咬住你的脚，你唯一的机会就是牺牲一只脚。

给人的启示：当发现自己的行动已经离既定方向越来越远时，果断做出选择，停止行动，不要有一丝侥幸心理。

是指人们天生有一种办事有始有终的驱动力，人们之所以会忘记已完成的工作，是因为欲完成的动机已经得到满足；如果工作尚未完成，这同一动机便使他对此留下深刻印象。一般来说，工作难度越大，思维越活跃，短时间强化的强度就越高，而强化对增强记忆是有益的。因此，被中止的工作往往容易被首先回忆。此外，工作难度大时，人们的情绪变化也大，而情绪对回忆是有很大的帮助。

避免措施：

第一，在看事物的时候运用自己的价值观标准，如果发现一个工作计划不值得做，那么就勇敢地放弃。

第二，编制一个时间表，把必须做的事以及要费的时间都写下来。努力培养出一种较合实际的意识，把期限定在要求办妥的时间以前。如果有笔帐必须在12月1日缴付，那就预订在11月25日付出。

第三，一点一滴地强化意志力，我们可以先从一件小事来训练自己，比如强迫自己在洗碗槽里留下几只碟子不洗，看一本书的时候，尝试停一下，想想自己是否在浪费时间和精力，如果是的，要不要继续看下去？

第四，从现在开始：做任何事情，不要想着我还有时间去做，等待片刻；这样子会让大脑产生一定的滞后性，会让自己产生懒惰的行文；因此，想到就去实现，做是一切成功的前提；

第五，练习是一件好事，但是切勿目标盲目；

第六，制定一个准确的截止日期；针对每一项工作任务，预测可能需要的时间，根据时间结点来评估自己的任务完成计划；

第七，细分每一步工作计划：对于一项工作任务，不要盲目的去做，前提是仔细思考，细化每一个任务步骤，结合每一步任务所需要的条件即可

马太效应（Matthew Effect），是指好的愈好，坏的愈坏，多的愈多，少的愈少的一种现象。即两极分化现象。来自于圣经《新约•马太福音》中的一则寓言。

1968年，美国科学史研究者罗伯特·莫顿（Robert K Merton）提出这个术语用以概括一种社会心理现象：“相对于那些不知名的研究者，声名显赫的科学家通常得到更多的声望即使他们的成就是相似的，同样地，在同一个项目上，声誉通常给予那些已经出名的研究者，例如，一个奖项几乎总是授予最资深的研究者，即使所有工作都是一个研究生完成的。”

此术语后为经济学界所借用，反映贫者愈贫，富者愈富，赢家通吃的经济学中收入分配不公的现象。

个体在群体的压力下，在认知，判断，信念和行为等方面，自愿与全体中的多数保持一致。既个体行为总是以全体行为为参照。

产生的原因主要为：1寻求行为准则；2避免孤独感；3群体凝聚力

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/794564.html

博弈论读书笔记

发表评论

评论列表（0条）