囚徒困境教你应对生活的决择.doc_第1页
囚徒困境教你应对生活的决择.doc_第2页
囚徒困境教你应对生活的决择.doc_第3页
囚徒困境教你应对生活的决择.doc_第4页
囚徒困境教你应对生活的决择.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

囚徒困境教你应对生活的决择目录囚徒困境教你怎样得到最佳策略2囚徒困境简介2经典的囚徒困境4用囚徒困境解析类似的员工困境6囚徒困境的应用6关税战7商业广告战8重复的囚徒困境8策略获得成功的几个必要条件10一般有两种方法得到最佳策略11“囚徒困境”启示12设局者是如何让囚徒做出有利于社会的选择的?14囚徒困境教你怎样得到最佳策略囚徒困境(prisonersdilemma):两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。囚徒困境简介囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特塔克(Alberttucker)1950年提出来的。他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。经典的囚徒困境1950年,由就职于兰德公司的梅里尔弗拉德(MerrillFlood)和梅尔文德雷希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问阿尔伯特塔克(AlbertTucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:1、若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。2、若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。3、若二人都互相检举(互相“背叛”),则二人同样判监2年。如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势策略”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:1、若对方沉默、背叛会让我获释,所以会选择背叛。2、若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。二人面对的情况一样,所以二人的理性思考都会得出相同的结论选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。用囚徒困境解析类似的员工困境一名经理,数名员工;前提,经理比较苛刻;如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作;如果某人不听从吩咐,其他人听从吩咐,则此人下岗,其他人继续工作;如果所有人都不听从经理吩咐,则经理下岗;但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作。囚徒困境的应用许多行业的价格竞争都是典型的囚徒困境现象,每家企业都以对方为敌手,只关心自己的利益。在价格博弈中,只要以对方为敌手,那么不管对方的决策怎样,自己总是以为采取低价策略会占便宜,这就促使双方都采取低价策略。如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。在国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中每一方的市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。如果清楚这种前景,双方勾结或合作起来,都制定比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。但是往往这些联盟处于利益驱动的“囚徒困境”,双赢也就成泡影。五花八门的价格联盟总是非常短命,道理就在这里。并不是每次个人的“理性选择”都能让自我利益最大化,也许会让你陷入一个“囚徒困境”。大量例子说明,在“囚徒困境”中,常常是先动手的一方会占一些优势。那么,“先下手为强”吧。关税战两个国家,在关税上可以有以两个选择:1、提高关税,以保护自己的商品。(背叛)2、与对方达成关税协定,降低关税以利各自商品流通。(合作)当一国因某些因素不遵守关税协定,而独自提高关税(背叛)时,另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)商业广告战商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。此二公司可以有二选择:1、互相达成协议,减少广告的开支。(合作)2、增加广告开支,设法提升广告的质量,压倒对方。(背叛)若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。重复的囚徒困境罗伯特阿克塞尔罗德在其著作合作的进化中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他主义”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%-5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。策略获得成功的几个必要条件通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。友善:最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。报复:但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。宽恕:成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。不嫉妒:最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数)。因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。对一次性囚徒困境博弈来说,最佳(点数最大化的)策略是简单地背叛;正如前面解释的,无论对手的行动可能是什么,这都是真实的。但是,在重复的囚徒困境博弈中,最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应。例如,考虑这样一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位,因为第一回合的损失。在这样的人群中,对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的长度。一般有两种方法得到最佳策略1、贝叶斯纳什均衡:如果对抗策略的统计分布能被确定(例如,50以牙还牙,50一直合作),就能从数学上获得最佳的相对策略。2、已经有了人群的蒙特卡罗模拟,在这里低分个人消失了,高分个人一再被生产出来(一种获得最佳策略的天才算法)。决赛人群中的算法合成通常依赖于初赛人群中的算法合成。“囚徒困境”启示 “囚徒困境”是博弈论中的经典对局,在经济学、政治学和道德哲学中得到广泛讨论和运用。其大意是:两个被指控共同参与了某种罪行的囚徒被检察官分隔开来提审。两人都知道如下选择:1、如果他们都不坦白,根据已有证据,两人都将判1年的监禁;2、如果两人都坦白,每人都将判8年监禁;3、如果一人坦白,另一个不坦白,坦白的人将被释放,而另一人将被判10年的监禁。谁都不知道对方的选择。对每个人来说,合理的选择是什么?如果每个囚徒要求得到他的最大效益,经过缜密推理,合理的选择应是坦白,但这样每个人都不能得到最好的结果。“囚徒困境”通常被用以说明这样的道理:一个人自私地寻求最大效益并不意味着就能得到最好的结果,也不意味着由此可以促进公共的善。相反,只有合作才能获得最好的结果。这一道理被许多事实印证。如我国家电销售商为使消费者多买自己产品,时常竞相降价、引发“价格大战”,其结果是“各败俱伤”,不仅谁也得不到最大利益。而且利润日益走低甚至赔本。可是如果他们在较高价格上形成某种默契,就都会得到不错的利润。又如冷战时期超级大国起先不合作,都想凭军事实力压倒对方,结果被拖入昂贵的军备竞赛并面临核屠杀的危险,后来有了一些合作,这种恶性竞争的“囚徒困境”才有所缓解。“囚徒困境”揭示的道理显然是从对局者即“囚徒”的立场说的,所以所谓没有促进“公共的善”,其实是指没有促进两个“囚徒”的共同利益。但是如果我们换个角度,从设局者,即检察官、法官、警察等社会管理者出发,结论则恰恰相反,“囚徒困境”的结局不是没有促进,而是促进了真正的“公共的善”,即社会利益。这样说的依据之一是罪犯受到了应有的惩罚,社会正义得以维护和伸张;依据之二是罪犯坦白意味自新的开始,这就有利于罪犯的改造,减少其以后再次犯罪或危害社会的可能。设局者是如何让囚徒做出有利于社会的选择的?简单说来,这里靠的是两个制度安排。其一是阻止囚徒合作的制度安排。其二是制订了一套“坦白从宽,抗拒从严”的赏罚规则。这两个制度缺一不可。没有前者,囚徒可以串供、订立攻守同盟,“困境”不复存在,两人都会毫不犹豫地选择抗拒。没有后者,意味着囚徒选择坦白和选择抗拒得到的惩罚一样,既然如此,囚徒何不心存侥幸地抗拒一回?“囚徒困境”对囚徒来说是令他们左右为难的“困境”,但对设局的社会管理者来说,则绝对是一个制度安排的杰作。它的杰出之处就在于:纵然被管理者自私自利,一心为自己打算,最终也不得不自动做出有利于社会公益的抉择。这是好制度的一个特征。社会任何方面的制度安排,都应当向“囚徒困境”学习。当然这不是说把被管理者当“囚徒”看待,而是说社会在设计制度时,不能以有德性的人为起点,只能以最没有德性的人为起点。好的制度安排不会对有德性的人造成任何不便,只会让缺德的人感到不便。只要做到让最缺德的人都不得不从善为之,那这个社会还会有什么人不择善而行吗?问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论