信念与行动单次选型决策行为逻辑的困境与消解_第1页
信念与行动单次选型决策行为逻辑的困境与消解_第2页
信念与行动单次选型决策行为逻辑的困境与消解_第3页
信念与行动单次选型决策行为逻辑的困境与消解_第4页
信念与行动单次选型决策行为逻辑的困境与消解_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信念与行动单次选型决策行为逻辑的困境与消解

单次囚犯困难是囚犯困难的最初形式,研究文献极其丰富。著名的“对称性论证”由劳伦斯(DavisH.Lawrence)给出。所谓对称,简而言之,意味着囚徒双方是同等理性的,因而会采取同样的行动。劳伦斯认为,在囚徒困境中,如果囚徒是理性的,并且都知道双方是理性的,那么两人的选择就会是要么都招认,要么都不招认。根据帕累托(VillefredoPareto)最优理论,双方都知道“不招认”的结果是最好的,因此最终会倾向于合作,从而选择“不招认”的行动。高德(DavidGauthier)也认为,通过合作,选择“不招认”的行动带来的收益会更高一些。如果一个囚徒倾向于采取合作的策略,而另一个囚徒不合作,且这种倾向是两个囚徒之间的公共知识,那么出于自私的考虑,两个人都会倾向于采取同样的行动,也就是合作而“不招认”。无独有偶,在麦克林(EdwardMcClennen)看来,作为理性人,如果看到通过合作选择“不招认”带来的收益会更好,就会抵制住“招认”所带来的眼前收益的诱惑,而采取“不招认”的理性行动。刘易斯(DavidLewis)则给出了“占优论证”,论证招认才是合理的行动假如单次的囚徒困境博弈重复多次,就构成了一个新的动态序列博弈,被称为“有限次重复的序列博弈”。根据逆向归纳法,两个囚徒在每一轮都应当选择“不招认”才是最理性的结果。而事实上,在序列博弈中,合理的策略应当是条件化策略,而不是一直“拒不招认”。因此,对囚徒而言,这又是一个新的困境。一、囚犯困难的出现和影响(一)单次囚徒困境博弈囚徒困境和博弈论几乎同时出现,最早由梅里尔·弗勒德(MerrillFlood)和梅尔文·德雷希尔(MelvinDresher)于1950年以相关困境理论提出,艾伯特·塔克(AlbertTucker)其后以“囚徒”的方式对其进行重新阐述并命名为“囚徒困境”。根据决策情形不同,“囚徒困境”可以分为单次囚徒困境博弈和有限次重复的囚徒困境博弈,本文主要研究单次囚徒困境博弈。单次囚徒困境博弈的提出从表中可以看出,囚徒的“收益”不仅取决于自己的选择还取决于对方的选择。他们可能会这样推理:“他招我不招”会获刑10年,“他招我也招”则获刑9年,因此“我招”的结果要好于“我不招”。“他不招我不招”会获刑1年,而“他不招我招”的结果是当场释放,因此,“我招”的结果还是要好于“我不招”。也就是无论对方“招”还是“不招”,我都要“招认”。于是,如果囚徒双方是理性的,他们都会毫不犹豫地选择“招认”。然而根据上面的收益表,可以看出双方都不招认才能形成一个纳什均衡,(-1,-1)才是最合理的结果。对囚徒而言,根据“占优原则”所选择的行动应该是“招认”,可是根据“效用最大化原则”,所选择的行动应该是“不招认”。对囚徒而言,这两个同等有力的论证,却推荐了完全相反的行动选择,这的确是一个困境。(二).政府哲学对“囚徒困境”的建构囚徒困境得到人们热烈的讨论,这是因为,在人类生活中存在着许多极为重要的类似困境。正如庞德斯通(WilliamPoundstone)在《囚徒的困境》中指出:“囚徒困境已成为我们当前时代最基本的哲学和科学课题之一,同我们的生存紧密联系在一起。”在《悖论:根源、范围及解决》一书中,作者莱切尔(NicholasRescher)把“囚徒困境”称为“选择和决策悖论”,认为对它的研究极其重要。他指出,“决策悖论在21世纪哲学中极为重要,它承载了‘合理性’这一中心课题。在各种问题或条件下,决定什么是‘合理’的行动是合理性课题的最佳呈现方式”二、描述性研究方法博弈论及一般决策理论研究方法分两种:标准化方法和描述性方法。标准化方法研究的代表人物有杰弗里(RichardJeffery)、莱法(HowardRaiffa)、斯基姆斯(BrianSkyrms)。这种方法探讨理性主体的理想化行为,是关于“如何行动才是理性”的描述。描述性研究方法与此不同,关注的不是理想的理性主体做什么,而是实际的理性主体在做什么,他们假定的是部分人在部分时候是理性的,卡夫曼(DanielKaheneman)、尼伯(RichardE.Nisbett)、罗斯(StephenRoss)和斯帝奇(StephenStich)是这一研究方法的代表人物。本文关注的重点是标准化研究进路,这一进路下的决策理论认为决定决策的因素有两个:目标(一).条件一:博弈双方,选择合适的收益通过上文对囚徒困境产生过程的回顾,我们可以得出,两个囚徒“都招认”结果的出现必须满足三个条件:(1)博弈是基于对方“行动”的策略博弈,遵循“占优原则”;(2)双方做出的选择是独立、自主、不受胁迫的;(3)不同的路径选择必须对应不同的收益,也就是囚徒收益矩阵中的四种收益两两之间必须存在差异。下面分别展开讨论。1.条件一:理性该情形下,博弈双方做出选择依据的是对方的“行动”,或者说是对方的“目标”,而并不考虑或者无法把握对方的信念。因此囚徒A在做出选择前,会认为囚徒B已经做出了选择(行动),既然对方做出了选择,那么必定只存在招认和不招认两种情况,而不管对方是否招认,自己选择招认都是更优的结果,同样,B也会做此推理,最终,双方都选择招认。所以说,博弈双方由于无法把握对方的想法,而只能基于对方的“行动”的判断直接导致了“都招认”结果的产生。另外,基于“行动”的策略博弈要做出“招认”的选择,还须依据“占优原则”。占优原则基于理性经济人假设,考虑的是理性主体的决策,而非部分理性或者有限理性主体的选择。刘易斯(DavidLewis)指出,囚徒本人的行动收益,和另一个囚徒采取何种策略,都不取决于这个囚徒。在任一可能世界状态中,如果有策略能获得较好的收益,理性要求选择这个策略。在无法确定对方会得到什么收益的情况下,选择“招认”的期望策略显然比其他策略好。而且,这种决策方式,保证了囚徒在非困境的决策情形下,可以做得更好。因此,在囚徒困境中,囚徒最合理的策略应当是选择招认,因为不管他是否招认,他都会被别人招认。刘易斯用以下论证来清晰揭示这一点(1)你的同伴要么选A,要么选非A。(2)如果他选A,那么你选A,也会有更好的收益。(3)如果他选非A,你选A是最好的,因为你偏好A,而不是B。因此,你应当选A。这个论证的有效性很明显,它的结构如下:(1)P或者Q。(2)如果P,那么R。前提(1)是自明的,(2)和(3)是从对博弈的描述中推导出的。(如果(2)和(3)不真,就不存在囚徒困境)(4)应当是看做和决策论相关的最大化理性概念。支持占优论证的学者认为,理性主体应当选择能带来好的收益的行动,如果收益与行动(自身的行动)无关,此时就应当选择占优策略。根据占优策略所做出的行动,无论在哪种可能世界状态下,都比其他的选择好。根据因果决策理论,每个囚徒行动的期望效用取决于某种反事实为真的概率。但是,在囚徒困境中,收益与主体自身的行动是没有关系的,反事实的概率就降到了各人收益的先验概率。无论这些先验概率是多少,“招认”都会给囚徒带来更好的收益。因此,支持占优推理论证的人认为在囚徒困境中,理性还是要求两人采取“招认”的策略。于是,两个囚徒都选择“招认”是这个博弈的均衡点,也是这个博弈中存在的唯一的纳什均衡点。2有限次重复囚徒困境选择的独立性即博弈双方不会因为自身做出的选择受到对方的惩罚。这一条件是显而易见的,如果招认会被对方报复,那么自然不会形成双方都招认的结果。需要注意的是,选择的独立性并不意味着要杜绝对方的干扰或者隔绝对方的信息。比如说,博弈双方在做出选择之前可以被告知对方的选择,或者囚徒双方可以进行有限次重复博弈,这样每次做出的博弈选择都会在下一次对方做选择时形成干扰,在此情况下,囚徒困境依然可能发生。有限次重复囚徒困境是经典囚徒困境的一个扩展,简称IPD。鲁斯和莱法(R.D.Luce&H.Raiffa)是这样描述IPD的:假定两个囚徒知道单次囚徒困境博弈将被重复100次,那么在第100次博弈中,两个囚徒都明白之后不会再有博弈,而自己的选择也不会被对方报复,那么作为理性人,他们在这一局中的选择与单次囚徒困境博弈情形一样,都会选择“招认”。既然第100次博弈的结果已定,那么第99次博弈实际就变成了最后一次博弈,因此也会得到都“招认”的结果。依次类推,第98次事实上就成了最后一次,也得到都“招认”的结果……这样,按照“逆向归纳”推理倒推回去,囚徒在每一轮都会选择招认,这与单次囚徒博弈的结果一致虽然在有限次重复博弈中,囚徒会在博弈的过程中通过决策行动来进行交流,除去最后一局不考虑,在其他每一局,都要考虑他的选择将给他对手的下一步产生什么样的影响,但由于双方做出的选择都是独立的,没有额外的手段胁迫对方做出选择或者遵守诺言,最终依然有可能形成从逻辑上来看无懈可击,但同时直觉上又是不合理的“囚徒困境”。3.条件二:博弈双方是随机的条件博弈在遇到不同的路径具有相同收益的情况时,即使博弈双方是理性的也会发生选择困难,因为此时遇到了无差异行为。比如警官给予囚徒A、B的条件有一条更改为“如果只有一方招认,那么招认的人无罪释放;如果双方都不招任,那么两人都无罪释放”,其他条件不变。那么,二者博弈的收益矩阵会如下图所示:囚徒A的推理会是:假如对方招认,那么我也应当招认;假如对方没招认,我既可以招认也可以不招认,但是不招认对于双方都更好。囚徒B同样也会做出这样的推理。这样,双方博弈的结果将会变得随机,他们既可能都招认,也可能都不招认,也可能一个招认一个不招认,关键就在于他们对对方选择的判断以及在做出“利己”行为的同时是否也愿意兼顾“利他”。同样道理,将条件改为“如果双方都招认,两人都会被判十年”也会造成上述随机情况的发生。这样囚徒困境就不复存在了。当然,改变囚徒困境的条件只是一种极端的情况,对它的强调主要是为了剔除囚徒个体差异对博弈结果的影响。因为人们可以反驳说,囚徒困境的收益矩阵(-1,-1)(0,-10)(-10,0)(-9,-9)中,对于有的囚徒而言判刑1年跟无罪释放没有本质的差别,判刑9年跟10年也没有本质的差别,因此他们不必然都选择招认。这一争论看似勉强,但却间接说明了囚徒博弈矩阵中四个收益两两之间必须存在差异的重要性(而且必须是显著差异)。为了规避这种情况,我们可以用a通过上述的梳理,我们很容易产生一种错觉,理性博弈主体似乎只会基于对方的“行动”依据“占优原则”选择“双输”的结果,“效用最大化”只是“局内人”无法企及的“局外人”视角。如果囚徒困境仅是“局内人”与“局外人”选择间的冲突,那我们就不能称之为“困境”,而只能称为不可避免的囚徒“悲剧”了。困境必须是“局内人”的困境,同时困境还必须存在冲突的选项。那么,“效用最大化”选项能否成为囚徒共同的选择呢?(二)“所有未调用”的可能性1过比较的收益为了更加直观,我们通过笛卡尔坐标系(图1)来重新审视两个“局内人”基于对方“行动”的推理过程。纵轴和横轴分别代表囚徒A和囚徒B招认与否的选择,所划分的四个区域(即四个象限)分别代表该选择获得的收益。囚徒A推理如下:如果B没有招认,那么我通过比较(2)、(3)象限的收益(a囚徒A、B都是基于“对方已经做出选择,并且这种选择存在两种情形”的假定下进行的推理,从而他们进行横向或者竖向两两收益间的比较时,实质都是拿两个人“做出相同选择时的收益”与两个人“做出不同选择时的收益”进行对比。博弈双方都忽略了一个事实:在智力水平、推理能力、生活背景、行为偏好(理性经济人假设来保证)都相似的情况下,博弈双方的选择几乎是一致的,做出不同选择的可能性基本不存在。因此,在进行横向或竖向的收益对比时,实际上是与一个不存在的收益进行对比,结果自然是没有说服力的。而一旦A、B都意识到“对方的选择与自己一致”的情形,他们就会剔除象限(1)和象限(3)的收益,而只会在象限(2)与象限(4)间进行对比,从而最终博弈的结果将是(不招认,不招认)这一更优结局。其博弈过程详见图2。2保持沉默c关于“博弈双方关于对方理性程度、行为模式与己一致”的假定,西方学界已经做过相关的理论研究,我们可以称之为“对称论证”。对称论证认为(自身的)行动和收益之间是有关系的,因此应当使用以行动为条件的收益的概率,来最大化期望效用。根据对称论证,囚徒困境的重要特点是参与人具有同等的理性(这个事实暗示收益和行动之间是有概率关系的)。因为囚徒之间的相似性,他们的行动接近相同。如果每一个囚徒都期望另一个人的行动和自己一样,那么保持沉默,也就是“不招认”,能够使每个人都获利。高德认为,囚徒间通过合作选择“不招认”的行动带来的收益会更高一些。如果一个囚徒倾向于采取合作的策略,而另一囚徒不合作,这种倾向是两个囚徒之间的公共知识,那么出于自私的考虑,两个人都会倾向于采取同样的行动,也就是合作而“不招认”(1)对主体Y而言,X是理性的,如果Y知道只有两个可能的结果M和N,使得如果Y选择X,收益是M,如果Y不选择X,那么收益是N,M比N更好。(2)每个囚徒都知道每个人知道每个人都会做出理性的选择。(4)每个人都知道他会保持沉默,因为另一个人会这么做,他会招认,因为另一个人会这么做。(5)每个人知道如果沉默是理性的,并且他保持沉默,那么收益就是(C,C),并且如果招认是理性的,而他招认了,那么收益就是(B,B)。(6)每个人都知道(C,C)和(B,B)是唯一的收益。(8)因此,对每个人而言,保持沉默都是理性的。前提(1)是决策论的直接原则。前提(2)—(5)是从理性的常识中推出来的,指出主体是理性的。(6)是(2)到(5)的结论,(7)是囚徒困境的结论。对称论证取决于囚徒困境显示出的强的概率联系:对理想理性主体而言,每个人和另一个人采取相同的行为的概率都是极高的(接近1)。给定这个事实,保持沉默的期望效用高于招认的期望效用。因此,对称论证通过对“参与人具有同等的理性”的假定最终会得出“都不招认”这一帕累托最优(效用最大化)方案。3.信念是导致合理决策由此我们得出囚徒困境出现“都不招认”情形的第一个条件:双方都是基于“对方与自己具有同等理性”信念基础上的策略博弈,也遵循“占优原则”。另外两个条件分别是“双方做出的选择是独立、自主、不受胁迫的”以及“不同的路径选择对应的收益必须存在显著差异”,与出现“都招认”结果所需的条件一致。囚徒困境并非“局内人”与“局外人”视角间的冲突,而就是“局内人”即博弈双方在行动过程中,在合理性指导下得出的完全矛盾的结论。而这种行动的矛盾,是与信念密切相关的。甚至可以说,信念是导致合理决策行动矛盾的根源。通过对囚徒困境进行塑述,将它构造成一个严格的逻辑悖论,我们可以更为清晰地看到这一点。三、不招认行为的选择困境一个真正严格的逻辑悖论,必须要满足三个条件———“公认正确的背景知识”、“经过严密无误的逻辑推导”、“建立矛盾等价式”。这个定义曾经引起了很多争论令Jip表示:参与人i(i是指两个囚徒,分别命名为囚徒A、囚徒B)对命题p的信念。令K表示主观命题:由于囚徒间的理性程度是相近的,因此行为选择也基本相同。只有K命题为真,囚徒A、B才只会在(招认,招认)和(不招认,不招认)的收益间进行对比,从而得出都不招认才是更优的选择,从而囚徒困境才真正成为一个“两难”选择困境。当囚徒A相信K,并且选择了“不招认”行为时,B如何选择,不仅取决于B是否相信K,还取决于他对囚徒A的信念。假如B不相信K(﹁JbK),或者B不认为A相信K(﹁JbJaK),他就无法确定A只在(不招认,不招认)与(招认,招认)间进行收益对比;作为理性的囚徒B就会根据对方可能采取的不同“行动”来进行“竖向”收益对比,而最终选择“招认”(与A行为相反)。因此,如果B不相信K,或者B不认为A相信K,K为假,即﹁JbK∨﹁JbJaK→﹁K。相反,如果B认为A相信K(JbJaK),并且他本人也坚信K(JbK),那么他就会与A一样,只在(不招认,不招认)与(招认,招认)间进行收益对比,最终共同选择“不招认”。因此,如果B相信K,并且B也认为A相信K,则K为真,即JbK∧JbJaK→K。由此,我们可以得到等值条件命题:JbK∧JbJaK!K。同理,当囚徒B相信K,并且选择了“不招认”行为时,要使K成立,不仅A要相信K,同时A也要相信B相信K。我们同样可以得到等值条件命题:JaK∧JaJbK!K。由此,我们通过引入K命题,从博弈双方关于对方信念假设的角度将对囚徒困境的分析转化成了一个真正的狭义逻辑悖论,这也为囚徒困境的逻辑消解提供了可能。四、囚徒困境的消解:情境与情境我们可以参考孔斯关于“连锁店悖论”的“情境敏感方案”来构建囚徒困境的信念殊型网络,将“有限情境”引入到解决方案中其实,对于囚徒困境的形成与解决方案,我们可以用图来解读将会更加明晰。如图3所示,上边的h、h在上述囚徒困境的消解中,我们遵循了孔斯的“情境”进路:即信念殊型的内容不仅取决于主体思维中的其他殊型,还取决于主体实际所处的环境;而这一环境很有可能是悖论性的,这也正是悖论可能产生的真正原因所在。但是主体本身实际上无法了解自己所处的环境,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论