第八章 信号博弈.ppt_第1页
第八章 信号博弈.ppt_第2页
第八章 信号博弈.ppt_第3页
第八章 信号博弈.ppt_第4页
第八章 信号博弈.ppt_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章信号游戏在不完全信息动态游戏中,前阶段游戏当事人的行为往往起到反映和传递信息的作用,因此信号传递是不完全信息动态游戏研究的最重要内容之一。该研究包括游戏各方之间信息传递的可能性和条件、信息传递的程度或如何设计获取更多信息的特定机制(相当于某种机制设计)。分别构成宣言游戏、信号游戏、重复信号等游戏模型。适用:specis(1973)的劳动力市场模型Tito(1988)的产品价格模型ROS(1977)的企业资本结构模型,在信号传递游戏中:有两个参与者,I=1,2;参与人1被称为信号发送者(因为发送信号)。参与人2说他是信号接收人(因为他接收信号)。参与人1的类型是个人信息,参与人2的类型是公共信息(即只有一种类型)。游戏顺序(1)“自然”首先选择参与人1类型是参与人1的类型空间,参与人1知道,但参与人2不知道,参与人1所属的概率p=p(),(参与人1类型是个人信息,省略表示参与人1的下标I)。(2)参与人1选择在观察到类型后发出信号m/m。其中M=m1,mJ是信号空间。(3)参与人2发送信号m(不是类型),使用贝叶斯法则从先验概率p=p()中获得后验概率,然后选择行为a 43; a。其中A=a1,aH是参与人2的行动空间。(4)支付函数分别为u1=(m,a,)和u2=(m,a,)。图7.4是简单信号传递游戏的扩展表示。其中,k=j=h=2,图8.1信号传递波,发件人,发件人,自然,参与者1发送信号后,参与者2预测将根据发送的信号修改对自己类型的判断,从而选择最佳类型的从属信号策略。同样,参与人2知道参与人1选择给定的类型,选择考虑信息效应的最佳策略,所以他使用Bayesian法则选择自己的最佳行为,修改参与人1对类型的判断。例如,市场进入游戏实际上是信号传递游戏。这里是在位者是信号发送者,进入者是信号接受者。内部人士选择价格时,他知道进入者根据自己选择的价格判断白色已经是高成本还是低成本的概率;入住者根据观察到的价格,更正对在位类型的判断后,选择是否入港,这是事实。图8.1在信号传递游戏中,发送者有4种纯策略。如果发送者策略1:类型为1,则选择信号m1。如果自然赋予2类型,则选择信号m1。如果自然给出发件人策略2:类型1,则选择信号m1。如果自然赋予2类型,则选择信号m2。如果发送者策略3:类型为1,则选择信号m2。如果自然赋予2类型,则选择信号m1。发送者策略4:如果类型为1,则选择信号m2。如果自然赋予2类型,则选择信号m2。接收人也有四种纯策略:接收人策略1:如果发送人选择信号m1,则选择行为a1;如果呼叫者选择信号m2,则选择行为a1。接收者策略2:如果呼叫者选择信号m1,请选择行为a1。如果呼叫者选择信号m2,则选择动作a2。接收方策略3:如果发送方选择信号m1,请选择活动a2。如果呼叫者选择信号m2,则选择行为a1。接收者策略4:如果呼叫者选择信号m1,请选择活动a2。如果呼叫者选择信号m2,则选择行为a2。定义:信号传递游戏的细化贝叶斯平衡是策略组合(m*(),a*()和后概率的组合,满足以下条件:(1);(2);(3)是参与人2使用贝叶斯法则从先验概率p()获得的信号m和参与人1的最佳策略获得的m*()(如果可能)。在以上定义中,(1),(2)等于优化条件。(1)说的是后验概率,参与人2向参与人发送信号的最佳反应;预测2) 2的最佳反应a*(m),参与人1选择自己的最佳策略。(3)贝叶斯法则的使用。,信号传递博弈的所有可能的精炼贝叶斯均衡可分为分离均衡、混合均衡和准分离均衡三类。分离均衡:不同类型的发送者选择不同的信号作为1的概率,信号准确地揭示类型。混合均衡:不同类型的发送者选择相同的信号,接收者不修改预先概率(发送者的选择没有信息量)。准分离平衡:某些类型的发射器随机选择信号,其他类型的发射器选择特定信号。发件人,发件人,自然,示例1:解决下一个信号游戏的PBNE,解决方案:此游戏中可能存在的纯策略PBNE包括:1、与作战混合L的PBNE发送方的类型为t1和T2,发送方的策略为(L,L)2,与行为方混合的PBNE发送方的类型为t1和T2,发送方的策略为(R,R)3,分离均衡3354类型t1的发送方选择L R1:接收方对应于l的信息集h(左信息集)位于均衡路径上方的推理(p,1-p)接收方对应于r的信息集h(右信息集)位于均衡路径以外的推理(q,1-q) 行动u的预期收益如下:E(u)=3p 4(1-p)=4-p=3.5行为d的预期收益为:E(d)=0p 1(1-p)=1-p=0.5接收方在查看L后面的S2*(L)=u的同时,U1*(t1,L)=1,U1*(t2,)需要决定:如果发件人选择了信号r,则由于接收人的反应(可选),两种类型发件人产生的收入低于选择信号l的收入。因为:如果接受者对r反应为u,则类型t1的发送者选择l(不可执行),因为r的收益为2,高于自己选择l的收益;而类型t1的发送者选择l(不可执行),如果接收者对r反应为d,则类型t1的发送者选择r的收益为0,低于自己选择l的收益,因此类型t1的发送者选择l .类型T2的发送者选择r的收益为1。 因为自己选择L低于选择的收益2,所以类型为T2的发送方选择L .(可执行),所以如果发送方的策略是(L,L),并且存在前面假设的混合均衡,那么接收方对R的对应必须是d,所以接收方的策略是s2*|s1=L=u,s2*|s1 在r的信息集(右侧信息集)中:工作u的预计收入为:E(u)=q 0(1-q)=q工作d的预期收入为:e (d)=0q2 (1-q)=2-2pc最佳条件:e (u),即q=2/3,R3:中的信息集h(左侧信息集)位于平衡路径上方的推断(u)第二种情况:混合与r相同的PBNE,r 23360接收方对l的信息集h(左信息集)位于平衡路径上方的推理(p,1-p)接收方对r的信息集h(右信息集)位于平衡路径之外的推理(q)行动u的预期收益如下:E(u)=q 0(1-q)=q=0.5行为d的预期收益为:E(d)=0q 2(1-q)=2-2q=1收款人在R后面的S2*(R)=d,即U1*(t1,R)=0,U1*(t2)需要决定:如果发件人选择信号l,则由于接收人的反应(可选),两种类型发件人产生的收入低于选择信号r的收入。因为:如果接收方对l使用u响应,则类型t1的发送方选择l的收入为1,选择R的收入为0,因此类型t1的发送方没有选择R(不可执行),如果接收方对l选择d响应,则类型t1的发送方选择l的收入为4,选择R的收入为0,因此类型t1的发送方选择l的收入低于选择R的收益1,因此类型T2的发送方选择l的收入为l在3的情况下:假定存在(L,R)的分离均衡PBNE,要求R1和3360接收方对应于L的信息集h(左信息集)位于均衡路径上方的Bayes推理(1,0)接收方为R的信息集h(右信息集h)接收方观察信号(L,R)后,接收方的最佳反应s2*|s1=L=u,s2*|s1=R=d,同时发送方U1*(t1,L)=1,U1*(需要确定:如果发件人选择了信号(L,R),则接收人的反应(选择)给这两种类型发件人的收益小于信号选择(R,L)的收益。因为:如果接受者类型在t1中对r的响应为u,那么发送者的r的收益为2,并且因为自己选择l的收益高于选择l的收益,所以类型t1的发送者不选择l。(不可能),如果接受者对r的响应为d,则t1类型的发送者选择l .(不可能),因为r的收益为0,低于自己选择l的收益,t1类型的发送者选择l .类型的发送者选择l的收益为2,T2类型的发送者选择l .(不可能),因为T2类型的发送者选择l .的收益高于自己选择的r的收益1。总之,假设R2不满足(L,R),不存在的分离平衡PBNE,第四种情况:存在(R,L)的分离平衡PBNE,要求R1和3360接收方对应L的信息集h(左信息集)在均衡路径上方的Bayes推理(左信息集)收件人观察信号(R,L)后,收件人的最佳反应s2*|s1=R=u,s2*|s1=L=u,同时发送者U1*(t1,R)=0,U1*()需要确定:如果发件人选择了信号(R,L),则接收人的反应(选择)给这两种类型发件人的收益小于信号选择(L,R)的收益。因为:如果接受者对类型为t1的l的反应是d,那么发送者选择l的收益是4,并且高于自己选择r的收益,因为类型为t1的发送者不选择r。(不可能),如果接收者对类型为t1的l的反应为u,那么类型为t1的发送者不会选择l,因为发送者选择l的收入为1,低于自己选择r的收入。如果接受者对类型为T2的R的反应为u,则接受者选择R的收益为1,低于自己选择的L的收益2,因此类型为T2的发送者不选择R .(可执行),因此,如果之前假定的分离均衡(R,L),其中发送者的策略为(R,L),则接收者的反应必须为u,因此接受者的策略为s2*|s1=R 关于信息集h(右信息集)的r 3360的推理(q,1-q)的贝叶斯修正:摘要:分离的PBNE是8.3不完全信息重复游戏和信誉模型,8.3.1KMRW信誉模型本节介绍了不完全信息重复游戏的合作行为。 对于完整的信息,无论游戏重复多少次,迭代次数都是有限的。唯一的子博弈精炼纳什均衡是每个博弈中每个参与人选择静态均衡策略(假设静态博弈的纳什均衡是唯一的)。也就是说,有限的迭代不能引发参与者的合作行为。特别是在有限数量的囚犯游戏中,每次选择“坦白”是每个囚犯最好的策略。这是结果似乎与人们直观的感觉不一致。Alex road(1981)的实验结果表明,在有限的重复游戏中,合作行为也频繁出现。克洛普斯、米尔格拉姆、罗伯茨、威尔逊(1982年)的声誉模型将不完整的信息引入到反复的游戏中,解决了这个悖论。他们证明,参与人对其他参与人的函数或战略空间的不完全信息对均衡结果有重要影响,在有限的游戏中出现合作行为。如果游戏充分重复(不一定是无限的)。特别是,“坏人”可能在相当长的时间里表现得像“好人”。第一,囚徒困境博弈,表6.3.1囚徒2囚徒1以囚徒困境为例说明了KMRW模型的结果。假设囚犯1有两种类型:理性或非理性概率(1-p)和p。简单来说,假设囚犯2只有一种类型:理性。假定合理的囚犯可以选择任何策略。非理性的囚犯出于某种原因,只有一个“尖锐对立”的策略。选择“夫人”,然后在t阶段选择囚犯2,在t-1阶段选择(即“你抓住我就行了,如果你坦白就坦白”)。游戏顺序如下:(1)当然,首先选定囚犯1的类型。囚犯1知道自己的类型。囚犯2知道囚犯1属于理性的概率(1-p),无私的概率为p;(2)两个囚犯玩一级游戏。观察第一阶段游戏结果后,进行第二阶段游戏。观察两阶段游戏结果后,进行三阶段游戏。诸如此类。(4)理性囚犯1和囚犯2的支付是阶段游戏支付的折扣值之和。“理性囚犯”可以理解为“机会主义者”或不合作的参与者;“非理性囚犯”可以理解为讲义气信用度高的人或合作型参加者。研究目的:在完整的信息(p=0)中,选择“坦白”的异性俘虏也在不完整的信息(p 0)中选择“妻子”(极端自私的人也说“帮助别人”),两次(T=2) 3,现在讨论第3次重复(T=3)的情况,如果给出P2/9,给出讨论T=3,那么理性囚徒1和囚徒2的第1阶段都选择d(合作),那么第2,3阶段的均衡路径就像表(此时x=d)。 表6.3.2,(a)第一阶段合理囚徒1的最佳策略选择首先证明d。如果在步骤1中,囚犯2的选择为d,那么理性囚犯1选择d,那么囚犯2的死后概率不变,囚犯2在步骤2,3中选择(d,c)。理性囚犯1 3阶段战略选择(d,c,c),理性囚犯1的期待值如下。(-1) (0) (-8)=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论