版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大学《数理基础科学》专业题库——博弈论基础概念介绍考试时间:______分钟总分:______分姓名:______一、简述博弈论研究的主要对象和特点。二、在一个简单的囚徒困境博弈中,如果两个囚徒都选择沉默(不招供),他们各自会得到1年的监禁。如果两人都选择招供(背叛),每人会得到3年的监禁。如果一人招供,另一人沉默,则招供者获得自由,沉默者得到5年的监禁。请用文字描述这个博弈的基本要素(参与者、策略、支付),并解释为什么这个博弈存在一个纳什均衡,即使这个均衡的结果对两个囚徒来说都比都选择沉默差。三、什么是纳什均衡?请解释在战略式博弈中,一个策略组合成为纳什均衡的含义。为什么纳什均衡被认为是分析非合作博弈的重要工具?四、假设一个博弈只有两个参与者,称为A和B。参与者A有两个可选策略:上(U)和下(D)。参与者B有两个可选策略:左(L)和右(R)。支付由以下方式决定:如果A选择上且B选择左,A得到3,B得到1;如果A选择上且B选择右,A得到0,B得到0;如果A选择下且B选择左,A得到1,B得到2;如果A选择下且B选择右,A得到2,B得到3。请描述参与者A的支付,并解释为什么这个博弈可能存在多个纯策略纳什均衡。在不使用博弈矩阵的情况下,请尝试描述这个博弈并找出所有的纯策略纳什均衡。五、什么是扩展式博弈?它与战略式博弈的主要区别是什么?请简要说明扩展式博弈中“信息集”和“决策结点”的概念。六、在一个简单的两人序贯博弈(扩展式博弈)中,参与者A首先行动,可以选择左边(L)或右边(R)。如果A选择左边,参与者B会得到3,自己得到1;如果A选择右边,参与者B会得到1,自己得到3。参与者B在得知A的选择后进行反应,可以选择接受(A)或拒绝(R)。如果B接受,博弈结束,A得到2,B得到其行动带来的支付;如果B拒绝,双方都得到0。请用文字描述这个博弈的顺序、关键节点和支付,并解释为什么逆向归纳法是求解这类扩展式博弈子博弈精炼纳什均衡的常用方法。请尝试找出这个博弈的子博弈精炼纳什均衡。七、简述子博弈精炼纳什均衡的概念,并解释为什么在分析序贯博弈时,它比纳什均衡更为精确。请说明为什么逆向归纳法得到的均衡满足子博弈精炼纳什均衡的要求。八、重复囚徒困境博弈与一次性囚徒困境博弈的主要区别是什么?解释为什么在重复囚徒困境中,即使一次性博弈的纳什均衡是双方都背叛,也可能会出现双方都倾向于合作的策略(例如“以牙还牙”策略)。合作在重复博弈中是如何维持的?试卷答案一、博弈论研究的是多个决策主体在互动情况下的决策行为及其结果。其特点在于强调决策的互动性和策略性,即每个参与者的最优选择不仅取决于自身的偏好和决策,还取决于其他参与者的可能决策。博弈论通过建立数学模型来分析这种互动,关注均衡结果、策略选择和激励兼容等问题。二、该博弈的基本要素如下:*参与者:两个囚徒,分别称为囚徒1和囚徒2。*策略:每个囚徒有两个策略:沉默(不招供)和招供(背叛)。*支付:支付以年监禁数表示,格式为(囚徒1支付,囚徒2支付)。例如,(沉默,沉默)->(1,1);(招供,沉默)->(0,5);(沉默,招供)->(5,0);(招供,招供)->(3,3)。这个博弈存在一个纳什均衡,即两个囚徒都选择招供((招供,招供))。这是因为,无论对方选择沉默还是招供,对于每个囚徒来说,选择招供都是他们的最佳策略。具体来说,如果囚徒2选择沉默,囚徒1选择招供得到0年,选择沉默得到1年,招供更好;如果囚徒2选择招供,囚徒1选择招供得到3年,选择沉默得到5年,招供仍然更好。对囚徒2同理。因此,(招供,招供)是纳什均衡,因为neitherplayercanunilaterallydeviateandimprovetheirownpayoffgiventheotherplayer'sstrategy.尽管这个均衡的结果(各判3年)比双方都沉默的结果(各判1年)差,但它是双方在给定对方策略下的理性选择。三、纳什均衡是指在一个博弈中,每个参与者都选择了最优策略,并且没有任何参与者可以通过单方面改变自己的策略来提高自己的支付(收益)。换句话说,对于任何一个参与者i,策略Si*是对所有其他参与者策略组合S-J*的最优反应,其中S-J*是除了参与者i之外所有其他参与者的策略组合。在战略式博弈中,这意味着在纳什均衡策略组合(S1*,S2*,...,Sn*)下,对于任何参与者i,有Si*是对(S1*,...,Si-1*,S'i,Si+1*,...,Sn*)的最优反应,而S'i不是对(S1*,...,Si-1*,S1*,Si+1*,...,Sn*)的最优反应。纳什均衡是分析非合作博弈的重要工具,因为它提供了一个预测参与者行为的基准:在纳什均衡状态下,参与者没有动机去偏离他们当前选择的策略,这反映了在非合作环境下的一种稳定状态或“默契”。四、参与者A的支付描述:*如果B选择左,A选择上,A得到3;A选择下,A得到1。*如果B选择右,A选择上,A得到0;A选择下,A得到2。(注:题目要求不使用博弈矩阵,但描述支付是分析的基础。此处以文字描述A的支付情况。)这个博弈可能存在多个纯策略纳什均衡。例如,如果A选择上,那么B会选择左(因为B选择左得到1,选择右得到0),此时A的支付是3。对于B来说,如果A选择上,B选择左是1,选择右是0,所以B会选择左。此时,(上,左)是一个纳什均衡,因为A不能通过单方面改为下来提高自己的支付(从3降到2),B也不能通过单方面改为右来提高自己的支付(从1降到0)。如果A选择下,那么B会选择右(因为B选择左得到2,选择右得到3),此时A的支付是2。对于B来说,如果A选择下,B选择左得到2,选择右得到3,所以B会选择右。此时,(下,右)是一个纳什均衡,因为A不能通过单方面改为上来提高自己的支付(从2降到0),B也不能通过单方面改为左来提高自己的支付(从3降到2)。因此,这个博弈存在至少两个纯策略纳什均衡:(上,左)和(下,右)。在不使用博弈矩阵的情况下,可以通过分析每个参与者在对方选择不同策略时的最优反应来找出所有纯策略纳什均衡。对于均衡(上,左):A选择上是对B选择左的最优反应(3>1),B选择左是对A选择上的最优反应(1>0)。对于均衡(下,右):A选择下是对B选择右的最优反应(2>0),B选择右是对A选择下的最优反应(3>2)。五、扩展式博弈是一种用来描述序贯决策(即按时间顺序进行的决策)的博弈模型。它使用博弈树来表示博弈的进程,其中节点代表决策点或信息集,边代表行动或结果。扩展式博弈可以包含不完美信息(即参与者不完全了解其他参与者的状态或决策),而战略式博弈通常假设信息是完全的。主要区别在于表示方法(扩展式用博弈树,战略式用矩阵)以及对信息假设的不同(扩展式可以处理不完美信息,战略式通常假设完全信息)。“信息集”是指一个决策者在进行决策时所能获得的信息状态集合,在博弈树上表现为一个包含多个节点的集合。如果决策者在一个信息集内行动,他不知道自己确切处于该信息集的哪个节点,只知道他处于该信息集内。“决策结点”是指博弈树中代表参与者需要做出决策的点。六、在这个简单的两人序贯博弈(扩展式博弈)中:*顺序:参与者A首先行动,做出选择L或R。*关键节点:存在两个决策结点,一个在A处(L或R),一个在B处(仅在A选择R后才出现,选择接受A或拒绝A)。*支付:如题所述,A选择L时,B支付3,A支付1;A选择R时,B支付1,A支付3。B接受时,A支付2,B支付其行动带来的支付(A选择L时为3,A选择R时为1)。B拒绝时,双方都支付0。该博弈是序贯的,参与者行动有先后顺序。逆向归纳法是求解这类扩展式博弈子博弈精炼纳什均衡的常用方法,因为它基于理性参与者假设,认为参与者在每个决策点都会选择对自己最优的行动。具体步骤是:从博弈的最后一个决策点(如果存在)开始,向后推导每个决策者的最优选择,然后移动到前一个决策点,重复此过程直到第一个决策点。对于本题:1.如果A选择右(R),那么轮到B决策。B看到自己的支付:如果接受(A=2,B=1),如果拒绝(0,0)。B会选择接受,因为1>0。所以,如果A选择R,博弈将走到B接受,结果为(A=2,B=1)。2.如果A选择左(L),那么轮到B决策。B看到自己的支付:如果接受(A=1,B=3),如果拒绝(0,0)。B会选择接受,因为3>0。所以,如果A选择L,博弈将走到B接受,结果为(A=1,B=3)。3.现在轮到A决策。A知道如果选择L,最终结果是(A=1,B=3)。如果选择R,最终结果是(A=2,B=1)。A会选择支付更高的策略,即选择R。因此,子博弈精炼纳什均衡是A选择右,B在A选择右时接受。结果是(A=2,B=1)。七、子博弈精炼纳什均衡是在纳什均衡概念的基础上,用于分析序贯博弈(扩展式博弈)的更精确的均衡概念。它要求均衡策略组合在每一个子博弈中都构成纳什均衡。一个子博弈是指原博弈树中一个包含初始节点和一个终端节点(且不包括任何其他终端节点)的子树。纳什均衡可能包含不合理的威胁(即参与者宣布在某些情况下会采取对自身不利但阻止他人偏离的策略,这些策略在现实中不会执行)。子博弈精炼纳什均衡通过要求参与者只在“真正可能被达到”的子博弈中采取纳什均衡策略来排除这些不合理性。换句话说,子博弈精炼纳什均衡是原博弈的一个纳什均衡,且对于博弈中每个子博弈,该策略组合也是该子博弈的纳什均衡。逆向归纳法正是求解满足子博弈精炼纳什均衡要求的方法。通过逆向归纳法得到的均衡,确保了在博弈的每一个阶段,当决策者行动时,他们都是根据当时的信息做出了对自己最优的选择,因此排除了包含不可信威胁的纳什均衡。八、重复囚徒困境博弈与一次性囚徒困境博弈的主要区别在于博弈的次数或重复期。一次性囚徒困境是参与者之间只进行一次决策互动。在一次性博弈中,由于博弈只有一次,参与者没有未来互动可以影响当前决策,因此每个参与者的最优策略都是betrayal(背叛),即纳什均衡是双方背叛。在重复囚徒困境中,参与者进行多轮决策互动,知道未来的博弈依赖于当前的选择。这使得合作(cooperation)成为可能,即使合作在单次博弈中不是最优策
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园户外平衡木游戏教学方案
- 节能减排措施与技术应用案例
- 企业员工劳动合同管理规范与注意事项
- 员工奖惩管理办法与操作指南
- 风力发电机结构组成及功能说明
- 金属屋面施工安全技术规程
- 公交车司机安全驾驶规范汇编
- 人教版初一论语章节翻译与注释
- 超市节能环保技术应用方案
- 2025年乡村康养旅游度假区旅游与康养产业政策环境研究报告
- 街道辅助人员笔试试题(附答案)
- 《计算机网络技术》课件
- 2025年行政执法考试试题题库及答案解析
- 2025年公安机关人民警察基本级执法资格考试真题(含答案)
- 窝沟封闭口腔宣教
- 基层治理考试题库及答案
- 《细胞通过分裂而增殖》授课课件3
- 2025年中国足协e级教练员理论考试试题及答案
- 2025-2026学年统编版(2024)七年级道德与法治下册全册教案(教学设计)
- 跨部门协调与协作案例分析
- DZ∕T 0148-2014 水文水井地质钻探规程(正式版)
评论
0/150
提交评论