CH02混合策略课件

上传人：花*** IP属地：湖北上传时间：2024-04-17 格式：PPT 页数：35 大小：1.15MB 积分：7.2 举报 版权申诉

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

CH02混合策略2024/4/16CH02混合策略定义在一个n人博弈的标准式表述中，参与人的策略空间为,收益函数为,我们用表示此博弈。纳什均衡博弈的标准式和纳什均衡2024/4/162CH02混合策略举例:猜硬币模型两个参与人{1,2}每个参与人的策略空间为{H,T}收益零和试着找到纳什均衡参与人2参与人1正面背面正面-1,11,-1背面1,-1-1,1两个男孩各自有一个硬币并且他们必须选择将硬币的正面朝上还是背面朝上。如果两个硬币朝上的面相同（即都是正面或都是背面），则参与人2将赢得参与人1的硬币；否则，参与人1将赢得参与人2的硬币。2024/4/163CH02混合策略猜硬币如果参与人的策略一致——(正面，正面)或(反面，反面)—则参与人1会偏向于改变策略；但是如果两者策略不一致—(正面,反面)或(反面,正面)—则参与人2偏向于改变策略。

参与人2正面背面正面-1,11,-1参与人1背面1,-1-1,1没有一组策略满足(NE)CH02混合策略石头-剪刀-布博弈此博弈也不存在纳什均衡无论参与人1选择哪个纯策略，参与人都可以打败他。参与人2石头剪刀布石头0,01,00,1参与人1剪刀0,10,01,0布1,00,10,02024/4/165CH02混合策略猜对方策略猜硬币博弈一个非常突出的特点是每个参与人都试图猜中对方的策略。任何这一类都没有纳什均衡至少不存在1.1.C节所定义的纳什均衡因为这一类博弈的解包含了一个参与人对其他参与人行为的不确定。现在我们介绍混合策略2024/4/166CH02混合策略纯策略，混合策略考虑标准式博弈G={S1,····,Sn;u1,····,un}此后我们定义Si中的策略为参与人i的纯策略在本节的完全信息同时行动博弈中，一个参与人的纯策略就是他可以选择的不同行动；例如，在猜硬币的博弈中，Si

包含两个纯策略：正面和背面。参与人i的一个混合策略是在其策略空间Si中的（一些或全部）策略的概率分布。2024/4/167CH02混合策略概率和信念随机事件事件有明确定义.我们可以区分不同的事件.在进行观察或试验前,我们不能肯定的说一个具体的事件会出现.我们可以判断哪些事件有可能出现,并且能判断每一个事件出现的可能性大小.概率事件的概率是对一次随机试验中该事件出现的可能性的度量如果对可能性的度量以某种客观规律或物质属性为基础,我们就用“概率”一词如果对可能性的度量以个人经验、主观判断为基础，就用“主观概率”、“信念”、“置信度”等术语2024/4/168CH02混合策略概率分布样本空间：Ω={ω1,

ω2,…,ωn,…}试验中可能出现的所有基本结果ωi的集合事件由基本结果组成，是样本空间的子集。如果在试验中事件A中的一个结果出现了,就说事件A发生。概率分布就是将总概率P(Ω)＝1分解到所有可能的样本点或事件上的一种方式．2024/4/169CH02混合策略概率的公理化定义概率测度

样本空间Ω上的一个概率测度是Ω的子集的一个函数P(·)，它满足三条公理：公理(1)0≤P(E)≤1,对任一事件E公理(2)P(Ω)＝1公理(3)对任何一列互不相容的事件E1,E2,….,即Ei∩Ej=Ф(空集),i≠j,有

我们称P(E)为事件E的概率。2024/4/1610CH02混合策略混合粗略：猜硬币参与人i的一个混合策略是在其策略空间Si中的策略的概率分布举例:猜硬币S2包含两个纯策略即正面和反面,因此参与人2的一个混合策略为概率分布(q,1-

q),其中q为正面朝上的概率，1-

q是背面朝上的概率,并且0<q<1.参与人2参与人1正面

q背面

1-q正面-1,11,-1背面1,-1-1,1混合策略(0,1)是背面朝上的纯策略;类似地,混合策略(1,0)是正面朝上的纯策略。2024/4/1611CH02混合策略混合策略:举例参与人2的一个混合策略为概率分布(q,r,1-q-r),其中q表示出左的概率，r表示出中的概率，1-q–r表示出右的概率。和前面一样，

0<q<1,并且还应满足0<r<1和0<q+r<1。混合策略(1/3,1/3,1/3)表示参与人出左、中、右的概率相同，而(1/2,1/2,0)表示出左、中的概率相同，但不可能出右。参与人2左中右上1,01,20,1参与人1下0,30,12,0

图1.1.1atPager6参与人的一个纯策略只是其混合策略的一个特例，例如参与人2出左的纯策略可表示为混合策略(1,0.0)。2024/4/1612CH02混合策略混合策略:定义更为一般地，假定参与人i有K个纯策略：Si={si1,…,siK}.参与人i的一个混合策略是一个概率分布(pi1,…,piK),其中piK表示对所有k=1,…,K,参与人i选择策略sik的概率，由于pik是一个概率，对所有k=1,…,K，有0≤pik≤1且pi1+···+piK=1。我们用pi表示基于Si的任意一个混合策略，其中包含了选择每一个纯策略的概率，正如我们用si表示Si内任意一个纯策略。定义对标准式博弈，假设Si

={si1,…,siK}。那么，参与人i的一个混合策略为概率分布pi=(pi1,…,piK

)，其中对所有

k=1,…,K，0≤pik≤1，且pi1+···+piK=1。2024/4/1613CH02混合策略参与人j的混合策略解释当参与人i不确定参与人j会如何行动时，他可以把参与人j的混合策略作为参与人j行动的一个解释。参与人2参与人1正面

q背面

1-q正面-1,11,-1背面1,-1-1,1例如:猜硬币

假设参与人1相信参与人会以q的概率出正面，以1-q的概率出背面；也就是说，1相信2的混合策略是(q,1-q)。2024/4/1614CH02混合策略猜猜硬币另一面的颜色这里有三枚硬币,每一面被贴上红色或白色纸片(如下图).为了方便从左向右编号1、2、3.123现在从中任取一枚放在桌面，结果你看到白色。请猜一下，这枚硬币的背面是什么颜色?统计频数红色人白色人共人计算频率红色%白色%2024/4/1615CH02混合策略猜猜哪个硬币被标记了1/21/31/31/21/21/21/21/21/3NC2C1C3这里有三枚硬币,每一面被贴上红色或白色纸片(如下图).为了方便从左向右编号1、2、3号硬币123现在从中任取一枚放在桌面，结果你看到白色。请猜一下，这是几号硬币?2024/4/1616CH02混合策略猜猜哪个硬币被标记了提示:根据条件“看到一面白色”,只考虑前两枚硬币(拿走两面全是红色的第三枚硬币).区分第一枚硬币的两个面，尽管它们同色同质。你可以设想给第一枚的两面分别标记11与12。现在知道，从前两枚硬币中任取一个并让白色朝上，共三种可能。由于硬币质地均匀，随机抽取，随机搁置，我们认为这三种情形等可能。三枚硬币，任取一枚平放在桌面上，共有3×2=6种等可能的情形。满足条件“白色在上”的只有这三种。1-21-1211121112上下2024/4/1617CH02混合策略期望收益Student=►白红2/31-11/3-11试验有两种可能结果，你的信念是硬币以2:1的比例出现白色与红色.猜对得1分,猜错扣1分.请估计你的策略“猜白色出现”与“猜红色出现”的预期支付各为多少？预期支付就是概率加权支付—将你在所有可能结果上的支付按这些结果出现的概率加权求和2024/4/1618CH02混合策略对参与人j的混合策略，参与人i的最优纯策略给定以下信念如果参与人1的反应是出正面，则他的期望收益是

q·

(-1)+(1-q)·

1=1-2q如果参与人1的反应是出正面，则他的期望收益是q·

1+(1-q)·(-

1)=2q-1.参与人2参与人1正面

q背面1-q正面-1,11,-1背面1,-1-1,1因为当且仅当q<½时，1-2q>2q-1成立,则如果q

<1/2,参与人1的最优纯策略为出正面；如果q>1/2,参与人1的最优纯策略为出背面；如果q=½,参与人1出正面与出背面没有差别。2024/4/1619CH02混合策略严格劣于一个混合策略的策略针对参与人1对参与人2的可能行动作出的任何推断(q,1-q)，1的最优反应是要么是T(当q>1/2)，要么是M(当q<1/2),但不会是B，虽然T或M并不严格优于B关键：存在一个混合策略严格优于B如果参与人1以1/2的概率出T，以1/2的概率出M，则1的期望收益是3/2–无论参与人2采取哪种策略（纯的或混合的），参与人1的收益3/2都大于其出B时所获得的收益。参与人2LqR1-qT3,—0,—参与人1M0,—3,—B1,—1,—图1.3.1这个例子说明了在“寻找另外一个严格优于si的策略”时，混合策略所起的作用。2024/4/1620CH02混合策略给定的纯策略可以是混合策略的最优反应图1.3.2表明，一个给定的纯策略可以是一个混合策略的最优反应，即使这一纯策略并不是其他纯策略的最优反应。在这个博弈中，B不是参与人1对参与人2的纯策略L或R的最优反应；但B是参与人1对参与人2的混合策略(q,1-q)的最优反应，假定1/3<q<2/3；这个例子说明了混合策略在“参与人i可能持有的推断”中的作用参与人2LqR1-qT3,—0,—参与人1M0,—3,—B2,—2,—Figure1.3.22024/4/1621CH02混合策略对参与人j的混合策略，参与人i的最优混合策略给定以下信念如果参与人1出正面,他的期望收益是1-2q；如果参与人1出背面，他的期望收益是2q-1.考虑参与人1可能的混合策略参与人2参与人1正面

q背面1-q正面

r-1,11,-1背面

1-r1,-1-1,1令(r,1-r)为参与人1混合策略(以概率r出正面,以概率1-r出背面)；对任意[0,1]上的q，计算r的值,用r*(q)表示。因此，参与人2选择混合策略(q,1-q)时，参与人1的最优反应是(r,1-r)。2024/4/1622CH02混合策略对参与人j的混合策略，参与人i的最优混合策略参与人2:(q,1-q)参与人1:(r,1-r)求解r*(q)当参与人2的混合策略为(q,1-q)时，参与人选择

(r,1-r)

的期望收益如下：参与人2参与人1正面

q背面1-q正面

r-1,11,-1背面

1-r1,-1-1,1rq•(-1)+r(1-q)

•1+(1-r)q•1+(1-r)(l-q)•(-1)=(2q-1)+r(2-4q),(1.3.1)r*(q)=argmax2(q-1/2)+4r(1/2-q)2024/4/1623CH02混合策略对参与人j的混合策略，参与人i的最优混合策略参与人2:(q,1-q)q∈[0,1]参与人1:(r,1-r)r*(q)=argmax2(q-1/2)+4r(1/2-q)图1.3.3当q=1/2时，参与人1的期望收益2(q-1/2)+4r(1/2-q)与r无关，且参与人1的所有混合策略(r,1-r)都是无差异的。也就是说，当q=1/2时，对于0到1之间的任何r，(r,1-r)都是(q,1-q)的最优反应。2024/4/1624CH02混合策略最优反应对应古诺模型的最优反应函数这里，因为存在一个q，使得r*(q)有不止一个解，我们称r*(q)

为参与人1的最优反应对应。最优反应对应和我们之前讨论的相关概念相比(我们只考虑了参与人1的纯策略)，这是一个更强的概念。2024/4/1625CH02混合策略对参与人1的混合策略，参与人2的最优反应完全信息静态博弈中，参与人同时行动，并且参与人2和参与人1会以相同的方式考虑此博弈。对参与人1的策略(r,1-r)，参与人2的最优反应是(q*(r),1-q*(r)),其中q*(r)=argmax(1-2r)+q(4r-2)2024/4/1626CH02混合策略最优反应对应的解释最优反应r*(q)和q*(r)的交点确定了猜硬币博弈的纳什均衡：如果参与人i的策略是(1/2,1/2)，则参与人j的最优反应是(1/2,1/2)，满足纳什均衡的要求。图1.3.62024/4/1627CH02混合策略混合策略纳什均衡的说明一个混合策略纳什均衡不依赖任何参与人扔硬币、掷骰子或其他随机选择策略的行为。更确切地，我们可以把参与人j的混合策略解释为参与人i对参与人j选择哪一个纯策略的不确定性。每一个参与人确定性的选择一个纯策略.但对方不具备关于这一策略的充分信息,这时就要作相应的预测,将对方的行为理解为一个混合策略,并作出相应的对策(choseabestresponsetoamixedstrategy)每一个参与人选择一个纯战略,正是利用了对手关于自已行为的不确定性。2024/4/1628CH02混合策略混合策略纳什均衡:两人博弈定义在两个参与人标准式博弈G={S1,S2;

u1,u2}中，混合策略(p*1,p*2)是纳什均衡的充要条件为：每一参与人的混合策略是另一个参与人混合策略的最优反应，即其中2024/4/1629CH02混合策

人人文库> 全部分类> 应用文书 > 作业报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CH02混合策略课件

文档简介

温馨提示

最新文档

评论

CH02混合策略课件

文档简介

温馨提示

最新文档

评论

相关文档