数学行为中的人工智能游戏

上传人：我*** IP属地：北京上传时间：2022-03-05 格式：DOCX 页数：26 大小：595.90KB 积分：9.6 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、数学行为中的人工智能Behavioral Mathematics for Game AI作者：DAVE MARK起止页码：7992 页日期：March 5, 2009：Course Technology PTR外文翻译译文：理性与非理性行为冯·诺依曼其中的一个问题，和其他人期望的对博弈论的应用，在这样做时人们有着合理的行为举止。并且总是试图选择最好的结果。我们可以在第 5，从一些例子可以看出，这并非总是如此。通常，人们要么无法选择到最佳的选择，要么甚至不以任何理由来选择。结果导致地就是这样一个规范性决策理论和决策理论的描述有差别的。而这种有着一大截的差距在于非理性行为。当然，试图找出

2、那些行为是一个棘手的问题。而计算机只计算出理性行为的。一个非理性的想法但有合理的前瞻性的却完全是另一种伎俩。我们大多数人习惯于这样的概念，不合理的东西是需要避免的，甚至回避。然而，正如我们已经深入看到的那样，并且会继续探讨下去，非理性不仅仅是非常真实的，并且它是对行为的性质赋予了深度。试图与非理性的行为走一起是一个的问题。无论如何，通常一个问题都只有一个正确的（即理性的）回答。但在非理性行为的解集中往往是很宽松的。这一切并不是说是否是“正确”的如果你记得在第 1是需要看一切是不是很合理。但有些事情是完全错误的。所说的，我所画的一幅可爱的猪的画。虽然我对猪的写照描写很容易但是不够完美。这在“pi

3、ggishness”的范围内是很好的。它没有第五条腿伸出在其背脊上，像鱼的背鳍一样。虽然不是十全十美，但它是合理的猪的形状。还有，实话来说，人们可以通过无穷个途径来描绘出猪，但只有一些他们挑选出来的数目会属于可接受的范围内，并且观察员才可以接受“看起来是猪的样子”。当然，其中有些可能是归类为“古怪的猪”，但仍是合理的，足够不与其他的弄，比如说，一匹马，鬣鳞蜥，或鸭嘴兽（虽然鸭嘴兽本身是不易的）的糊涂思想。最后，在规范决策理论和效用最大化的算法中，它给我们提供了无结果的但“应该做”的。完全理性。我们需要在研究的理性与理性的基础上再作补充，并且合理地再进行由于非理性的是如此难以界定，而它实际上是从

4、理性的顶尖来理解更加容易开始这一尝试。商说，有完善的理性行为，如果他们总是以最好的方式，这样做即使使他们必须进行广泛而难以的计算工作。如果，通过实例的理论来说，我们要降低到一个简单的空间，我们可以利用一字棋这样的。正如我们在第 1指出，我们是否想要赢，则选择在中的任何一点，可用于缩小到一个房间中的决定。如果我们想赢，有一个明显的选择。如果我们不想赢，有一个同样显而易见的选择。因此，我们在一字棋中的是完全基于我们是否想获胜。玩家将始终发挥一个完全合理的正确的举措。如果我们选择甚至错误地发挥这些举措之一，不再被认为是完全合理的。完全理性的其他例子可以应用到第 5的中。谁是犯，没有任何其他信息知道，

5、选择以他的徒困境中的合作伙伴是展示了完美的合理性。是谁在最后的通牒中给了最低限度和者，体现了完全理性的行事如在把蛋糕切割出一半，以减少预期中的贪婪给（而且完全理性的）其他玩家是完全合理的。即使是不论谁扮演了一个匹配几个便士的混合策略，以防止他的对手通风报信的模式是完全合理的。如果存在最优解，完全理性的人会抓住每一次。还有什么能比如此还好呢？结果是完美的合理性有着严重的弱点，需要通过运行试驾来出。为此，我们需要一个测试赛道，让我们可以看到完美的理性行动。海盗最后通牒博弈是指两个人以其“要么接受，要么拉倒” 的有趣的像鸡那样的冲突的。正如我们上面提到的，它也是一个多么完美的合理性，但可能也会导致一

6、个的例子。以优良的解决方案来说，在这种情，需要给其他人提供最低限度的支付的可能性变得更加有趣。它可以推广到许多人，而海盗确实就是这样的。使用五）。尽管在海盗中，有一个合理的海（在本例中，我所希望的是要拿出真的很酷的海盗名字。制定它们为 A，B，C，D 和 E。字母是可以真助我们进行下一个问题，即海盗有严格的资历顺序：A 优于 B，谁又优于 C，谁又优于 D，而谁又优于 E。作为一个群体，5 个海盗需找到 100 个金币，正试图决定如何分发。在海盗的世界分布的规则如下。的海盗应该提出一个硬币的分配意见。然后其他海盗来投票决定是否接受这一分配。申请人也是可以投票的。如果是平局则申请人投决定票。如果

7、拟议的分配是通过投票批准，这项建议进入结果中。如果表决失败，则将申请人从海盗船扔到海里。下一个的海盗作出了新的建议，开始重新处理。海盗基地四个因素的决定。每个海盗：1、是完全合理的。2、要生存下去。3、要最大限度地利用他所接受的金币数量。4、除非所有其他的结果宁愿选择抛出另一个，否则一律平等。乍看之下，这似乎是在说海盗 A，寡不敌众于其他的同级人。可能要尽量减少自己的分配，以避免被了。毕竟，如果其他四个海盗认为他是接受过多，他们会下降从中的受益。否决他的建议，并在甲板上送他下来。在这一点上，总是只会分给他们四个人，而不是五个。然而，这不是解决办法，并且能够惊奇地发现不同于他的最佳方法。完全理性

8、的决定的申明如果我们的工作落后，纯策略的解决方案变得更加明显。如果要做到这一点，让我们假设，我们不知道怎么设法使最后两个海盗 D 和 E 下来。我们知道，作为资深海盗，D 比 E 更加有决定性的一票，D 决定可以获得 100 个金币，而 E 则只能够不幸地得到零个。如果只剩他们两个的话，这可能就是最后得出的结果。海盗D E金币1000表决结果同意*不同意如果我们现在的情况是有三名海盗离开 C，D 和 E，那么 C 就知道 D 将执行上述战略，在下一轮中什么也没有给 E 提供。因此，C 将提供 E 一枚硬币，不断给自己休息，并使 D 无所得。而 E，基于完全合理的，也，如果归结到 D 和他本人

9、，他将什么也得不到。因此，相比从 C 那获取一个硬币，看起来不错。所以 E 投票给 C 的建议。海盗C DE金币9901表决结果同意* 不同意同意当然，为了使三个海盗的论述成立。四个海盗中一定有一些不对劲的情况发生。如果仍然是 B，C，D 及 E 留下，B（再一次是完全合理的）知道，由 C 在上面提及的建议的三个海盗离去。因此，他需要安抚 D，因为下一轮 D 知道他很好。获得什如果 B 提供了 D 一个硬币，D 将采取这一提议。这一举措使得他从 C 那么。D 知道他有着决定性的一票，从而可以获得一个金币。而 B 也不再需要担心 C 或者 E 的意见，并且不给他们提供任何的金币。若 B 是建议者

10、则投票结果将是两票对两票。海盗B C金币990表决结果同意* 不同意DE10同意不同意当然，B 可以采取同样的方法为 C 和 E 的提供一个金币。毕竟，因为 E 知道他得到任何多个金币，如果 B 放弃投票的话。或许你会认为他将投票支持这议。但是，请记住，根据规则 3 以上，每个海盗都急于把其他人抛到海里。在这种情，他在对 B 的投票上会有，因为他可以在下一轮从 C 那里获得到一个金币并且分配对手。E 将投赞成票，因此，仅仅因为他只是提供一个金币的相同的方式。D 将会认识到这一点，B 会继续沿用 D 的投票。当然，A 对所有难以预料，但却是完全理性的。并因此能够很好地处理上述所有的情形。正如我们

11、所看到的，如果是 B 在负责分配，那么 C 和 E 就像在寒冬中一样什么都没有留下。A 知道这一点，并且知道这两票都是他需要的。更何况他知道，这一票的价格仅仅只是一枚金币。没有好多了，或者在 C 的情而 C 和 E，是理性的，会明白有一枚金币比什么都，最终会被。所有的这些想法，A 的建议如下。海盗A B C DE金币980101表决结果同意* 不同意同意不同意同意最后一点：像 B 上面的选择，A 也可能分配这两个硬币以另式。例如，给一个给 D 代替 C。然而，就像上面说过的 E 的例子一样，D 可能会将 A 抛弃，从而拒绝倾向于某一边的海盗，并且在下一轮中从 B 那收集他的只会给一枚金币给

12、C，而不是 D。金币。因此，A/* 你对于那些熟悉使用递归法。这是一个怎样的问题，可以通过启动用最小的可能的方案（在此情，两个海盗）和使行动往反方向。在每个级别中，应用同样的规则解决了很好的例子，但与从以前获得的知识相比。鉴于此，如果你有足够的支持海盗人口，您可以解决任何贪婪但友好的数量的海盗做，高达 200 个海盗有 100 金币。）/*。（你甚至可以这么对于那些时侯。不熟悉的递归的定义，这是它提出的方式在AP 计算机课在高中的递归式 n：1（见递归）要吸取的教训是，即使是纯粹的理性和商有完善的信息（或挂钩），有时理性的事情需要一点挖掘，发现。在这种情，必须考虑到开发什么，C 和 B 将提

13、出（按该顺序），以及他们将如何投票支持每一个这些建议。所有这些问题到一起，经而 A 需要提出什么。这是规范决策理论方法。我们应该做的在数学和算法上已知。迭代的合理性质疑该解决方案的合理性，我们在使用的迭代到达不同于第一眼见到的做法。当我们一开始在看比赛时，我们计算过，一个海盗至少需要提出一个稍微公平的解决方案。事实上，如果我们要运行一个我们真实参与的海盗，这是非常可能的。像在前一章的最后通牒里，者，信任，海盗将提出一个行之有效的一些显着不同的最佳解决方案。在此基础上的行为建模是描述行为理论的方法，即，是什么。人们往往要在这种情。而在这种情，人们往往会做的事情是他们不应该这么做的。什么样的机制会

14、导致他这样做？当然是的利他作为，而这似乎是者博弈中的唯一的解释。海盗不知道他们的慈善倾向。这表明别的东西作为不合逻辑提供的。如果不是以其他慈善为中心的利益（甚至在潜意识水平中），也许是的自我的利益？立足于自身利益的决定，这似乎更可能导致我们得到最大的（即贪婪）解决方案，我们得到了。那么如何才能利己，引入错误的方向？有一种不同的方式，代表自我利益的得到。请记住，钱不是在中的唯一考虑。海盗们试图避免了成为鱼类的，以及非常现实的威胁。因此，它是一种自身利益的合法表达说法，“如果我显得过于贪婪，他们会我”。为此，海盗可能会倾向不利。数学计算，相比需要一个特定运，以避免在这一点上，我们已经找到了一个类

15、似的心态，最后通牒博弈的困扰。也就是说，“如果我给的太少，我会拒绝对方泄愤，并会得到什么”。只是得出了最后通牒博弈的情。错误的想法是，因为这种太小了所以其他人（）会拒绝提供，而是采取什么。当然，这是不合逻辑的的做法。他决定得到任何东西，甚至是一元，总比一无所有都好。因此，送礼者只应提供一什么真正的最后通牒博弈参赛者的做法。并期望它被接受。但是，这并不是在海盗中，心态是相似的，但结果略有不同。比没有钱相比，放着可能会更加没有钱，并且很有可能会的顶尖的可能性。（而且，正如我们都知道，经典的错误之一是“永不与海盗抗争的时候就在边缘线上了”。）任何特定的高级海盗会觉得他要担心是否无私奉献，他的下属不仅

16、如此，他们会接受他的建议，以及至今他将生存的整个过程。当我们发现，无论如何，这种尴尬的做法是不正确，甚至是的。除了价格是在一个或两个非常小的表决中，排名海盗可以简单地保持休息，也没有人可以做任何事情。至少没有牺牲，在后面的过程中。因此，如果我们把情况放入一个中，我们应该选用哪种方法好呢？我们的海盗规范性提供了一个对什么是应该做的回答。一个描述性的东西提供给了海盗（或至少是假装的），往往不回答我们。前者是最佳的解决方案，后者则是更“现实”。SUPERRATIONALITY在徒的困境中，我们谈到了之间的的严格占优策略和保持安静的帕累托最优战略的区别。在这种情，以实现的方式的最佳的策略是，如果我们的

17、合作伙伴当选，以及保持安静。只有这样，我们可以感到舒服，并作出该决定。如果我们知道我们的合作伙伴将承认，而最佳战略，并认为我们要遵循它。因此，重要的问题是，我们这一理性行为并不简单。而且根据假设所有其他玩家的行为，以及理性行事。这就是所谓的 superrationality，由·在 1985 年描述金币的兼收并蓄的文章之一的书中说到。Metamagical Themas（书号，0-465-04566-9）。诚然，作出理性的决定必须在其的事实下。每个人都在房间里，其他人也作决策的时侯是有点夸张。但事实上，在某些情会采取这一切的整个框架是一个人的不理性行事将送入滚筒。而这探索之后去发现，

18、这是在规范性中的决之一。请记住，对于规范性决策理论的定。而这在第 4要求是：所讨论的理论的最大拥有所有可用的相关信息。能够感知到所需的信息的准确性。能够完美地执行所有的计算并且要运用这些事实。是完全合理的。这是一个好主意，如果我们是一个谜，不涉及其他思想的。然而，仅仅的一些形式，通过将其列入，我们都可能在前两个项目的上丧失资格。总之我们无法其他玩家的头脑，因此怀疑后面的屏幕上的所有相关信息。我们可以看到，即使信息并不一定完全准确。正如我们所看到的，是规范性决策理论与“应该”，它吐出来，而我们可以解决一些问题，每每有益的，它开始显示其他人参与的弱点.五分之四的海盗在海盗中，我们质疑海盗 A 的

19、决定，因为这不符合我们的直觉。他感觉适合什么则应该做的部分是，我们对其他海盗观点可能有点偏离。其中一个初步的指导的设立的比赛，“所有的海盗都是理性的”。而再一次，那就是不合理的superrationality，从单纯的规范性办法假设的度不够格。如果其他海盗是不理智的，那么所有的计算，我们上面所做的是没有意义的。如果他们不是纯粹理性的，那么像恐惧，怨恨，羞愧，甚至是简单的计算也是错误的乱七八糟的东西，会蔓延到他们的决策。如果他们的决策是妥协和不可靠的，那么我们不能准确地把以吗？的度，可因此，不管我们是否是纯粹的理性，并不是唯一的需要加以解决的问题。如果我们要制定我们的方法。如果我们是理性的，所以

20、是他们休息，则一切都很好。但如果其中一人甚至是不理性的，则它可以表现歪斜的任何结果的排序。当然，在徒困境中，这是我们共同努力的最佳利益。在海盗中，参赛者都希望对方推出去落水，并使得到的。难道我们真的认为他们都是非常理性和为的利益考虑着？所以，也许我们的困惑在于，我们正在努力解决错误的问题。而不是试图确定“正确的”。完全合理的世界优化了我们的解决方案，我们需要努力模拟的行为，考虑到人们的所有合理的但不纯粹的信息和计算能力。对这个问题的是一个什么样的问题，我们正在努力解决的功能。此外，可能是什么,我们正在努力实现在这个特殊的计算。如果我们需要很高的数学精度，那么最好的是使用规范的做法。如果我们需

21、要心理度，描述一个是可取的。而在中间某个地方，我们可以有两个特点。事实上，只有这两种方式是并列的。我们的事实是，描述性的方法（例如，作为利他）是彻头彻尾的从效率的角度考虑是不正确的。只有通过分析他们两个人，而我们同时能够确定规范性方法（当数学方法用尽时），没有考虑到潜在的心理因素。也就是说，“应该”似乎是完全可行的。直到我们的数据表明，真实的人根本没有做什么，但他们带来了“应该做的”。所以，也许我们的直觉是太过遥远。把这一奇妙的数学和逻辑都要讲好。计算机和人工智能（AI）的程序员是如此得喜欢自身世外。如果是我们的海盗的外观和行为的实际行动，他们可能会认为全合理。如果他们有全理性的行为，他们将不

22、使用算法来产生最佳结果。因此，没有花哨的数学来帮助我们，A 海盗提供了什么是正确的解法，以避免不幸的潜水探险。虽然可能没有直接的解决办法，但从这节来说我们也有学到点什么。平均三分之二的猜测幸运的是，在海盗中，规则指出，“所有的海盗都是理性的”。虽然superrationality 中断言（即每个参与者是完全理性的）似乎是在海盗定型介绍一个伸展位的基础上。但这当然比要到达一个解决方案简单了很多。当我们走过的每一步迭代过程中，我们可以解决那些和每一个步骤相关的说法。因此，他将这样做。这种假设的合理性留给我们的是每一个单一的代替的解决方法的结果。其中，为此之上，建立一个单一的结果为“最佳”来引领海盗

23、提出的安排。这时候，我们暗示了一个事实，即数学上的最佳解决方案。我们到达了我们所拥有的，不同的海盗有的只是一些非理性的猜测。我们中的大多数将提供的，海盗比较需要他们的同事的默许。幸运的是，我们的同胞可能知道和海盗之间一样的非理性其中的差别。只要我们提供有意义的长期的给他们（不论他们喜欢与否），他们将很可能与它一起去，因为它“感觉好极了”。一个流行的例子类似于，海盗游戏是充分体现了这个理性的缺乏，一个所谓平均猜测三分之二。标题是不是很隐蔽。字面上包括询问一组人猜测从 0 到 100 之间的数字。我们的目标是猜测最接近于三分之二的人的所有猜测将平均三分之二。例如，如果所有的参与者平均猜测是75，那

24、么获胜的猜测是最接近 50。如果大家都猜平均为 33，获胜者将是一个谁猜中最接近 22。再一次，就像海盗我们如何处理这一种，我们很多人已经制订计划读这篇。在我们要思考的是规则。我确实知道我错了。海盗不同的是，没有明确的法令定义 superrationality。也就是说，参与者可能是完全合理的，但很可能并非如此。这注入的不确定性将导致决策的水平的窘境。这个，具有讽刺意味的是必须作出的决定之一，但是否是完全不理智的行为（如果你知道如何做）。这取决于是否和在某种程度上，甚至认为，其他球员是合理的。在徒的困境中，这种表现本身相当不错。严格占优策略是背叛所承诺的其他玩家。因为是最好的结果，无论其他人是

25、什么样子。然而，当我们探讨时，最佳策略是两个玩家保持安静。一个玩家的唯一方法将选择这个选项，但是，如果他知道其他人是要在完全理性的行为，以及保持安静。如果其他人的理性是不知道的（无论如何，他或者被称为是一个松散的），然后回落的是严格占优策略。在平均猜测三分之二的比赛中，我们的都是类似的。但对困境，规模较大。我们需要决定是否对其他玩家的要理智行事，或在此之前，我们可以决定我们是否应该扮演理性的策略。更何况，现在我们已经偏离了冯·的博弈论，例子简单了，我们要占更大的变数。与犯的困境相比，我们必须确定一个人的理性来决定他会选择哪两个选择。在这种情在何种程度上？消除非理性回答的申明，如何与其

26、他很多玩家相处是合理的。以及在这里的问题是，有没有严格的主导战略。刚开始，也就是说，我们不能说“这是最好的方式，不管别人怎么做。”不同的是徒的困境，我们不能说“给了我们最好的机会。”有趣的是，独特的纯策略。在徒的困境，这种战略是保持与我们的合作伙伴的相互了解。这样做是要是宁静，因为他是合理的。同样，在平均猜测三分之二中，这种方法使得到我们最好的结果。如果每个人在中纯粹以理性行事。无论如何为了得出这个得到了一个完全不同的，与我们期望的那样相比来说。，我们需要经历一遍从一开始工作的时候。就像我们与我们的强盗一样吝啬。在这种情，消除这我们通过反复严格的主导战略。要做到这一点，我们必须找到严格主导战略

27、。通过使用这些对我们有利的信息。我们可以缩小我们的解决方案，使设置明显回落。正如一个严格的主导战略之一是，不管的局面是否清楚。严格的主导战略是一个是最坏的局面，无论什么。在平均猜测三分之二中，没有严格的主导战略，但也有严格的主导战略。也就是说，有办法发挥，将永远失去，不管是什么。其是，在中的数学是不可能的。由于的状态，人们从 0 和 100 之间选择号码的规则。我们知道这是不可能的，如果平均猜测是在 100 以上。当然，也可能是 100，但只有当所有玩家都猜到了 100。（不要笑。正如在后面看到，还有哪个人会这样做）。如果平均不能超过 100，那么这两个三分点不能高于 66.67。因此，什么将

28、上述 66 个不合理的猜测。因此，要划掉一大块的可能性。现在，因为我们的前提是，每个人都是理性的工作，我们必须假定让他们知道。上述 66 个猜测是不合理的。因此，我们也知道，没有人会猜测 66 以上。那么，如果没有人会去猜测 66 以上，那么我们也可以断言，三分之二以上的 44 点将出现（双66 的三分之二）。由于我们的理性合作的玩家没有一个人会猜测 44 以上，我们知道三分之二以上的点是 29.48（双 44 的三分之二）。车床，漂洗，重复.（图 6.1）。图 6.1 通过迭代消除了严格主导战略（即那些没有获胜的可能），我们确定的唯一的纯策略，猜测为零。最后，通过消除理性的玩家的可能的猜测，

29、我们得到这一步，任何大于 0 的猜测是不合理的。这意味着，在平均猜测三分之二的中，纯策略的猜测是零。当然，这个只存在于 superrationality 世界。每个人都必须参与一样纯粹理性的战略，但其发生的机率相当渺茫。猜测猜测者的猜测就像是这个问题，海盗的的存在，这种纯粹的策略应该是并不适合与我们的感觉很好的解决方案相关的。所不同的是，在海盗中，不同的是比我们提出的98枚金币少，我们没有得到合理的解决。我们没有那些。我们在司机的座位上是不合理的。在海盗中的解决办法是最合理的计算方案，就告诉其他玩家，然后让他们看到，让他们别无选择。如果我们不能提出的98枚金币，这是因为我们没有得到合理的对待。

30、在这种情，解决方案并全掌握在我们手中。这是一个移动的目标，其他玩家的程度为基础的合理性。随后，他们的猜测。既然我们不能假设的其他球员是完全合理的，我们完全有能力提出解决方案，并解释事物的方式不只是“存在这里将成为”。我们必须考虑到问题所在，在其他玩家的合理性提前上。这就是为什么零纯策略的猜测并不一定是正确的。但是，什么是正确的猜测？正如我们刚才所说，实在是一个也没有。任何给定的运行可能会产生不同的平均数与疯狂地不同的。但是，这可能是一个最佳的猜测。这将是一个考虑到人们可能会需要做的。请记住，我们没有搞清楚什么是每个人会做，我们只需要弄清楚聚合该打算干什么。如果我们足够接近，其中大部分时间里，平

31、均会得出我们的一般预期。在什么地方，这是一个令人高兴的点，如果我们能够找到它。而不是通过理性的方式解决这一迭代的问题，我们需要通过更加可能的遍历它的解决方案的做法。由于的目的是确定哪两个，平均有三分之二会是这样的。我们首先要确定我们相信，所有其他玩家的平均猜测会是怎样的。如果人们所不知道的不是完全的规则或（或完全随机）是数学。我们可以假设，猜测将均匀地分布在范围从 0 到 100中。所有这些猜测平均将接近 50。在这种情即 33。，我们猜测应该是双向的三分之二，但是，如果是其他玩家，甚至是一些以同样的在考虑我们是谁？他们会猜测 33 吗？如果是这样，一个受过教育的猜测 33 不成比例的数量将混

32、合到非理性的人中，纯粹是随机的背景噪声。所有的猜测现在平均不到 50，稍将有下降到三分之二点。例如，如果平均猜测 45 岁，那么三分之二将是 30。我们的 33 个猜想已经太高。也许是 30 猜测更准确。但是，如果我们和其他人都在思考同样的事情，而不是猜测33，选出猜 30 呢？这是否更加平均，我们有同样的三分之二的目标。当然，你，这是的人越多，谁的行为则是合理的。的平均水平（以及相关的三分之二的目标）是否受到影响。更重要的是，有些人可能是在较浅的行事合理水平上（例如，猜测 33）。有些可能是轻微行事上更合理地考虑到第一级的理性玩家。即使其他人可能要承担，每个人都在行事的平均水平，猜测将是 3

33、3 而不是 50。这将使他们猜 22 的三分之二。有点让你头晕，不是吗？在 2005 年，在丹麦大学学系的一个丹麦报纸上的 Politiken 的的审判广为人知的。他们提供了 5000 丹麦克郎（约合 1000）的现金奖，谁能有这样的最接近的猜测。吸引了超过 19,000 份意见书，他们通过互联网。不用说，这是个不错的样本大小。（事实上，大约有 1300 丹麦人参加）在其审判的平均猜测为 32.407，这导致了 21.605 的赢的目标。在完成对材料的提交的直方图中（图 6.2），两件事情从中脱颖而出。首先，有一种猜测，包括有些人究竟是谁也猜 100 广为散发。事实上，尽管它绝对只是图表的稀面

34、积，但有数量惊人的人猜上面的“不可能点”66.7。图 6.2 在丹麦的实验结果表明，两种最流行的猜测分别为 33 和 22。事实上，平均为32.4 猜测，使得打赢了 21.6 的目标。图形来作一个猜测”的工作文件。学系大学的 Jean-Robert Tyran 和 Frederik Roose vlisen 使用2009 年）。猜测接收（超过 6）得票最多为 33 个。记得我们有 33 个是一个潜在的解决方案。但是只有当其他票都被平均分配 0 到 100 之间，使得平均猜 50。所以，有些人很明显这些方针的思想。然而，他们的致命缺陷是期待均匀分布。正如superrationality，所有参加

35、者的合理性，是一种不合理的期望，期待所有的参与者是完全不合理的，只是因为有缺陷的一个前提。接到的猜测只稍低于 33 票，猜测是 22 的第二数量最多，占 6。再次，在这里工作的心态似乎是一个我们在早期的一个感动。谁猜中的人有 22 人指望这样一个事实：绝大多数的其他人将要被猜测 33。他们希望一些玩家将至少对应他们的回答思路（例如不像的玩家猜中 100），但不能想太多。通过考虑到这些人，然后根据这些信息为基础的行动，人们谁猜 22 人，其实是非常接近的解决方案。翻译原文：Rational vs. Irrational BehaviorOne of the problems that von N

36、eumann and others had with their application of game theory was the expectation that people behave rationally and, in doing so, will always attempt to select the best outcome. As we saw from some of the examples in Chapter 5, this is not always the case. Often, people either fail to select the best

37、option or even elect not to for whatever reason. The result is the reason for such a difference between normative decision theory and descriptive decision theory. In that gap lies a whole lot of irrational behavior.Of course, trying to figure out what those behaviors are is a bit of a knotty problem

38、. Computers are good at figuring out the rational answers. Coming up with an irrational but reasonable-looking answer is another trick entirely. Most of us are accustomed to the notion that irrationality is something to be avoided or even shunned. And yet, as we have seen so farand will continue to

39、exploreirrationality is not only very real but it is what bestows depth of character on behaviors.There is a significant problem in trying to work with irrational behavior, however. While generally there is only one correct (i.e., rational) answer to a problem, the solution set on irrational behavio

40、r tends to be a bit wider. That is not to say that everything that is not the “correct” answer is going to look reasonable. Some things are just plain wrong.If you recall in Chapter 1, I wrote about my beloved pig painting. While my prone porcine portrayal was less than perfect, it was well within t

41、he bounds of “piggishness.” It didnt have the fifth leg sticking out of the top of its back like a dorsal fin. While not perfect, it was reasonably pig-like. There are, in truth, an infinite number of ways that one could paint a pig, but only a select number of them would fall within an acceptable r

42、ange that observers would accept as “looking like a pig.” Sure, some of them might be categorized as “an odd-looking pig” but would still be thought of as reasonable enough to not be confused with, say, a horse, an iguana, or a platypus (although a platypus is confusingenough on its own).In the end,

43、 while normative decision theory and the utility-izing algorithms that fallout of it provide us with the sterile “should do” answers, we need to look a little further into the basis of reason and rationality to begin to replicate it.PERFECT RATIONALITYBecause irrationality is so difficult to define,

44、 it is actually easier to start this foray bystarting from the summit of the mountain of rationality and working down. Agents are said to have perfect rationality if they always act in the best possible manner, even if they haveto perform extensive and difficult calculations to do so.If, for the sak

45、e of example, we were to reduce this to a simpler game space, we could use the game of Tic-Tac-Toe. As we noted in Chapter 1, the choices available at any point in the game can be narrowed down to a decision between whether or not we want to win. If we do want to win, there is an obvious selection.

46、If we do not want to win, there is an equally obvious selection. Therefore, our success at Tic- Tac-Toe is based entirely on whether or not we want to win. A perfectly rational player will always play those correct moves. If we were to elect to play incorrectly on even one of those moves, we would n

47、o longer be considered perfectly rational.Other examples of perfect rationality can be applied to the games from Chapter 5. Theprisoner who, without any other information to go on, elects to betray his partner in thePrisoners Dilemma is exhibiting perfect rationality. Thewho gives the minimum inthe

48、Ultimatum and Dictator games is acting in a perfectly rational fashion. Cutting the cakeexactly in half so as to minimize exposure to the expected (and perfectly rational) greed ofanother player is perfectly rational. Even thewho plays a mixed strategy inMatching Pennies to keep from tipping off his

49、 opponent to patterns is being perfectly rational.If an optimal solution exists, the perfectly rational agent will take it every time. What could be so wrong about that? It turns out that perfect rationality has serious weaknesses that can only be exposed by running it through a test drive. For that

50、, we need a test track so we can see perfect rationality in action.THE PIRATE GAMEThe Ultimatum Game is an interestingbetween two people with its “take it orleave it” game of chicken. As we noted above, it is also an excellent example of howperfect rationality can lead to an extreme solutionin this

51、case offering the bare minimumpayout to the other. The possibilities get even more intriguing when it is extendedto multiple people. The Pirate Game does just this.In the Pirate Game, we have a number of rational pirates (for this example we will use five). Despite my desire to come up with really c

52、ool pirate names, we will refer to them as A, B, C, D, and E. The alphabetical monikers actually help us with the next issue, that the pirates have a strict order of seniority: A is superior to B, who is superior to C, who is superior to D, who is superior to E.As a group, the five pirates find 100

53、gold coins and are trying to decide how to distribute them. In the pirates world the rules of distribution are as follows.The most senior pirate should propose a distribution of coins.The pirates should then vote on whether to accept this distribution. The proposer is able to vote.The proposer has t

54、he casting vote in the event of a tie.If the proposed allocation is approved by vote, that proposal goes into effect.If the vote fails, the proposer is thrown overboard from the pirate ship and dies. The next most senior pirate makes a new proposal to begin the process again.Pirates base their decis

55、ions on four factors. Each pirate:1. Is entirely rational.2. Wants to survive.3. Wants toize the amount of gold coins he receives.4. Would prefer to throw another overboard, if all other results would otherwise be equal.At first glance, it would seem that pirate A, being outnumbered by his peers, mi

56、ght have to minimize his own allocation to avoid getting kicked off. After all, if the other four pirates think he is taking too much, they would stand to benefit by declining his proposal and sending him down the stereotypical plank. At that point, the total would only be divided among the four of them, rather than five. This, however, is not the solutionand

人人文库> 全部分类> 应用文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数学行为中的人工智能游戏

文档简介

温馨提示

最新文档

评论

数学行为中的人工智能游戏

文档简介

温馨提示

最新文档

评论

相关文档