人类与机器的生存游戏

上传人：逗*** IP属地：宁夏上传时间：2026-03-29 格式：PPTX 页数：17 大小：1.85MB 积分：40 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人类与机器的生存游戏研究亮点介绍：两款生存游戏，类似于真实动物面临的生存挑战。结果：可以看出，强化学习人工智能代理在这些生存游戏中可以达到与人类相同的表现。参数化：研究感知、记忆和奖励的变化如何影响人工智能代理的任务表现介绍从历史上看，人工智能研究倾向于专注于让智能体玩游戏（或许是因为游戏往往比较简单，规则和目标都比较明确）。过去，研究主要集中在人类玩的游戏上，例如让人工智能玩国际象棋、围棋、乒乓球等棋类游戏。然而，还有一些更复杂的电脑游戏（例如《我的世界》），人类玩这些游戏是为了模拟自然界的生存挑战，例如在随机生成的环境中克服危险障碍、收集宝贵资源、解决复杂难题。这些游戏被称为生存游戏。生存游戏的难度各不相同，从极其简单到极其困难不等，这取决于游戏中的环境危险、资源、生存要求等。生存挑战的性质会影响人工智能体学习/进化的行为，例如，山地环境会迫使人工智能体学习如何爬山，而海洋环境会迫使人工智能体学习如何在水中游泳。相关作品：

电子游戏生存游戏的例子包括：雅达利游戏（1970-1980年代）。最早的电子游戏之一。2D目标导向型游戏。《Pong》。防守：阻止球进入己方球门。进攻：将球送入对方球门。《Pac-Man》。吃掉食物资源，同时躲避敌对幽灵。人工智能在这些方面已经取得了超越人类水平的性能。特别是深度Q学习和彩虹算法（一种深度强化学习）。ProcGen[2020]是一套包含16个2D目标导向型游戏的集合，这些游戏的世界是程序生成的（这意味着世界是随机设置的，从而增加了AI机器人的挑战性）。现有的人工智能在年度竞赛中已证明其在这些任务上表现出色。Actor-Critic近端策略优化（PPO）算法（一种混合形式的深度强化学习）的性能优于Rainbow算法。目前尚无可供比较的人类基准。我的世界。

3D开放世界游戏。用泥土和木头建造房屋；抵御僵尸和骷髅的攻击；种植作物和饲养动物以获取食物来抵御饥饿；开采金属和石头来升级你的房屋、武器和盔甲。目前的AI算法与人类相比表现不佳。然而，它们远非无用，也能取得一些成就。例如，一种名为Voyager的新算法，利用GPT-4模型，超越了当前的强化学习基准测试。虽然AI智能体的性能尚未与人类进行全面比较，但可以说计算机的水平尚未达到人类的水平。吃豆人电子游戏相关作品：

新人工智能新式人工智能是麻省理工学院的罗德尼·布鲁克斯在1990年提出的一种方法。其理念是强调具身/情境化的（感觉运动的）理解，而不是脱离身体的（抽象的）认知。布鲁克斯最初研究的是昆虫级人工智能（赫伯特和艾伦的研究成果），而不是直接开发人类级人工智能。这些昆虫状机器人可以在地板上快速移动，避开障碍物并寻找空汽水罐。不过，后来布鲁克斯确实开始着手开发名为“Cog”的人形机器人。哈佛大学的RoboBee项目开发出了极其微小的机器人，这些机器人可以像蜜蜂一样飞行、集群、协同飞行等等。事实上，真正的昆虫能够展现出多种多样的智能行为。已有文献记载，它们能够表现出注意力、强化学习、情绪调节、社会学习，甚至还能使用简单的工具。这种小型昆虫的感官范围与大型动物一样广泛，甚至更广，包括磁感、化学感受（嗅觉）、光感受（视觉）、本体感受和内感受（例如饥饿感、体内蛋白质和碳水化合物水平）。一只机器蜜蜂停在手指上2款生存游戏

《网格游戏》中的特工（1/3）网格游戏中的智能体有两个生存目标（会受到受伤/死亡的惩罚）：1）不断收集资源；2）避开障碍物。为了感知世界，这些智能体拥有以下几种感官方式：视野：智能体（白色像素）拥有地图部分区域（31x31格）的鸟瞰视角。橙色格子代表智能体的最后几个位置（“轨迹”），黄色格子代表危险障碍物，蓝色格子代表墙壁，绿色/红色格子代表资源。气味：智能体可以感知两种气味，每种资源各一种。每种类型的资源被聚合，然后以1）方向向量和2）标量强度值的形式提供给智能体。触摸：智能体获取其周围5x5的图像。这是为了弥补视觉处理中由于池化而导致的特定像素信息在架构中丢失的问题。位置：智能体接收其在世界中的全局x和y坐标作为标量。内感受：智能体将自身的内部资源水平作为标量接收。这是Grid游戏视觉传感器拍摄的图像。《网格游戏》中的特工（2/3）操作——共有3个操作向前走左转90度向右转90度奖励系统效用函数奖励函数（用于强化学习）记忆LSTM代理轨迹（视觉感知）前一步移动的方向（北、东、南或西）《网格游戏》中的特工（3/3）决策演员-评论家近端策略优化（PPO）强化学习算法，并添加了用于处理感知模态的附加模块和LSTM作为记忆结构。代谢资源损失：每走一步，个体都会消耗0.01个食物资源和0.01个水资源作为“代谢成本”。如果它们受伤（例如碰到障碍物或墙壁），则会因“流血”而消耗0.1个资源。资源获取：当智能体踩到食物/水资源时，它们会获得0.25的该资源（除非它们已满[最多5]，在这种情况下不会发生任何事情）。死亡最大年龄：如果智能体达到其定义的最大年龄（此处为500步），则该智能体将被迫“老死”。饥饿：如果个体的任何一种内部资源减少到零（“饥饿”或“口渴”），个体都可能随时死亡。训练PPO智能体采用课程学习法（即由易到难）进行训练，训练过程包含25个随机世界。每个回合持续到智能体存活为止。Grid游戏截图《地形游戏》中的特工（1/3）在地形游戏中，智能体有3个生存目标（会受到受伤/死亡的惩罚）：1.)不断收集资源，2.)避开静止的障碍物，3.)避开移动的智能体。为了感知世界，这些智能体拥有以下几种感官方式：视觉：视野的40x20像素图像，纵向角度为40度，纬度角度为20度。接触：当智能体的物理引擎碰撞器与其他碰撞器相交时，代表碰撞位置的局部坐标将被输入到智能体中。智能体最多可以感知两个同时发生的碰撞。内感受：每种资源（葡萄糖/水）的内部信号以标量的形式输入到智能体中。本体感觉：智能体将自身垂直视线的角度（它也可以控制该角度）感知为一个标量，并将自身速度感知为一个矢量。地形游戏视觉传感器的屏幕截图（红色=树木，绿色=地面，白色=葡萄糖，蓝色=水）《地形游戏》中的特工（2/3）

一只兔子特工

在地形游戏中穿越群山。《地形游戏》中的特工（3/3）决策与网格游戏相同代谢资源损耗：每消耗一种资源，每步代谢消耗0.005个资源。当智能体通过施加力来执行动作时，损耗根据施加力的大小，通过以下公式计算：资源获取：当一个代理人获得资源时，其内部储备将完全补充。死亡与网格游戏中相同。训练首先，定义了一个世界的难度概念（例如，地形陡峭程度、资源/竞争者数量等）。然后，对代理人进行了课程学习培训。第一节课程包含100棵树、300个葡萄糖/水源和9个竞争主体。最后一节课的课程包含500棵树、50个葡萄糖/水源和9个竞争主体。代理的寿命

随着多次训练步骤的进行而增加。结果人类与人工智能招募了20名学生参加几轮生存游戏。其中12人玩的是网格游戏，11人玩的是地形游戏。结果如下所示。请注意，这种比较并不完全公平。人类操作游戏存在“延迟”，我们需要用手来控制游戏，而人工智能则可以瞬间执行命令。结果网格代理的记忆变体请注意，如果没有LSTM，智能体的性能会差很多。结果网格代理的感知变化请注意，如果没有给定的感知能力，智能体的性能会变差（GPS除外）。结果网格代理的奖励变体3种不同的信号：经典（消耗资源时+1，撞到

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人类与机器的生存游戏

文档简介

温馨提示

最新文档

评论

相关文档