




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
围棋人机大战的背后与人工智能发展趋势 刘知青北京邮电大学教授 计算机围棋研究所所长 注 本文由刘教授于2016年4月在围棋TV上的发言整理而成 报告提纲 什么是本次围棋人机大战的看点 为什么是围棋问题 AlphaGo是如何解决围棋问题的 如何展望围棋人机大战之后的人工智能 樊麾 与围棋人机大战的赛前预测 AlphaGo开发过程 1 项目正式开始于2014年2 2015年7月已完全超越现有AI3 2015年10月已5 0战胜了樊麾4 2016年1月完全超越了普通职业棋手樊麾的提示 说我棋臭的 我承认 确实棋臭 李世石 与围棋人机大战的结果 李世石完败李世石赢的一盘也是因为AlphaGo在大幅领先局势下的失误AlphaGo在展现强大力量的同时 也暴露潜在的问题和弱点 柯杰 与围棋人机大战的看点 不是普通意义上的挑战比赛 更是公司内部的系统测试AlphaGo展现了独特的围棋风格优秀的大局观和强大的总体把握能力简明直接的局部定型 虽非最优 但瑕不掩瑜算法仍然存在弱点 还有很大改进空间柯杰 就算AlphaGo战胜了李世石 但它赢不了我 为什么是围棋 最复杂 注 状态复杂度与博弈复杂度 的智力游戏 看似简单 实为复杂 具有10的170次方状态复杂空间 涉及逻辑推理 形象思维 优化选择等多种人类智能 注 国际象棋只有逻辑推理 没有形象思维 公认是人工智能领域长期以来的重大挑战国际学术界曾经普遍认为解决围棋问题需要15 20年时间 AlphaGo的核心方法 由于天文数字的状态空间和搜索空间 蛮力计算无法解决围棋问题 注 解决国际象棋的IBM深蓝是用蛮力方法 就是靠计算 这种方法在围棋这么大的计算与搜索空间是无法进行的 围棋职业棋手的解决方法 棋感直觉 搜索验证AlphaGo的核心方法完全类似于完全职业棋手的解决方法AlphaGo的优势 完全以胜率为目标 不受任何其它因素影响 深度神经网络 棋感直觉 棋感直觉 是高水平围棋对弈的要素反应了职业棋手长期学习 训练 对弈的经验积累AlphaGo通过深度神经网络机器学习 获得围棋棋感直觉 并且训练强度远超出任何棋手的个人能力 注 有的围棋对弈软件如 Zen 没有棋感直觉 每走一步软件是硬写上去的 这个是规则 不是棋感直觉 规则的覆盖面非常小 围棋的变化太多 训练两个网络 policynetwork走子网络和valuenetwork估值网络 策略网络 落子棋感 深度神经网络的有监督学习学习职业棋手和业余高段棋手的棋谱 数十万份棋谱 上亿数量级的落子方式 获得在围棋盘面下的落子棋感 价值网络 胜负棋感 深度神经网络的增强型学习 DeepMind独创 通过自我博弈 学习不同盘面下的胜负情况 三千万盘自我对局 获取在围棋盘面的胜负棋感 注 对每一个落子点给一个当时的快速的胜负感 估算 这个胜负估算并不是根据分析计算出来的 而是直觉 通过AlphaGo几千万盘的训练学习得来的 蒙特卡洛树搜索 搜索验证 没有棋感直觉不行 完全依赖棋感直觉也不行直觉需要通过严格的数学模型和计算方法 对棋感直觉进行验证AlphaGo使用蒙特卡洛树搜索 对落子棋感和胜负感进行计算验证 蒙特卡洛树搜索 蒙特卡洛模拟采样 胜负棋感验证 基于数学期望的胜负评估模型 胜率 基于蒙特卡洛模拟进行胜负结果采样 模拟采样比直觉更可靠 根据模拟采样结果验证盘面胜负的数学期望可靠程度与采样规模相关 采样越大 离真理会更近些 胜负棋感验证 采用b图 最大信心上限搜索 落子棋感验证 最大信心上限搜索是在线机器学习的重要方法 不同的选点通过树搜索 平衡机器学习过程中探索与利用之间的矛盾搜索最优的落子点 同时也是搜索次数最多的 信心最大的 胜率最高的落子点 在最优的落子点做大量的搜索 落子棋感验证 采用e图 搜索结果 双方最佳的落子序列 落子过程的最终搜索结果是双方最佳的落子序列 反映了对棋局进程的展望 不太靠谱的可能搜索5 6步就停下来 最有可能的就搜索深一些 学习上限自动做的 在一般情况下 28步落子序列展望远远超出围棋职业选手的搜索深度在特殊情况下 一本道 28步的搜索深度仍显不足 例如打劫 由于步数较多搜索深度可能不足 如果机器被引入一个比较复杂的局面 这个局面有可能会超出它的思维搜索深度 注 AlphaGo的底层技术还是蒙特卡洛树搜索 它用了神经网络的棋感直觉进行有效剪枝 树可以分枝不要那么宽 到了某个程度就不需要往下搜索没有意义 是过去技术的升级 搜索结果 双方最佳的落子序列 28步搜索 围棋人机大战之后的人工智能展望 人工智能的技术基础人工智能的核心方法 直觉获取 搜索验证 优化选择人工智能的应用展望 人工智能的三大技术基础 1 大数据2 廉价的并行计算3 深度神经网络 其直觉的东西就是通过深度神经网络利用大数据进行训练 人工智能的核心方法 直觉获取 直觉 不经过思考过程 很快就能出现的直接想法 感觉 信念或者偏好 这个非常重要 其强大的力量 如 落子的直觉 胜负的直觉 棋盘的直觉 棋形的直觉 英文Intuition来自于拉丁语 intueri 意思是 往里看 默观 通过深度神经网络和大数据的训练而获得 人工智能的核心方法 搜索验证 验证 为直觉建立真实性 准确性和可靠性的检验过程验证是核实直觉不存在偏差的一个充分条件由于廉价并行计算和大数据的支持 直觉可以通过搜索计算来验证 人工智能的核心方法 优化选择 人类生活面临一系列的抉择问题 注 有了直觉和验证就可以找一个最好的 A 手里的股票是持有还是抛售B 驾驶员到交通灯前是左拐还是右拐直觉获取和搜索验证的结合使用 可以提供优化选择 人工智能的应用展望 优化决策 国防 战略决策与战术决策医疗 诊断决策与治疗决策金融 投资决策与市场决策交通 资源决策与物流决策 刘知青教授的总结1 过去10年计算机围棋一直使用新的技术 蒙特卡洛树搜索蒙特卡洛树搜索底层有一个坚实的数学基础 上层使用并行计算 通过计算进行模拟 采样一系列的数学方法使计算机围棋有明显提高蒙特卡洛树搜索也是AlphaGo的一个基本技术点 刘知青教授的总结2 在此之上又使用了新的技术 就是基于机器学习的神经网络这个神经网络有很大的作用 1 通过学习高水平棋手的棋谱 获得如何在盘面落子的棋感2 提高机器的增强型学习 获得形势判断的棋感这两个棋感提供给蒙特卡洛树搜索技术进行验证 从而达到目前的技术突破 刘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025船舶租赁合同装卸时间规定
- 茶艺师考试理论知识试题
- 2025年北京市家政服务合同员工管理全日制类
- 婚纱出租合伙合同范本6篇
- 焊工知识竞赛试题
- 橡胶树种植资源保护与利用创新创业项目商业计划书
- 小龙虾智能养殖设备融资租赁创新创业项目商业计划书
- 小麦深加工精准扶贫计划实施创新创业项目商业计划书
- 棉花产业人力资源服务创新创业项目商业计划书
- 信托延期合同(标准版)
- 一种鞘翅目林木害虫的辐照灭虫方法
- 国旗的知识课件
- 胸部肿瘤放疗讲课
- 【自考复习资料】05175税收筹划(重点知识汇总)
- 充电桩采购安装投标方案(技术方案)
- 高校教师职业道德概论练习试题
- 低血压的护理和处理课件
- GB/T 19494.2-2023煤炭机械化采样第2部分:煤样的制备
- 2023年【汽车驾驶员(技师)】考试题及汽车驾驶员(技师)试题答案
- 我的家乡威海荣成宣传介绍课件
- 仪器维护、保养记录表
评论
0/150
提交评论