



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、清华大学张钹院士做了题为“模式识别面临的挑战”的报告。在报告中,张老 师列举和分析了在深度学习背景下模式识别领域所取得的新突破与新进展,同时 也指出了当前模式识别中存在的问题和局限,并用一些实例形象生动地进行了展 示和介绍。同时,张老师从人工智能方法论的角度出发,结合自己的具体工作, 从理论和实践上深入分析了造成这些问题背后的深层原因。最后,针对当前模式 识别中存在的主要问题,张老师不仅给出了一系列建议与解决方案,也介绍了关 于这些问题的一些具体工作和进展。在报告开始,张老师首先指出模式识别是深度学习的最大受益者,并列举了 深度学习在模式识别问题中的成功应用与取得的重大突破,例如图像识别(20
2、15 年12月17日在ImageNet图像库上,微软图像识别系统的误识率低于人类:人 类:5.1%,机器:4.94%)、语音识别(百度的中文语音单句的误识率低于人类:人 类:4.0%,机器:3.7%)、计算机围棋程序(AlphaGo2015年10月至今围棋程序实 现三级跳)等。接下来,张老师着重解释了为什么围棋程序AlphaGo属于模式 识别问题。在AlphaGo之前,围棋程序面临的主要问题是棋局状态的描述以及 评价函数的定义。过去有人想出用电场的方式描述棋局,大都采用人工的方式定 义评价函数,但这些方法取得的结果都不理想,得到的围棋程序只达业余水平。 而AlphaGo只花了两年时间就实现三级
3、跳,从业余到专业又到世界冠军,后来 又大大超过世界冠军,最主要的创新就是把围棋盘面的描述、评价和决策问题作 为模式识别问题来处理。AlphaGo采用了分辨率仅为的黑白图像来描述棋局状态, 使其可以很容易地被计算机处理。在评价函数定义上,AlphaGo利用深度学习技 术,通过自我学习,自我博弈来确定评价函数值,摒弃了过去人工定义评价函数 的方法。将状态描述、评价函数定义转化成模式识别问题后,就可以用模式识别 的办法来进行处理,使得围棋问题迎刃而解。接下来,张老师又对比分析了国际 象棋和围棋的不同之处并指出背后的技术跨越。国际象棋相对围棋简单很多,它 只有64个方格,所以可以用人工的办法来描述棋局
4、状态,而且它的评价函数也 可以通过人工定义,是一个包含8000多个参数的函数,这些参数可由国际象棋 大师给出或者在下棋过程中进行人工调整,所以国际象棋是一个非常典型的理性 推理问题。但围棋跟国际象棋完全不同,它不是一个理性推理问题,而是感觉和 直觉的问题,感觉和直觉本质上就是模式识别问题。接着,张老师对深度学习带 来的进展进行了更为本质的分析,指出深度学习带给我们最大的希望就是将人工 智能变成真正的科学。因为现在机器学习、深度学习都是用数学模型、数学工具 来解决特定的问题,这些工具是真正科学的,因为他们的结果是可度量、可验证 的。把人工智能从原来启发式、就事论事,变成用科学的工具来解决问题,因
5、此 也被很多人称为是一场革命。张老师对当前人工智能的现状做了客观的分析,指出现有的方法和技术根本 不能让机器拥有智能。张老师首先以围棋程序AlphaGo为例,对这一观点进行 了论证与阐释。围棋程序虽然战胜了人类,但围棋是一个非常规范的问题,严格 按照简单固定的规则进行博弈并且有很多其他约束条件(完全信息、没有不确定 性、棋盘固定不变因而是静态问题、单领域)。此外,AlphaGo能够战胜人类, 只是利用了计算机强大的计算速度和存储能力。AlphaGo在36小时里自己跟自 己下了 500万盘棋目当于几亿个棋局,而且他下的每一个棋局都可以存储下来, 供以后使用。但人类一生只能学习百万级的棋局,而且只
6、能记住重要的招数和部 分细节。目较而言,AlphaGo可以获得更多的经验,而下围棋主要是经验的比拼。 因此AlphaGo主要靠速度和存储能力在下棋上战胜了人类,而不是因为其具备 比人类更高级的智能。张老师进一步指出,用深度方法建立的识别系统并没有解 决感知智能问题,只解决了感觉(sensing)问题,而没有解决感知(perception) 问题。感知包含两个内容,一个是感觉,一个是知道,知道就是理解。只有感觉 而没有理解就没有上升到智能的水平。正因为现有模式识别系统不具备智能,所 以跟人类相比,其在鲁棒性、推广性、犯大错误概率、所需学习样本数量、可解 释性等方面仍存在巨大的差距。张老师举了对噪
7、声干扰图像识别错误的例子:人 看上去非常清楚的图像,加上少量噪声,人的识别几乎没有变化,而深度神经网 络可能得出完全不同的识别结果而且错误结果的置信度非常高。张老师认为产生这些问题的根源在于深度学习使用 生数据并通过黑箱进行 训练。生数据包含大量无用信息,但深度算法不会区分信息是否有用,会把所有 输入当作有用信息。例如当输入一只包含猫的图片时,图片可能会包含大量背景 信息,猫只占很小一部分。但计算机不知道猫所处的位置,就会把整张图片当成 猫。其次,深度分类器采用黑箱训练的方式,我们不清楚其究竟学习到了什么内 容,起到了什么作用。为了打开深度学习的黑箱,张老师的团队进行了一系列的 工作。他们通过
8、观察深度神经网络中各神经元反应的强烈程度以及其对输入图像 各部分反应的强烈程度来分析和研究深度神经网络究竟学习到了什么内容。经过 大量实验和分析,他们发现深度神经网络只能通过图像中反复出现的可区分的片 段来识别物体,而不是从语义特征上来识别物体。换言之,深度神经网络学习到 的都是图像局部重复出现的可鉴别的模式,而没有真正理解物体的语义信息,这 种没有理解的识别不是真正意义上的感知。张老师从人工智能方法论角度出发,深入分析和阐述了深度模型无法从语义 上理解物体的原因。人工智能有两大途径,即符号主义和连接主义。符号主义从 信息处理的层面(宏观)去模拟智能,依靠知识驱动,多采用数理逻辑的办法, 这也
9、是传统人工智能所研究的内容。连接主义从网络层面(介观)去模拟智能, 形成了一套以概率为基础的数学方法,依靠数据驱动,这就是当前机器学习、深 度学习所研究的内容。传统的人工智能将文本、语言在一个语义符号空间中进行 处理,所以其理解事物的语义信息,是可解释的。而深度学习将图像、语音在特 征向量空间中进行处理,所以无法获取事物的语义信息,是不可理解的。但是相 较于在语义符号空间中进行符号处理和运算,特征向量空间中的向量更容易计算 和处理,这也是深度学习相对于传统人工智能的优势所在。Feature-vectorSemantics-symbolFeature-vectorSemantics-symbol
10、征量向特向空征量向特向空语义符号空间图像、语音文本、语言不可理解进.哉需瞎解蟾图3语义向量空间为了使深度模型学习到物体的语义信息,真正理解物体,张老师进一步给出 了相应的解决方案。那就是建立一个统一的语义向量空间,并把传统人工智能中 的语义符号空间和深度学习中的特征向量空间都映射(提升)到语义向量空间。 很多研究人员认为人的大脑可能就是采用了类似的工作机制。将语义符号空间映 射到语义向量空间的工作已经有很多,这一过程被称之为嵌入(embedding)0为 了将特征向量空间提升到语义向量空间,需结合更多脑的特点,发展新型网络模 型。例如采用反馈连接、横向连接、稀疏发放、注意力机制、多模态、记忆形
11、成 等。张老师介绍了他们关于此方面的工作,他们在网络中加入稀疏发放和HMAX 结构,使得网络可以更好地理解物体,而非只是学到图像反复出现的有区分性的 局部片段。此外,张老师进一步介绍了今年在Science上发表的关于验证码(即 CAPTCHA)识别的工作,该方法(称为Recursive Cortical Network的生成模型) 在网络中加入了横向连接来保证轮廓的连续性和完整性,并通过多轮的正反向传 播消除虚假的识别。最终该网络只需要少量干净字体的训练样本,就可以在不同 背景的验证码上取得很好的识别性能。除了跟神经科学结合,发展新型网络模型 外,张老师指出,要获得鲁棒可解释的模式识别,需要数
12、据驱动与知识驱动结合, 概率方法与符号方法结合,感性与理性结合。关于这方面,张老师介绍了他们在 视频标注中的工作。在视频标注中,他们将视频的文本描述通过LDA嵌入到语 义向量中,基于该语义向量和网络学习到的特征向量,来构建一个可解释性的损 失函数。该损失函数可以和和视频标注的任务损失结合起来,共同训练网络,使 得网络在完成视频标注任务的同时学到更富语义信息的特征表示。基于学习到的 语义特征,可以让该网络拥有更好的可解释性,相关实验也证明了这一点。张老师进一步总结到,现有模式识别系统应该跟语义空间结合,使其拥有更强的可解 释性,Science,Nature上最近发表的工作都是在这个方向上向前迈进了 一步。接 下来,张老师也简要提及了他们有关贝叶斯方法和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025茶叶销售代理合同样本
- 八下语文知识点经典常谈要点
- 《实训公共关系学:互动与实践》课件
- 《南京河西策略提报》课件
- 《中国的行政区划解析》课件
- 《探索故宫博物馆》课件
- 教育部新版人教版一年级道德与法治上册第七课《课间十分钟》教学设计市级公开课教案
- 《医学影像学总论》课件
- 北师大版九年级上册1 用树状图或表格求概率表格教学设计
- 嘉应学院《运动心理学》2023-2024学年第二学期期末试卷
- 资助感恩教育主题班会ppt课件(图文)
- 多模态视域下北京市核心区语言景观研究
- 《单轴面筋脱水机设计报告(论文)》
- 内分泌系统 肾上腺 (人体解剖生理学课件)
- GPS静态数据观测记录表
- 山西省城镇教师支援农村教育工作登记表
- 软件项目周报模板
- 著名中医妇科 夏桂成教授补肾调周法
- VSM(价值流图中文)课件
- 考古发掘中文物的采集与保存课件
- 人工气道的护理刘亚课件
评论
0/150
提交评论