计算机科学引论课件06.ppt_第1页
计算机科学引论课件06.ppt_第2页
计算机科学引论课件06.ppt_第3页
计算机科学引论课件06.ppt_第4页
计算机科学引论课件06.ppt_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能,计算机科学引论,2019年7月22日,Machine Structure,2,智能,什么是智能 推理、计划、解决问题 抽象思维 连接复杂观点 快速学习、从实践学习 人类拥有这些能力 但是使用起来很累 科学是由懒惰者推动的 ?!,2019年7月22日,Machine Structure,3,人工智能,人工智能(AI: Artificial Intelligence) 制造机器来完成需要使用人类智能的工作 什么样的机器才能被认为有智能? 图灵测试 被测试的有一个人,另一个是声称自己有人类智力的机器。测试时,测试人与被测试人是分开的,测试人只有通过一些装置(如键盘)向被测试人问一些问题,这些问题随便是什么问题都可以。问过一些问题后,如果测试人能够正确地分出谁是人谁是机器,那机器就没有通过图灵测试,如果测试人没有分出谁是机器谁是人,那这个机器就是有人类智能的。,2019年7月22日,Machine Structure,4,人工智能,图灵测试 全面通过图灵测试 提问者可以提出任何问题 尚遥遥无期 局部通过图灵测试 提问者只能提某个领域的问题 已有先例 IBM Deep Blue,2019年7月22日,Machine Structure,5,人工智能,实现人工智能的必要条件 获得并理解人类的感知 视、听、触、味、嗅 目前可以被输入计算机的:视、听 目前可被计算机全面“理解”的:没有! 只可部分理解 有时候被叫做“模式识别”(Pattern Recognition) 推理 传统人工智能技术关注的重点,2019年7月22日,Machine Structure,6,人工智能,理解人类的感知 理解听觉 理解视觉 理解自然语言(NL: Natural Language) 自然语言是一种特殊的“感知”:视听觉只是其传播方式 每一种感知被称作一种“媒体”(media) 多媒体处理(Multimedia Processing):综合分析多种媒体的内容来对一个素材的内容进行理解,2019年7月22日,Machine Structure,7,人工智能,理解人类的感知 多媒体处理 “处理”主要指提取其语义内容 三维渲染、视频剪辑、声音合成等技术通常不叫做“多媒体处理” 不过仍然可被认为是“多媒体技术” “多媒体处理”中也会用到一些相关技术,多媒体素材,数学模型 语义,多媒体处理,各种合成技术,2019年7月22日,Machine Structure,8,多媒体处理,理解声音(audio) 声音分类 噪声(noise) 乐音(music) 语音(speech) 声音识别 检测风声、雨声、读书声爆炸声 较少 语音识别(Speech Recognition),2019年7月22日,Machine Structure,9,多媒体处理,理解声音 时域(time domain) 声音信号本来的面目 波形图,2019年7月22日,Machine Structure,10,多媒体处理,理解声音 频域(frequency domain) 声音信号在各个频率的能量分布,2019年7月22日,Machine Structure,11,多媒体处理,理解声音 频域 早期声卡:频率合成 FM: Frequency Modulation 使用不同的加权权重即可获得不同音色 根据乐器的音色设置权重即可模拟不同乐器的声音,振荡器,f x 2,f x 3,音阶,f x 4,f x n,输出,2019年7月22日,Machine Structure,12,多媒体处理,理解声音 频域,白噪声: 在整个频率域的强度大致相当,2019年7月22日,Machine Structure,13,多媒体处理,理解声音 频域,语音: 3.4KHz以下强度大,以上很快衰减,2019年7月22日,Machine Structure,14,多媒体处理,理解声音 第一步:把声音信号变换到频域 FFT: Fast Fourier transform DFT: Discrete Fourier transform 第二步:把频率信息变换成特征 倒谱(cepstrum):把频域信息再次进行频率变换 MFCC LPCC 实际计算中这两步常常合并成一步,2019年7月22日,Machine Structure,15,多媒体处理,理解声音 特征(Feature) 物理上:可以较好地反映某个特性的物理量 数学上:一个矢量(Feature Vector) 特征提取(Feature Extraction) 从原始信号中计算出所需要的特征 一旦原始信号被抽象成特征,对感知的理解问题就成为一个数学问题 把特征矢量转换成语义的数学算法:分类,2019年7月22日,Machine Structure,16,多媒体处理,理解声音 分类(classification) 把特征矢量转换成语义的数学算法 例:语音识别 把MFCC所组成的高维空间分解成不同的部分,每部分代表一个读音。如某个特征矢量落在某部分,则可知道该矢量代表的读音。,a,o,p,t,k,e,y,2019年7月22日,Machine Structure,17,多媒体处理,理解声音 分类 如何获得特征空间的划分方法? 机器学习(Machine Learning) 采集一大堆样本,样本与语义的对应关系已知。于是,根据这个对应关系就可以知道特征空间中的某个区域所对应的语义是什么。 例:让100个人说“o”,然后对其声音进行变换,发现其MFCC都落在图中的区域,则可知该区域对应“o”。,2019年7月22日,Machine Structure,18,多媒体处理,理解声音 机器学习 第一步:获得一个训练集(Training Set) 特征矢量和所需要的语义的对应关系 第二步:根据训练集训练出对特征空间的划分 模型(Model) 第三步:根据所获得模型对新到特征矢量分类,2019年7月22日,Machine Structure,19,多媒体处理,理解声音 机器学习 特征矢量是高维矢量 常用:10-1000维 获得训练样本成本很高 必须标注样本和语义的对应关系,只能由人完成 训练集在特征空间的分布是非常稀疏的,2019年7月22日,Machine Structure,20,多媒体处理,理解声音 机器学习 高级建模算法 SVM: Support Vector Machine GMM: Gaussian Mixture Model EM: Expectation Maximum HMM: Hidden Markov Model 人工神经网络:Neural Network 矢量量化:Vector Quantization 不同应用需要不同的建模算法 目前的建模算法仍然不够完善,2019年7月22日,Machine Structure,21,多媒体处理,理解图像 基本方法:特征提取训练分类 常用图像特征 颜色 主要颜色 颜色直方图 纹理 Tamura 颜色特征 灰度共生矩阵 形状 傅立叶描述子,2019年7月22日,Machine Structure,22,多媒体处理,理解图像 基本方法:特征提取训练分类 但是:一幅图像中可能有多个语义 百闻不如一见,草,花,树,房子,2019年7月22日,Machine Structure,23,多媒体处理,理解图像 图像分割(segmentation) 把图像分割成较小的区域 准则? 语义:尚未获得 特征:如果分割效果很好,则语义已经获得,分割本身已无意义 以特征为准则进行图像分割,其结果只能是特征空间上一致的,不可能是语义上一致的 分割还是不分割?,2019年7月22日,Machine Structure,24,多媒体处理,理解图像 图像分割 支持派:一定要分,否则难以提取合适的特征 主要处理自然景观等较复杂图像 研究复杂的分割算法 反对派:分割问题和分类问题一样难,所以不进行分割 主要处理含单个物体的简单图像 研究复杂的分类算法,2019年7月22日,Machine Structure,25,多媒体处理,理解图像 图像分割 如何结合二者的好处? 进行分割 但不假设分割结果是符合语义的,接受按照特征一致性分割的结果 两步分类 首先将特征一致的区域分类成低级的、在视觉特征上较一致的语义 合并语义一致的区域:Salient Object 然后把低级语义分类成高级语义,2019年7月22日,Machine Structure,26,多媒体处理,理解图像 第一步:检测Salient Object 把原始图像分割成特征一致的区域 把区域分类,合并相邻的同类区域,原始图像 分割区域 Salient Object,2019年7月22日,Machine Structure,27,多媒体处理,理解图像 第二步:根据图像中的Salient Object分类为高级语义 两步中都要使用高级建模算法,Mountain View,2019年7月22日,Machine Structure,28,多媒体处理,理解视频 视频是多个连续图像组成的流 理解图像的技术可以沿用 多个图像的信息应当叠加 提高检测准确率 减低检测噪声,2019年7月22日,Machine Structure,29,多媒体处理,理解视频 叠加多帧的检测结果可获得非常稳定的结果,Text Face Hair Inside Skin Blood,2019年7月22日,Machine Structure,30,多媒体处理,理解文字(自然语言) 语义:不同的应用有不同的含义 声音、图像、视频:文字(关键字:keyword)即被认为是语义的最佳表示 当前研究致力于提取可以表示声音、图像、视频等的文字 文本:文字的真实含义才是语义 信息提取(IR: Information Retrieval):时间、地点、人物、事件 主题分类(Topic Classification) ,2019年7月22日,Machine Structure,31,多媒体处理,自然语言处理 理解自然语言的真实语义 中文:分词(Word Segmentation) 把连续的字分成以词为单位 词性标注(POS: Part-of-Speech) 标注各个词为动词、名词 语法分析(Syntax Parsing) 标注各个词为主语、谓语宾语 标注句子的语法结构 准确率一般不高:自然语言本身不是很精确,2019年7月22日,Machine Structure,32,多媒体处理,自然语言处理 统计方法 词频:一个词在一个文档中出现的次数 某些词在不同的文档中出现的频率差异很大 矢量模型:由关键词词频组成的矢量可以表示文本的内容,即特征矢量 在某些应用获得成功:如主题分类 目标具有统计性质 如何实现提取时间、地点、人物、事件等细节特征? 目标是一个个体,不具有统计性质 WEB分析:如果有很多文档,则这些个体内容很可能被多次重复,从而具有了统计性质,2019年7月22日,Machine Structure,33,多媒体处理,理解人类感知 特征提取 如何提取好的特征? 如何把一个语义检测问题转换成一个数学问题 机器学习 如何获得好的分类模型 如何解决所转换出的数学问题 两方面均是现在计算机科学研究的热点 仍然没有好的解决方案,2019年7月22日,Machine Structure,34,推理,理解人类感知给计算机提供了输入 实现智能不仅要能够输入 还要根据输入作出响应 推理 根据当前出境作出最有利于自己的行动规划 输出 把推理结果付诸实施 如果行动规划已经存在,一般输出相对简单,2019年7月22日,Machine Structure,35,推理,计算机如何推理 学习人的推理方法 人如何推理? 尚未完全解决 人大概如何推理? 产生式系统 推理的数学模型,2019年7月22日,Machine Structure,36,推理,产生式系统 基本原理:把所有可能尝试一次,选出对自己最有利那一次作为输出 假设: 有一个目标(goal),测试是否达到了目标很容易 “理性的”(rational):总是采取对自己最有利的,2019年7月22日,Machine Structure,37,推理,产生式系统 基本要素 状态(state):系统所处的位置 目标测试:测试系统是否达到了所期望的目标 初始状态:一开始系统所处的状态 状态空间:从初始状态可以到达的所有状态,2019年7月22日,Machine Structure,38,推理,产生式系统 搜索树 搜索解所使用的树 节点(node) 树中的一个位置 状态,父节点 ,不同的概念: 同一状态可以在不同的节点,2019年7月22日,Machine Structure,39,推理,产生式系统 展开(expand) 把某个节点所有可能的后继节点遍历 路径 从搜索树的根到一个节点的节点顺序 算法的目的 找到一条路径,其第一个节点为初始状态,其最后一个节点的状态可通过目标测试,2019年7月22日,Machine Structure,40,推理,产生式系统 搜索策略 宽度优先,2019年7月22日,Machine Structure,41,推理,产生式系统 搜索策略 宽度优先(breadth-first) 优点:可以找到最短的路径 在某一层找到解即可终止 问题:内存占用量大 随着层数增加指数增加,2019年7月22日,Machine Structure,42,推理,产生式系统 搜索策略 深度优先,2019年7月22日,Machine Structure,43,推理,产生式系统 搜索策略 深度优先(depth-first) 优点:内存占用量小 只需保存最深的那条路径 问题:计算量大 可能遍历到最后才能发现解,2019年7月22日,Machine Structure,44,推理,产生式系统 搜索策略 如何最快地搜索到解 最优节点优先:总是先搜索最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论