人工智能与计算机应用(微课版) 课件 7.2 图像识别_第1页
人工智能与计算机应用(微课版) 课件 7.2 图像识别_第2页
人工智能与计算机应用(微课版) 课件 7.2 图像识别_第3页
人工智能与计算机应用(微课版) 课件 7.2 图像识别_第4页
人工智能与计算机应用(微课版) 课件 7.2 图像识别_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

广西民族大学公共计算机教研室课程团队图像识别图像识别:指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用一、

基于手工特征的图像分类二、

基于深度神经网络的图像分类三、

深度神经网络的发展本节内容四、

图像识别在日常生活中的应用基于手工特征的图像分类1.计算机眼中的图像图像是以数字矩阵的形式存储的,一张图片被分成了若干个小格子,这个小格子叫做像素,而格子的行数与列数,统称为分辨率像素颜色分量的明暗程度,数字越大表示这个像素点越亮(值在0,255之间)彩色图像:由整数组成的立方体阵列来表示,这样按立方体排列的数字阵列为三阶张量。三阶张量的长度与宽度即为图像的分辨率,高度为3灰度图像:矩阵是高度为1的三阶张量,因此只有一个通道分辨率1.计算机眼中的图像灰度图像用0表示最暗的黑色,255表示最亮的白色,介于0和255之间的整数则表示不同明暗程度的灰色用红(R)、绿(G)、蓝(B)三种基本颜色叠加后的颜色,每种基本颜色用0~255的整数表示颜色分量的明暗程度彩色图像人类:只要看一眼图片,大脑就可以获取这些特征计算机:通过一系列计算,从这些数据中提取特征是一件极其困难的事情区分四类照片的特征2.图像的特征卷积是一种向量和矩阵的数学运算。因为数字图像使用矩阵来表示和存储,所以卷积是数字图像处理的一种基本运算方式。卷积是两个变量在某范围内相乘后求和的结果对于维数为m的向量a=(a1,a2,…,an)和维数为n的向量b=(b1,b2,…,bn),其中n≥m,其卷积a*b的结果为维数为n-m+1的一个向量c=(c1,c2,…,cn-m+1),并且对任意i∈{1,2,…,n-m+1},有卷积运算,如下所示:3.利用卷积提取图像特征卷积运算在图像处理以及其他许多领域有着广泛的应用以灰度图为例,在计算机中一幅灰度图像被表示为一个整数的矩阵,如果我们用一个形状较小的矩阵和这个图像矩阵做卷积运算,就可以得到一个新的矩阵,这个新的矩阵可以看作是一幅新的图像3.利用卷积提取图像特征卷积运算可以将原图像变换为一幅新图像,比原图像更清楚地表示了某些性质,就可以把它当作原图像的一个特征基于深度神经网络的图像分类1.从特征设计到特征学习深度神经网络可以自动从图像中学习有效的特征,因此它具有强大的图片分类能力。在计算机视觉的各个领域,深度神经网络学习的特征逐渐替代了手工设计的特征,人工智能也变得更加“智能”另一方面,深度神经网络的出现也降低了人工智能系统的复杂度。我们只需要将一张图片输入给神经网络,就可以直接得出对图片类别的预测,不再需要分步完成特征提取与分类2012年的ImageNet挑战赛来自多伦多大学的参赛团队首次使用深度学习,将图片分类的错误率一举降低了10个百分点,正确率达到84.7%,这也使得几乎所有的人工智能研究团队开始关注深度学习。自此以后,ImageNet挑战赛就是深度神经网络比拼的舞台。2016年,来自微软研究院的团队提出一种新的网络结构,将错误率降低到了4.9%,首次超过了人类的正确率。到了2017年,图片分类的错误率已经可以达到2.3%。深度神经网络已经比较好地解决图片分类的问题。mageNet挑战赛自2018年起不再举办。深度神经网络(DNN)通常由多个顺序连接的层组成。第一层一般以图像为输入,通过特定的运算从图像中提取特征。接下来每一层以前一层提取出的特征输入,对其进行特定形式的变换,便可以得到更复杂一些的特征。这种层次化的特征提取过程可以累加,赋予神经网络强大的特征提取能力。经过很多层的变换之后,神经网络就可以将原始图像变换为高层次的抽象的特征深度神经网络2.深度神经网络的基本结构深度神经网络一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层输出层输入层隐藏层DNN内部的神经网络可以分为三类:2.深度神经网络的基本结构卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的前馈神经网络。标准的卷积神经网络是一种特殊的、比较深的,并且包含许多隐藏层的网络模型结构对卷积神经网络的研究始于20世纪80至90年代,时间延迟网络和LeNet-5是最早出现的卷积神经网络;在二十一世纪后,随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展,并被应用于计算机视觉、自然语言处理等领域。3.卷积神经网络卷积层是深度神经网络在处理图像时十分常用的一种层。当一个深度神经网络以卷积层为主体时,我们也称之为卷积神经网络(1)卷积层图片在经过若干卷积层之后,会将得到的特征图转换为特征向量。如果需要对这个特征向量进行变换,经常用到的便是全连接层(2)全连接层在全连接层中,我们会使用若干维数相同的向量与输入向量做内积操作,并将所有结果拼接成一个向量作为输出。具体来说,如果一个全连接层以向量X作为输入,我们会用总共K个维数相同的参数向量WK

与XK

做内积运算,再在每个结果上加上一个标量bK,即完成yK=X·WK+bK

的运算。最后,我们将K个标量结果yK

组成向量Y作为这一层的输出。3.卷积神经网络归一化指数层的作用就是完成多类线性分类器中的归一化指数函数的计算(3)归一化指数层通常我们需要在每个卷积层和全连接层后面都连接一个非线性激活层。非线性激活层的形式有许多种,它们的基本形式是先选定某种非线性函数,然后再对输入特征图或特征向量的每一个元素应用这种非线性函数,得到输出(4)非线性激活层3.卷积神经网络在计算卷积时,我们会用卷积核滑过图像或特征图的每一个像素。如果图像或特征图的分辨率很大,那么卷积层的计算量就会很大。为了解决这个问题,我们通常在几个卷积层之后插入池化层,以降低特征图的分辨率(5)池化层池化层的池化操作步骤如下:首先,我们将特征图按通道分开,得到若干个矩阵。对于每个矩阵,我们将其切割成若干个大小相等的正方形小块。例如,我们将一个4×4的矩阵分割成4个正方形区块,每个区块的大小为2×2。接下来,我们对每一个区块取最大值或平均值,并将结果组成一个新的矩阵。最后,我们将所有通道的结果矩阵按原顺序堆叠起来形成一个三阶张量,这个三阶张量就是池化层的输出。对每一个区块取最大值的池化层,我们称之为最大池化层,而取平均值的池化层称为平均池化层。3.卷积神经网络深度神经网络的发展神经网络在20世纪40年代被提出80年代末期有了第一个实际应用:LeNet——应用在支票地数字识别上2010年之后,基于DNN的应用爆炸式增长算法技术的进化极大地提高了准确性并拓宽了DNN的应用范围早期的DNN应用打开了算法发展的大门。它激发了许多深度学习框架的发展,这使得众多研究者和从业者能够很容易地使用DNN网络充足的计算资源半导体和计算机架构的进步提供了充足的计算能力,使得在合理的时间内训练算法成为可能训练网络所需的海量信息学习一个有效的表示需要大量的训练数据三、深度神经网络的发展三、深度神经网络的发展2012年,多伦多大学的一个团队使用GPU的高计算能力和深层神经网络方法,即AlexNet,将错误率降低了约10%2015年,ImageNet获奖作品ResNet

超过人类水平准确率(top-5错误率低于5%),将错误率降到3%以下目前DNN已经广泛应用到图像和视频、语音和语言、医药、游戏、机器人、嵌入式与云等各个领域。在许多领域中,DNN目前的准确性已经超过人类。与早期的专家手动提取特征或制定规则不同,DNN的优越性能来自于在大量数据上使用统计学习方法,从原始数据中提取高级特征的能力,从而对输入空间进行有效的表示。图像识别在日常生活中的应用基于人的脸部特征信息进行身份识别的一种生物识别技术用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别人脸检测即对包含用户脸部的图像进行检测,找到人脸所在的位置、人脸角度等信息特征提取通过对人脸检测步骤中检测出的人脸部分进行分析,得到人脸相应的特征人脸比对用于与人脸数据库中已经记录的人像(如身份证照片)以一定的方法相比对数据保存与分析根据具体的情况被使用,服务于最终的实际应用场景识别过程1.人脸识别目前,人脸识别是人工智能视觉与图像领域中最热门的应用之一人脸识别技术目前已经广泛应用于金融、司法、军队、公安、边检、政府、航天、电力、工厂、教育、医疗等行业人脸识别的主要应用场景1.人脸识别图片识别是指人脸识别之外的静态图片识别以图搜图物体/场景识别车型识别人物属性服装时尚分析鉴黄货架扫描识别农作物病虫害识别应用领域2.图片识别分析自动驾驶汽车是一种通过计算机实现无人驾驶的智能汽车它依靠人工智能、机器视觉、雷达、监控装置和全球定位系统协同合作,让计算机可以在没有任何人类主动操作的情况下,自动安全地操作机动车辆。机器视觉的快速发展促进了自动驾驶技术的成熟,使无人驾驶在未来成为可能。3.自动驾驶/驾驶辅助医疗数据中有超过90%的数据来自医疗影像医疗影像领域拥有孕育深度学习的海量数据,医疗影像诊断可以辅助医生,提升医生的诊断的效率。肿瘤探测肿瘤发展追踪血液量化与可视化病理解读4.医疗影像诊断利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式计算机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论