《人工智能概论》 课件 第4章计算机视觉及应用_第1页
《人工智能概论》 课件 第4章计算机视觉及应用_第2页
《人工智能概论》 课件 第4章计算机视觉及应用_第3页
《人工智能概论》 课件 第4章计算机视觉及应用_第4页
《人工智能概论》 课件 第4章计算机视觉及应用_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章计算机视觉及应用——赵克玲本章目标了解计算机视觉的定义及基本原理理解图像的特征及图像分类的技术原理理解基于深度学习的目标检测与特征提取了解计算机视觉的应用视觉视觉可以分为视感觉和视知觉感觉是较低层次的,主要接收外部刺激,对外部刺激是基本不加区别地完全接收;知觉则处于较高层次,要确定有外界刺激的哪些部分组合成关心的目标,将外部刺激转化为有意义的内容。视觉的最终目的从狭义上说是要能对客观场景做出对观察者有意义的解释和描述;从广义上将,还包括基于这些解释和描述并根据周围环境和观察者的意愿来制定出行为规划,并作用于周围的世界,这实际上也是计算机视觉的目标。计算机视觉计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行分类、识别、跟踪和测量、空间重建等机器视觉,并进一步做图像处理,用计算机出来成为更适合人眼观测或传送给仪器检测的图像。视觉眼睛机器视觉摄像头计算机视觉的四个步骤计算机视觉的硬件构成机器视觉的硬件构成也可以大概说成是摄像机和电脑。作为图像采集设备,除了摄像机之外,还有图像采集卡,光源等设备。计算机视觉的软件开发工具计算机的软件开发工具包括C、C++、VisualC++、C#、Java、BASIC、FORTARN等。常用的图像处理算法软件,例如国外的OpenCV和Matlab,国内的通用图像处理系统ImageSys开发平台等机器视觉就是,利用摄像机和计算机等硬件,实现对目标的图像采集、分类、识别跟踪、测量,并利用计算机软件开发工具,进行处理从而得到所需的检测图像计算机中图像的表示

图像表示是图像信息在计算机中的表示和存储方式。图像表示和图像运算一起组成图像模型,是模式分析中的重要组成部分。计算机和数码相机等数码设备中的图像都是数字图像,在拍摄照片或者扫描文件时输入的是连续模拟信号,需要经过采样和量化,将输入的模拟信号转化为最终的数字信号。计算机中色彩的表示

照片分黑白和彩色,在图像中,我们有相应的灰度图像和彩色图像。对于灰度图像只有明暗的区别,只需要一个数字就可以表示出不同的灰度,通常我们用0表示最暗的黑色,255表示最亮的白色,介于0-255之间的则表示不同明暗程度的灰色。特殊RGB值对应的颜色计算机中图像文件格式

图像文件格式是记录和存储影像信息的格式。对数字图像进行存储、处理、传播,必须采用一定的图像格式,也就是把图像的像素按照一定的方式进行组织和存储,把图像数据存储成文件就得到图像文件。

图像文件格式有很多,主要格式有:BMP、TIFF、GIF、PNG、JPEG等,现在开发的几乎所有的图像处理软件都支持这些格式。计算机中视频文件格式

视频文件格式是指视频保存的一种格式,视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。常用的视频文件格式有:AVI、WMV、MPEG等常用图像处理方法

图像处理的基本算法包括:图像增强,去噪声处理,图像分割、边缘检测、特征提取、几何变换等,经典算法有,Hough(哈夫)变换,傅里叶变换,小波(wavelet)变换、模式识别、神经网络、遗传算法等还包含许多处理细节。图像分类图像分类是指根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

鸢尾花的分类

在鸢尾花特征的提取中,我们通过测量花瓣的长和宽,从一个鸢尾花样本中提取一个二维的特征向量,随后这个特征向量被输入到分类器,经过一系列计算,分类器就可以判断出这朵鸢尾花的类别。

特征是在分类器乃至于所有人工智能系统中非常重要的概念,对同样的事物,我们可以提取出各种各样的特征,我们需要根据物体和数据本身具有的特点,考虑不同类别之间的差异,并在此基础上设计出有效的特征。特征的质量很大程度上决定了分类器最终分类的好坏。特征提取图像特征

图像特征是指图像的原始特性或属性,主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质;纹理特征也是一种全局特征,它也描述了图像或图像区域所对应景物的表面性质;形状特征有两类表示方法,一类是轮廓特征,另一类是区域特征,图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域;空间关系特征,是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系,这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。特征提取

通过对图像的特征分析,计算机就可以识别物体,对物体分类或者对物体是否符合标准进行判别实现质量监控等,也就是所谓的图像的特征提取。常用的特征提取方法有:傅里叶(Fourier)变换法、窗口傅里叶(Fourier)变换、小波变换法、最小二乘法、边界方向直方图法、基于Tamura纹理特征的纹理特征提取等。方向梯度直方图方向梯度直方图(HOG)是一种经典的图像特征,在物体识别和物体检测中有较好的应用。方向梯度直方图使用边缘检测技术和一些统计学方法,可以表示出图像中物体的轮廓。由于不同的物体轮廓有所不同,因此我们可以利用方向梯度直方图特征区分图像中不同的物体。方向梯度直方图的原理就是利用卷积运算,从图像中提取一些边缘特征,然后通过划分,将这些特征划分为若干区域,并对边缘特征按照方向和幅度进行统计,形成直方图,最后我们将所有区域内的直方图拼接起来,即形成了特征向量。卷积运算在图像处理以及其他许多领域有着广泛的应用,卷积和加减乘除一样,是通过两个函数f和g生成第三个函数的一种数学算子,是数字信号处理中常用到的运算。参与卷积运算的可以是向量,矩阵或者三阶张量。向量的卷积运算卷积运算

对于矩阵的卷积运算,在大矩阵中将截取的与小矩阵大小一致的矩阵部分向横向和纵向两个方向进行滑动,进行卷积运算。即对应位置的去求内积然后进行相加,得到的结果仍然是一个矩阵。由此,我们可以知道,矩阵间的卷积是利用与小矩阵相同的矩阵部分在大矩阵中沿横向和纵向两个方向滑动,可以设置它的步长(默认步长是1),然后依次去滑动。矩阵的卷积运算对于三维张量的卷积运算也是同样的理念。在这里,我们讨论一种简单的情形,当两个张量的通道数相同时,滑动操作和矩阵卷积一样,只需要在长和宽两个方向上进行,卷积的结果是一个通道数为1的三维张量。当两个张量的通道数相同的时候,滑动操作和矩阵卷积是一样的,只需要在长和宽两个方向进行。最终卷积的结果就是一个通道数为1的三维张量,这样通过卷积运算我们就可以去提取图像的特征。三维张量的卷积运算通过卷积计算,我们可以将原图像变换成为一幅新图像,这幅新图像比原图像更清楚的表现了某些性质,我们就可以把它当作原图像的一个特征,这里的小矩阵就叫做卷积核。卷积核中的元素可以是任意实数。利用卷积提取图像特征基于深度神经网络图像分类AlexNet这个神经网络的主体是由五个卷积层和三个全连接层组成,五个卷积层位于网络的最前端,依次对于图像进行变换以提取特征,每个卷积层之后都有一个ReLU非线性激活层,作为激活层完成非线性变换,在第1、2、5个层之后连接有最大池化层,它的作用就是降低特征图的分辨率。那么经过五个卷积层以及相连的非线性激活层与池化层之后,特征图最终就被转换成了4096维的特征向量,在经过两次全连接层和ReLU的变换之后,成为最终的特征向量,最后再经过一个全连接层和一个softmax归一化指数层后,就得到了对于图片所属类别的预测。卷积层是深度学习神经网络中在处理图像的时候十分常用的一种层,当一个深度神经网络以卷积层为主体的时候我们也称其为卷积神经网络。神经网络中的卷积层就是采用卷积运算,然后对原始图像或者是上一层的特征来进行变换的层,在前面我们学习了卷积核去提取边缘特征,一种特定的卷积核可以对图像进行一种特定的变换,从而提取出某种特定的特征。我们通常使用多个卷积核对输入的图像进行不同的卷积运算。(1)卷积层全连接层表示在图片分类任务中,输入图像在经过若干个卷积层之后,会将特征图转换为特征向量,如果需要对特征向量进行变换,经常用到的就是全连接层,在全连接层我们会使用若干个维数相同的向量,与输入的向量做内积的操作,会将所有结果拼接成一个向量作为输出。具体来说,如果一个全连接层以一个向量X作为输入,我们会用总共K个维数相同的参数向量W与输入的向量X做内积运算,再在结果上加上一个标量b,即完成Y=X*W+b的运算,最后我们将K个标量的结果y,组成整个向量Y作为这一层的输出。(2)全连接层归一化指数层的作用就是完成多类线性分类器中的规划指数函数的计算,是分类网络的最后一层,它是一个长度和类别的个数相等的特征向量作为输入,这个特征向量通常来自于一个全连接层的输出,输出图像属于各个类别的概率。(3)归一化指数层在每次做完卷积层之后还要加一个激活函数,即需要在每一个卷积层后面都连接一个非线性的激活层,不论是卷积运算还是全连接的运算,它们都是关于自变量的一次函数,也就是所谓的线性函数,线性函数有一个性质,若干线性计算的复合仍然是线性的,我们在每次线性运算之后再进行一次非线性的运算,每次变换的下偶哦可以保留。常用到的有sigmod和ReLU等函数。(4)非线性激活层在卷积运算的时候我们会将卷积核滑过图像或者是特征图的每一个像素,如果图像或者特征图的分辨率很大的话,那么卷积层的计算量就会很大,所以为了解决这个问题我们通常会在几个卷积层之后插入池化层,降低特征图的分辨率。

(5)池化层目标检测检测则是用来判断固定的区域中是否包含物体,并且还要判断出其中的物体是属于哪一类的。随着互联网的发展,视频数量日益增长,视频内容日渐丰富,视频技术的应用日趋广泛,面对浩如烟海的视频资源,如何让计算机自动且准确的分析内容,从而方便我们使用呢?视频理解作为这一切的基础,理所当然的成为计算机视觉领域的热门方向,从光流特征到轨迹特征,从传统方法到深度学习,新方法的出现不断推动着视频理解技术的发展。视频行为识别视频的本质是连续播放的图片,由于人眼具有视觉暂留机制,即光对视网膜所产生的视觉在光停止作用后,仍保留一段时间,这样我们就产生了一个画面延续的感觉,形成动态的效果。行为是人类在执行某一个任务的时候所发生的一连串的动作,视频行为识别是计算机分析给定的视频数据,辨别出用户行为的过程。视频行为识别,在很多领域都有重要的应用价值。在视频处理中,采用光流来描述运动的情况,光流描述的是三维的运动点投影到二维图像之后的相应的一些投影点的运动。

1.视频的表示我们可以将视频的信息分为静态和动态两个方面,静态信息指图像中物体的外观,包含场景和物体,可以通过静态图片帧获得,动态信息指视频序列中物体的运动信息,包含观察者和物体的运动,可以通过光流灰度图来获得。视频行为识别中广泛应用的是双流卷积神经网络,就是利用这两个不同的网络来实时同时处理静态和动态信息。对于单个彩色图像帧作为输入的网络叫做空间卷积神经网络,而把多帧的光流图像作为输入的网络称为时间流卷积神经网络。针对长视频中的行为识别任务,我们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论