版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
图像识别分类相关技术研究综述目录TOC\o"1-2"\h\u26639图像识别分类相关技术研究综述 1189211.1目标检测 167671.2图像识别 1131381.3图像分类处理 3172081.4垃圾分类模型 81.1目标检测目标提取(也称为目标提取),是基于目标的几何和统计特性的一种图像分割技术。目标提取实际上是目标的分割和识别的组合。整个系统最为主要的性能是其具有精确度和实时性。特别是在复杂的场景中,当需要实时处理多个目标时,自动目标提取和识别就显得尤为重要,它能够在复杂的场景中准确地提取出最为重要的信息。目标检测的一种方法是使窗口从左右上下滑动以通过分类识别目标。为了在不同的视野距离中找到不同的目标类型,可以使用不同大小和宽高比的窗口。为了大量计算,提出了一种替代滑动窗口多次检测图像的选择性搜索方法。通过组合像素组,可以找到感兴趣的区域。R-CNN使用候选领域方法制作约2000个ROI。将这些区域转换成固定尺寸图像,并提供给卷积神经网络。网络架构随后通过几个完整的连接层来完成目标分类并改进边界盒。为了解决R-CNN太慢的问题,便提出了一种FastR-CNN算法。使用特征提取器提取整个图像的特征,并将直接生成候选区域的方法应用于提取的特征图,重复特征提取来解决问题,并且有效地减少处理时间长的问题。1.2图像识别图像主要分为灰度图像和彩色图像,灰度图像是由数字表示其明暗程度,而彩色图像则是由一个三维张量表示,实质上是一个由整数组成的长方体。机器中的图像相当于是一个M×N×3的矩阵。其中,M,N为图像长宽像素点的个数[2]。图像识别技术是通过使用计算机技术,处理、分析和理解图像,可以通过计算机识别技术识别各种不同模式的目标和对像的不同模式。根据观察到的可以识别出图像的对象,对识别结果做出有意义的判断。也就是说是利用现代的信息处理和计算技术,模拟并完成人类认知和理解的过程。通常情况下,图像识别系统包括以下几个部分:图像预处理、图像分割、特征提取、判断匹配和输出结果。图2-1图像识别系统图图像分割的本质是将图像划分成多个有意义的区域,对每个区域的图像进行特征化提取,将提取到的结果,根据分类器提取的图像特征对图像进行相对应的分类。在实际应用的过程中,并没有严格的限制图像识别和分割的过程。从某种意义上来说,分割图像的过程就是图像识别的过程。图像分割主要研究对象与背景之间的关系,研究的是特定背景所代表的整体属性,而图像识别研究的内容更倾向于对象本身的属性。特征提取是图像处理的主要操作,事实上作为初级运算,对一幅图像进行第一次计算处理。检查每个像素以确定像素是否代表其所属特征。如果是较大算法的一部分,则该算法通常只检查图像的特征区域。作为特征提取的前提条件,输入图像通常在尺度空间中进行高斯模糊平滑。然后通过局部微分计算得到图像的一个或多个特征。图2-2信息获取过程1.3图像分类处理1.3.1分类标准图像分类处理的关键问题就是按概率统计规律,选择适当的判别函数、建立合理的判别模型,把这些离散的“集群”分离开来,并作出判决和归类。通常的做法是,将多维波谱空间划分为若干区域(子空间),位于同一区域内的点归于同一类。子空间划分的标准可以概括为两类:第一种是根据点群的统计特征,确定待占用区域的范围。例如,定义每个类别的平均向量,以便将标准偏差范围内的点分组为单个类别。第二种是确定类别之间的边界,建立边界函数或判别函数。不论采取哪种标准,关键在于确定同一类别在多维波谱空间中的位置(类的均值向量)、范围(协方差矩阵)及类与类边界(判别函数)的确切数值。按确定这些数据是否有已知训练样本(样区)为准,通常把分类技术分为监督和非监督两类。非监督分类方法是基于图像数据的统计特征和点群分布,从纯统计的角度对图像数据进行分类的一种分类方法。监督分类是基于已知类别或训练样本的模式特征选择特征参数,建立判别函数,并将图像中的各个像差点分类为给定类别的方法。1.3.2分类方法1.基于概率统计的Bayes分类器在实际的分类中,由于不可能用同一决策最小风险的Bayes决策来解决所有事件的分类问题,因此需要用不同的拟经典函数来选择不同的分类决策。在Bayes分类器中,将不同的权值划分为错误率和风险,最后通过选择得到它们的理想分类。(1)验证概率P(w)此步骤是针对M事件出现可能性来进行分析,不考虑其他任何条件就直接进行事件的分类,所以所提供的信息较少。如:药品公司生产的药,显然一般情况下合格的药品要比不合格的药品的数量所占比例大,所以就容易直接将所有药品都归类为合格的药品,这样并不能很好的将合格和不合格的药品进行分类。(2)类概率密度函数P(X|w)对已知某类别的特征空间中出现特征X的概率密度,实质上是判断第w类样品中它的属性X是如何分布的。一般情况下,类条件概率密度函数可以采用多维变量的正太概率密度函数来进行模拟。(3)验证概率P(w|X)即可能出现多类别事件出现同一特征的情况,这时就需要判断在条件X出现的条件下,样品为w的概率是多少,而这个后验概率就是使用Bayes公式计算获得的。公式如下:PBi其中P(Bi)和P(Bj)是指事件Bi和Bj的先验概率,即P(Bi)=Bi利用该分类器,需要知道样本的整体分布情况,并且设计出相应的判别函数和决策平面,作为生成包含各种先验概率、条件条件密度函数和后验概率的判别函数的基础。这种方法称为参数判别法。通过这种方式,当样本的测试向量值x在等待测试时已知时,针对各种后验概率来确定x,并且根据相应的准则来计算和分类。因此,只有在有统计知识或可以利用训练样本估计参数的情况下,才使用这种分类方法。2.聚类这是一种无监督的分类方法,通常被称为聚类或集群,是根据提取并分析n维空间中的数据的特征,将具有相似类型的数据聚合成一类。(1)用处聚类可以根据提出的初始假设数据进行分析,分类出新的数据,并对同类型的数进行测试,以及压缩数据。如通过聚类将一个图像进行分割,就是把图像分割成若干有意义的区域的处理技术,这些区域互不交叠,每个区域内部的某种特性或相同或相近,而不同区域间有明显差异。(2)聚类准则一般有两种方法来最为聚类优劣的准则,一是经验,比如以距离函数作为相似度的度量,用不断修改的阈值,来探究聚类效果的满意程度;二是准则函数,准则函数包含到函数值与数据的划分,将取得极小值时的状态认定为最佳划分。(3)模糊聚类
在所有的事物中并不是所有的都是精确的,都可以分个是非曲折或者将某些数据精确的划分为不同的分类,既然存在确定的那必然也存在不确定的,即模糊的。在实际生活中,我们人往往对那些模糊的事物也不能进行很好的判断,大多通过分析、理解、推理、总结对那些模棱两可的进行经验性的分类。即使这样,对于不同的人看待的不同的事物仍然是不能进行统一的,如人的高矮,胖瘦以及哪个年龄属于中年阶段等等,但是对于这些又大概可以划分出一个多数人比较认可的范围,我们可以把这个范围视为模糊集。在模糊聚类中正是通过对这些模糊集进行运算、分析来对模糊数据进行分类的(比较常用的是模糊矩阵)[3]。3.几何分类器集合分类器可以将其理解为通过几何的方法,不依赖于条件概率的知识,把特征空间分解为对应于不同类别的子空间。几何分类方法按照分界函数的形式可以分为线性判别函数和非线性判别函数俩类。而在几何分类方法中比较常见的算法有感知器算法、增量校正算法、LMSE分类算法以及Fisher分类算法,这里重点说一下Fisher分类算法。(1)Fisher分类算法的理论基础在针对应用统计方法解决模型识分类别问题时,经常会出现“维数灾难”的问题,这是因为在低维空间里适用的方法换到高维空间进行就算就不合适了。因此压缩特征空间的维数就显得非常重要,感觉有点像PCA但二者又有很大的区别,只是降维的思想一致而已。Fisher的核心目的是使原本线性不可分的数据变得线性可分,因此可以将原始数据投影到一维空间中。Fisher的关键在于最大化一个准则函数J,准则函数J是由类间散度比上类内散度得到的。最大化准则函数J是要求类内散度足够小而类间散度足够大。小的类内散度保证了当前类中的数据足够紧密。大的类间散度保证了这两个类有足够的可分性。类间散度定义为投影后两类样本均值差的平方。类内散度定义为两类样本投影后与各自均值差的和的平方和。
图2-3Fisher分类算法散点图从图中可以看出在将空间中的数据进行一维投影时很有可能造成数据重叠,这样会直接影响到实际的分类效果,所以在投影前需要找到最佳的投影向量(这也就是为什么Fisher的准则函数要求数据的类内聚,类与类间松散的原因),而投影后还需要找到类与类之间的划分边界点,只有完美的找到这两个量才能很好的对数据进行分类。(2)二分类问题的实现步骤求取俩类的均值向量求取俩类的内离散度矩阵Si、SjSj求取总类间离散度矩阵SwSω定义Fisher准则函数w*(增大类内聚和类间松散)W∗=对于俩类已知数据,求出它们在w*上的投影点DD=w求取各类数据在投影空间上的均值AA=1选取阈值y0(在投影空间中的分割阈值)y0计算未知样品X在w*上的投影点并根据决策进行分类4.神经网络分类器(1)定义人工神经网络(ArtificialNeuralNetworks,ANN)是由大量神经元组成的非线性动力系统,它是一种基于连接学说构造的智能仿生模型。(2)分类它可以根据神经元之间连接的拓扑结构的不同分为分层网络和互连网络。分层网络是根据其函数将网络中的所有神经元分成若干层。通常,存在输入层、中间层和输出层,每个层按顺序连接,代表有BP网络。互连网络意味着网络的任何两个单位都可以相互连接。(3)学习方式在神经网络中有三种模仿人的学习方式,分别是:有导师学习网络、无导师学习网络以及强化学习网络。其中有导师学习网络也叫有监督型学习模式,而无导师学习网络也叫无监督学习模式。(4)基本原理其工作原理可以看作从输入空间到输出空间的非线性映射。通过调整权重和阈值,它可以学习和发现变量之间的关系,实现事物的识别和分类。(5)特点①容错性神经网络具有很强的容错性,它可以从不完全的数据和图形中学习并做出决定。由于知识不是存储装置而是存储在网络系统整体中,所以节点的规定比例不参加动作,因此不会对整个系统的性能造成很大的影响。它可以处理噪声和不完全数据,并且具有泛化功能和强容错性能。②自适应性目的是为了得到了一个最优的解决方案,所以不断的调整结果,以通过学习和训练找到输入和输出之间的内部关系。③固有的并行结构和并行处理神经网络拥有并行结构,其计算功能分布在多个处理单元上,意味着在同一层内的处理单元可以进行同时操作。④知识的分布存储知识不存储在特定的存储装置中,而是采用分散在整个系统中的存储模式,因此需要多种连接。在计算机中,可以仅提供一个地址来获得一个或一组数据。为了获得神经网络的存储知识,使用联想方法。⑤模式识别能力神经网络具有较强的识别能力,对于处理复杂的非线性关系具有天生的优势。1.4垃圾分类模型当前使用的识别模型基本都为神经网络模型。神经网络是一种模仿人脑的机器学习算法。神经网络分为输入单元,隐藏单元和输出单元。每个单元由大量的节点非线性组成,其数据信息输入输出及表示处理的过程如神经元间的信息传递一样。每个节点之间都有一个权重,每个节点都有一个激励函数。使机器可以通过神经网络及一定的算法进行自主学习。[4]1.4.1基于深度神经网络的垃圾分类模型深度神经网络(DeepNeuralNetwork,DNN)是一种前向结构的神经网络,分为一个输入层,多个隐藏层,一个输出层。每一层全连接到下一层。对于分类器,是将输入的x映射到一个类别y,并且机器通过学习的方法更新参数的值,得到构成x到y的最佳函数。反向传播算法是多层前向神经网络训练常采用的算法,用于计算梯度Δw。分为正向传播和反向传播两种。基于深度神经网络的垃圾分类模型:分为一个输入层,三个隐藏层,一个输出层。输入层用来输入32×32×3的图片,将其转化成3072的向量x输入神经网络中。隐藏层分成隐藏层1,2,3,4它们的节点分别为218,126,32,8。每个隐藏层都有Relu激活函数。x从输入层输出后依次经过这三个隐藏层,将向量乘上权重矩阵,加上偏置值,再用激活函数得到一个输出的值。输出层节点为10个,将从隐藏层输出的得到输出向量y,y为模型的实际输出。用softmax函数作为激活函数,将从10个神经元输出的y映射到区间[0,1]中,给图像进行十分类。在垃圾分类这一分类问题中,目标函数为交叉熵,交叉熵公式如下:Hp,q=−其中概率p,q为期望输出和实际输出。运用反向传播算法和梯度下降法优化权重,使目标函数交叉熵的值达到最小。再向深度神经网络输入新的图像,机器根据所学对新的数据进行预测,预测对,目标函数值小,预测错,目标函数值大。1.4.2基于卷积神经网络的垃圾分类模型卷积神经网络(ConvolutionalNeuralNetworks,CNN)也是神经网络的一种,卷积神经网络含有输入层,卷积运算层,激励层,池化层,全连接层,输出层等。卷积层用来提取图片各个部分所具有的特征。池化层的目的是为了减少训练参数的数量,降低卷积层输出的特征向量的维度。全连接层用来生成一个等于我们需要的类的数量的分类器。卷积神经网络垃圾分类模型如下:将输入图片裁减成32×32×3的RGB三维张量并经过归一化,输入卷积神经网络。其中一部分图片用来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年网络安全事件应急响应与处理流程
- 环境卫生制度
- 公共交通从业人员培训考核制度
- 2026年湖南现代环境科技股份有限公司部分岗位公开招聘备考题库完整参考答案详解
- 2026年集团招聘广东省广轻控股集团有限公司招聘备考题库及参考答案详解1套
- 养老院入住老人交通安全保障制度
- 2026年阿巴嘎旗城乡建设投资集团招聘5人备考题库及一套答案详解
- 宜昌市、“招才兴业”卫生健康系统事业单位人才引进公开招聘120人备考题库及答案详解1套
- 2026年阿拉尔市汇农市场运营管理有限公司招聘备考题库及完整答案详解一套
- 2026年烟台通元人力资源有限公司公开招聘政府购买服务岗位人员招聘备考题库及一套答案详解
- 福建省福州市八县一中联考2025-2026学年高二物理第一学期期末学业质量监测试题含解析
- 2025年国家开放大学(电大)《大学化学》期末考试复习试题及答案解析
- 2025年保安员考试题库及参考答案完整版
- 上海市徐汇区位育中学2026届物理高二第一学期期末教学质量检测试题含解析
- 高压电气设备检测实施方案
- DB13∕T 5985-2024 土工管袋应用技术规范
- 钢材供货方案及保证措施
- 氯气的实验室制备AI赋能课件高一上学期化学人教版
- 泰康集团入职测评题库及答案
- 2025首届电力低空经济发展大会:空地一体3D高斯建模技术方案
- 中国对外贸易中心集团有限公司招聘笔试
评论
0/150
提交评论