1006大设计翻译版基于深度学习和条件概率室内物体分类_第1页
1006大设计翻译版基于深度学习和条件概率室内物体分类_第2页
1006大设计翻译版基于深度学习和条件概率室内物体分类_第3页
1006大设计翻译版基于深度学习和条件概率室内物体分类_第4页
1006大设计翻译版基于深度学习和条件概率室内物体分类_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

体联系的条件概率模3.基于深度学习模型和条件概率模型的分类判对室内物体的分类需要参Ⅳ、主要参考资黄凯奇,强,谭铁牛,"图像物体分类与检测算法综述,"计算机学报,vol.36,2013.C.R.D.L.F.J.W.a.C.B.GabriellaCsurka,"Visualcategorizationwithbagsofkeypoints.,"inProceedingsofthe8thEuropeanConferenceonComputerVision,2004.Y.Bengio,"LearningdeeparchitecturesforAI.,"inFoundationsandTrendsinMachineLearning,2009.H.B.a.Y.Kamp.,"Auto-associationbymultilayerperceptronsandsingular position,"Biological,vol.59,pp.291-194,P.Smolensky,"Chapter6:InformationProcessinginDynamicalSystems:FoundationsofHarmonyTheory,"inProcessingoftheParallelDistributed:ExplorationsintheMicrostructureofCognition,MITPress,1986.G.E.O.S.a.T.Y.Hinto,"Afastlearningalgorithmfordeepbeliefnets,"Neuralcomputation,vol.18,pp.1527-1554,2006.Y.B.L.B.Y.a.H.P.LeCun,"Gradient-basedlearningapplied86(11):2278-2324,H.K.T.D.T.T.a.L.X.HuangYongzhen,"Enhancedbiologicallyinspiredmodelforobjectrecognition.,"inIEEETransactionsonSystems,Man,andCybernetics,2011.IndoorObjectClassificationbasedonDeepLearningandConditionalProbabilityAuthor:LiuTutor:ZhengInrecentyears,deeplearninghasbeenbroadlyexploredonobjectrecognition.Asaccuracyincrease,itmakeseasierformachinetobetterunderstandindoorenvironment.Here,wemakeuseofconvolutionalneuralnetworkstoimitatehumaneyes,andconditionalprobabilitymodeltostoreexperienceandimitatesimplelogicalreasoning.Convolutionalneuralnetwork(CNN)originatefromcat’svisualsystem.WetriedbothcombinationofMulti-layerPerceptron(MLP)withCNN,andcombinationofContrastiveDivisive(CD)withCNN.ResultsshowthatCDplusCNNisabetterchoice,ofwhicheachinputimagesubtracttheaveragethendividedbythestandarddeviation.ButMLPdecreasetheaccuracy,causedeeperneuralnetworksresultinweakerupdateinCNN.Finally,visualsystem,CDplusCNNandregressionclassifier,achieve47%accuracyoncaltech256aftertrainingbygradient-basedmethod.Conditionalprobabilitymodeltakesadvantageofspatialrelationshipbetweenindoorobjects,andhelpclassifyingwhenvisualsystemcan’tbesure.Aftersegmentationofindoorimages,visualsystemclassifiestheobjectsandgetadjacentpairs,thenweusefrequencystatisticsandtransmissionmodeltocomputePr(A|B),namelyprobabilityofAwhenBappearsintheneiborhood.Thecombinationofthetwoachieve54%accuracyinclassifyingindoorobjects.Sourcecode /omgteam/indoorobject:ObjectRecognition,DeepLearning,ConvolutionalNeuralNetworks,ConditionalProbability,IndoorObjectClassification 摘 绪 研究背 课题来 物体识 深度学 特征抽 分类 K近邻分类 本章小 实验参 实验环 本章小 工作总 工作展 致 参考文 附 附录 绪大千世界的物体种类繁多,人们主要通过视觉系统对形形的物体进行分类和辨别,统称为物体识别(ObjectRecognition)。通过模拟人类视觉系统的视觉信息获取和处数学工具的迅速发展和计算效率的提升、越来越多具有性的数据库生成等,这些进物体分类识别是机器智能的基本功能之一,它是任何一个以图像或作为输入的实际智能理解应用系统中的问题和关键技术。这类系统的性能和应用前景,都依赖各类识别和认证系统、数字馆和Internet中的在海量图像库和中的基于内存在某类物体。近年来物体分类方法多侧重于学习特征表达,典型的包括词包模型Hinton等人[1]基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决结数数目以提高BP训练性能。此外深度学习还出现许多变形结构如去噪自动编、DBN、sumproduct等。式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力[4][5]。一般。本根据室内物体分类的具体实际情景,进行物体分类研究。1、深度学习模型的训练,即基于CNN的拟视觉系统训练。选择背景干净的、带标各类物体分类方法,并介绍了分割(室内需要分割成单个物体,从而建立条件4章主要是对分类模型的进一步实验分析。设置不同的参数,使模型在不同的状第5章总结和展望。对进行总结,找出中的不足之处,并对下一步的工作研究现状和相关技的频率来对文档进行描述与表达。Csurka6]2004年首次将词包的概念引入计算机视等,并且通常能够获得一定的几何不变性,从而可以在较小的开销下得到更有意义的表达,最常用的点检测算子有Harris角点检测子、FAST(FeaturesfromAcceleratedSegmentTest)算子、LoGLaplacianofGaussian)、DoGDifferenceofGaussian)等。常用的局部特征包括SIFT(Scale-invariantfeaturetransform,尺度不变特征转换、HOG(HistogramofOrientedGradient,方向梯度直方图)LBP(LocalBinaryPattern,局部二值模式)等。词典编码、稀疏编码、局部线性约束编码、显著性编码、Fisher向量编码、超向量编码特征汇聚:(平均值的参考文献,得到一个的特征量作为图像特征表。这一得到的像表达可以获得一定的特征不变性,同时也避免了使用特征集进行图像表达的高额代价。得到不同的变化,包括去噪自动编(DenoisingAutoencoders)[9]、稀疏自动编(SparseAutoencoders)[10]等。基于受限机(RBM)的特征抽受限机[11]是一种无向二分图模型,是一种典型的基于能量的模型 特性使得它可以实现同时对一层内的单元进行并行Gibbs采样。受限机通常约束的受限机可以学到类似稀疏编码那样的Gabor滤波器模式。RB(RestrictedRBMRBMRBM,以DBN模型得到一个比较好的初始值,然后可以加入信息,通过产生式或者判别式方式,对整个网络进行有监督的精调,进一步改善网络性能。DBN的多层结构,使得它能够学习得到层次化的特征表音识别、基于内容检索等领域[1]。[2]80年代,最初应用于数字手写识别,取得了用到实际尺寸的目标识别任务上。WiselHubel在猫视觉系统研究工作的基础上提出进行卷积,来模拟Wisel和Hubel简单细胞。汇聚层则是一种降采样操作,通获得一定的不变性。汇聚层用来模拟Wisel和Hubel理论中的复杂细胞。在每层的响应之后通常还会有几个非线性变换,如sigmoid、tanh、relu等,使得整个网络的softmax分类器、RBF分类器等。卷积神经网络中卷积层的滤波器是各个位置共享的,因而可部分现象时,往往难以得到准确的分割结果,从而产生很多过分割错误。C-分类最大熵方法;A.pikaz[15]等人提出了基于图像拓取;J.C.Yen[16]等人定义了一个最大相关性原则并从中选取最优阈值,其是对最大熵Canny(检测阶跃型边缘效果好,抗噪强)、LaplacianMarr算子(LOG算子,最早由marr[17]等人提出,算法简单,速度快、但对噪声敏感)。松弛法、边界、图像滤波、多尺度变换和主动轮廓(activecontour)等。或者利用Marr-Hildreth[18]拉斯边缘检测算子多尺度特征,使用不同尺度的∇^2G算子,对的唯一标志点及其边界的Freeman码进行图像分割。从整个图像开始,然后合并得到各个区域。Logisticregression(逻辑回归)是比较常用的机器学习方法,用于估计某种事物的KK别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依KNN方法虽然从原KNN方于类域的交叉或较多的待分样本集来说,KNN方法较其他方法更为适合。KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成正比。在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是LeoBreimanAdeleCutler发展出推论出随机森林的算法。而"RandomForests"是他们的商标。这个术语是1995年由贝尔的TinKamHo所随机决策森林(randomdecisionforests)而来的。这个方法则是结合Breimans"Bootstrapaggregating"Ho的"randomsubspacemethod""以建造N来表示训练例子的个数,M我们会知一个数m,被用来决定当在一个节点上做决定时,会使用到多少个变量。m应小于Mmm个变量,计算室内物体分类识别本章主要针对已有的卷积神经网络(CNN,ConvolutionalNeuralNetwork)、模型训练步骤2建立条件概率模 步骤4:结合CNN模型和条件概率模步骤5步骤4:结合CNN模型和条件概率模步骤5 3-131lth256标准数据集室内物,训由NN,MP(多层感知机,ultilayrPrptron,可选),逻辑斯特回归分类器组成的拟视觉系统。然后利用该视觉系统识别室内的各个物体,得到相邻物体对,再利用相邻关系建立条件概率((i|))模型。最后探索模型结合方1、分割。将单个物体分割出来,形成子2、特征预取。将子输入CNN网络,预取特征,后输入MLP(可选),345如图32(C后,它与其他特征间的位置关系也随之确定下来;Sigmoid数的个数,降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层(-层都紧跟着一个用来求局部平均与二次提取的计算层(S-层变能力。3-23-1S14个特征映射图,然后特征映射图中每组的四个像素多层感知机k梯度下降更新为1物体类别、训练测试间的划分都采用随机法;3数学定义:Pr(A|BB邻近位置出A的概率收集室内,用直方图方法将切割(ostu方法)成若干, 其中,,为因子第一步,收集室内,并利用图像分割的方法将分割成单个物体3-4室内物体空间位置关系说明图。如(a),(b)所示,靠枕和沙发经常相邻位置出现,类似的,(c)μCNN:拟视觉系统(深度学习模型)N:拟视觉系统(深度学习模型)confCP条件概率模型判定物体类别的置信度。根据上述要求,建立μ_CNN,⁡μ_CF表达式为:CNN模型具有较大置信度时,其结果具有较大影响,否则模型的实验分CNN参数,使用不同的模型结合因子,使模型在不同的状态下进行判实验数据使用Caltech256中的室内,共114类,13758张,详细类别见A4-14-24-1输入图片大小4-2123456123456789whilei<num_conv_pool_layers:ifnum_mlp_layers!=0:whilen_out=mlp_n_out[i],activation=T.tanh))if#classifythevaluesofthefully-connectedsigmoidallayer4-3CNN,MLP,逻辑斯特回归分类器组成。此处参4-4 Core2QuadQ9440@2.66GHz(4CentOSIn4DRAM+500GBHitachi2*2038MBDDR2-In82567LM-3GigabitFile114类物体,13758张,且需要循环50次。使用上述IBM服务器,每尝试一种参和divisivenormalization)表示对比归一,即先将输入减去平均值,再除以标准差。越多,权值越多,收敛的越慢。当采用对比归一方式处理输入时,即减去平均值后除以标准差,分类错误率较纯CNN降低。具体实验参数见表4-5。4-5123456789CNN层次,尝试了两种较合理的两层取样窗口大小,分别为(4,4)和(4,8)的矩形CNN的特征个数尝试了三种方案,(16,32),(16,64),(64,256)4-24-7表示两层的CNN的各层取样窗口大小。过滤器大小取[(5,5),(4,4)]。(nkerns[1],nkerns[0],4,classify_image_shapes=[(1,3,ishape[0],ishape[1])]whilei<=num_conv_pool_layers:4-7nkerns(64256)+pool(4nkerns(1664)+pool(4nkerns(64256)+pool(4nkerns(1664)+pool(4nkerns(1632)+pool(4nkerns(1632)+pool(44-3所示。横坐标是NCNN判断分类的 图4-4模型结合因子对分类正确率的影响。使用 [(5,5),(4,4)],取样窗口大小[(4,4),(4,4)]。室内物体33张,共计物体156个,类别46类。4-4所示,结合因子过大,过分强调眼见为实,忽略经验判断;过小则过于重具体数值参见表4-8。图4-5室内训练样本及验证样本。左边为建立条件概率及结合模型时使用的样本,右边为验证4-5列举了具有代表性的训练样本和验证样本。室内环境中主机、显示器、鼠标经常一起出现(左a),桌子、椅子经常一起出现(左b),笔记本和桌子(左c),和瓶子(左d)。在四个验证a成功识别显示器、键盘、主机、鼠标。可以看出,鼠标的区域图像像素低,在基于CNN的拟视觉系统中,判定其为鼠标的置信度不高(为23%,判断其为低音的概率为19%),但通过条件概率的作用,综合模型对其判断为鼠标的置信度为82%,为低音的概率为53%。右b成功识别了凳子,但由于桌子与后面壁橱c是桌子加电视和人,液晶电视和d成功识别出,盘子,盆栽。虽然右d中盆栽和瓶子很像,条件概率模型偏向分类4-82413正确率为54%。总结与展室内环境是人们生产生活的重要场所,加强机器对室内环境的理解有利于智能生1IBM八核十六线程机器上,每次训练时间长达约十个小时。目前,theano支持室内物体分割精度存在问题,包括基于阀值、边缘检测、基于区域的图像分割结合模型的识别正确率较视觉模型只提高了7%。致大学四年的生活就要结束了。很荣幸有机会到数字来做自己的本科毕谢他们的热心帮助,感谢他们曾经帮我做过的点点滴滴。大四上决定跟随老师完成自己后来的学业。首先也要感谢的是郑老师。感谢她其次,要感谢。在我的毕设的过,他们都直接或间接的给我带了帮助。尤其是师兄。我的毕设过总是会遇到各种各样的问题,而这些问题很大部分都的时候,就会问我,有没有做完,做完了发一份给他,他帮我看看的。人一直看到很晚才走,非常感动!还有师兄。虽然他不是我的指导老师,但是有一次他走进,跟我讨论我的毕设的时候,我还是学到了非常重要的一点,那就是,自己一定要非常清楚自己在做什么,这样才有可能跟讲。而且我发现师兄的思维20多年来的辛劳和付出!每次打参考文G.E.O.S.a.T.Y.Hinto,“AfastlearningalgorithmfordeepbeliefNeuralcomputation,pp.vol.18,pp.1527-1554,Y.B.L.B.Y.a.H.P.LeCun,"Gradient-basedlearningappliedtorecognition,"inProceedingsoftheIEEE,86(11):2278-2324,1998.Y.Bengio,"LearningdeeparchitecturesforAI.,"inFoundationsandTrendsinMachineLearning,2009.D.O.BengioY.,“Ontheexpressivepowerofdeeparchitectures,”Procofthe14thInternationalConferenceonDiscoveryScience,pp.18-36,2011LYBengioY.,“ScalinglearningalgorithmstowardsAI,Large-ScaleKernelMachines,MITPress,2007,pp.321-358.C.R.D.L.F.J.W.a.C.B.G.Csurka,“Visualcategorizationwithbagsofkeypoints,”Proceedingsofthe8thEuropeanConferenceonComputerVision,黄凯奇,强,谭铁牛,“图像物体分类与检测算法综述,”计算机学报p.vol.36,H.B.a.Y.Kamp.,“Auto-associationbymultilayerperceptronsandsingular position,”Biological,pp.vol.59,pp.291-194,1988.H.L.Y.B.a.P.M.P.Vincent,“ExtractingandComposingRobustFeatureswithDenoisingAutoencoders,”ProceedingsoftheTwenty-fifthInternationalConferenceonMachineLearning,2008.A.N.A.Y.a.L.H.Coates,“Anysisofsingle-layernetworksinunsupervisedfeaturelearning,”JournalofMachineLearningResearch,pp.ol.15,pp.215-223,2011.P.Smolensky,“Chapter6:InformationProcessinginDynamicalSystems:FoundationsofHarmonyTheory,ProcessingoftheParallelDistributed:ExplorationsintheMicrostructureofCognition,MITPress,1986.D.&.T.W.Hubel,“Receptivefieldsofsingleneuronsincat'sstriateJournalofPhysiology,pp.vol.148,pp.574-591,K.K.R.M.A.e.a.J.K,“WhatistheBestMulti-StageArchitectureforObjectRecognition?,”ComputerVision,2009.G.E.O.S.a.T.Y.Hinto,“AfastlearningalgorithmfordeepbeliefNeuralcomputation,pp.vol.18,pp.1527-1554,NobuyukiOtsu,“Athresholdselectionmethodfromgray2levelIEEETransonSystem,ManandCybemetics,1979,9(1):62–PunT. “Anewmethodforgray2levelpicturethresholdingusingtheentropyofthehistogram”.SignalProcess,1980,2(3):223-237..PalSK,KingRA,HashimAA. “Automaticgreylevelthresholdingthroughindexoffuzzinessandentropy.”PatternRecognitionLetters1983,1(3):141LYBengioY.,“ScalinglearningalgorithmstowardsAI,Large-ScaleKernelMachines,MITPress,2007,pp.321-358.KapurJN,SahooPK,WongAKC.“Anewmethodforgray-levelpicturethresholdingusingtheentropyofthehistogram”.ComputerVision,GraphicsandImageProcessing,1985,29(3):273-285.AbutalebAS.“Automaticthresholdingofgray-levelpicturesusing-dimensionentropy”.ComputerVision,GraphicsandImageProcessing,1989,47(1):22–32.ChengHD,ChenJR,“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论