视频监控与视频分析-第十四章深度学习ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-04-17 格式：PPT 页数：127 大小：18.64MB 积分：25 举报 版权申诉

已阅读5页，还剩122页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第十四章深度学习 2015 9于深圳视频监控与视频分析目录概述动机深度学习简介深度学习的训练过程深度学习的具体模型及方法深度学习的性能比较深度学习的应用展望参考文献相关程序软件及链接概述深度学习一种基于无监督特征学习和特征层次结构的学习方法可能的的名称深度学习特征学习无监督特征学习动机良好的特征表达对最终算法的准确性起了非常关键的作用识别系统主要的计算和测试工作耗时主要集中在特征提取部分特征的样式目前一般都是人工设计的靠人工提取特征传统的模式识别方法动机为什么要自动学习特征实验 LP MultipleKernelLearningGehlerandNowozin OnFeatureCombinationforMulticlassObjectClassification ICCV 09采用39个不同的特征PHOG SIFT V1S RegionCov Etc 在普通特征上MKL表现有限结论特征更重要动机为什么要自动学习特征机器学习中获得好的特征是识别成功的关键目前存在大量人工设计的特征不同研究对象特征不同特征具有多样性如 SIFT HOG LBP等手工选取特征费时费力需要启发式专业知识很大程度上靠经验和运气是否能自动地学习特征中层特征中层信号动机为什么要自动学习特征 Tokens fromVisionbyD Marr 连续平行连接拐角物体部件他们对于人工而言是十分困难的那么如何学习呢动机为什么要自动学习特征一般而言特征越多给出信息就越多识别准确性会得到提升但特征多计算复杂度增加探索的空间大可以用来训练的数据在每个特征上就会稀疏结论不一定特征越多越好需要有多少个特征需要学习确定动机为什么采用层次网络结构人脑视觉机理1981年的诺贝尔医学奖获得者DavidHubel和TorstenWiesel发现了视觉系统的信息处理机制发现了一种被称为方向选择性细胞的神经元细胞当瞳孔发现了眼前的物体的边缘而且这个边缘指向某个方向时这种神经元细胞就会活跃动机为什么采用层次网络结构人脑视觉机理人的视觉系统的信息处理是分级的高层的特征是低层特征的组合从低层到高层的特征表示越来越抽象越来越能表现语义或者意图抽象层面越高存在的可能猜测就越少就越利于分类动机为什么采用层次网络结构视觉的层次性属性学习类别作为属性的一种组合映射Lampertetal CVPR 09 类别标签属性图像特征动机为什么采用层次网络结构特征表示的粒度具有结构性或者语义的高层特征对于分类更有意义动机为什么采用层次网络结构初级浅层特征表示高层特征或图像往往是由一些基本结构浅层特征组成的动机为什么采用层次网络结构结构性特征表示动机为什么采用层次网络结构浅层学习的局限人工神经网络 BP算法虽被称作多层感知机但实际是种只含有一层隐层节点的浅层模型SVM Boosting 最大熵方法如LR LogisticRegression 带有一层隐层节点如SVM Boosting 或没有隐层节点如LR 的浅层模型局限性有限样本和计算单元情况下对复杂函数的表示能力有限针对复杂分类问题其泛化能力受限深度学习 2006年加拿大多伦多大学教授机器学习领域的泰斗GeoffreyHinton在科学上发表论文提出深度学习主要观点 1 多隐层的人工神经网络具有优异的特征学习能力学习得到的特征对数据有更本质的刻画从而有利于可视化或分类 2 深度神经网络在训练上的难度可以通过逐层初始化 layer wisepre training 来有效克服逐层初始化可通过无监督学习实现的深度学习本质通过构建多隐层的模型和海量训练数据可为无标签数据来学习更有用的特征从而最终提升分类或预测的准确性深度模型是手段特征学习是目的与浅层学习区别 1 强调了模型结构的深度通常有5 10多层的隐层节点 2 明确突出了特征学习的重要性通过逐层特征变换将样本在原空间的特征表示变换到一个新特征空间从而使分类或预测更加容易与人工规则构造特征的方法相比利用大数据来学习特征更能够刻画数据的丰富内在信息深度学习好处可通过学习一种深层非线性网络结构实现复杂函数逼近表征输入数据分布式表示深度学习vs 神经网络神经网络深度学习深度学习vs 神经网络相同点二者均采用分层结构系统包括输入层隐层多层输出层组成的多层网络只有相邻层节点之间有连接同一层以及跨层节点之间相互无连接每一层可以看作是一个logistic回归模型不同点神经网络采用BP算法调整参数即采用迭代算法来训练整个网络随机设定初值计算当前网络的输出然后根据当前输出和样本真实标签之间的差去改变前面各层的参数直到收敛深度学习采用逐层训练机制采用该机制的原因在于如果采用BP机制对于一个deepnetwork 7层以上残差传播到最前面的层将变得很小出现所谓的gradientdiffusion 梯度扩散深度学习vs 神经网络神经网络的局限性 1 比较容易过拟合参数比较难调整而且需要不少技巧 2 训练速度比较慢在层次比较少小于等于3 的情况下效果并不比其它方法更优深度学习训练过程不采用BP算法的原因 1 反馈调整时梯度越来越稀疏从顶层越往下误差校正信号越来越小 2 收敛易至局部最小由于是采用随机值初始化当初值是远离最优区域时易导致这一情况 3 BP算法需要有标签数据来训练但大部分数据是无标签的深度学习训练过程第一步采用自下而上的无监督学习1 逐层构建单层神经元 2 每层采用wake sleep算法进行调优每次仅调整一层逐层调整这个过程可以看作是一个featurelearning的过程是和传统神经网络区别最大的部分深度学习训练过程 wake sleep算法 1 wake阶段认知过程通过下层的输入特征 Input 和向上的认知 Encoder 权重产生每一层的抽象表示 Code 再通过当前的生成 Decoder 权重产生一个重建信息 Reconstruction 计算输入特征和重建信息残差使用梯度下降修改层间的下行生成 Decoder 权重也就是如果现实跟我想象的不一样改变我的生成权重使得我想象的东西变得与现实一样 2 sleep阶段生成过程通过上层概念 Code 和向下的生成 Decoder 权重生成下层的状态再利用认知 Encoder 权重产生一个抽象景象利用初始上层概念和新建抽象景象的残差利用梯度下降修改层间向上的认知 Encoder 权重也就是如果梦中的景象不是我脑中的相应概念改变我的认知权重使得这种景象在我看来就是这个概念深度学习训练过程 Encoder Decoder InputImage Classlabel e g Features Encoder Decoder Features Encoder Decoder AutoEncoder 深度学习训练过程第二步自顶向下的监督学习这一步是在第一步学习获得各层参数进的基础上在最顶的编码层添加一个分类器例如罗杰斯特回归 SVM等而后通过带标签数据的监督学习利用梯度下降法去微调整个网络参数深度学习的第一步实质上是一个网络参数初始化过程区别于传统神经网络初值随机初始化深度学习模型是通过无监督学习输入数据的结构得到的因而这个初值更接近全局最优从而能够取得更好的效果深度学习的具体模型及方法自动编码器 AutoEncoder 稀疏自动编码器 SparseAutoEncoder 降噪自动编码器 DenoisingAutoEncoders 深度学习的具体模型及方法 Encoder Decoder Input Image Features OutputFeatures e g Feed back generative top downpath Feed forward bottom uppath 自动编码器 AutoEncoder 深度学习的具体模型及方法 Wx WTz Binary Inputx Binary Featuresz e g 自动编码器 AutoEncoder EncoderfiltersWSigmoidfunction DecoderfiltersWTSigmoidfunction 深度学习的具体模型及方法稀疏自动编码器 SparseAutoEncoder 限制每次得到的表达code尽量稀疏限制每次得到的表达code尽量稀疏深度学习的具体模型及方法稀疏自动编码器 SparseAutoEncoder Filters Features SparseCoding InputPatch 深度学习的具体模型及方法 Wx Dz InputPatchx SparseFeaturesz e g EncoderfiltersWSigmoidfunction DecoderfiltersD L1Sparsity Training 稀疏自动编码器 SparseAutoEncoder 深度学习的具体模型及方法稀疏自动编码器 SparseAutoEncoder 1 Training阶段给定一系列的样本图片 x1 x2 我们需要学习得到一组基 1 2 也就是字典可使用K SVD方法交替迭代调整a k k 直至收敛从而可以获得一组可以良好表示这一系列x的字典深度学习的具体模型及方法稀疏自动编码器 SparseAutoEncoder 2 Coding阶段给定一个新的图片x 由上面得到的字典利用OMP算法求解一个LASSO问题得到稀疏向量a 这个稀疏向量就是这个输入向量x的一个稀疏表达深度学习的具体模型及方法稀疏自动编码器 SparseAutoEncoder 深度学习的具体模型及方法降噪自动编码器 DenoisingAutoEncoders 在自动编码器的基础上对训练数据加入噪声自动编码器必须学习去去除这种噪声而获得真正的没有被噪声污染过的输入因此这就迫使编码器去学习输入信号的更加鲁棒的表达这也是它的泛化能力比一般编码器强的原因深度学习的具体模型及方法 Autoencoder mostDeepLearningmethods RBMs DBMs Lee Salakhutdinov Denoisingautoencoders Ranzato Predictivesparsedecomposition Ranzato Decoder onlySparsecoding Yu DeconvolutionalNets Yu Encoder onlyNeuralnets supervised Ranzato 深度学习的具体模型及方法限制波尔兹曼机 RestrictedBoltzmannMachine 定义假设有一个二部图同层节点之间没有链接一层是可视层即输入数据层 v 一层是隐藏层 h 如果假设所有的节点都是随机二值 0 1值变量节点同时假设全概率分布p v h 满足Boltzmann分布我们称这个模型是RestrictedBoltzmannMachine RBM 深度学习的具体模型及方法限制波尔兹曼机 RestrictedBoltzmannMachine 限制波尔兹曼机 RBM 是一种深度学习模型深度学习的具体模型及方法限制波尔兹曼机 RestrictedBoltzmannMachine 定义联合组态 jointconfiguration 能量这样某个组态的联合概率分布可以通过Boltzmann分布和这个组态的能量来确定深度学习的具体模型及方法限制波尔兹曼机 RestrictedBoltzmannMachine 给定隐层h的基础上可视层的概率确定可视层节点之间是条件独立的给定可视层v的基础上隐层的概率确定深度学习的具体模型及方法限制波尔兹曼机 RestrictedBoltzmannMachine 待求问题给定一个满足独立同分布的样本集 D v 1 v 2 v N 需要学习模型参数 W a b 求解最大似然估计我们需要选择一个参数让我们当前的观测样本的概率最大对最大对数似然函数求导即可得到L最大时对应的参数W 若隐藏层层数增加可得到DeepBoltzmannMachine DBM 深度学习的具体模型及方法 DeepBoltzmannMachine DBM 深度学习的具体模型及方法深信度网络 DeepBeliefNetworks DeepBeliefNetworks是在靠近可视层的部分使用贝叶斯信念网络即有向图模型而在最远离可视层的部分使用RestrictedBoltzmannMachine的模型深度学习的具体模型及方法深信度网络 DeepBeliefNetworks 深度学习的具体模型及方法卷积波尔兹曼机 ConvolutionalRBM CRBM是为识别二维图像信息而特殊设计的一个多层感知器概念示范输入图像通过与m个可训练的滤波器和可加偏置进行卷积在C1层产生m个特征映射图然后特征映射图中每组的n个像素再进行求和加权值加偏置通过一个Sigmoid函数得到m个S2层的特征映射图这些映射图再进过滤波得到C3层这个层级结构再和S2一样产生S4 最终这些像素值被光栅化并连接成一个向量输入到传统的神经网络得到输出深度学习的具体模型及方法卷积波尔兹曼机 ConvolutionalRBM 权值共享减少参数的方法每个神经元无需对全局图像做感受只需感受局部区域 FeatureMap 在高层会将这些感受不同局部的神经元综合起来获得全局信息每个神经元参数设为相同即权值共享也即每个神经元用同一个卷积核去卷积图像深度学习的具体模型及方法卷积波尔兹曼机 ConvolutionalRBM 隐层神经元数量的确定神经元数量与输入图像大小滤波器大小和滤波器的滑动步长有关例如输入图像是1000 x1000像素滤波器大小是10 x10 假设滤波器间没有重叠即步长为10 这样隐层的神经元个数就是 1000 x1000 10 x10 10000个深度学习的具体模型及方法卷积波尔兹曼机 ConvolutionalRBM 多滤波器情形不同的颜色表示不同种类的滤波器每层隐层神经元的个数按滤波器种类的数量翻倍每层隐层参数个数仅与滤波器大小滤波器种类的多少有关例如隐含层的每个神经元都连接10 x10像素图像区域同时有100种卷积核滤波器则参数总个数为 10 x10 1 x100 10100个深度学习的具体模型及方法卷积波尔兹曼机 ConvolutionalRBM 卷积过程用一个可训练的滤波器fx去卷积一个输入的图像第一阶段是输入的图像后面的阶段就是FeatureMap了然后加一个偏置bx 得到卷积层Cx 子采样过程每邻域n个像素通过池化 pooling 步骤变为一个像素然后通过标量Wx 1加权再增加偏置bx 1 然后通过一个sigmoid激活函数产生一个大概缩小n倍的特征映射图Sx 1 深度学习的具体模型及方法卷积波尔兹曼机 ConvolutionalRBM CNN的关键技术局部感受野权值共享时间或空间子采样CNN的优点 1 避免了显式的特征抽取而隐式地从训练数据中进行学习 2 同一特征映射面上的神经元权值相同从而网络可以并行学习降低了网络的复杂性 3 采用时间或者空间的子采样结构可以获得某种程度的位移尺度形变鲁棒性 3 输入信息和网络拓扑结构能很好的吻合在语音识别和图像处理方面有着独特优势深度学习的具体模型及方法基于CRBM的深度学习框架深度学习性能比较 DeepnetsVS Boosting 深度学习性能比较 DeepnetsVS ProbabilisticModels 深度学习性能比较随机文法模型SetofproductionrulesforobjectsZhu Mumford StochasticGrammarofImages F T2006 自动学习人工指定 S C Zhuetal 深度学习性能比较基于文法模型的物体检测 R Girshick P Felzenszwalb D McAllester NIPS2011 Learnlocalappearance shape 人工指定自动学习深度学习性能比较部件和结构模型DefinedconnectivitygraphLearnappearance relativeposition Felzenszwalb HuttenlocherCVPR 00 FischlerandR Elschlager1973 人工指定自动学习深度学习性能比较基于部件与结构的分层模型 Fidleretal ECCV 10 Fidler LeonardisCVPR 07 人工指定自动学习深度学习性能比较递归和与图模型 LeoZhu YuanhaoChen AlanYuille collaboratorsRecursivecomposition AND ORgraphLearn unitsatlayer 人工指定自动学习深度学习性能比较自动编码模型 Hintonetal ICANN 11 反卷积网络模型 Zeileretal ICCV 11 Explicitrepresentationofwhat where 人工指定自动学习深度学习性能比较神经网络Dedicatedpooling LCNlayersNoseparationofwhat whereModalityindependent e g speech images Leetal ICML 12 人工指定自动学习深度学习性能比较波尔兹曼机HomogenousarchitectureNoseparationofwhat whereModalityindependent e g speech images Salakhutdinov HintonAISTATS 09 人工指定自动学习深度学习的应用深度学习在图像识别上的应用空间金字塔 SpatialPyramids 深度学习的应用深度学习在图像识别上的应用深度学习的应用深度学习在图像识别上的应用深度学习的应用深度学习在图像识别上的应用深度学习的应用深度学习在图像识别上的应用实验在Caltech256数据集上利用单特征识别 SparseCRBM性能最优深度学习的应用深度学习在音频识别上的应用 ConvolutionalDBNforaudio MaxpoolingnodeDetectionnodes MaxpoolingnodeDetectionnodes 深度学习的应用深度学习在音频识别上的应用 ConvolutionalDBNforaudio 深度学习的应用深度学习在音频识别上的应用深度学习的应用深度学习在音频识别上的应用深度学习的应用深度学习在视频识别上的应用 SPACE TIMEDEEPBELIEFNETWORKS 深度学习的应用深度学习在视频识别上的应用深度学习的应用深度学习在多模态学习中的应用深度学习的应用深度学习在多模态学习中的应用深度学习的应用深度学习在多模态学习中的应用深度学习的应用深度学习在多模态学习中的应用深度学习的应用深度学习在多模态学习中的应用深度学习的应用深度学习在多模态学习中的应用如果模态间存在着内在的联系即存在sharedRepresentation 那么理论上模型应支持训练一个模态而测试另一个模态时仍能获得好的分类性能深度学习的应用深度学习在多任务学习中的应用深度学习的应用深度学习在多任务学习中的应用在深度学习模型中对于相关任务的联合学习往往会取得较好的特征表达多任务联合学习能够增强损失函数的作用效能比如单独进行人脸检测会比较难光照遮挡等因素但是当人脸检测与人脸识别这两个相关的任务联合学习时人脸检测的难度反而降低了深度学习的应用基于深度学习的迁移学习应用深度学习的应用基于深度学习的迁移学习应用特征共享深度学习的应用基于深度学习的迁移学习应用深度学习的应用深度学习在大尺度数据集上的应用大尺度数据集样本总数 100M 类别总数 10K 特征维度 10K 深度学习的应用深度学习在大尺度数据集上的应用模型的并行运算化深度学习的应用深度学习在大尺度数据集上的应用分布式深度学习模型深度学习的应用深度学习在大尺度数据集上的应用分布式深度学习模型深度学习的应用深度学习在大尺度数据集上的应用参数个数达到1 15billion 若不能并行优化参数任务无法完成深度学习的应用深度学习的State of the art 展望未来需解决的问题对于一个特定的框架多少维的输入它可以表现得较优对捕捉短时或者长时间的时间依赖哪种架构才是有效的如何对于一个给定的深度学习架构融合多种感知的信息如何分辨和利用学习获得的中高层特征语义知识有什么正确的机理可以去增强一个给定的深度学习架构以改进其鲁棒性和对变形及数据丢失的不变性模型方面是否有其他更为有效且有理论依据的深度模型学习算法是否存在更有效的可并行训练算法参考文献 Tutorials BackgroundMaterial YoshuaBengio LearningDeepArchitecturesforAI FoundationsandTrendsinMachineLearning 2 1 pp 1 127 2009 LeCun Chopra Hadsell Ranzato Huang ATutorialonEnergy BasedLearning inBakir G andHofman T andScholkopf B andSmola A andTaskar B Eds PredictingStructuredData MITPress 2006ConvolutionalNets LeCun Bottou BengioandHaffner Gradient BasedLearningAppliedtoDocumentRecognition ProceedingsoftheIEEE 86 11 2278 2324 November1998 Jarrett Kavukcuoglu Ranzato LeCun WhatistheBestMulti StageArchitectureforObjectRecognition Proc InternationalConferenceonComputerVision ICCV 09 IEEE 2009 Kavukcuoglu Sermanet Boureau Gregor Mathieu LeCun LearningConvolutionalFeatureHierachiesforVisualRecognition AdvancesinNeuralInformationProcessingSystems NIPS2010 23 2010 参考文献 UnsupervisedLearning ICAwithReconstructionCostforEfficientOvercompleteFeatureLearning Le Karpenko Ngiam Ng InNIPS2011 Rifai Vincent Muller Glorot Bengio ContractingAuto Encoders Explicitinvarianceduringfeatureextraction in ProceedingsoftheTwenty eightInternationalConferenceonMachineLearning ICML 11 2011 Vincent Larochelle Lajoie Bengio Manzagol StackedDenoisingAutoencoders LearningUsefulRepresentationsinaDeepNetworkwithaLocalDenoisingCriterion JournalofMachineLearningResearch 11 3371 3408 2010 Gregor Szlam LeCun StructuredSparseCodingviaLateralInhibition AdvancesinNeuralInformationProcessingSystems NIPS2011 24 2011 Kavukcuoglu Ranzato LeCun FastInferenceinSparseCodingAlgorithmswithApplicationstoObjectRecognition ArXiv1010 34672008 Hinton Krizhevsky Wang TransformingAuto encoders ICANN 2011Multi modalLearning Multimodaldeeplearning Ngiam Khosla Kim Nam Lee Ng InProceedingsoftheTwenty EighthInternationalConferenceonMachineLearning 2011 参考文献 LocallyConnectedNets Gregor LeCun Emergenceofcomplex likecellsinatemporalproductnetworkwithlocalreceptivefields Arxiv 2009 Ranzato Mnih Hinton GeneratingmorerealisticimagesusinggatedMRF s NIPS2010 Le Ngiam Chen Chia Koh Ng Tiledconvolutionalneuralnetworks NIPS2010DistributedLearning Le Ranzato Monga Devin Corrado Chen Dean Ng BuildingHigh LevelFeaturesUsingLargeScaleUnsupervisedLearning InternationalConferenceofMachineLearning ICML2012 Edinburgh 2012 PapersonSceneParsing Farabet Couprie Najman LeCun SceneParsingwithMultiscaleFeatureLearning PurityTrees andOptimalCovers inProc oftheInternationalConferenceonMachineLearning ICML 12 Edinburgh Scotland 2012 Socher Lin Ng Manning ParsingNaturalScenesandNaturalLanguagewithRecursiveNeuralNetworks InternationalConferenceofMachineLearning ICML2011 2011 参考文献 PapersonObjectRecognition Boureau LeRoux Bach Ponce LeCun Askthelocals multi waylocalpoolingforimagerecognition Proc ICCV2011 Sermanet LeCun TrafficSignRecognitionwithMulti ScaleConvolutionalNetworks ProceedingsofInternationalJointConferenceonNeuralNetworks IJCNN 11 Ciresan Meier Gambardella Schmidhuber ConvolutionalNeuralNetworkCommitteesForHandwrittenCharacterClassification 11thInternationalConferenceonDocumentAnalysisandRecognition ICDAR2011 Beijing China Ciresan Meier Masci Gambardella Schmidhuber Flexible HighPerformanceConvolutionalNeuralNetworksforImageClassification InternationalJointConferenceonArtificialIntelligenceIJCAI 2011 PapersonActionRecognition Learninghierarchicalspatio temporalfeaturesforactionrecognitionwithindependentsubspaceanalysis Le Zou Yeung Ng CVPR2011PapersonSegmentation Turaga Briggman Helmstaedter Denk SeungMaximinlearningofimagesegmentation NIPS 2009 参考文献 PapersonVisionforRobotics Hadsell Sermanet Scoffier Erkan Kavackuoglu Muller LeCun LearningLong RangeVisionforAutonomousOff RoadDriving JournalofFieldRobotics 26 2 120 144 February2009 DeepConvexNets Deconv Nets Deng Yu DeepConvexNetwork AScalableArchitectureforSpeechPatternClassification Interspeech 2011 Zeiler Taylor Fergus AdaptiveDeconvolutionalNetworksforMidandHighLevelFeatureLearning ICCV 2011PapersonBiologicalInspiredVision Serre Wolf Bileschi Riesenhuber Poggio RobustObjectRecognitionwithCortex likeMechanisms IEEETransactionsonPatternAnalysisandMachineIntelligence 29 3 411 426 2007 Pinto Doukhan DiCarlo Cox Ahigh throughputscreeningapproachtodiscoveringgoodformsofbiologicallyinspiredvisualrepresentation PLoS ComputationalBiology 2009 参考文献 PapersonEmbeddedConvNetsforReal TimeVisionApplications Farabet Martini Corda Akselrod Culurciello LeCun NeuFlow ARuntimeReconfigurableDataflowProcessorforVision WorkshoponEmbeddedComputerVision CVPR2011PapersonImageDenoisingUsingNeuralNets Burger Schuler Harmeling ImageDenoisng CanPlainNeuralNetworksCompetewithBM3D ComputerVisionandPatternRecognition CVPR2012 相关程序软件及链接 DeepLearningwebsite MatlabcodeforR ICAunsupervisedalgorithm Python basedlearninglibrary C codeforConvNets LushlearninglibrarywhichincludesConvNets learninglibrarythatsupportsneuralnettraining CodeusedtogeneratedemoforthistutorialRanzato 99 GlobalContrastbasedSalientRegionDetection Ming MingCheng TsinghuaUniversityitCVPR2011 GlobalContrastbasedSalientRegionDetection 自动化学院汇报人付忠敏 100 MainContents 基于直方图对比度的检测方法基于区域对比度的检测方法总结与展望显著区域检测及分析方法 101 SalientRegionofimage 显著性源于视觉的独特性不可预测性稀缺性以及奇异性并且是由颜色梯度边缘边界等图像所致人们普遍认为大脑更容易响应图像中的高对比度区域的刺激文章作者主要依据图像的对比度来进行显著性区域检测什么是图像的显著性区域 SalientRegionDetection ThreePrinciples 104 Twomethodsofsalientregiondetection 1HC HistogramContrast 算法视觉系统对图像中像素的色彩差异很敏感据此根据源图像的颜色统计特征提出了基于直方图对比的图像像素显著性值检测方法 2RC RegionContrast 算法人们会更加注意图像中与周围物体对比度大的区域除对比度外相邻区域的高对比度比很远区域的高对比度更容易导致一个区域引起人类的注意 105 Saliencyvalueofpixel 一个像素的显著性值用它和图像中其他像素的颜色的对比度来定义上式展开得什么是Lab颜色空间 106 在这种定义下相同颜色的像素点具有相同的显著性值对式子进行重排将相同颜色的像素归到一起得到每种颜色的显著性值 Cl表示像素Ik的颜色 n为图像所含颜色总数目 fj为Cj在图像的所有颜色中出现的概率 D cl cj 表示Lab颜色空间中的颜色距离 Saliencyvalueofcolor 107 Saliencyvalueofcolor 国旗中像素Ik的颜色是黄色或者红色图像所含颜色总数目2 根据公式计算黄色出现的概率接近于0 红色出现的概率接近于1 108 Zhai和Shah仅仅使用了亮度来减少颜色的数量在这个基础上他们提出了用于图像显著区域检测的LC检测先将每个颜色通道量化成12个份将颜色减少到12 12 12 再将出现频率较小的颜色丢掉保留高频出现的颜色然而真彩色空间包含256 256 256种可能的颜色 16万色比图像的像素总数还多计算代价太高方法1 方法2 Saliencyvalueofcolor 109 LC算法缺陷在于忽略了颜色信息的可区别性自然图像中的颜色只占据整个色彩空间很小的一部分将出现频率很低的颜色丢掉保留高频出现的颜色量化后的图像颜色更少但仍能保证显著性检测所需的视觉质量 Colorhistogramquantize 颜色量化样例 110 HC方法速度快并且产生细节精确的结果均匀地突出了整个显著性区域 Salientregiondetectionbasedonhistogramcontrast HC算法检测显著区域样例 111 空间关系在引起人类注意力方面也起到非常大的作用相邻区域的高对比度比很远区域的高对比度更容易导致一个区域引起人类的注意基于此提出基于区域对比度的显著性区域检测算法 1 先将图像分割为若干区域参考文献 Efficientgraph basedimagesegmentation 2004 IJCV 再为每个区域建立颜色直方图 2 计算各个区域之间的颜色对比度用每个区域和其他区域的对比度加权和来定义其显著性值权值由两个区域的空间距离决定 RegionContrast 112 图像分割得到左图不考虑距离权值得到中左图考虑距离权值得到中右图二值化得到右图 Regioncontrastbasedsalientregiondetection 113 Saliencyvalueofregion 两个区域r1和r2的颜色距离对每个区域rk定义显著性值 114 Saliencyvalueofregion 引入空间权值将空间信息

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

视频监控与视频分析-第十四章深度学习ppt课件.ppt

文档简介

温馨提示

最新文档

评论

视频监控与视频分析-第十四章 深度学习ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档

视频监控与视频分析-第十四章深度学习ppt课件.ppt