![(电路与系统专业论文)基于带反馈的图像金字塔的目标检测的研究与应用[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/6337db3c-7e05-4560-a9f1-796d9b5d0e9b/6337db3c-7e05-4560-a9f1-796d9b5d0e9b1.gif)
![(电路与系统专业论文)基于带反馈的图像金字塔的目标检测的研究与应用[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/6337db3c-7e05-4560-a9f1-796d9b5d0e9b/6337db3c-7e05-4560-a9f1-796d9b5d0e9b2.gif)
![(电路与系统专业论文)基于带反馈的图像金字塔的目标检测的研究与应用[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/6337db3c-7e05-4560-a9f1-796d9b5d0e9b/6337db3c-7e05-4560-a9f1-796d9b5d0e9b3.gif)
![(电路与系统专业论文)基于带反馈的图像金字塔的目标检测的研究与应用[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/6337db3c-7e05-4560-a9f1-796d9b5d0e9b/6337db3c-7e05-4560-a9f1-796d9b5d0e9b4.gif)
![(电路与系统专业论文)基于带反馈的图像金字塔的目标检测的研究与应用[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/6337db3c-7e05-4560-a9f1-796d9b5d0e9b/6337db3c-7e05-4560-a9f1-796d9b5d0e9b5.gif)
已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华南师范大学硕士学位论文基于带反馈的图像金。塔的目标检测的研究与应用 摘要 目标检测是图像处理中的一项重要技术,在计算机视觉、面向对象的多媒体 技术等重大领域中具有基础性地位。目标检测技术几乎出现在所有与计算机视觉 相关的领域,具有广泛的应用需求。从一幅带有复杂背景的图像中提取出观察者 感兴趣的对象,即对目标进行检测,是目标检测的最高目标,也是其发展的显著 趋势。因此,对目标检测理论及其相关技术进行研究具有十分重要的意义。 首先,本文研究了利用金字塔模型提取特征,利用金字塔模型多尺度的优点, 在不同的层次和不同分辨率下处理数据,来减少尺度变化对目标检测的影响,并 用高层的数据匹配结果为低层数据的匹配提供指引。其次,采用带反馈的金字塔 检索方式来寻找目标,在金字塔顶较低分辨率的图像进行检索,粗略的检索到几 个可能性更大的匹配位置,并根据检索的情况,把相关信息反馈给模板,对模板 做些修正,然后再在这几个可能性大的位置,用修正后的模板进行逐渐详尽的检 索直至匹配到达要求。再次,研究了利用金字塔模型生成稀疏编码的方式进行数 据编码,稀疏编码可以很好的表示图像信息,并使算法有了检验旋转角度的能力。 本文通过运用带反馈的图像金字塔设计实现了一个人脸检测系统,并通过实 验验证了这种算法的可行性。 关键词:图像会字塔;反馈;目标检测;人脸检测;稀疏编码。 华南师范大学硕上学位论文 基于带反馈的图像金字塔眄目标检测的研兔- 应用 a b s t r a c t a sak i n do fb a s i ct e c h n o l o g yi ni m a g e p r o c e s s i n g ,t a r g e td e t e c t i o ni sc u r i a lt o m a n yf i e l d ss u c ha sm a c h i n ev i s i o na n do b j e c t o r i e n t e dm u l t i m e d i at e c h n o l o g y t a r g e td e t e c t i o nh a sb r o a da p p l i c a t i o n si nn e a r l ya l la r e a sr e l a t e dt oi m a g e i m a g e o b j e c td e t e c t i o nw h i c hi st oe x t r a c tt h ei n t e r e s t i n go b j e c tf o r mi t sc l u t t e rb a c k g r o u n d i na ni m a g ei f t h eh i g h e s tg o a lo f t a r g e td e t e c t i o n t h e r e f o r e ,t h es t u d yo nt h et h e o r i e s a n dr e l a t e dt e c h n o l o g i e so fi m a g eo b j e c ts e g m e n t a t i o ni sq u i t em e a n i n g f u l f i r s t ,w em a d eas t u d yo fh o wt oe x t r a c tf e a t u r e sb ya ni m a g ep y r a m i di nt h i s t h e s i s t h ei m a g ep y r a m i dc o u l dp r o c e s sd a t aa td i f f e r e n tl e v e l sa n dd i f f e r e n t r e s o l u t i o nb e c a u s eo fi t sm u l t i s c a l e i nt h i sw a yt h ei n f l u e n c eo fs c a l ec h a n g ec o u l d b er e d u c e da n dt h er e s u l to ft h es e a r c h e sa th i g hl e v e l sc o u l do f f e ro fh e l pt of i n do u t t h e o b j e c t a t l o wl e v e l s s e c o n d , w eu s et h e m e t h o d , c a l l e dt h e f e e d b a c k i m a g e p y r a m i dt os e a r c ht h eo b je c t w es e a r c hi nt h eh i g h e rp a r to ft h e p y r a m i dw h i c hi sa ni m a g eo fal o w e rr e s o l u t i o n ,w ew a n tt of i n dt h er o u g hl o c a t i o n o ft h eo b je c t a f t e rw ef i n dt h o s e ,w ef e e d b a c kt h ei n f o r m a t i o no ft h em a t c ha n d c h a n g et h em o d e lt ot h es i t u a t i o no ft h eo b j e c t i m a g e t h e nw es e a r c ht h eo b j e c ti n t h el o w e rp a r to ft h ep y r a m i dt of i n dt h em o r ee x a c tl o c a t i o no fo b je c t w ed ot h i s a g a i na n da g a i nu n t i lr e a c ht h ef l o o ro ft h ep y r a m i d t h i r d ,b yt h ei m a g ep y r a m i dt h e o b j e c t i m a g ei sc o d e dt os p a r s ec o d ew h i c hc o u l de x t r a c tt h ei n f o r m a t i o no ft h ei m a g e v e r yw e l la n dr e c o r dt h er o t a t i o no fi m a g e i nt h i s t h e s i s ,w ed e s i g n e das y s t e mo ff a c ed e t e c t i o nw i t ht h eu s eo f f e e d b a c k i m a g e - p y r a m i d ,a n dt h ee x p e r i m e n ts h o w st h a tt h ea l g o r i t h mw ep r o p o s e di s f e a s i b l e k e yw o r d s :i m a g ep y r a m i d ;f e e d b a c k ;t a r g e td e t e c t i o n ;f a c ed e t e c t i o n ;s p a r s e c o d e 华南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的撸导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文 的研究做继重要贡献的个人和集体,均已在文中以明确的方式标明。 本人完全意识到此声明的法律结果由本人承担。 论文作者签名:萤立 日期:w 钾年厂月7 p 日 学位论文使用授权声明 本凡完全了解华南师范大学有关收集、保留和使用学位论文的规 定,即:研究生在校攻读学位期问论文工作的知识产权单位属华南师 范大学。学校有权保留并向国家主管部门或其指定机构送交论文的电 子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他 复制手段保存、汇编学位论文。( 保密的论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密范围,在年后解密适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权 书。 论文作者签名: 篷落j l 导师签名: | ( 纠缸 日期:纱留年厂月力日日期:加稻年厂月弓汐日 华南师范人学硕 :学位论文基于带反馈的图像金字塔的l f l 标枪测的研究与应用 第一章绪论 本章主要介绍国内外对于目标检测以及图像金字塔的研究现状,论述了研究 基于带反馈的图像金字塔的目标检测的理论和实际意义;指出了本文在这个方面 的研究工作内容。 1 1 国内外研究现状 随着计算机技术的普及与发展,人工智能的普及与研究也在飞速发展着,尤 其在目标检测方面,各式各样的算法犹如雨后春笋一般涌现出来。总的来说人们 的思路可以分成两类:自底向上( b u t t o n u p ) 和自顶向下( t o p d o w n ) 。其主要 的区别在于,是主要根据所得的数据( 图像) ,还是主要依靠先验知识,来处理 图像。 所有不需要先验知识的图像处理方法都可以归纳为自底向上的方法,m a f i s c h l e r 在1 9 7 8 年给出它完整的描述,大致可以归纳为,首先从图像中抽象出 某些属性,然后分析这些属性,经过某些推理得到结论。而白顶向下需要一定的 相关先验知识,它首先假设图像中包含着特定的目标,系统的任务是证明并提取 出目标。白顶向下的图像识别方法主要应用于特定用途的视觉系统( s p e c i a l p u r p o s ev i s i o ns y s t e m s ,s p v s ) 。 近些年来人们把b u t t o n u p 和t o p d o w n 两种模型结合其来提出了反馈模 型【2 1 。主要是首先用白底向上的一些经典可行的方法提取图像的一些确定的大体 上的特征,然后根据自顶向下的思路,根据这些特征和已有的先验知识判断是否 存在目标,以及推断出目标的一些大致信息,根据这些信息再去寻找更多的细节, 再将细节与先验知识比对,如此往复,得到最终较精确的结果。数据处理的方法 可分为时域处理和频域处理两种,图像处理也不例外。 基于频域的图像处理方法在图像处理中已经有了广泛而有成效的应用,而在 计算机视觉中的应用是由c a m p b e l la n dr o b s o n 于1 9 6 8 率先提出的【3 】。他们假设 人的视觉系统就像多组频谱分析仪,把图像信号分成不同的频段和信道,排列组 合而成的。很显然在频域中或用小波处理图像能很好的解决图像的旋转不变性, 华南师范大学硕上学位论文基于带反馈的图像金塔的目标检测的研究与应用 但我们也要注意到在空间位置关系的描述方面频域分析有很大的问题。 在c a m p b e l la n dr o b s o n 的论文发表了不久a z r i e lr o s e n f e l d 发表了他关于金 字塔模型的第一篇论文【4 1 。遗憾的这篇论文当时并没引起太大关注。知道上世纪 九十年代才有越来越多的学者开始关注这种方法并提出一些改进方法,p i z l o 在 1 9 9 7 年以来在视觉金字塔的研究与应用方面做了很多有成效的工作。并发表了 多篇论文【5 川。 图1 1 目标检测的常用方法及分类 进入二十一世纪,人们对视觉金字塔模型的关注越来越多,不规则视觉金字 塔模型也被提了出来,h a x h i m u s a 和他的伙伴一起对视觉金字塔模型进行了改 进,提出 m i e s ( m a x i m a li n d e p e n d e n te d g es e t ) 【8 】和m i d e s ( m a x i m a li n d e p e n d e n t d i r e c t e de d g es e t ) t 9 】方法来构建视觉金字塔模型,这两种方法使视觉金字塔的计算 复杂度大大减少。 2 华南师范大学硕上学位论文基于带反馈的图像金字塔的h 标枪测的研究与应用 在国内对图像金字塔的研究在近几年也取得了很大的进展,在图像处理的各 个方面取得了很多成果其中在图像分割方面,任获荣等提出了一种利用形态金字 塔的图像分割方法【l o 】。在图像匹配与融合方面取得的进展最大,相关的文献也 最多,朱瑞辉等对拉普拉斯金字塔应用于图像融合进行了研究【1 1 】,苗启广,王 宝树等改进上述方法结合新的重构算法降低了拉普拉斯金字塔的噪声问题【l2 1 ,韦 燕凤等用边缘金字塔实现了h a u s d o r f f 距离匹配1 1 引。在图像编码方面,濮国梁等 使用六边形正交影像金字塔进行了图像压缩算法的研究取得了成果【l4 1 。 对人脸检测的研究最初可以追溯到2 0 世纪7 0 年代,人脸检测早期的研究主 要致力于模板匹配、子空间方法,变形模板匹配等。那些方法往往针对简单无变 化背景下的正面人脸检测,所以使这些方法在很大程度上显得很呆板。基于这些 方法构建的检测系统,任何图像条件的改变,即使不用完全重新设计整个系统, 也要对系统的参数进行精细的调整。那时人们更重视对人脸识别的研究,直到 9 0 年代,随着实际的人脸识别和视频编码系统开始成为现实,这种情况爿有所 改变。在过去的十多年里,对人脸检测的极大兴趣开始从几个方面展开。研究者 提出了多种分割方法,特别是那些利用运动、肤色和一般信息的方法。统计和神 经网络方法的使用也使在复杂背景和多分辨率的人脸检测成为可能。 另外,在经过对人脑视觉系统的研究后,a t t n e a v e 最先提出:视觉感知的目 标就是产生一个外部输入信号的有效表示【l5 1 。在神经生物学领域,b a r l o w 基于 信息论提出了“有效编码假设”,认为初级视皮层神经细胞的主要功能就是去除 输入刺激的统计相关性f 1 6 】。o l s h a u s e n 和f i e l d 进一步提出了稀疏编码模型 】, 稀疏编码理论表明,通过寻找自然图像的稀疏编码表示,该神经网络可以学习得 到类似于简单细胞感受野的结构,这种简单细胞广泛存在于初级视皮层中。稀疏 编码理论和模型是神经生物学、计算机科学和心理学的交叉研究领域。随着对生 物视觉系统研究的进一步细致,以及计算机技术的飞速发展,近年来,稀疏编码 假设理论成为了人们研究的一个热点,人们从神经生物学机理模型和计算机科学 可计算模型等角度进行了广泛的研究,很多重大的成果对生物机器视觉,乃至 脑科学的发展产生了重要的影响【18 1 9 】,它也成为多个会议的核心议题。研究人类 感知系统的有效编码机制,并将其原理和理论应用到人工智能、计算机视觉和模 式识别等领域中,为计算机具备类似人类的智能和解决问题的能力提供一种有效 华南师范大学顾士学位论文基于带反馈的图像金字塔的目标检测的研究与应用 的研究手段,这对于人工智能、模式识别等领域的发展具有重要的意义。同时, 稀疏编码模型也在仿真和验证神经生理学和认知心理学的理论等方面具有重要 的意义。疏编码理论研究怎样把外界刺激模式转换为有效的内部表示,从模式识 别的角度看,它实现了一个特征抽取的过程。稀疏编码从信息论的角度指导怎样 提取外部刺激模式的特征,用尽可能精简有效的特征表示外部模式。h y v a r i n e n 等提出了利用稀疏编码和独立成分分析提取图像特征的框架【2 0 】。c h e n g i u nl i u 等 用稀疏编码方式提取人脸特征,大大提高了人脸识别的准确率【2 1 2 2 1 。这些成功的 应用都大大地推动了稀疏编码理论的研究。 在人脸检测方面在能够精确定位的跟踪面部特征的特征提取方法的设计( 例 如弹性模板和活动轮廓) 方面也取得了很大的进展。近期人脸检测的研究主要集 中在基于数据驱动的学习方法,如统计模型方法,神经网络学习方法,统计知识 理论和s v m 方法,基于马尔科夫随机域的方法,以及基于颜色的人脸检测。 目前,国外对人脸检测问题的研究很多,比较著名的有m i t ,c m u 等;国内 的清华大学、北京工业大学、中国科学院计算技术研究所和中国科学院自动化研 究所等都有人员从事人险检测相关的研究而且,m p e g7 标准组织已经建立了人 脸识别草案小组,人脸检测算法也是一项征集的内容随着人脸检测研究的深入, 国际上发表的有关论文数量也大幅度增长,如i e e e 的p g ( i e e ei n t e r n a t i o n a l c o n f e r e n c eo na u t o m a t i cf a c ea n dg e s t u r e r e c o g n i t i o n ) ,i c i p ( i n t e r n a t i o n a l c o n f e r e n c eo ni m a g ep r o c e s s i n g ) ,c v p r ( c o n f e r e n c eo nc o m p u t e rv i s i o na n d p a t t e mr e c o g n i t i o n ) 等重要国际会议上每年都有大量关于人脸检测的论文,占到 有关人脸研究论文的近1 3 之多。 本文的目的是研究机器视觉中的一个瓶颈问题:图像特征自动抽取与图像的 识别,即模仿人类视觉系统的功能结构,利用已知的知识和一些假设,让机器学 会从视觉图像中抽象出目标的本质特征,从而在目标在不同的光照情况下,在目 标发生旋转,尺度变化甚至有限形变的情况下,利用本系统仍然能够检测到目标。 人工智能问世以来,一直努力实现机器类人思考,可是人的思考是建立在大量先 验知识与环境信息上的。如此多的信息完全用编程的方式输入给机器( 计算机) , 几乎是不可想象的,所以需要让机器学会自学习,但要学习这个世界,而不能 “看”,“听”,“摸”,也是不可能达到像人一样思考的。尤其是视觉,通过视觉 4 华南师范大学硕士学位论文基于带反馈的图像金字塔的目标检测的研究与应用 可以获取这个世界的一大部分信息,人的信息8 0 以上来自视觉,如果想让机器 学会像人一样思维就必须教会它如何“看”。本文就是要实现在有限多的先验知 识的情况下,让计算机可以正确的提取出某一领域内的图像的特征,并在无人监 督的情况下对其进行判断识别。 目标检测有着广泛的实际用途,在工业自动检测,无人监管,安全检查,人 机交流,基于内容的图像检索,机器自学习,乃至图像增强,图像修复等相关的 图像处理领域都可以得到应用。 1 2 本文的研究内容 本文的研究围绕着金字塔模型展开,主要以提高目标检测系统对旋转和尺 度变化,光照等的鲁棒性和识别率为目标,对目标检测预处理、特征点定位、特 征提取等关键环节展开研究。 ( 1 ) 研究了利用金字塔模型自底向上地提取特征,因为金字塔模型天然有 多尺度的优点,可以根据不同的层次在不同分辨率下处理数据,不仅可以减少尺 度变化对目标检测的影响,高层的数据匹配结果也可以为低层数据的匹配提供指 引。 ( 2 ) 把反馈机制应用于金字塔模型,这种反馈不但表现在此底向上提取特 征再自顶向下进行识别这个过程上,更重要的是在自顶向下的比较过程,每一层 比较结束之后,针对每一个目标可能的区域,都要反馈信息,生成对应其具体情 况的新模板,以解决不同同类目标的检测问题并提高算法的自适应性。 ( 3 ) 研究了利用金字塔模型生成稀疏编码的方式进行数据编码,稀疏编码 是根据人类视觉系统的工作方式设计出的一种编码方式,而我们这里金字塔模型 也是受人类视觉系统的启发而设计的,所以它们有天然的相关。性稀疏编码可以 很好的表示图像信息,并使算法有了检验旋转角度的能力。 ( 4 ) 改进了常规的金字塔模型2 2 正方形的简单缩减方式,把缩减过程放 在以父节点为中心一定半径的圆内进行,使图像点分布更加均匀,减少了旋转对 图像的影响。 本文研究内容安排如下: 第一章是绪论,主要介绍本文的研究背景、意义,当前研究进展概述以及论 华南师范人学硕十学位论文基于带反馈的图像金字塔的目标检测的研究与应用 文的要内容和章节安排。 第二章:首先阐述了人类视觉感知系统的概念和要素,对生物视觉机制的主 要成果进行综述,引入稀疏编码的概念,并介绍什么是稀疏编码,根据人类视觉 系统中的感受野等级特性,反馈机制和注意选择机制等启示提出带反馈的金字塔 模型。介绍金字塔模型在图像处理中的应用,金字塔模型的由来和发展,列出几 种常用的金字塔模型,比较规则金字塔模型与不规则金字塔模型的优缺点。 第三章:常用的图像匹配算法与带反馈的金字塔搜索与匹配算法,首先介绍 基于灰度的图像匹配算法,基于特征图像匹配方法和几种快速匹配搜索方法等常 用匹配算法,然后介绍金字塔搜索算法,最后提出基于带反馈的金字塔模型的搜 索算法。 第四章:完整的介绍基于带反馈的图像金字塔模型,用图像金字塔模型实现 对目标的稀疏编码,并通过用图像金字塔模型来实现对图像的稀疏编码,在此期 间用极坐标的描述方式代替直角坐标系量度金字塔各结点之间的位置关系。然后 通过实验验证像金字塔模型对目标进行稀疏编码的可行性。详细介绍基于带反馈 的金字塔模型的搜索算法。并把整个系统应用在人脸检测中。然后进行实验结果 分析。 第五章:总结全文。 华南师范人学硕士学位论文基于带反馈的图像金字塔的目标检测的研究与应用 第二章人类视觉系统、稀疏编码和金字塔模型 2 1 人类视觉系统以及给我们的启示 2 1 i 初级视觉系统概述 大脑中的视觉部分相当复杂,它们是由一个庞大的初级系统、次级系统和许 多更高级系统构成。各个系统都要接受来自于上百万个神经元的输入。这些神经 元位于眼睛的后部,称之为神经节细胞。初级系统通过丘脑的侧膝体( l g n ,丘 脑的一小部分) 与新皮层相连接。由于受神经生理学研究的限制,目前对大脑视 皮层的研究仍处于对初级视觉系统的视皮层( 即主视皮层v 1 区) 的探讨上。 图2 1 人类视觉系统的主视觉通道 从形态学的角度分析,哺乳动物大脑的视觉系统中主要的视觉通路由视网膜 ( r e t n i a ) 、外侧膝体l g n 和视觉皮层构成【2 3 1 ,如图2 1 所示。视网膜内的光感受 器接收到光刺激( 如光谱成分、双眼视差、速度、方位,空间频率等) ,视网膜的 最终输出由位于视网膜内的中心型神经节细胞( 分为o n 中心型和o f f 中心型两 类) 通过视神经传递到中转站l g n ,然后再由l g n 传递到视觉区域的初级视觉 皮层( 也称为主视皮层) v l 区。粗略地讲,视网膜的主要作用在于接收光刺激, l g n 则能提高对比敏感度和减少对弥散光的反应,而数量最多的视觉皮层细胞 则能提取图像的边缘、形状、颜色等信息,并把这些信息汇聚起来形成复杂的视 觉认知。 7 华南师范大学硕士学位论文基于带反馈的图像金字塔的目标检测的研究与应用 大脑的视觉系统是一个十分复杂的图像处理加工系统,视网膜每时每刻都在 接收大量的信息,但最后能到达视觉皮层神经细胞的有效信息却不多。故有人认 为视网膜的主要任务在于减少视觉信息编码的冗余性【2 4 1 。1 9 6 1 年,b a r l o w 指出 去除信息的冗余是视觉信息处理的主要目的【2 5 1 。生物学的研究显示,人脑并非 直接在空间域内处理图像信息的。从视网膜上接收到光刺激作为输入图像开始, 视觉系统利用一套完整的信息处理机制对该图像进行处理。对于视觉的信息处理 机制目前也有不同的观点,h u b e l 和w i s e l 提出了下级神经元有序地汇聚形成高 一级神经元的分级假说【2 4 1 。分级假说在一定程度上能解释不少视觉皮层信息处 理的过程,但也令人产生疑问:在等价处理的终端是否存在着一个特殊的超复杂 细胞或细胞群来处理一个特定的物体,即所谓的“祖母细胞”【2 6 1 。但是迄今为 止,尚未发现一个单独的皮层区域只接收所有的其他视觉皮层区域来的信息,这 就说明上面的假设并不合理。另一种可能的视觉处理机制是平行处理过程。可能 在视中枢各级存在着许多平行的视区,它们分别能对外界图像的各个特殊方面进 行编码,虽然单一的特征并不能给出最后结论,但当它们同时存在时就能对复杂 的图像作出识别,目前模拟视觉系统的许多实验都支持平行假说【2 6 1 。对外界图 像的编码工作过程中,视觉皮层的神经细胞起着重要的作用。视觉皮层按其感受 野( 视场中能够对一个单细胞活动产生影响的区域称之为感受野) 的特征可划分 为“简单细胞( s i m p l ec e l l s ) ”、“复杂细胞( c o m p l e xc e l l s ) ”和“超复杂细胞 ( h y p e r c o m p l e xc e l lo re n d s t o p p e dc e l l s ) 【”】。超复杂细胞被认为是简单细胞和复杂 细胞的以不同程度形成的阵列,它并非是一类特殊的神经元,所以通常人们仅考 虑简单细胞和复杂细胞的响应特性。简单细胞和复杂细胞对其感受野内的刺激 ( 感受野内的具有其最优朝向的一根棒或边缘) 都会产生强烈的响应,并且都有特 定的频率和方向,而且,大多数简单细胞和复杂细胞都对可视刺激的颜色的变化 不敏感。简单细胞感受野较小,呈长行,用闪烁的小光点可以测定其感受野中心 区为一狭长型,在其- n 或双侧有一个与之平行的拮抗区,如图2 2 所示。 华南师范大学硕十学位论文基于带反馈的图像金字塔的目标检测的研究与应用 图2 2 主视皮层v l 区简单细胞的感受野。“+ 号表示光点引起刺激的可视区域, 即神经节发放区域;“”号表示对光点刺激神经节不发放区域 神经生理研究表明【2 5 粕】,简单细胞对大面积的弥散光无反应,而比较适合于 检测具有明暗对比的边缘,并对边缘的位置和方位有严格的选择性。每一个简单 细胞都有一个最优方位,在此最优方位上细胞反应最强烈【2 4 1 。从图像处理的角 度来讲,这样的感受野空间结构相当于一个边缘滤波器,只有当输入图像在相应 的位置和方位上存在一个较强的边缘时,该滤波器才会产生较大的输出。与简单 细胞关心感受野中特定位置的方位信息不同,复杂细胞是与位置无关的,只处理 关于方位的抽象概念,并且复杂细胞的感受野常比邻近的简单细胞稍大些。超复 杂细胞的最优刺激是定方位的端点、角隅和拐角。此外,在仞级视觉皮层里还 有对颜色敏感的简单、复杂和超复杂细胞。根据平行假说,在初级视觉皮层中分 别获得图像的形状、颜色、运动和深度等初级视觉信息后,这些信息将被汇聚到 更高一级的视觉皮层区域进行进一步的分析。简单细胞和复杂细胞不同的感受野 特性也表明了v 1 区的不同神经元按不同的方式处理输入的视觉信息。根据上述 内容,可以简单地概括v 1 区简单细胞神经元的感受野特性:在时间和空间上具有 局部性( 1 0 c a l i z a t i o n ) ,在时域和频域中具有方向性( o r i e n t a t i o n ) 和选择性 ( b a n d p a s s ) 。简单细胞的感受野空间结构在数学上可以用g a b o r 函数和小波 ( w a v e l e t ) 函数来描述。这两个函数在时域和频域内都具有定域性,可以用它们的 基向量模拟简单细胞的感受野特性。神经生理学家们还发现,简单细胞感受野的 空间结构并不是动物与生俱来的。实验表明,在哺乳动物出生后,视觉系统( 特 别是视觉皮层) 相当的一段时间内仍处于发育过程,无论从解剖学还是从生理学 方面来说均未成熟,所以表现出很大程度的可变性或可塑性。视觉环境对于幼年 动物的发育影响较大,每种动物都有其特别敏感的发育阶段一关键期,在关键期 内视觉环境对脑的视觉通路和视觉功能发育有不可逆的影响【2 7 】。以上只是对人 9 华南师范大学硕上学位论文基于带反馈的图像金字塔的目标检测的研究与应用 或动物视觉系统的相关生物背景的简单介绍,事实上哺乳动物的视觉系统要远比 这复杂。尽管哺乳动物初级视觉系统的主视觉皮层v 1 区的神经元响应特性已经 被研究了五十多年,但是人们对v 1 区如何对复杂的自然环境进行有效的编码的 过程仍然知之甚少,所以目前仍然没有关于v 1 区神经元活动特性的定性的理论。 但是有一点是毫无疑问的,视觉系统比已有的任何人工的图像处理系统工作的都 要好。如果希望图像识别技术能有较大程度地提高,仿生学是一个很好的途径。 用计算机模拟哺乳动物的视觉系统是一个非常有意义也非常艰巨的课题,这项技 术的深入研究不但能对图像处理技术提出新的研究方向,而且对动物的视觉系统 的深入研究也很有帮助。 2 1 2 人类视觉系统的特点 从信息加工的观点来看,视觉信息处理过程是一个既有信息的横向流动,又 有信息的纵向流动的复杂非线性过程,下面我们列举它的几个主要特性: 感受野等级特性:视觉通道上各层次的神经细胞,由简单到复杂,它们所处 理的信息分别对应于视网膜上的一个局部区域,但是层次越深,该区域也就越大, 这就是著名的感受野等级假设。感受野是支持视觉信息分层串行处理的最重要的 生理学依据。 反馈机制:在人类视觉系统中,除了从视网膜到初级视皮层再到高级视皮层 区域的前向连接信息通道,还伴随着很多反馈连接。大脑中许多高层区域具有大 量反馈通路到达初级视皮层区域,初级视皮层神经细胞的响应除了受输入刺激的 影响,同时还受同层或者高层区域反馈信号的影响,而且一般后者的影响会更大 2 8 j 0 注意选择机制:人的视觉系统以分层的多通道信息处理为主要特征。它以在 时间域和空间域逐级整合的方式实现视觉信息在视觉通路中的传播,完成对景物 的概念化抽象。然而,在处理过程中脑对外界信息并不是一视同仁,而是表现出 选择特性。这有两方面的原因:一是可用资源的限制,由于脑的容积是有限的, 远低于感觉器官所提供的信息总量,这在视觉系统尤为重要( 据估计,人的视网 膜所提供的信息量大约是在每秒1 0 8 1 0 9 比特,而大脑皮层细胞的总数仅为1 0 8 1 0 9 ) ,这是通常所说的信息处理中的瓶颈效应。因此,要实时的处理全部信息 1 0 华南师范人学硕十学位论文基于带反馈的图像金字塔的h 标枪测的研究与应用 是不可能的,视觉系统采取的策略是有所选择地对一部分信息进行处理;另一方 面,由于外界环境信息并不全部都重要,大脑只需对部分重要的信息做出响应, 进行处理即可【2 9 1 。特征选择性:视皮层神经元对视觉刺激的各种静态和动态特 征都具有高度选择性,包括方位方向选择性、空间频率选择性、速度选择性、 双眼视差选择性、颜色选择性。 1 方位方向选择性 视皮层细胞只有当刺激线条或边缘处在适宜的方位角并按一定的方向移动 时,才表现出最大兴奋( 最佳方位或最佳方向) 。以细胞的放电频率相对于刺激方 位和运动方向作成直方图,可以显示该细胞的方位和方向调谐特性。 2 空间频率选择性 正弦波调制的光栅是视觉实验中经常使用的刺激图形。用这种刺激图形的主 要优点是便于对视觉反应的时空特性进行定量的数学分析。每一个视皮层细胞都 有一定的空间频率调谐。在同一皮层区内,不同细胞也有不同的空间频率选择性。 3 速度选择性 视皮层细胞对移动图形的反应比对静止的闪烁图形要强得多。每一个皮层细 胞不仅对运动的方向有选择性,而且要求一定的运动速度。只有当刺激图形在适 宜的方向上以某一定速度移动时,细胞反应才达到最大。这个速度称为该细胞的 最佳速度。移动速度高于或低于最佳速度时,反应都会减小。 4 双眼视差选择性 与外膝体细胞不同,大部分视皮层细胞接受双眼输入。因此,每一个细胞在 左、右视网膜上都有一个感受野,这一对感受野在视网膜上的位置差( 相对于注 视点) 称为”视差”。如果左、右感受野与注视点的距离差为零,表示该点正好在 注视平面上。如果两个感受野都向额侧偏离,表示该细胞的调谐距离( 最佳距离) 比注视点远;两个感受野向鼻侧偏离则意味着该细胞的调谐距离比注视点近。 5 颜色选择性 同视网膜和外膝体神经元一样,皮层细胞也具有颜色选择性。与皮层下的单 颉颃式感受野不同,视皮层细胞的颜色感受野具有双颉颃式结构。例如,对于 r g ( 红一绿) 型感受野来说,其颜色结构可能有两种形式。感受野中心可能被绿视 锥细胞的输入兴奋,同时被红视锥细胞输入抑制,或者相反。外周对颜色的反应 华南师范人学硕士学位论文基于带反馈的图像金字塔的目标检测的研究与应用 性质正好与中一t l , 相反。因此,双颉颃式感受野通过中心的颜色颉颃能分辨红色和 绿色,通过中心与外周之间的相互作用能使红一绿对比的边缘得到增强。对于 b y ( 蓝一黄) 型感受野,情况也一样。 2 1 3 从人类视觉系统得到的启示 从感受野等级特性我们可以清楚的发现,人类视觉系统的各层神经细胞是, 自浅向深逐级由简单到复杂排列的,它们所处理的信息分别对应于视网膜上的一 个局部区域,随着层次越深,该区域也就越大。这自然而然的形成了一个金子塔 形的结构,一个由高分辨率到低分辨率的层层抽象的结构。底层处理对边缘的位 置和方位有严格的选择性,主要是记录和处理相邻细胞之间的颜色关系和位置关 系。而越高层的细胞则是根据前几层的信息记录和反应较大区域的信息。 神经生理研究已表明,在初级视觉皮层下细胞的感受野具有显著的方向敏感 性,单个神经元仅对处于其感受野中的刺激做出反应,即单个神经元仅对某一频 段的信息呈现较强的反映,如特定方向的边缘、线段、条纹等图像特征,其空间 感受野被描述为具有局部性、方向性和带通特性的信号编码滤波器。根据每个神 经元对这些刺激的表达方式,人们提出采用稀疏编码原则来模拟这一过程【2 5 1 。 将图像在边缘、端点、条纹等方面的特性以稀疏编码的形式进行描述。从数学的 角度来说,稀疏编码是一种多维数据描述方法,数据经稀疏编码后仅有少数分量 同时处于明显激活状态,这大致等价于编码后的分量呈现超高斯分布。在实际应 用中,稀疏编码有如下几个优点:编码方案存储能力大,具有联想记忆能力,并 且计算简便使自然信号的结构更加清晰,编码方案即符合生物进化普遍的能量最 小经济策略,又满足电生理实验的结论。f 是基于稀疏编码的以上优点,本文将 用稀疏编码的方式来描述图像并抽取图像特征。 在人类的视觉系统中的反馈机制在系统中占有很重要的地位,从视网膜到初 级视皮层再到高级视皮层区域的前向连接信息通道,伴随着很多反馈连接。初级 视皮层神经细胞的响应除了受输入刺激的影响,同时还受同层或者高层区域反馈 信号的影响。根据这一特征,我们可以有一个这样的假设,在人类系统的高层进 行的是高层的抽象图像的比对,而通过高层比对的结果反馈到低层,以便可以启 动注意选择机制,并且可以对细节的比对进行指导。 1 2 华南师范人学硕士学位论文 基十带反馈的图像金字塔的目标检测的研究与应用 注意选择机制的实现首先要依仗反馈机制的结果,无论方位方向选择性、 空间频率选择性、速度选择性、双眼视差选择性、颜色选择性,首先都要在高层 抽象或提取到相关信息,再反馈相关层的细胞进行选择。 所以根据人类视觉系统的一些特点,我们可以设计如图的系统。 低层是记录并提取细节部分和相邻点之间的关系,越往高层抽象度的越高。 每一层的连接都是双向的,低层向高层传递抽象出的信息,越往高层抽象度越高, 数据量越少,呈现金字塔形状如图2 3 ,这就是本文要重点研究视觉金字塔模型。 2 2 稀疏编码简介 图2 3 图像金字塔模型 视神经网络研究表明,对应某一外界刺激只有一小部分神经元同时处于活跃 状态。稀疏编码的概念正是源于视神经网络的研究【2 5 1 ,是对只有一小部分神经 元同时处于活跃状态的生物学实验表明【4 4 1 ,视皮处于活跃状态的多维数据的神 经网络的表示方法。层对外界刺激的处理采用神经稀疏表示原则,如图2 1 所示, 这既对繁杂冗余的信息提供了简单表示,又利于上层传感神经抽取刺激中最本质 的特征。 华南师范大学硕士学位论文基于带反馈的图像金字塔的目标检测的研究与应用 从数学的角度讲,稀疏编码目前被假设为是对多维数据进行线性分解的一种 方法,其数学描述是非常简单的。假设输入数据x = ( x l ,x 2 ,x n ) t 为n 维随 向量。用s = ( s l ,s 2 ,s r l l ) t 表示线性转换后的m 维向量,那么线性转换矩阵则为 m x 门维,记为m 。则线性转换表示式如下: s = m x ( 2 - 1 ) 嘲in翻8n伽n鳅 图2 4 大脑视皮层的稀疏编码示意图,实心圆点表示活动的神经元 上式中m 又称为稀疏变换矩阵,其每一个行向量类似小波变换中的小波基;转换 后的稀疏分量s 满足稀疏( 超高斯) 分布的要求,并且向量( s 1 ,s 2 ,s k ) 尽能 地是相互独立的。“稀疏性”的概念是指随机向量s ,中的大部分元素都为零, 极少数元素不为零( 即在v 1 区,仅有少数的神经元是活动的) ,见图2 5 ( b ) 。对 比,图2 5 ( a ) 给出了一个高斯性随机向量。典型的稀疏分布如双指数分布普拉斯 分布,见图2 5 ( c ) ,其中实线表示稀疏分布,点线表示标准的高斯分稀疏分布有 较低的熵值,故可以减少分量s i ,之间的相关性。 稀疏编码假设理论研究怎样把外界刺激模式转换为有效的内部表示,从目标 检测与识别的角度看,它实现了一个特征抽取的过程。稀疏编码假设从信息论的 角度指导怎样提取外部刺激模式的特征,用尽可能的精简有效的特征表示外部模 式。h y v a r i n e n 等提出了利用稀疏编码和独立成分分析提取图像特征的框架 2 0 1 。 c h e n g j u nl i u 等用稀疏编码方式提取人脸特征,大大提高了人脸识别的准确率 2 1 1 。 1 4 华南师范人学硕士学位论文基于带反馈的幽像金字塔的目标检测的研究与应用 j i j hi j i l d i k - i j 1 i - i 1hi 。n1 ,l id l - j i i ll l i r1 l i 。j l p 】l i 旷1 1 1 i l i 一百一。1 1 i r r l 1n hi l 了 c a ) 离斯分麓 ( b ) 稀疏分攮 ( c ) 稀疏分稚 图2 5 稀疏分量及稀疏分布示意图。作为对比,同时也给出高斯分量及高斯分布示意图。( a ) 高斯分量;( b ) 稀疏分量;( c ) 实线表示l a p l a c e 分布,点线表示高斯分布 2 3 用图像金字塔模在图像处理中的应用 2 3 1 金字塔模型的由来和发展 人们对图像进行分层表达研究有几十年的历史了,目的是将图像在不同分辨 率下由粗到细地表达出来,研究在这种情况下图像局部特征与全局特征之间的关 1 5 华南师范大学硕上学位论文基于带反馈的图像金塔的目标检测的研究与心用 系,从而应用到特定的图像处理领域,比如图像分割、图像压缩、图像描述、图 像识别等。图像分层结构中,最直接的就是图像在分辨率上的缩减,可以通过图 像下采样实现,比如一幅x y 大小的图片,每次在x 、y 尺寸上缩小一半,逐步 累积就形成一个分层的图像表示。图像分层表达有多种方式,比如不同分辨率下 的图像矩阵、树结构、小波变换、金字塔等。其中,在图像分割领域内,将图像 映射到金字塔结构中,使用图论理论来描述金字塔每层的结构和关系,有很强的 优势。 奄 4 ( 建) 鑫。绻糍惫 籀张绦 筋1 绥 i 1缀0 缓 b ) 溺教豹势缓 图2 6 金字塔与分层结构 人们使用具有分层结构的金字塔,将图像内容表现为多个层次或级别( 以下 内容中“级”与“层”是一个概念) ,上层次的内容通过计算下层次的局部内容 获得,将图像的局部特征逐渐累积为全局特征,取得了很好的效果f 4 1 | 。基本的 金字塔结构如图2 6 所示【3 2 3 钔,这里金字塔每层从下到上缩减入倍,入称为缩减 因子,第0 层( 又称基本层) 映射为原始图像,图的节点对应图像像素,边对应 像素之间的邻域关系。如果图像的像素个数是n ,那么金字塔高度就是l o g 入。 将金字塔应用在图像处理领域中有很多好处。首先,在最底层( 高分辨率下) 是像素之间的相邻关系,在高层( 低分辨率下) 是分割的区域之间的邻接关系【3 3 1 , 这种不同分辨率下的相邻关系可以统一在一个框架内【3 ,使用相同的数据结构 和方法进行处理。 其次,从底层到高层是一个累积图像局部特征的过程,因此在高层我们可以 获得同质区域之间的关系,在低分辨率下获取图像的全局特征。在图像处理中, 区域的内部属性表示了这个区域区别于其他区域的信息,而外部属性,比如包含 性、邻接性、连续性等,可以用作将某些具有“特定一致性意义的”1 3 2 区域合 1 6 口口一 一 华南师范大学硕i :学位论文基于带反馈的图像金7 - 塔的目标检测的研究与应用 并起来的信息。而算法需要将区域适应于图像的内容,使之具有空间的连续性 【3 1 1 。然后,层次的结构可以消除噪声的影响。对图像处理来说,图像区域之间 的比较准则一般都采用局部信息,而噪声一般会严重影响局部信息,从而干扰比 较准则。金字塔的最大优势就是能够积累局部特征,从而将噪声掩盖在底层的细 节上,使缩减在高层全局的特征上进行,从而避免了噪声的干扰。另外,金字塔 算法的分层本质可以降低算法的复杂度。因为每一层相对高一层来说是一种局部 的处理,所以可以在一个框架内使用简单的局部缩减准则来进行处理。而经过局 部的累积,最高层相对于最底层来说,就是一个全局的特征。这样,金字塔的本 质能够保证一个局部缩减核达到全局的抽象效果,简化了缩减算法的设计。 2 3 2 金字塔缩减过程 使用金字塔对图像内容进行多层次的映射,需要定义每个层次内部和层次之 间的关系。如果使用图的表现形式,则第i 层由g i ( v i , e i ) 定义,第i + l 层由 g i + 1 ( v i + i , e i + 1 ) 定义。e 是通过v i 互联得到的,这是同一层次内的边,称为级内边。 这些边定义了金字塔的水平关系,表示了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国轿车低音箱行业投资前景及策略咨询研究报告
- 2025年中国蒽醌溶剂颜料行业投资前景及策略咨询研究报告
- 2025年中国精细切片刀行业市场调查、投资前景及策略咨询报告
- 2025年中国磨棱倒角机行业投资前景及策略咨询研究报告
- 2025年中国畜禽用预混料行业投资前景及策略咨询研究报告
- 2025年中国电力谐波测量仪行业投资前景及策略咨询研究报告
- 2025年中国热轧非织造布生产线行业投资前景及策略咨询研究报告
- 2025年中国消失模铸机械行业投资前景及策略咨询研究报告
- 2025年中国水温水位仪行业市场调查、投资前景及策略咨询报告
- 2025年中国梯扶手柱行业市场调查、投资前景及策略咨询报告
- 物流司机奖罚管理制度
- 7数沪科版期末考试卷-2024-2025学年七年级(初一)数学下册期末考试模拟卷02
- 德阳研学旅行课程的融合开发与实践发展策略研究
- 病理学考试题库
- 2025年全国普通高校招生全国统一考试数学试卷(新高考Ⅰ卷)含答案
- 事业单位考试(面试)试题附答案
- HYDRUS-2D3D学习手册资料
- 生物●广东卷丨2024年广东省普通高中学业水平选择性考试生物试卷及答案
- T/CSPSTC 75-2021微动探测技术规程
- 【KAWO科握】2025年中国社交媒体平台指南报告
- 【语文】第23课《“蛟龙”探海》课件 2024-2025学年统编版语文七年级下册
评论
0/150
提交评论