(交通信息工程及控制专业论文)视觉感知计算模型若干问题的研究及其应用.pdf_第1页
(交通信息工程及控制专业论文)视觉感知计算模型若干问题的研究及其应用.pdf_第2页
(交通信息工程及控制专业论文)视觉感知计算模型若干问题的研究及其应用.pdf_第3页
(交通信息工程及控制专业论文)视觉感知计算模型若干问题的研究及其应用.pdf_第4页
(交通信息工程及控制专业论文)视觉感知计算模型若干问题的研究及其应用.pdf_第5页
已阅读5页,还剩97页未读 继续免费阅读

(交通信息工程及控制专业论文)视觉感知计算模型若干问题的研究及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要:计算机视觉是一个内容丰富且极具挑战性的领域。迄今为止,它的研究工 作己经取得了丰硕的成果。但随着研究的深入,这一领域面临的困难和挑战也日 益增加。从根本上说,这种困难源于人类对自身认识上的局限性以及在进行视觉 计算时所受到的技术条件限制。目前许多研究者希望他们的工作能与生物物理学 和神经生理学的理论有直接的联系。从长远来看,建立人类视觉的计算理论,并 进而建成可与人类视觉系统相比拟的通用视觉系统是计算机视觉研究的最终目 标。本课题正是在这一背景下,采取仿生学的思想,通过总结目前生物视觉研究 的新进展,提出能为计算机视觉所采纳的生物学启发,并在此基础上建立了可计 算的应用模型,以满足图像处理的需要。论文在以下方面进行了创新性工作: 1 、在深入研究脉冲耦合神经网络模型( p u l s ec o u p l e dn e u r a ln e t w o r k ,p c n n ) 的基础上,给出了脉冲耦合神经网络模型参数确定的准则。脉冲耦合神经网络模 型由变阈值非线性动态神经元组成,具有许多独特的优良特性,如时空特性、同 步脉冲发放特性等。正是由于脉冲耦合神经网络模型的这些特性,使得对其研究 不仅具有重要的理论意义,而且具有非常广泛的应用前景。论文系统分析了脉冲 耦合神经网络模型的运行机理,探讨了模型行为特性受各参数变化的影响,并通 过理论推导及计算机仿真的方式,给出了各参数确定的准则,解决了脉冲耦合神 经网络模型在工程实际应用中的参数选择难题。 2 、结合基于偏微分方程的各向异性扩散模型( a n i s o t r o p i cd i f f u s i o n ,a d ) 和 目前的脉冲耦合神经网络模型,提出了改进的模型a d p c n n 模型。在图像平 滑中,传统脉冲耦合神经网络模型仅仅通过其像素灰度值的非线性影射和神经元 的周期振荡,很难确定像素灰度值的修改策略,而各向异性扩散模型通过扩散方 程提取了周边像素的信息,为像素灰度值的修改提供了策略指导,因此a d p c n n 模型解决了传统脉冲耦合神经网络模型在图像平滑中的像素灰度修改问题。 3 、根据生物视觉神经细胞非经典感受野的特点,结合目前计算机视觉现有的 理论和方法,提出了具有方向性的高斯差算子( o r i e n t a t i o nd i f f e r e n c eo f g a u s s i a n s , o d o g ) 。o d o g 算子通过改变感受野中央周边区域模版的大小来适应不同尺度的 要求,同时具有方向性,符合目前非经典感受野方面新的研究进展,在图像轮廓 提取中与传统算法相比,具有更大的优越性。 4 、通过将脉冲耦合神经网络模型和方向性高斯差算子结合,提出了改进的模 型s a m p c n n 模型。传统脉冲耦合神经网络模型在应用于图像分割时,若仅 仅依靠模型的同步振荡特性,效果并不理想。而基于视觉选择注意机制的方向性 高斯差算子通过模拟生物视觉感受野的特点,在有效提取感兴趣区域的信息后, 再通过脉冲耦合神经网络模型的自适应振荡,可达到图像分割的目的。 关键词: 扩散 分类号: 人工神经网络,脉冲耦合神经网络,感受野,选择注意机制,各向异性 t p l 8 3 ,t n 9 1 1 a bs t r a c t a b s t r a c t :c o m p u t e rv i s i o ni sac h a l l e n g i n gf i e l dw i t hr i c hc o n t e n t s ,a n dt h e r e i sa na b u n d a n c eo fr e s e a r c ha c h i e v e m e n ta b o u t i tn o w a sf u r t h e rr e s e a r c hi nt h i sf i e l d , t h ed i f f i c u l t i e sa n dn e wc h a l l e n g e si nt h ef i e l da l s oc o m eo u t b a s i c a l l y , t h ed i f f i c u l t y i s d u et ot h el i m i t a t i o no ft h eu n d e r s t a n d i n go fh u m a n s v i s u a lm e c h a n i s ma n dt h e t e c h n 0 1 0 9 yr e s t r i c t i o nt ov i s i o nc o m p u t i n g n o w a d a y s ,m a n ys c i e n t i s t sh 叩e t or e i a t e t h e i rw o r kw i t hb i o p h y s i c sa n dn e u r o p h y s i o l o g y f r o mal o n g 。t e r mp o i n to fv 1 e w ,t h e e t e m a lp u r p o s eo fs t u d y i n gt h ec o m p u t e rv i s i o ni st of o r mh u m a n sv i s u a lc o m p u t i n g t h e o r ya n dt h e nt oe s t a b l i s ht h ec o m m o n l yv i s u a ls y s t e mw h i c hc a n b ec o m p a r e dt o h u m a n ,sv i s u a ls y s t e m u n d e rt h ei d e a ro f b i o n i c s ,t h i sp a p e ri st op r o v i d et h eb i o l o g i c a l e n l i g h t e n r n e n tf o rt h ec o m p u t e r v i s i o na n df o r mt h ea p p l i e dm o d e li no r d e rt om e e tt h e n e e do fp r o c e s s i n gp i c t u r e sb ys u m m a r i z i n gt h el a t e s ts t u d y o ft h eb i o l o g i c a lv i s i o n - t h e p a p e rc o n t r i b u t e st ot h ef o l l o w i n g c r e a t i v ew o r ki nt h ef o l l o w i n ga s p e c t s : 1 b a s e do n 鼬e rs t u d yi nt h ep u l s ec o u p l e dn e u r a ln e t w o r k ( p c n n ) ,t h er u l e o fp a r a m e t e r sd e t e r m i n a t i o ni sp r o p o s e d p c n ni s m a d eu po fn o n l i n e a rd y n a m l c n e u r o n sw i t hv 撕a b l et h r e s h o l d , a n di th a sm a n yu m q u ea d v a n t a g e s s u c ha s s p a t i o t e m p o r a la n dc o u p l e do s c i l l a t i o n b e c a u s eo ft h e c h a r a c t e r so fp c n n ,t h es t u d y o fp c n nh a sn o to n l yg r e a tt h e o r e t i c a ls i g n i f i c a n c eb u ta l s o t h ew i d ea p p l i c a t i o n p r o s p e c t t h ep a p e ra n a l y z e st h ep r o c e s s i n gm e c h a n i s m o fp c n na n dp r o b ei n t ot h e i n f l u e n c e so nt h em o d e lb e h a v i o rc a u s e db yt h ep a r a m e t e r s a n di t a l s op r o v i d e st h e 口a r a m e t e r ss t a n d a r db yt h e o r e t i c a l l yd e d u c i n g a n dc o m p u t e rs i m u l a t i o n ,w h i c hs o l v et h e p r o b l e mo fp a r a m e t e rd e t e r m i n a t i o nw h e nu s i n gp c n n i nt e c h n o l o g ya p p l i c a t i o n 2 a ni m p r o v e dm o d e ln a m e da d p c n n i sp r o p o s e db yc o m b i n i n gt h ea n i s o t r o p i c d i f f u s i o n ( a d ) w h i c hi s b a s e do nt h ep a r t i a ld i f f e r e n t i a le q u a t i o n sa n dt h et y p l c a i p c n nm o d e l i ti sd i f f i c u l tt om a k es u r eo ft h em o d i f y i n gs t r a t e g yo fp i x e lg r a yv a l u e s i ni m a g ed e n o i s i n gb yu s i n gt h et r a d i t i o n a lp c n n b e c a u s ei to n l yu s e st h en o n l l n e a r p r o j e c t i o no fp i x e lg r a yv a l u e sa n dt h ep e r i o d i co s c i l l a t i o n o fn e r v ec e l l b u tt h ew a yo f c o l l e c t i n gt h ei n f o r m a t i o na b o u tt h es u r r o u n d i n gp i x e l sp r o v i d et h es t r a t e g yi n s t r u c t l o n f o rm o d i f y i n gt h ep i x e lg r a yv a l u e s 。s oa d p c n nm o d e ls o l v e s t h ep r o b i 锄o t m o d if y i n gt h ep i x e lg r a yv a l u e sw h i c h a f f e c t st h et y p i c a lp c n ni ni m a g es m o o t h i n g 3 a c c o r d i n gt ot h en o n c l a s s i c a lr e c e p t i v ef i e l do fb i o l o g yv i s i o nn e r v ec e l l ,t h e p a p e rp r e s e n t st h ea r i t h m e t i co p e r a t o r so fo r i e n t a t i o nd i f f e r e n c eo fg a u s s i a n s ( o d o g ) v w i t ht h eh e l po ft h ep r e s e n tt h e o r i e so fc o m p u t e rv i s i o n o d o go p e r a t o r sc a n a d a p t t h er e q u i r e m e n to ft h ed i f f e r e n ts i z e sb yc h a n g i n gt h ea r e as i z eo ft h ec e n t e ra n d s u r r o u n d i n go fr e c e p t i v ef i e l d a l s oi th a st h ec h a r a c t e r i s t i co fo r i e n t a t i o na n di sa n s w e r f o rt h en e wd e v e l o p m e n to fn o n c l a s s i c a lr e c e p t i v ef i e l d c o m p a r e dt ot h et r a d i t i o n a l i m a g ep r o c e s s i n g ,i th a sg r e a ta d v a n t a g e si nt h ef i e l do fi m a g ec o n t o u re x t r a c t i o n , 4 p r e s e n tt h ei m p r o v i n gm o d e ln a m e ds a m p c n n b yc o m b i n gt h ep c n na n d o d o gt h et r a d i t i o n a lp c n nm o d e l ,i fo n l yb yi t sc h a r a c t e r i s t i co f c o u p l e do s c i l l a t i o n , i sn o ti d e a l l yi n i m a g es e g m e n t a t i o n 。b u tt h eo d o gb a s e do nt h ev i s i o ns e l e c t i v e a t t e n t i o nm e c h a n i s mc a ne f f e c t i v e l yc o l l e c tt h ei n t e r e s t i n gi n f o r m a t i o na n dt h e n s e g m e n tt h ei m a g eb yt h ec o u p l e do s c i l l a t i o no ft h ep c n n k e y w o r d s :a r t i f i c i a ln e u r a ln e t w o r k s ,p u l s ec o u p l e dn e u r a ln e t w o r k ,r e c e p t i v e f i e l d ,s e l e c t i v ea t t e n t i o nm e c h a n i s m ,n o n l i n e a ra n i s o t r o p i cd i f f u s i o n c l a s s n o :t p l 8 3 ,t n 9 1 1 v i 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:导师签名: 签字日期:年月 e l 签字日期:年月日 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其它人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其它教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:签字日期:年月日 致谢 数载博士学习和研究即将结束,但并不感到轻松,目前的研究离理想的状态 还有很大的距离。博士论文应该是对学生时代的最好总结,今后,我将利用一切 可能的机会,继续关注这个课题以及相关课题,继续将研究拓展下去。博士生活 是我一生中最美好的经历,从中学习到的知识和得到的磨练将使我终生受益。 首先感谢我的导师陈后金教授。陈教授是信号处理、生物神经网络领域的著 名学者,其严谨的治学态度和科学的工作方法给我留下了深刻的影响。求学期间, 教授不仅在学业上传授我分析问题和解决问题的方法,在生活和精神上也给予我 最大的帮助,特别是在遇到困难时,教授所表现出的从容和对我潜移默化的熏陶, 使我终身受益。古人云:三十而立,陈教授既是我学业上的导师,也是我人生的 导师。 在整个博士学习阶段,也得到了其他很多老师的关心和帮助,特别是侯建军、 魏学业、薛健、郝晓丽等老师,在此表示衷心的感谢。还要感谢学习和研究期间 周围很多同学的帮助,特别感谢李居鹏、姚畅、王维和实验室的其他同学。和睦 融洽的实验室氛围,使我们能以愉快的心情学习工作;共同的学术探讨,使我们 互相进步。在此,向他们表示感谢。 最后,要感谢生我养我的父母。就像我的身体里流淌着他们的血液一样,他 们的脸上记载着我成长的痕迹,是他们无私的关爱给予我在风雨中前进的勇气, 是他们的理解和支持使我能够在学校专心完成我的学业。 1 绪论 1 1 研究背景及意义 探索神经计算的数理基础,并用于发展新的神经式信息处理模式的神经计算 科学已经成为国内外研究的热点课题之一。视觉神经计算从总体上来说是一种“自 底向上”的计算方法和“自上向下 的反馈方法的结合,它是人类视觉系统通过 对局部信息的综合来达到人工视觉的目的。但是这种综合不是随意的、杂乱无章 的,它需要一种指导,这更多的表现为视觉对环境的适应以及大脑对外界事物深 层次抽象而产生的认知。对于视觉的启发,本文认为应更多着眼于应用,即视觉 感知模型的建立要有一定的实用价值。 基于视觉研究的实用性,目前视觉计算研究的主要内容包含: l 、对通过物理学或光学所获取的图像进行必要的处理,选取有价值的图像信 息并使之突出出来,从而变得更易于使用; 2 、如何表示客观世界并揭示其内在规律。对于客观世界的认知模型的建立, 在很大程度上依赖于知识的利用。 这两个研究内容既有各自的独立性,又具有紧密的相关性。图像的加工属于 信号处理的范畴,而且图像本身也具有很多通用的特征。认知模型则属于符号领 域的范畴,它是对现实世界的深层次的抽象。在不同的范畴内,这两个研究各自 建立了自身的研究体系和研究方法,表现出鲜明的相互独立的特性。可是,在面 对具体问题时,对于图像处理来说,什么样的信息最重要,什么样的特征是需要 被抽取的,显然与认知的趋向相关;反之,对客观世界的认知能力又必然受到图 像分析效果的影响和制约。因此,这两个研究共同作用时又表现出密切的相关性, 尤其是从应用的角度来看,两者的相关性更应受到重视。 视觉神经科学研究中所发现的感受野、功能柱结构等对计算机视觉的发展产 生了强有力的推动作用,毫无疑问,进一步揭示人类视觉系统的生理特性对于设 计新的人工视觉机器具有重要的意义。基于生物视觉的模型研究很多,根据目的 不同主要有两类。一类是利用计算来研究生物组织的运行机制,尽量满足现有的 生物学数据,以使得模型更加符合生物特征;还有一类模型是为了满足工程应用, 针对实际用途采用真实数据。对于工程应用的模型来说,单纯的研究人类的视觉 组织和器官并不能导致真正的视觉机器的诞生。这是因为,计算机视觉应该充分 考虑实用性,并非所有的生理特性都对视觉信息的处理有用,生物组织相当一部 分的生理特性是为维持生物的生命而服务的,它们与信息的处理并不直接相关, 因此与此类似的这些生理特性并没有必要把它们引入到视觉神经计算中来。和其 它计算一样,视觉神经计算也存在着计算效率的问题,过度的模拟所有细节的结 果往往会导致效率的降低。因此,从这个意义上说,视觉神经计算的研究重点并 非是考虑如何更好的“克隆 人类的视觉神经系统,而是考虑如何利用人类视觉 的生理特性去更好的建立和改进计算机视觉神经计算的模型。 目前许多研究者希望他们的工作能与生物物理学和神经生理学的理论有直接 的联系。从长远来看,建立人类视觉的计算理论,并进而建成可与人类视觉系统 相比拟的通用视觉系统是计算机视觉研究的最终目标。人类视觉的研究涉及生物 物理学、神经生理学、心理物理学和心理学等多方面,对人类视觉机理的了解为 建立视觉的计算理论提供有益的启示。与此同时,视觉计算理论的研究又促进了 在上述领域中引入计算机技术,这又推动了这些学科自身的发展。因此,探索视 觉感知的新理论,并将其应用于类似人类神经处理方式的计算机视觉信息处理系 统中意义重大。本课题正是在这一背景下,通过总结目前生物视觉研究的新进展, 提出能为计算机视觉所采纳的生物学启发,并在此基础上建立了可计算的应用模 型,以满足图像处理的要求。 1 2 研究方法 在建立模型的过程中,首先是获得大量的实验数据,再基于这些数据进行数 学建模。数学建模的过程主要涉及两个环节:首先是选择合适的模型函数,然后 根据数据得到相应的模型参数。模型参数的计算是在一定的误差准则下得到的最 优,如最小均方误差准则等。模型函数的选择在整个建模过程中至关重要。因为 在某些情况下,会存在几类模型函数都能够较好地拟合有限的数据,甚至在某误 差准则下拟合地最好的模型未必就是此数据对应的真正的模型。因此,在进行神 经网络数学建模前,应根据视觉神经系统的生物学特征建立合理的概念模型。在 概念模型的基础上,进行数学模型的选择。若参数拟合结果与实验数据之间出现 较大的误差,则需要进行数学模型的调整或修正。 本文采取通过生物学启发而建立视觉感知模型的原则,同时严格要求模型的 可计算性。具体包括如下几个方面含义: ( 1 ) 模型最终是为计算机视觉应用,因此生物学启发是源于生物视觉,但不 必拘泥于生物视觉。因为从计算机视觉的目的可以看出,计算机视觉的目的不是 为了单纯的模拟生物视觉,而是为了实际应用,不管什么理论算法、不管对生物 视觉的特征进行多大的改动,只要能运用于实际并取得预期的效果都是受欢迎的。 2 ( 2 ) 鉴于目前人类对自身的认识还停留在很低的层面上,很多的研究成果都 是对局部的生物组织所进行的结构性探索,就像发现感受野、功能柱结构,但却 并不知道它的信息是如何形成的,更高层次是如何使用这些信息的也一无所知。 因此,针对这种局部的信息的提取,需要进行一个重要的综合过程,在生物学被 称为组织的过程。这个综合过程没有相关的直接证据可供参考,因此在现有的条 件下,通过分析局部的视觉现象和功能,找出其运行机理,在工程领域对其主要 的功能以人工方式实现,这也是仿生学的主要分析思路。 ( 3 ) 视觉计算的中心任务就是对图像进行理解,其中包括对单幅图像的理解、 对多幅图像的理解,因此也就要求理论模型具备可计算性。模型只有可计算才能 成为人类视觉和计算机视觉联系的纽带。从输入的图像到得出景物的描述之间需 要经过一系列的信息处理和理解过程,对这个过程的本质的认识是揭开视觉之谜 的关键,但目前我们对这些还尚未了解清楚。通过视觉识别物体就是把图像的元 素与已知的景物中的物体的描述或模型之间建立对应关系。图像中的元素是点状 的像素,像素的值就是这个像素处的灰度值。而与此相对应,物体是通过它的形 状、大小、几何结构,颜色等特征来描述的,这些特征代表物体的整体性质。要 在输入的点状数据与物体的整体特性之| 日j 建立对应关系就必须要经过一个把点状 数据聚集起来的过程。总之,无论足信息数据的聚集还是特征知谚 的推理,视觉 感知模型都离不开计算,模型只有可计算才能成为人类视觉和计算机视觉联系的 纽带。 1 3 视觉神经计算的国内外研究现状及其遇到的困难 自m a r r 视觉计算理论啪1 出现以来,计算机视觉进入一个新的发展时期。m a r r 的视觉计锌理论立足十计算机科学,系统地概括了心理物理学、神经生理学、f 临 床神经病理学等方面已取得的所有重要成果,是迄今为止最系统的视觉理论。m a r r 的理论的出现对神经科学的发展和人工智能的研究产生了深远的影响。m a r r 认为 视觉是一个信息处理过程。这个过程根据外部世界的图像产生对观察者有用的描 述,这些描述依次由许多记录了不同的外界特征的表象( r e p r e s e n t a t i o n ) 所构 成或组合而成。按m a r r 视觉计算理论来思考可得到这样的结论:即在对数据作进 一步解释以前我们需要关于被观察物体的某些信息,这就是所谓的本征图像。然 而,数据进入我们的眼睛是要经过光线为媒介的。灰度图像中至少要包含关于照 明情况,观察者相对于物体的位置的信息。因此,按照m a r r 的方法面临的问题是 如何把这些因素分解开。他认为低层视觉( 即视觉处理的第一阶段) 的目的就是 要找出哪些变化是由哪些因素引起的。大体上来说这个过程要经过两个步骤来完 i e塞童适态兰蝗堂僮途塞绪论 成:第一步是获得表示图像变化和结构的表象。这包括检测灰度的变化,表示和 分析局部的几何结构,以及检测照明的效应等处理。第一步得到的结果被称为初 始简图的表象;第二步对初始简图进行一系列运算得到能反映可见表面几何特征 的表象,这种表象被称为二维半( 2 5 d ) 简图或本征图像。这些运算包括由立体 视觉运算提取深度信息,根据灰度影调、纹理等信息恢复表面方向,由运动视觉 运算获取表面形状和空间关系信息等。这些运算的结果都集成到本征图像这个中 间表象层次。因为这个中间表象已经从原始的图像中去除了许多的多义性,是纯 粹的表示了物体表面的特征,其中包括光照、反射率、方向、距离等。根据本征 图像表示的这些信息可以可靠的把图像分成有明确含义的区域( 这称为分割) ,从 而可得到比线条、区域、形状等更为高层的描述。这个层次的处理称为中层视觉 处理( i n t e r m e d i a t ep r o c e s s i n g ) 。m a r r 视觉理论中的下一个表象层次是三维模 型,它适用于物体的识别。这个层次的处理涉及物体,并且要依靠和应用与领域 有关的先验知识来构成对景物的描述,凶此被称为高层视觉处理。虽然m a r r 的视 觉计算理论是最早提出的关于视觉的系统理论,并对计算机视觉的研究起了巨大 的推动作用,但是m a r r 的视觉计算理论还不能被认为是一个完善的理论,它没能 反映人类视觉的某些重要的本质,即人类视觉中的选择性和整体性,也未解决人 类视觉的理论问题,在实践中也己遇到了严重困难。 在计算机视觉中,将感兴趣的物体准确的提取出来经常是一个前提条件。可 事实上,这在大多数情况下恰恰是一个不简单的问题。从图像获取的环节可知, 在图像的数据中,有用的信息往往是和各种干扰所带来的噪声混合在一起的。噪 声的存在,极大的模糊了物体和背景的界限,常常使得机器对物体难于分辨。这 一点一直是计算机视觉领域中备受困扰的问题。另一方面,为了辨别物体,人们 通常建立了各种各样的匹配模型,可是,现实世界是十分复杂和多样化的,随着 景物复杂度的增加,模型库中所需的模型数量会显著上升,模型的描述的复杂程 度也会随之加大。模型数量的增加将带来搜索过程的延长,模型复杂度的加大使 匹配更加困难,它们共同导致了机器对物体识别效率的降低。 对人类而言,视觉的作用不仅仅是“看到”物体,人还能够在“看”的过程 中“看到 实际景物中所不存在的东西,也就是所谓“联想”和“理解。对应于 计算机视觉领域,这个问题属于上文中所谈到的高级视觉的范畴。在低级视觉和 中级视觉的研究上,人们己经取得了显著的进展,可是在高级视觉上,目前仍然 是举步维艰。大量对人类来说轻而易举的问题,在机器世界中却是困难重重,甚 至是无从下手。比如,对于人的老幼,即使是一个婴儿,也可以不假思索的做出 准确判断,可对于计算机来说,即使经过相当复杂的计算,还未必能得到理想的 答案。从理论上说,投射到人眼视网膜上的二维图像和计算机图像一样存在着非 4 唯一性和不可逆性,可是人类的视觉系统却能够在极为短暂的时间内对其做出合 理的三维解释,并能够快速的将各种干扰因素成功的排除。 以上的各种困难促使人们不得不重新思考有关计算机视觉研究的策略性问题 以及审视原有的计算方法。鉴于目前计算机视觉遇到的一系列难题,许多研究者 希望他们的工作能在新的生物视觉的启发下得到突破。从长远来看,建立人类视 觉的计算理论,并进而建成可与人类视觉系统相比拟的通用视觉系统是计算机视 觉研究的最终目标。同时,视觉计算理论的研究又促进了在上述领域中引入计算 机技术,这也推动了这些学科自身的发展。在工程领域中,一些常规方法己经取 得了很大的发展,但仍有大量的问题得不到解决,在当前的状况下,如果没有新 的观点和方法,很难再取得进一步的进展。因此,生物模型与工程需要的结合是 计算机视觉科学发展的重要趋势。 生物特别是灵长类动物的视网膜所具有的信息处理功能近二十年来受到了生 物学家和神经生理学家的普遍关注,同时也愈来愈得到计算机视觉领域的专家们 的重视,人们将类似的原理运用到计算机视觉、模式识别和图像处理等领域,发 展了一系列新的理论。目前国内外学者所建立的基于生物视觉感知机理的模型和 方法很多,也取得了一定的成果,但离科学发展的需要还远远不够,下面将对国 内外学者相关的基于生物视觉感知机理的模型和方法进行总结和分析。 z h a o p i n gl i 的n e u r a ld y n a m i c si nar e c u r r e n tn e t w o r km o d e lo fp r i m a r y v i s u a lc o r t e x 乜1 。她的模型采用初级视觉皮层的简单单元,主要解决了将边缘段 集成为轮廓的问题,即轮廓集成,实现对平滑封闭轮廓的提取。轮廓集成的依据 是一个简单的约束条件:轮廓中相邻边缘段的朝向是平滑变化的。网络中的每个 神经元都是一个振荡子( o s c i l l a t o r ) ,神经元分兴奋神经元( e x c i t a t o r yc e i l s ) 和抑制神经元( i n h i b i t o r yc e l l s ) 。神经元之间有链接,最优朝向相近的神经元 链接在一起,链接随着距离增加而减弱。该模型通过神经元内部以及神经元之间 的加强和抑制,可以有效的抑制噪声的影响,提取视野中的轮廓和方位信息,但 此模型也只能集成视野中的轮廓,因此也会丢掉很多细节。 d e l i a n gw a n g 的l o c a l l ye x c i t a t o r y g l o b a l l y i n h i b i t o r yo s c i l l a t o r n e t w o r k 模型刮。大脑皮层不同区域存在“同步振荡”的现象,代表不同特征的 神经元可能通过振荡的时间上的同步而联系起来表示某一目标。由此,d e l i a n g w a n g 等人提出了一种主要用于图像分割的神经网络模型l e g i o n ( l o c a l l y e x c i t a t o r yg l o b a l l yi n h i b i t o r yo s c i l l a t o rn e t w o r k ) 。此模型由一个二维的 神经网络和一个全局的抑制子( g l o b a li n h i b i t o r s ) 组成,神经网络中的神经元 即振荡子( o s c i l l a t o r ) 都只和相邻区域中的神经元相链接,而全局抑制子则和 所有神经元相链接。此模型用于图像分割时,当一个目标中的神经元兴奋时,通 过激活全局抑制子,使其它目标中的神经元接收到较强的负耦合处于平衡点状态, 也就是静止状态。只有当前目标内的振荡子全部返回静止状态时,抑制子输出为 零,其它目标的振荡子才有可能接收正耦合而进入极限环,这是不同目标间神经 元的异步作用。对于当前目标中的神经元,则因为有足够的比全局抑制更强的正 耦合,而维持极限环状态,这是同一目标内神经元的同步作用。模型最终的效果 是使同一目标内的振荡子同时兴奋,而不同目标内的振荡子则不会同时兴奋,即 同一灰度区域内的振荡子是处于同步振荡状态,而不同目标区域间则是异步的, 并且所有目标都有兴奋的机会,从而实现了图像分割。但此模型被分割目标浮现 的次序取决网络的初始状态等随机因素,因此分割过程是不可控制的,同时也使 得分割特定的目标产生了困难。 余波的基于时空编码的信息处理模型0 | 。所谓时空编码就是不同位置的特征 通过时间上的同步活动而绑定在一起。此模型是以目前生物视觉系统处理信息的 原理为基础而提出的一种基于时空编码的新神经网络,用于基于知识的图像目标 背景分割。模型采用多通道的时空编码信息处理方法,对形状、颜色、运动 和知识等信息进行处理,构成由多个子系统组成的综合模型,每个子系统都是在 知识控制下的目标背景分割,最后把各子系统处理结果整合来达到图像目标 背景分割的目的。模型是由形状匹配子系统、运动匹配子系统、颜色匹配子系统、 多通道整合子系统等四个子系统组成的。前三个系统用于在知识控制下的基于三 种特征的目标背景分割,后一种系统则用于把三种特征的分割结果进行整合。 此模型很好的综合了前面章节所列举生物学领域已经取得的关于视觉信息通道的 证据,但对于各通道信息的表达以及多通道信息的整合,受限于生物学没有直接 的证据给予支持,因此成为此模型没有很好解决的一个问题。 张永平等提出的局域动态抑制联结的初级视觉系统模型3 。张等人通过对视 网膜水平上视觉信息传播和处理方式的分析,建立了r c n n 模型,同时也给出了该 模型的等价电路表示。此模型依据视觉神经细胞具有局域联结特性,信息通过神 经网络广泛的传播;同时视觉信息在视网膜中的传播和处理表现为时空的整合。 在模型的基础上,依据视网膜对视觉输入的响应特征,即不仅敏感于亮度同时也 敏感于亮度的变化,提出了用含尺度参数的零阶和二阶厄米特( h e r m i t e ) 函数的 组合而产生的控制模板,尺度参数和组合系数通过梯度下降学习算法确定,从而 有效的实现了图像的边缘特征提取。模型利用视觉神经细胞的侧抑制特性,提出 了动态抑制强度概念,也把握了视觉神经系统在时间和空间上的竞争特性,但由 于此模型缺乏自上而下的先验知识的反馈控制,对视觉信息处理的过程缺少一种 指导性的原则,难以处理复杂的视觉计算问题,因此模型的改进成为值得深入探 讨的问题。 m i c h e a ls h 的c o m p u t a t i o n a lp e r c e p t u a la t t e n t i o n 模型引。生理学研 究表明,生物视觉具有选择注意的能力,生物视网膜对视觉信息的采样率与空间 位置有关,是非均匀的。视知觉的大量输入信息通常被一种称为视觉感知注意机 制的模型所调整,对感兴趣的区域即与具体的视觉任务有关的区域注视而忽略或 抛弃其它无关细节,也因此将分辨率和计算资源合理分配。m i c h e a ls h 通过分 析生物视觉的注意机制,建立了表达和执行注意策略的计算感知注意( c p a c o m p u t a t i o n a lp e r c e p t u a la t t e n t i o n ) 模型,在视觉处理时合理的控制了计算 资源分配。 s t e p h e ng r o s s b e r g 等的n e u r a ln e t w o r ka r c h i t e c t u r ef o rp r e a t t e n t i r ev i s i o n 模型n 引。视觉预注意神经网络结构分为边界轮廓系统( b c s - - b o u n d a r yc o n t o u r s y s t e m ) 和纹理轮廓系统( f c s - - f e a t u r ec o n t o u rs y s t e m ) ,二者结合产生形状、 颜色、深度等视觉信息的表达。按照m a r r 视觉理论的表述,视觉过程就是根据外 部世界的图像产生对观察者有用的描述,这些描述依次由许多记录了外界的某方 面特征的表象( r e p r e s e n t a t i o n ) 所构成或组合而成。模型的主要目的就是为获 取这些表象信息而建立的,建立的过程中虽然也采用了预注意机制 ( p r e a t t e n t i o n ) ,但基于m a r r 视觉理论关于表象信息本身的不足,因此模型在 实际应用时也会遇到重重困难。 a f a u r e 等的s p a t i o t e m p o r a la s p e c t so fv i s u a li n f o r m a t i o np r o c e s s i n g inr e t i n a ln e u r a ln e t w o r k 模型n 们。生物视觉感知是一个动态过程,在这个过程 里,视皮层通过注意机制对眼球转动和抖动进行控制,从而使得眼球定位到最感 性的视觉区域。同时视网膜也有其中央凹、外周的生理结构,眼球的转动和抖动 就是为使感兴趣区域落到分辨率最高的中央凹,a f a u r e 等人提出的基于视觉信 息处理时空特性的视网膜神经网络模型就是建立在中央凹、外周分辨率不同的这 种生理结构的基础上,因其只是对结构进行了简单模拟,视网膜神经元只是采用 传统的像素处理算法,同时其模型也没有考虑视觉注意机制对初级视觉的反馈调 节作用,因此模型比较简单,只是在提高计算速度方面具有一定的优势。 此外,还有r m il a n e s e 等的d y n a m i ca s p e c t so fv i s u a lp e r c e p t i o n 模型 5 | ;f u k u s h i m a ,k 等的用于手写体字符识别的n e u r a ln e t w o r km o d e l sf o rv i s i o n 模型引;h e u c k e ,l 等的h u m a nb r i g h t n e s sp e r c e p t i o na n df o v e a la d a p t a t i o n 模型n7 1 ;g r i g o r e s c u ,c 等的用于轮廓检测的n o n c l a s s i c a lr e c e p t i v ef i e l d i n h i b i t i o n 模型n 引;g u t i e r r e z ,j 等的r e g u l a r i z a t i o no p e r a t o r sb a s e do n n o n l i n e a rp e r c e p t i o nm o d e l s 引;m o h a n ,r 等的p e r c e p t u a lo r g a n i z a t i o nf o r s c e n es e g m e n t a t i o na n dd e s c r i p t i o n 模型心引,以及其它基于生物视觉感知机理 的模型和方法乜卜2 7 1 。 7 这些基于生物视觉感知机理的模型和方法在视觉处理方面与常规的处理方法 相比具有一定的优势,但离计算机视觉的目标还相差甚远,因此,随着新的生物 学证据及新的理论方法的出现,视觉感知模型也要根据其新的发现进行必要的改 进。基于生物学启发的计算机视觉建模正处于起步阶段,随着计算机学科、生物 物理学和视觉心理学等学科的发展,必然能为计算机视觉发展注入新的活力。 1 4 本文的主要内容及章节安排 视觉系统是一个非常复杂的系统,要完全研究需要各个学科的紧密结合,本 课题主要对生物学启发在图像处理中的应用模型展开研究,即在总结目前生物视 觉研究进展的基础上,提出能为计算机视觉所采纳的生物学启发,并在此基础上 建立了可计算的模型,通过计算机仿真和理论分析相结合的方法给出各模型参数 确定的准则,以满足图像处理的要求。具体内容如下: 第一章绪论。本章介绍了课题研究的背景及意义,总结了目前国内外的研究 现状,并分析了目前计算机视觉所面临的困难,最后阐述了论文的主要研究内容。 第二章视觉感知组织的生物学启发。本章对目前生物视觉领域取得的一些成 果做基本的介绍和总结,并从中找出计算机视觉可利用的生物学依据,提出能为 计算机视觉建模所借鉴的生物学启发,即:( 1 ) 视神经元的同步振荡现象:( 2 ) 经典视神经元感受野机制;( 3 ) 视神经元感受野的非线性各向异性扩散机制;( 4 ) 视神经元感受野的选择注意机制。这些生物学启发为后续章节的建模做了必要的 准备。 第三章视神经元的同步振荡现象一脉冲耦合神经网络模型( p u l s e c o u p l e dn e u r a ln e t w o r k ,p c n n ) 。随着生物神经科学的研究和发展,一种被称为 第三代人工神经网络的新型人工神经网络模型p c n n 模型的研究热潮正在兴 起。这种网络由变阈值非线性动态神经元组成,具有许多独特的优良特性,如时 空特性、动态脉冲发放特性和同步脉冲发放特性等。正是由于p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论