已阅读5页,还剩106页未读, 继续免费阅读
(计算机应用技术专业论文)模拟自顶向下视觉注意机制的感知模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中文摘要 通过近年来的一些研究,人们对于理解视皮层信息处理的基本原理已经取得 了巨大的进步,从而使得自底向上的注意引导备受国内外研究者的关注,并成功 地建立了一些模型。但是,关于自顶向下注意引导的研究却遇到了一些困难。目 前,大多数模拟自顶向下视觉注意机制的感知模型都是在原有的自底向上注意感 知模型的基础上经过改进得来的。出发点是基于自底向上注意的数据信息,有一 定的局限性。因此,研究自顶向下的注意感知理论并建立相应的模型已成为当前 视觉感知系统信息处理理论中的一个亟待解决的问题。 研究视觉感知系统信息处理理论的一个主要内容涉及目标对象和空问位置感 知,其实质就是研究两个视觉子系统w h a t 通路和w h e r e 通路的功能。因此,本文 以视觉通路理论为指导,构建自顶向下的视觉注意感知模型,探索视觉感知的新 理论。在正常的人类视觉中,自底向上和自顶向下处理过程的结合将会影响我们 的注意,并将注意吸引到显著的相关场景部分。所以,我们强调的模拟自顶向下 的注意感知,实际上是一个自下而上和自上而下的有机融合和相互作用的过程。 本文将与w h e r e 通路相关的空间位置感知分成两个层次的概念:目标所处的 空间环境和目标所在视觉空间中的具体位置。用目标所处空间的大范围信息 环境信息作为w h e r e 通路中传输的一级w h e r e 信息,用目标在视觉空间中的具体位 置作为二级w h e r e 信息。将w h a t 通路中传输的目标感知信息作为w h a t 信息。与注 意机制相结合,一级w h e r e 信息可以用来驱动自顶向下的注意,处理大范围环境 空间信息,为目标感知提供指导。二级w h e r e 信息与w h a t 信息一起可以用于驱动 自底向上的注意,形成感受和进行对象识别。 本文主要创新点有: 第一,提出了一种新的自底向上的注意信息提取算法( i n t e g r a t i o no fl o c a l c o m p l e x i t y a n de a r l y v i s u a l f e a t u r e s ,l o c e v ) 。l o c e v 算法综合考虑了三方面特性 来定义显著性:1 根据特征空间中的不可预测性来衡量特征的复杂度;2 在尺度 空间中衡量特征的统计不相似特性;3 同时考虑特征空间和尺度空间,衡量特征 的一些初级视觉特性。得到的显著区域在特征空间和尺度空间中同时显著。图像 中所有的点在对应尺度下的区域显著值构成了整幅图像的w h a t 信息,其中的位置 信息和尺度信息就构成了对应的二级w h e r e 信息。获取的自底向上的注意信息具 有旋转、平移、比例缩放不变性和一定的抗噪能力。 第二,提出了一种新的以环境为中心的一级w h e r e 信息提取算法 ( c o n t e x t - c e n t e r e df i r s tl e v e lw h e r ei n f o r m a t i o ne x t r a c t i o n ,c o n c e n ) 。c o n c e n 算 北京交通大学博士学位论文 法分为三个阶段:1 提取一级w h e r e 信息的高维编码;2 对一级w h e r e 信息高维 编码进行子采样处理:3 计算高维编码子采样输出的统计特征。将最终的统计特 征系数定义为一级w h e r e 信息,结合注意机制,一级w h e r e 信息可以用来驱动自顶 向下的注意,处理大范围环境空间信息。c o n c e n 算法定义的一级w h e r e 信息不 是以目标为中心的局部信息的简单叠加,而是将整个场景看成一个独立目标得出 的真j 下意义上的环境信息,既保留了原始场景环境的全局结构信息,又反映了空 间、频率和朝向特性。根据一级w h e r e 信息获得相关目标的先验知识,用于指导 与w h a t 信息和二级w h e r e 信息相关的自底向上的注意。 第三,提出了一种新的基于w h a t 和w h e r e 信息的视觉感知模型( w h a ta n d w h e r ei n f o r m a t i o nb a s e dv i s u a lp e r c e p t i o nm o d e l ,w h a t - w h e r e ) 。w h a t - w h e r e 模型采用以环境为中心的一级w h e r e 信息进行自顶向下的注意控制,指导w h a t 信 息和二级w h e r e 驱动的自底向上的注意。自顶向下的注意包括预注意和集中注意 两个阶段,预注意依据一级w h e r e 信息为特定目标出现与否提供先验,做出是否 继续搜索的判定。集中注意的结果与w h a t 信息和二级w h e r e 信息相结合,将注意 指向目标最有可能出现的图像区域,即集中注意区域,并得到了图像集中注意区 域中的当前显著目标区域和显著目标区域转移的潜在目标。在显著目标区域转移 的过程中,提出了一个新的目标转移准则吸引力。根据各潜在目标区域对当 前显著目标区域吸引力的大小,确定下一个待注视的显著目标区域和相应的潜在 目标。以此循环,并得到一系列显著目标区域。 一级w h e r e 信息既可以为哪种目标最有可能出现提供很强的先验,也可以为 图像中期望的目标出现的位置提供先验,从而可靠地指导自底向上的注意。 w h a t - w h e r e 模型在预注意完成后根据条件就可以停止整个检测过程,从而在 很大程度上节约计算资源。将集中注意的结果与w h a t 信息和二级w h e r e 信息相结 合,为将注意集中到与目标相关的显著区域提供了有效机制。 关键词;自顶向下的注意;自底向上的注意;视觉显著性;w h e r e 信息;w h a t 信息 分类号:t p 3 9 1 a b s t r a c t a b s t r a c t d u r i n gt h el a s tf e wy e a r s ,e x t r a o r d i n a r yp r o g r e s sh a sb e e nm a d ei nu n d e r s t a n d i n gt h e b a s i cp r i n c i p l eo fh o wi n f o r m a t i o ni sp r o c e s s e db yv i s u a lc o r t e x t h i sb r i n g sm o r ea n d m o r ec o n c e r n i n gt ob o n o m - u pa t t e n t i o na th o m ea n da b r o a d ,a n dm o d e l sb a s e do ni ta r e b u i l ts u c c e s s f u l l y b u td i f f i c u l t i e sa r em e td u r i n gt h es t u d yo ft o pd o w na t t e n t i o n g u i d a n c e m o s t o fc u r r e n tt o p - d o w na t t e n t i o nm o t i v a t e dp e r c e p t i o nm o d e l sw e r e d e r i v e dc h i e f l yf r o mf o r m e rb o a o m - u pa t t e n t i o nb a s e dm o d e l s t h e s em o d e l sl i eo n d a t at h a tc o m e sf r o mb o t t o m u pa t t e n t i o na n dl a c k so fe f f e c t i v ed e f i n i t i o no fh i g hl e v e l i n f o r m a t i o n h e n c es t u d y i n gt o p - d o w na t t e n t i o nm o t i v a t e dp e r c e p t i o nt h e o r ya n d b u i l d i n gt h ec o r r e s p o n d i n gm o d e lh a v eb e c o m eap r o b l e mt h a tn e e d su r g e n ts o l u t i o n t h ep e r c e p t i o no fo b j e c ta n ds p a t i a lp o s i t i o ni sam a i nf i n d i n gi nt h es t u d yo fv i s u a l p e r c e p t i o ns y s t e mi n s p i r e di n f o r m a t i o np r o c e s s i n gt h e o r y i t s v i r t u a ls t u d yi sa b o u tt h e f u n c t i o no ft w ov i s u a l s u b s y s t e m s - - w h a t a n d w h e r e ”p a t h w a y s a c c o r d i n g l y i n s p i r e db yt h et h e o r yo ft w ov i s u a lp a t h w a y s ,at o p - d o w na t t e n t i o nm o t i v a t e dv i s u a l p e r c e p t i o nm o d e li sb u i l ti nt h i sp a p e r t h ei n t e g r a t i o no fb o u o m u pa n dt o p d o w n p r o c e s sw i l la f f e c t0 1 2 a t t e n t i o ni nn o r m a lh u m a nv i s u a l s ot h et o p - d o w na t t e n t i o n p e r c e p t i o nw h i c hw ee m p h a s i z ei sa c t u a l l yap r o c e s so fi n t e r a c t i o no ft o p d o w na n d b o t t o m - u p t h ep a p e rc l a s s i f i e sp e r c e p t i o no fs p a t i a lp o s i t i o nr e l a t e dt o “w h e r e ”p a t h w a yi n t o t w ol e v e l s :s p a t i a lc o n t e x to fo b j e c ta n di t ss p e c i f i cp o s i t i o ni nv i s u a ls p a c e w eu s et h e c o n t e x t u a li n f o r m a t i o na st h ef i r s ti e v e l w h e r e ”i n f o r m a t i o nt r a n s m i r e di n “w h e r e ” p a t h w a ya n du s et h es p e c i f i cp o s i t i o no fo b j e c ti nv i s u a ls p a c ea st h es e c o n dl e v e l w h e r e ”i n f o r m a t i o n b e s i d e s w eu s et h ep e r c e p t u a li n f o r m a t i o na b o u to b j e c ta s “w h a t i n f o r m a t i o nt r a n s m i t t e di n “w h a t ”p a t h w a y i n t e g r a t e dw i t ha t t e n t i o nm e c h a n i s m t h e f i r s tl e v e l “w h e r e ”i n f o r m a t i o nc a l lm o t i v a t et o p d o w na t t e n t i o na n dp r o v i d eg u i d a n c e f o ro b j e c tp e r c e p t i o n b o t t o m u pa t t e n t i o ni sm o t i v a t e db yt h es e c o n dl e v e l “w h e r e ” i n f o r m a t i o na n d w h a t i n f o r m a t i o n t h e m a i ni n n o v a t i v ep o i n t so f d i s s e r t a t i o na r ea sf o l l o w s : f i r s t , i n s p i r e db yr e s e a r c ho fv i s u a la t t e n t i o ni np s y c h o l o g y ,an o v e la l g o r i t h mf o r e x t r a c t i n gb o t t o m u pa t t e n t i o ni n f o r m a t i o n ( i n t e g r a t i o no fl o c a lc o m p l e x i t ya n de a r l y v i s u a lf e a t u r e s ,l o c e v ) i sp r o p o s e di nt h ep a p e r ,b o t t o m u pa t t e n t i o ni n f o r m a t i o ni s c o m p o s e db ys a l i e n c yo fc e r t a i nr e g i o n sc o r r e s p o n dt oe a c hp o i n ti ni m a g e ,a n ds c a l eo f 北京交通大学博士学位论文 t h er e g i o n sv a r i e sw i t hc o m p l e x i t yo fl o c a lf e a t u r e sa d a p t i v e l y n e ws a l i e n c ym e t r i ci s d e f i n e da sap r o d u c to ft h r e et e r m s :l o c a lc o m p l e x i t y s t a t i s t i c a ld i s s i m i l a r i t ya n de a r l y v i s u a lf e a t u r e s s a l i e n tr e g i o n sa r es a l i e n tb o t hi nf e a t u r es p a c ea n do v e rs c a l e s a l i e n c y o fc e r t a i nr e g i o n sc o r r e s p o n dt oa l ip o i n t si ni m a g ei sd e f i n e da s w h a t ”i n f o r m a t i o n t h ep o s i t i o na n ds c a l ei n f o r m a t i o ni sd e f i n e da st h es e c o n dl e v e l “w h e r e ”i n f o r m a t i o n t h ee x t r a c t e db o t t o m u pa t t e n t i o ni n f o r m a t i o ni si n v a r i a n tt oi m a g es c a l e ,r o t a t i o na n d t r a n s l a t i o n ,a n di ss h o w nt ob er o b u s tt on o i s e s e c o n d ,an o v e la l g o r i t h mi sp r o p o s e df o re x t r a c t i n gc o n t e x t c e n t e r e df i r s tl e v e l “w h e r e ”i n f o r m a t i o n ( c o n c e n ) t h r e ep r o c e d u r e s a r ec a r r i e do u ti nc o n c e n a l g o r i t h m :1 e x t r a c t i n gh i 曲d i m e n s i o n a lc o d eo f t h ef i r s tl e v e l “w h e r e ”i n f o r m a t i o n ;2 s u b s a m p l i n gt h eh i g hd i m e n s i o n a lc o d eo ft h ef i r s tl e v e l w h e r e ”i n f o r m a t i o n ;3 c o m p u t i n gs t a t i s t i c a lf e a t u r eo fs u b s a m p l e dh i g hd i m e n s i o n a lc o d eo ft h ef i r s tl e v e l “w h e r e ”i n f o r m m i o n t h ef i n a lc o e f f i c i e n to fs t a t i s t i c a lf e a t u r ei sd e f i n e da st h ef i r s t l e v e l “w h e r e ”i n f o r m a t i o n i n t e g r a t e dw i t ha t t e n t i o nm e c h a n i s m t h ef i r s tl e v e l “w h e r e i n f o r m a t i o nc a l lm o t i v a t et o p d o w na f t e n t i o na n dp r o c e s sc o n t e x t u a li n f o r m a t i o no v e ra l a r g ea r e a t h ei n f o r m a t i o no fe n t i r e s c e n ei sc o d e di nt h ef i r s tl e v e l “w h e r e i n f o r m a t i o n i tc a l lp r o v i d er e l i a b l ep r i o rk n o w l e d g ef o rb o t t o m u pa t t e n t i o n t h i r d ,i n s p i r e db yt h et h e o r yo f t w ov i s u a lp a t h w a y s ,an o v e lv i s u a lp e r c e p t i o nm o d e l i s p r o p o s e d b a s e d o n w h a t a n d w h e r e ”i n f o r m a t i o n ( w h a t - w h e r e ) , c o n t e x t - c e n t e r e df i r s tl e v e l w h e r e ”i n f o r m a t i o ni su s e dt oc o n t r o lt o p d o w na t t e n t i o n , a n dg u i d eb o t t o m u pa t t e n t i o nw h i c hi sd r i v e nb y w h a t i n f o r m a t i o na n ds e c o n dl e v e l w h e r e ”i n f o r m a t i o n t h ep r o c e d u r eo ft o p d o w na t t e n t i o nc a l lb ed i v i d e di n t ot w o s t a g e s :p r e a t t e n t i o na n df o c u sa t t e n t i o n i nt h es t a g eo f p r e a t t e n t i o n , f i r s tl e v e l “w h e r e i n f o r m a t i o nc a nb eu s e dt op r o v i d ep r i o rk n o w l e d g eo fp r e s e n c eo ra b s e n c eo fo b j e c t s w h i c hd e c i d e sw h e t h e rs e a r c ho p e r a t i o ni sf o l l o w e d b yi n t e g r a t i n gt h er e s u l to ff o c u s a t t e n t i o nw i t h “w h a t a n ds e c o n dl e v e l “w h e r e ”i n f o r m a t i o n , a t t e n t i o ni sg u i d e dt ot h e r e g i o nt h a ti sm o s tl i k e l yt oc o n t a i nt h eo b j e c ta n ds e r i e so fs a l i e n tr e g i o n sf o rs a m p l e s a r ed e t e c t e d a na t t e n t i o nm o d e li sd e v e l o p e db a s e do nt h e s e ,e x p e r i m e n t sr e s u l t sw i t h n a t u r a li m a g e sd e m o n s t r a t ei t se f f e c t i v e n e s s f i r s tl e v e l w h e r e ”i n f o r m a t i o nc a l lp r o v i d es t r o n gp r i o r st ot e l lw h o s ep r e s e n c ei s m o s tp o s s i b l ea n dw h e r ei tw i l la p p e a r b e s i d e s ,i tc a nh e l pt od i s a m b i g u a t et h ei d e n t i t y o ft h eo b j e c tw h i l el a c k i n go ft h el o c a lf e a t u r e s 1 1 1 ee n t i r ed e t e c t i n gp r o c e s sm a yb e s t o p p e do n l ya f t e rp r e a t t e n t i o n a n dt h er e s u l to f f o c u sa t t e n t i o nc a nb ei n t e g r a t e dw i t h b o t t o m - u pa t t e n t i o nt op r o v i d ee f f i c i e n tm e c h a n i s mt of o c u sa t t e n t i o no ns a l i e n tr e g i o n s a b s t r a c t k e y w o r d s :t o p d o w na t t e n t i o n ;b o t t o m u pa t t e n t i o n ;v i s u a ls a l i e n c y ;“w h e r e i n f o r m a t i o n ;w h a t i n f o r m a t i o n c l a s s n o :t p 3 9 1 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留,使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:撕 导师签名:, , 伽- g - i 舯 签字日期:舢1 年1 月s - 日 签字日期:卿年7 月r 日 | 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:、锄岛 签字日期: & 归7 年 月s 目 致谢 值此论文完成之际,首先要衷心感谢我的导师罗四维教授。从我攻读硕士学 位开始,罗老师就从各方面对我进行指导和鼓励,激发起我研究的兴趣和热情。 在我攻读博士期间,罗老师在专业上对我孜孜不倦地教诲,让我觉得他是我严格 而博学的导师;在平目的生活中罗老师更给予了我无微不至的关心,并教给我成 长的人生经验,让我觉得他不仅是我的老师,更像是我慈祥的长辈。我为能够在 求学的路上遇到这样一位学识渊博、治学严谨又虚怀若谷的导师心存万分感激, 在今后的工作中我将继续以罗老师为榜样,不断努力奋斗。 我还要感谢已经毕业的师兄师姐黄雅平、刘蕴辉、黄华、赵嘉莉、齐英剑、 李爱军、张至柔、邹琪、温津伟、李建瑜、杨坚,在我进入实验室以后,各位师 兄师姐给了我很多建议和帮助,使我受益匪浅。 感谢实验室的所有兄弟姐妹们:廖灵芝、尹辉、郑字、吕子昂、杨树忠、赵 连伟、钟晶晶、李燕、王娇、曾宪华、孙薇、吴丽娜、高瞻、李清勇几年来 我们一起学习、讨论交流,在这个温暖的大家庭中,有我太多美好的回忆和人生 宝贵的经历。 感谢男友的家人,他们给了孤身在外求学的我一个温暖无比的家。为了支持 我完成博士论文,姥姥、叔叔、阿姨和哥嫂对我无微不至地关心和照顾。正是因 为有了这个家,我才。能够无任何后顾之忧地专心科研。 更要感谢我的男友吕新亮,他与我在课题上的有益探讨以及对我的包容和支 持,使我能够潜心钻研,勇敢面对一切困难。 最后,我要感谢我的父母,多年来他们辛苦操劳,给予我全部的爱和支持。 在我有所进步时,他们会因此而欣慰和快乐;在我遇到困难时,他们是我永远坚 强的后盾。 本课题承蒙高等学校博士学科点专项科研基金( n o 2 0 0 2 0 0 0 4 0 2 0 和 n o ,2 0 0 5 0 0 0 4 0 0 1 ) 署f l 国家自然科学基金( n o 6 0 3 7 3 0 2 9 ) 资助,特此致谢。 引言 l 引言 人的视觉感知过程可以看作是一种不确定的复杂系统,对于它的研究几乎涵 盖了认知科学、神经科学、生物学以及计算机科学等各门学科。因此,探索入的 视觉感知和认知机理以及研究具有生物特征的智能信息处理系统已经成为信息科 学领域的前沿课题之一。 本章首先分析了注意的基本概念,然后介绍了研究意义和国内外发展现状, 最后叙述了本文的研究工作和章节安排。 1 1 问题的提出 注意作为心理活动的状态,在近代心理学发展的初期就已受到重视。注意是 人类信息加工过程中一项重要的心理调节机制,它能够对有限的信息加工资源进 行分配,使感知具备选择能力。视觉注意的作用是将人类注意快速指向感兴趣的 目标l ”。w o l f e 和c a v e l 2 】认为,用于选择的注意机制既使用来自图像的自底向上的 信息,也使用来自高层视觉结构组织的自顶向下的信息。 通过近年来的一些研究,人们对于理解视皮层信息处理的基本原理已经取得 了巨大的进步,从而使得自底向上的注意( b o t t o m u pa t t e n t i o n ) 引导备受国内外研 究者的关注,并成功地建立了一些模型。但是,当我们将注意集中在那些显著的、 与当前任务相关的视觉要素上,理解在生物学中证实合理的复杂计算术语自 顶向下的注意( t o p d o w na t t e n t i o n ) 弓l 导时,却遇到了很大困难。高层任务要求可能 会帮助我们过滤掉大量的不相关的信息,关于这方面,我们目前仍缺乏明确的计 算理解,有待于进一步的研究和建立完整合理的基于注意机制的神经计算理论框 架。因此,研究自顶向下的注意感知理论并建立相应的模型已成为当前视觉感知 系统信息处理理论中的一个亟待解决的问题。 1 2 研究意义 一般来说,注意的自顶向下的控制与高层的感知过程相关。到目前为止,人 们对于这种高层的感知过程的认识和理解仍然非常有限。但是人们非常清楚如何 通过目标和任务的抽象知识,在一定程度上指导注意焦点的选择。因此,自顶向 下的注意又可以称为任务相关的注意,知识驱动的注意。早在1 9 6 7 年,b u s 【3 】 就通过实验解释了关于人类注意随着任务不同而不同的现象。在缺乏任务指导的 北京交通大学博士学位论文 情况下,视觉注意在很大程度上似乎是由自底向上的( 或基于图像的) 处理引导 的,并由它决定了场景中目标的显著性。但是,在人类通过视觉感知外界世界的 过程中,通常会由于先验知识或特定目的等原因而存在一定的任务信息,它自顶 向下地指导我们的注意。 在正常的人类视觉中,自底向上和自顶向下处理过程的结合将会影响我们的 注意,并将注意吸引到显著的相关场景部分。所以,我们强调的模拟自顶向下的 注意感知,实际上是一个自下而上和自上而下的有机融合和相互作用的过程。在 这个过程中自动运用视觉认知规律,通过一系列视知觉操作,使视觉处理过程在 一定目的下,以尽可能小的代价获得尽可能好的结果,也更加符合人类视觉感知 的基本特征。 本课题所研究的理论立足于计算机科学,系统地概括了认知科学、生物学、 神经科学和心理学等方面业已取得的一些重要成果,从而对丰富和发展视觉信息 处理学科具有非常重要的意义。 国内从事图像处理和模式识别的大学和研究机构很多,视觉神经生理学、视 觉心理学、人工视觉( 计算机视觉、机器人视觉或视觉代偿) 等方面的工作也正 在逐步开展,但它们需要得到视觉神经计算理论上的指导,以便将工作引向深入。 进行本课题的研究,也就是为了从一定程度上推动国内相关工作的进一步发展。 1 3 国内外研究现状 心理学研究发现,那些能够产生新异的刺激、较强的刺激和人所期待的刺激 的图像区域容易引起观察者的注意。据此,可以将注意划分为两种类型:一种是 基于初级视觉,由数据驱动的自底向上的注意;另一种是基于高层视觉,与任务、 知识等相关的自项向下的注意。 1 3 1 模拟自底向上视觉注意机制的感知模型研究现状 在自底向上的注意研究方面,主要基于k o c h l 4 j 的框架和t r e i s m a n 5 】的特征整 合理论,对输入图像提取朝向、亮度等初级视觉特征,形成各个特征维的显著图。 然后基于非均匀采样的方式,采用多特征图合并策略对这些不同特征维的显著图 进行融合,形成一幅最终的显著图。根据显著图,可以得到一系列的待注意的目 标。各目标通过注意转移的禁止返回( i i n h i b i t i o no fr e t u r n ) 机制和胜者为王 ( w i n n e r - t a k e a 1 1 ) 的竞争机制吸引注意焦点,并使得注意焦点在各个待注意的目 标之间依一定的原则转移。 2 引言 提取初级视觉特征通常是用多通道多尺度线性滤波器组对图像滤波。其中最 常用的是g a u s s i a n 滤波和g a u s s i a n 函数的各种变换滤波形式。非均匀采样最早由 k r o n a u e r 和z e e v i 提出1 6 1 ,随后在模拟人类视觉的模型中被频繁采用1 7 9 1 。其中最具 代表性的是i 埘提出的高斯金字塔模型l l 】。i n i 在非均匀采样的基础上通过中央周边 差的计算方法得到显著性度量。但是,基于中央周边差的显著性度量方法只考虑 了显著区域的局部特性,没有考虑整幅图像的全局信息,容易产生局部效应。金 字塔模型符合生物视觉的分层次等级结构,但大多数模型仅限于在初级视觉特征 提取阶段体现这一结构,没有把它完整地体现在注意机制发挥作用的各个阶段。 而且,这些传统的初级特征提取方法强调朝向、亮度等初级视觉特征,没有考虑 整幅图像的整体统计特性。而统计特征描述了图像的内在信息,反映了图像的本 质属性。 1 3 2 模拟自顶向下视觉注意机制的感知模型研究现状 相比于自底向上的注意,自顶向下的注意研究较少。早期的研究有视觉变换 器h o 。它是一个关于实时系统的注意模型,由h e r z o g ( 1 9 9 4 ) 提出,可以对场景 进行解释并产生一个关于场景的自然语言描述。它的低层视觉系统识别和追踪所 有可见目标并创建感知场景的几何表示。然后,这个中间表示将会在高层场景分 析过程中被分析。高层场景分析可以求解空间关系、识别感兴趣的动作事件以及 增加识别计划和目的。视觉变换器的缺点在于它的复杂性,它注意所有的目标, 然后仅仅报告那些相关的目标,从而阻碍它发展成为一个流行的注意模型。1 9 9 7 年,l a a r 提出了一个用于隐式视觉注意的神经网络模型【l ”。按照注意焦点转移的 方式,可以将注意分为隐式注意和显式注意。前者在注意焦点的转移过程中采样 中心固定不变,后者采样中心会随着注意焦点的转移不断变化。l a a r 的模型依靠 任务,学习将注意集中于重要的特征。模型从感觉器官的视网膜输入提取特征图, 在注意网络的帮助下形成优先图。注意网络提供了自顶向下的信息。然而,这个 系统仅使用心理物理的搜索任务,这种任务可以用自底向上的处理近似模拟,因 此通过自底向上的注意模型就可以成功地解决问题。 较有代表性的模型包括w h a t w h e r e 双通路交互模型【7 1 、统计贝叶斯模型【1 2 】和 马尔科夫模型1 1 3 , 1 4 。r y b a k 在1 9 9 8 年提出了基于注意机制的视觉感知和识别模型 【7 1 。该模型在定义目标显著性时,增加了一个“语义参数”项,与其它三个自底向 上的视觉控制参数项进行线性组合。这三项分别对应着初级视觉特征提取、非均 匀采样和禁止返回,都属于自底向上的注意的实现机制。而这个“语义参数”实 质只是在高层视觉结构缺乏注意的自顶向下控制时,预先定义强调图像中具有重 北京交通大学博士学位论文 要意义的部分,并不是真正的自顶向下的注意的控制方式。而且,它也仅仅是作 为线性组合与数据驱动的注意相融合,与真实的自顶向下的注意仍有差距。2 0 0 0 年,o l i v e r 提出了一个实时计算机视觉和机器学习系统 1 2 1 ,用来模拟和识别人类行 为。他们用统计贝叶斯方法通过一个闭合反馈循环组合自顶向下和自底向上的信 息。但是,这个系统的重点是检测和分类人类长时期的交互作用,因此它只能处 理出入类动作导向的行为,缺乏任务或目标的概念,不能对任意目标导向的行为 建模。最早尝试用马尔科夫模型模拟注意机制的是r i m e y ,他提出利用增强的隐马 尔科夫模型实现数据驱动的选择性注意。之后s a l a h ( 2 0 0 2 ) 【1 3 】将可观测马尔科 夫模型引入到模拟任务驱动的注意中来,并在数字识别和人脸识别的实验中取得 了很好的效果。他的模型通过学习将w h a t 信息和w h e r e 信息保存到马尔科夫模型 中,一方面关于某一个注视点的知识记忆在马尔科夫链的状态信息中,另一方面 已知当前注视点的内容,要确定下一个注视点的位置,则记忆在状态转移概率中。 识别过程中,这些保存的记忆信息作为自顶向下的信息流指导扫视路径。2 0 0 3 年, s o y e r 用马尔科夫和证据推理模拟实现了注意机制 l q ,并运用在真实场景中指导机 器人识别目标。但是该识别系统仅适用于特定的简单场景。用马尔科夫模型模拟 注意机制的方法希望在尽可能少的状态转移次数内就能做出判断,这就对每个状 念的特征描述的准确性提出了很高的要求。 目前,在模拟自顶向下视觉注意机制的感知模型研究中最具代表性和系统性 的研究来自i t t i 的i l a b 实验室。2 0 0 0 年,i 砸在他的博士论文1 16 】中提出自顶向下的 注意,以调节心理阈值函数的形式来控制视觉感知。这里心理闽值是指正确识别 目标和错误识别目标的分界值。他设计的计算模型总体上分为三个阶段:线性滤 波器,异向抑制( d i v i s i v ei n h i b i t i o n ) 和统计有效决策阶段。他的心理阈值模型只 是一种简化的、独立于视觉任务的原型,仅模拟了注意机制的调制作用,只适用 于解释视觉感知的最初级阶段。在i 位i 研究的基础上,m i 与n a v a l p a k k a m ( 2 0 0 2 ) 构建了一个任务导向的注意模型f j ”。提出了一个用来估计与场景中注意位置的任 务相关的结构。他们采用任务图,并使用包含真实世界实体和它们之间关系的本 体论来计算显著点的相关性。该模型根据一个拓扑注意引导图为自底向上的显著 性和场景中所有位置的任务相关性编码,从而指导注意。并证明即使对于自然的 混乱场景和随机任务,该模型都能检测显著的与任务相关的实体。接着,i n i 与 n a v a l p a k k a m ( 2 0 0 3 ) 1 18 】又使用目标对象的已知表示执行自顶向下的控制,改进原 有的自底向上的显著模型,增强其目标检测和识别的能力。实现对简单目标的快 速、可靠地定位、检测和识别。2 0 0 6 年,m i 与n a v a l p a k k a m l l 9 l 提出了一个新的模 型组合了自底向上和自顶向下的注意。用目标的统计知识和混乱的背景作为自顶 向下的注意信息,最优化不同特征维的自底向上显著图的相关权值。但是,他们 4 引言 的研究出发点都是自底向上的注意,即m i 提出的基于自底向上线索的注意显著性 引导的感知模型,有一定的局限性。这些模拟自顶向下注意的感知模型使用的“高 层信息”包括存储在记忆中的模板、可以调节视觉感知的闽值、根据需求或动机 设置的偏置或权重等,都只是简化后的近似高层信息,仅模拟了注意机制的调制 作用,只适用于解释视觉感知的初级阶段。对于自顶向下的和自底向上的注意之 间的关系还不是很清楚,如:谁执导谁,高层感知优先还是初级视觉优先等。无 论它们之间的关系如何,这两个方面的线索是不能相互脱离的,仅凭某一方面都 不能完整地完成模拟视觉注意的任务。 国内学者也在这方面展开了研究。郑南宁较早地对选择性注意机制进行了研 究,提出了一种引入注意机制的视觉计算模型( 1 9 9 8 ) 1 9 1 。该模型强调了自底向上 的注意与自顶向下的注意的融合。其中,自顶向下的注意是由知识驱动的。但他 们仅利用视觉任务的知识分配自底向上的显著性的权重,与实际意义上的自顶向 下的注意仍相距很大,且没有经过自然图像的验证。 1 4 本文的研究内容 本文的研究工作是国家自然科学基金“基于人类视觉感知系统的有效编码模 型”( 项目批准号6 0 3 7 3 0 2 9 ) 的一部分。同时,本论文的前期预研工作已经在教育 部高等学校博士学科点专项科研基金( 项目编号2 0 0 2 0 0 0 4 0 2 0 ) 中完成,后续工作 也将在即将开展的项目“知觉组织感知机理和算法研究”( 项目批准号 2 0 0 5 0 0 0 4 0 0 1 ) 支持下继续进行。 鉴于目前国内外的研究现状,本文以视觉通路理论1 2 0 j 为指导,构建自顶向下 的注意感知模型,探索视觉感知的新理论。视觉通路理论即指在生物视觉系统中 包含两个用于视觉处理的主要通路w h a t 通路和w h e r e 通路,分别用于形成对 物体的感受和空间定位。以这个理论为生物学依据,能够更好地理解和解释生物 视觉系统的组织和工作机制,寻找认知心理学中注意机制与计算机科学的新的结 合点,从而促进对自顶向下的控制信息的理解,寻找解决问题的突破点。 本文将与w h e r e 通路相关的空间位置
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年精准扶贫信息服务平台可行性研究报告及总结分析
- 2025年棉花种植合作协议
- 砂石厂责任制
- 2025年美容院技师聘用协议
- 2025年一级建造师-管理-记忆口诀大全(19条)
- 绿化工程水生植物种植的施工方案
- 2025年电子游戏教育应用项目可行性研究报告及总结分析
- 2025注册会计师跨科综合题库考试题及答案
- 2025年再生水处理与回用项目可行性研究报告及总结分析
- 2025年(新版)窑炉反应工(技师)职业技能鉴定考试题 含答案
- 停车场引资计划书
- 保卫科月工作总结
- 整本书阅读教学设计案例
- 律师事务所投标书(两份)
- 水资源调查实训报告
- 食品安全风险管控日管控检查清单
- 金属加工企业机加工安全风险分级管控清单
- 《思想道德与法治》学习法治思想 提升法治素养-第六章
- AI人工智能应用介绍PPT
- 央视《大风车》栏目评析
- 日历含农历(每月一张)可记事
评论
0/150
提交评论