




已阅读5页,还剩72页未读, 继续免费阅读
(信号与信息处理专业论文)基于视觉注意的视频分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于视觉注意的视频分析 专业:信号与信息处理 硕士生:刘顺彬 指导教师:郑慧诚讲师 摘要 随着计算机科学的发展与视频数据存储传输能力的提高,基于视频的各种应 用引起了研究人员的兴趣,视频分析正逐渐成为计算机视觉领域的一个研究热 点。面对数据量庞大的视频信息,如何提高视频分析的效率,有选择性获取所关 注目标的信息,是研究者们共同面对一个挑战。其中,通过借鉴人类的视觉注意 机制而建立的计算模型,能有效地提取出包含关键信息的显著区域,提高视频处 理分析的效率,同时也能提高对噪声的鲁棒性。 本文的研究模拟了人类视觉系统的视觉注意机制,利用视频特有的三维时空 特性,将传统的仅仅利用空间信息构造的基于图像视觉注意模型扩展到视频的三 维空间中,使时域与空域的显著性互相融合而形成视频中显著图。在视频分析处 理中,通过建立的视觉注意模型,进一步获得视频中的显著区域,消除冗余的视 觉信息,将运算集中在显著区域,从而提高视频处理的速度,满足视频应用实时 性的要求。在本文中,视觉注意模型具体被应用到视频中人的动作检测。传统基 于时空梯度特征提取与子块匹配的人体动作检测模型需要在时空三维空间进行 大量的匹配操作,该方法存在耗时高的不足。通过结合本文提出的基于视频的视 觉注意模型,可以大大提高运算效率,而且能提高算法对噪声的鲁棒性。 本文研究的重点与创新点在于:1 ) 研究如何提取视频的三维时空特征并结 合进视觉注意模型的建立中,包括利用视频中的运动信息、时空域上的梯度信息, 建立具备时空多尺度分析功能的模型;2 ) 建立视觉注意模型后,研究如何将提 取的显著区域结合到视频分析的过程中,并结合多分辨率分析,避免将运算耗费 在非运动区域或非显著的噪声区域,从而有效提高算法的运算效率。 实验表明,本文提出的方法能有效地提取视频中的显著区域,并在视频中人 体动作检测这一具体的视频分析应用上能大大提高算法运行速度,改进检测效 果,而且对视频中的噪声具有一定的鲁棒性。 关键词:时空特征;视觉注意模型;视频分析;人体动作检测 v i d e o a n a l y s i sb a s e d o nv i s u a la t t e n t i o n m a j o r : n a m e : s i g n a la n d i n f o r m a t i o np r o c e s s i n g l i us h u n b i n s u p e r v i s o r :l e c t u r e rz h e n gh u i c h e n g e c t u r e rz h e n gu i c h e n 2 a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rs c i e n c ea n dt h ec a p a b i l i t yo fv i d e op r o c e s s i n ga n d t r a n s m i s s i o n ,v i d e o b a s e da p p l i c a t i o n sh a v ea t t r a c t e dm o r ea n dm o r ea t t e n t i o ni nt h e c o m p u t e rv i s i o nr e s e a r c h v i d e oa n a l y s i si sb e c o m i n gah o t s p o to fr e s e a r c hi nt h i sf i e l d i n t h ef a c eo fg r o w i n gm a s s i v ev i d e od a t a ,h o wt oi m p r o v et h ec o m p u t a t i o n a le f f i c i e n c yo f v i d e oa n a l y s i sa n ds e l e c t i v e l yo b t a i nt h ei n f o r m a t i o no f o b j e c t s i sac h a l l e n g et o r e s e a r c h e r s t oc o n q u e rt h i sp r o b l e m ,b i o l o g i c a l l yi n s p i r e dc o m p u t a t i o n a lm o d e l sb a s e do n h u m a nv i s u a la t t e n t i o nm e c h a n i s ma r eb u i l tt oe x t r a c tt h es a l i e n tf e a t u r e sc o n t a i n e di nt h e v i d e oa n di m p r o v et h ec o m p u t a t i o n a le f f i c i e n c yo fv i d e op r o c e s s i n g t h es t u d yi nt h i st h e s i se x t e n d st h et r a d i t i o n a lv i s u a la t t e n t i o nm o d e l sw h i c ho n l y m a k eu s eo ft h es p a t i a lf e a t u r e sw i t h o u ta n yd y n a m i cf e a t u r e st ot h r e e - d i m e n s i o n a lv i d e o s p a c e av i d e o b a s e dv i s u a la t t e n t i o nm o d e li sp r o p o s e dt oc a p t u r et h es a l i e n tr e g i o n si n v i d e ot h r o u g ht h ec o m b i n a t i o no fs p a t i a la n dt e m p o r a l c o n s p i c u o u sm a p s i nt h e p r o c e s s i n go fv i d e oa n a l y s i s ,t h ep m p o s mv i s u a la t t e n t i o nm o d e li si n t e g r a t e dw i t ht h e t r a d i t i o n a lh u m a na c t i o nd e t e c t i o na l g o r i t h mt oe l i m i n a t er e d u n d a n tv i s u a li n f o r m a t i o na n d f o c u so nc o m p u t i n gi nt h es a l i e n tr e g m n s o n et r a d i t i o n a lh u m a na c t i o nd e t e c t i o n a l g o r i t h m ,w h i c hi sb a s e do ns p a c e t i m eg r a d i e n tf e a t u r ee x t r a c t i o na n dp a t c hm a t c h i n g , n e e d sal o to fc o r r e l a t i o n c o m p u t i n g i nt h r e e d i m e n s i o n a l s p a c e a n di s v e r y t i m e c o n s u m i n g t h e r e f o r e ,t h ei n t e g r a t i o no fv i d e o b a s e dv i s u a la t t e n t i o nm o d e lc a n g r e a t l yi m p r o v et h ec o m p u t a t i o n a le f f i c i e n c y , m a k et h et r a d i t i o n a la l g o r i t h mm o r es u i t a b l e f o rr e a l t i m ea p p l i c a t i o n sa n de n h a n c et h ea l g o r i t h m sr o b u s t n e s st on o i s e s t h ei n n o v a t i v ew o r ko ft h et h e s i si n c l u d e st h ef o l l o w i n gt w o p a r t s : ( 1 ) e f f e c t i v e l ye x t r a c ts p a t i a la n dt e m p o r a lf e a t u r e si nv i d e oa n di n t e g r a t et h e mi n t o t h em o d e lo fv i s u a l a t t e n t i o n ,i n c l u d i n gu s i n gt h es p a t i a lt e m p o r a lg r a d i e n t sa n dt h e i i i e s t a b l i s h m e n to fm u l t i s c a l ea n a l y s i si nt h em o d e l ; ( 2 ) a f t e rt h ee s t a b l i s h m e n to fv i s u a la t t e n t i o nm o d e l ,w ec o m b i n et h ee x t r a c t e ds a l i e n t r e g i o n st ot h ev i d e oa n a l y s i sp r o c e s st oa v o i dm e a n i n g l e s sc o m p u t i n gi nt h en o n s a l i e n t r e g i o n sw h i c hc o n t a i nl i t t l em o t i o ni n f o r m a t i o na n dr e d u c et h et i m ec o s t f u r t h e r m o r e m u l t i r e s o l u t i o na n a l y s i si sa l s oi m p l e m e n t e dt of u r t h e ri m p r o v et h ee f f i c i e n c yo ft h e a l g o r i t h m e x p e r i m e n t ss h o wt h a tt h ep r o p o s e dm e t h o dc a l le f f e c t i v e l ye x t r a c tt h es a l i e n tr e g i o n i i lt h ev i d e o a n di t sa p p l i c a t i o nt oh u m a na c t i o nd e t e c t i o ni nv i d e oa n a l y s i sc a ng r e a t l y i m p r o v et h ea l g o r i t h mp r o c e s s i n gs p e e da n de n h a n c et h er o b u s t n e s st on o i s e si nt h e n o n s a l i e n tr e g i o n k e yw o r d s :s p a t i a l - t e m p o r a lf e a t u r e s ;v i s u a la t t e n t i o nm o d e l ;v i d e oa n a l y s i s ;h u m a n a c t i o nd e t e c t i o n i v 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本文不包含任何其它个人或 集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学僦文储繇州友彬 同期:矽f d 年g 月2 日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 学雠文作者躲卟州 只期:呵。年6 月9 - - - r 第一章前言 随着视频信息处理与传输技术的发展,越来越多基于视频的应用进入了人们的日 常生活中,也引起了研究者们进一步研究和改进的兴趣。基于内容的视频检索 ( c o n t e n t b a s e dv i d e or e t r i e v a l ) ,智能视频监控系统和人机交互接口等应用,在国计 民生等方面发挥着越来越重要的作用。许多国内外的学校与研究机构投入了大量的精 力与人力进行相关的研究工作。麻省理工学院和卡内基梅隆大学等国外知名学府已成 立了专门的计算机视觉研究机构,i b m 和微软等知名r r 企业也正研究将计算机视觉 领域的研究成果应用到商业领域中。然而,这些应用随着视频处理数据量的不断上升, 也逐渐暴露出一个亟待解决的问题:面对海量的视频信号数据,如何获取其中有意义 的、与具体应用目标相关的信息,丢弃其他与任务无关的信息,从而降低各种视频分 析应用的处理时间,提高运算的实时性? 面对这个问题,许多计算机视觉领域的研究 者发现模拟人眼对场景信息的处理过程,将计算能力优先集中在几个显著区域,忽略 丢弃其他非显著对象,从而使得有限的计算机资源能极大地应用于有效的信息处理 上。这正是在计算机视觉领域通过仿生引入视觉注意机制的基本思想。 1 1 本文的研究背景及意义 1 1 1 人类视觉注意机制概述 人类的视觉系统经过了漫长的进化过程,已经具备了对外界信息非常高的获取能 力,是人类最重要的感官系统之一。随着神经生理学、认知科学以及心理学的深入研 究,人们认识到人类对外界视觉信息的获取不仅仅是一种被动的接受反应,而是一种 极其复杂地与外界信息相互作用的主动过程【l 】【2 1 。人类对视野中场景的感知具有鲜明 的目的性和主动性,只关注场景中某个感兴趣的目标而忽视其他信息,从而通过神经 系统对人体器官的控制去快速获取感兴趣的有效信息。这其中一个核心的机制就是视 觉的选择性注意机制( v i s u a ls e l e c t e da t t e n t i o nm e c h a n i s m ) 。选择性是指人类的视觉 注意系统能对来自外部的大量信息进行加工和处理,筛选出有意义的、与任务相关的 信息;而注意是指对有意义的信息给予更高的关注度和处理精度,摆脱其它冗余信息 中山大学硕士学位论文 而加快处理目标信息。 借助视觉注意机制的选择性与主动性,人类在接受外界视觉刺激时能结合心理活 动,实现利用有限的信息处理资源完成复杂多变的视觉信息处理任务,将注意力集中 在感兴趣区域,维持较高的信息处理效率。可见,人类的视觉注意机制是人类信息加 工处理过程中的一个重要心理调节机制,在视觉系统中发挥着不可替代的重要作用。 1 1 2 视觉注意计算模型概述 计算机视觉研究的主要任务,是为了使计算机和机器人等机器具备与人类视觉水 平相当的功能,让机器如人类一般去实现对图像、场景的分析和理解2 】【3 】。计算机视 觉是一个综合学科,涉及了包括计算机科学与工程、图像工程、人工智能、模式识别、 信号处理、神经生理学和仿生学等在内的科学研究。 对于人类视觉系统,完成对场景的分析和理解大致需要以下三个阶段:首先是通 过眼睛将捕捉到的图像、场景信息成像于视网膜上;然后是大脑接受图像并进行理解; 最后是神经系统根据处理分析的结果做出反应。计算机视觉的研究实际上便是模拟人 类视觉认知系统的这三个阶段而使得计算机具备人的视觉系统功能,从图像或者视频 ( 图像序列) 中获取对外界目标信息的认知与理解。人类视觉系统对外界信息的分析 理解过程,对应于计算机视觉研究中的三个阶段。首先,对图像或者图像序列进行特 征的提取及分割。这是所谓的“低级阶段”,仅仅在图像或视频信号的层面上进行处理, 这一阶段主要利用了图像处理的各种工具对输入信号进行处理。其次,就是依据“低 层阶段”获取的图像特征及分割所得的区域信息,对图像进行相应的符号表达和分析。 这是在符号层面上进行的处理,是“中层阶段”。最后,在“中层阶段”获取到的符号表 示的基础上,实现如人脑般的理解功能,即从认知层面上获取外界信息,得到能与人 类相互沟通的表达。这是属于“高层阶段”的任务,不仅要描述图像本身,而且要识别 和理解其表达的是何种场景或景物。这三个层次随着处理深度的不断加深,先验知识 也不断加入到相应的过程中,实现的难度也依次增大。 随着计算机视觉的各种研究转化到各种实际应用中,人们对计算机实现人类视觉 功能提出了更高的要求。人们希望在各种应用中计算机能够具备更加灵活的人类视觉 系统功能,并且能更有目的性、主动性地去获取目标信息,使得其能具备如人眼般的 实时性。正是由于计算机视觉系统在发展中出现的瓶颈,如缺乏大规模并行处理的能 2 第一章前言 力,与人类视觉系统相比实时性较差等问题,使得研究者们从神经心理学、生理学方 面着手寻求更加符合人类视觉系统处理特性的方法。这其中,人类视觉系统的选择性 注意机制被提出,并针对计算机视觉领域建立了视觉注意计算模型。由于视觉注意机 制在认知心理学中占据着重要的位置,是人类大脑加工处理信息的一个重要机制,研 究学者希望通过模拟人类的视觉注意过程来建立一个适用于计算机视觉领域研究的 视觉注意模型,从而在一定程度上实现有选择性地获取所关注目标的信息,滤除无关 的冗余信息,将有限的计算机处理资源分配于重要的显著区域,从而降低计算的信息 数据量,提高视觉处理的效率,以期达到更高的实时性和更好的处理效果。 1 1 3 本文的研究意义 本文以人类的视觉注意及其计算模型为基本的研究对象,面向视频分析应用建立 一个基于视频的视觉注意计算模型,有效地提取出视频中包含的运动区域,并进一步 将该计算模型结合到视频中的人体动作检测中。通过将视觉注意机制与具体的视频分 析应用相结合,有效提高了视频分析算法的计算效率。本文研究的重要意义在于通过 对视觉注意计算及其具体应用的研究,促进计算机视觉领域对视觉注意计算的研究和 重视,并使得各种基于视频的应用诸如智能视频监控和视频检索等能更加适应于实时 性的处理要求,为各种视频分析处理算法效率的提升开拓一个新的途径。 1 2 本文的研究内容、贡献及主要创新点 1 2 1 本文的研究内容及贡献 计算机视觉领域是一个充满挑战的研究领域。这些挑战既来自于技术的进步与需 求的增多之间的矛盾,也来自于人类自身视觉系统的特性在计算机视觉领域的应用未 被充分挖掘和结合。特别是随着近年来多媒体信息获取的便利性,海量的视频数据给 基于视频的各种分析处理提出了更高的要求。为解决这些难题,越来越多的学者认为 立足于人类自身的视觉系统,从结合人类视觉特性的角度出发去探索视频分析处理的 新途径,才能有效地解决目前视频分析中所遇到的诸如实时性不高,运算效率低,处 理结果与人眼相比有一定差距等问题。 中山大学硕士学位论文 本文在基于视觉注意的视频分析方面进行了研究,通过建立一个融合视频中时空 特征的视觉注意计算模型,并将该模型结合进视频分析中,实现对视频中人体动作的 检测。主要内容如下: ( 1 ) 针对视频具有三维时空结构的特性,构造一个适用于视频处理的自底向上 的视觉注意计算模型,以提取视频中的显著区域。 在初级特征提取方面,除了采用空间域的颜色和灰度特征信息之外,为适应视频 处理的要求,还加入了时间域上的运动特征信息。通过结合空间域与时间域上的特征 信息,使得构造的模型能够完整地描述视频中的显著信息,特别是使得包含运动信息 的显著区域能够被有效地提取出来。在特征融合和显著图生成方面,为了使生成的显 著图包含完整的运动信息以适应后续的人体动作检测,采用了一个加权的特征图整合 方法,即对空间与时间域上的特征图赋予不同的融合权值,加强时间域上的运动信息 在整体显著图中所占的比例,从而使得模型更加符合视频分析的要求。 ( 2 ) 在视频分析中,将视觉注意模型结合到人体动作检测的传统算法中,利用 视觉注意模型计算得到视频中包含运动的显著区域,并将该区域作为人体动作的一个 紧凑而完整的描述,进而进行动作检测,以提高算法的实时性和鲁棒性。 本文采用的传统人体检测算法是基于s h e c h t m a n 等人提出的基于时空梯度和子块 匹配算法1 4 。该算法通过将包含一定人体动作的小查询视频与包含多种动作的大视频 进行人体动作匹配度的相关性度量,从而实现人体动作检测。该算法不需要进行预先 的背景分割,也不需要涉及光流计算,而是采用了对视频中的块构造三维结构张量矩 阵的方法,通过分析该矩阵的秩得到视频块对之间的匹配度,进而将所有视频块对之 间的匹配值相加求平均得到视频段落之间的匹配度。这需要在两段视频的三维空间中 做逐点的相关性匹配操作,且每次匹配操作需要计算对应矩阵的特征值,这使得该算 法的耗时相当高,远远达不到实时性的要求。 针对该算法的在耗时方面的不足,本文将该算法结合了视觉注意计算模型,将匹 配计算集中在显著区域,避免计算资源浪费在不包含运动目标信息的非显著区域,从 而提高算法的速度,同时也提高对非显著区域噪声的鲁棒性。在具体的结合方法上, 本文还采用了多分辨率分析策略,由粗到精( c o a r s e t o f r e e ) 地对视频进行分析,进 一步提高算法的运算效率。 本文的贡献在于:1 ) 针对目前基于视频的视觉注意模型研究仍有待发掘的现状, 4 第一章前言 提出一个基于视频的结合时空特性的视觉注意计算模型,有效地模拟人眼视觉功能提 取出视频的显著区域,为各种视频分析提供一个可供结合应用的计算模型;2 ) 针对 视频分析算法存在的实时性不高、处理效率低等固有问题,立足人类视觉系统本身的 特性,提出一个结合视觉注意计算模型的人体动作检测算法,提高了算法处理效率并 增强了对噪声的鲁棒性,为提高视频分析处理能力提供了一条简单而有效的途径。 1 2 2 本文研究的主要创新点 本文研究了基于视觉注意的视频分析,并提出了基于视频的视觉注意计算模型和 结合视觉注意计算模型的人体动作检测算法,研究的重点和创新点在于: ( 1 ) 本文研究并实现了如何通过加入时域上的运动特征图将基于静止图像的视 觉注意模型扩展到三维的视频中。具体方法是将视频的三维结构划分成两个时空平 面,即水平时间( x - t ) 平面和垂直时间( ) ,f ) 平面,并采用计算对应平面的基于梯 度信息的结构张量矩阵获得对运动显著性的度量。 ( 2 ) 本文研究并实现了对应各个特征的显著图的融合,以适应动作检测的具体 应用。通过引入一个加权融合的方式,为不同的特征图赋予不同的加权值而得到最终 显著图。这样得到的显著区域能够更好反映视频中的运动目标信息,并对背景噪声具 备一定的鲁棒性。 ( 3 ) 本文研究并实现了将视觉注意模型结合到基于时空梯度和子块匹配的人体 动作检测算法中,并在整个检测过程中采用多分辨率分析,即由粗到精的匹配。通过 这种分层处理的方法使得算法的运算效率进一步提高。 1 3 本文的内容安排 本文的各章节的内容安排如下: 第一章前言。主要简要概述了人类视觉系统的视觉注意机制及以此为基础的视 觉注意计算模型,同时介绍了本文的研究内容和主要创新点。 第二章视觉注意机制及其计算模型。主要介绍了人类视觉系统以及其选择性注 意机制,阐述了基于视觉注意机制建立的各种计算模型的神经心理学、生理学基础, 并分析归纳了国内外关于视觉注意计算模型以及基于视觉注意的视频分析的研究现 状。同时介绍了一个经典的基于静止图像的视觉注意模型,作为第三章研究工作的一 5 中山大学硕士学位论文 个基础。 第三章基于视频的视觉注意模型。这一章主要扩展第二章中提到的基于图像的 视觉注意模型,提出了一个结合时空特征的基于视频视觉注意计算模型。 第四章结合视觉注意的视频分析。主要提出一种将视觉注意与人体动作检测相 结合的视频分析算法。 第五章实验结果与分析。这一章中主要将本文提出的基于视频的视觉注意计算 模型在提取视频显著区域方面和在人体动作检测中的实验结果进行了分析,通过对实 验结果数据的分析和讨论进一步验证了本文提出的算法的有效性。 第六章结语。对本文的研究所做的工作及创新性进行了归纳总结,并对未来研 究的改进方向作出展望。 6 第二章视觉注意机制及其计算模型 随着神经生理学、心理学和仿生学的发展,人类对自身的视觉系统有了更加深入 的认识,同时也为视觉注意计算模型的开发奠定了一定的理论基础。人类的视觉系统 ( h u m a nv i s u a ls y s t e m ,h v s ) 由视觉感官、视觉光感通路和多级视觉中枢等部分组 成。视觉信息在视网膜等视觉感官进行初级处理,然后在视觉光感的神经通路进行传 输,进而在由底层到高层的视觉皮层进行加工处理。这整个过程中,存在着极其复杂 的视觉感知、传输和多级处理策略。基于这些复杂而功能丰富的处理,人眼能够根据 视觉空间各种容易引起注意的信息如快速变化、运动等做出响应,将冗余信息丢弃, 从而大大提高了对复杂场景的快速认识理解能力。在计算机视觉领域中,为了构建与 人类视觉感知相近的视觉注意计算模型,需要经过以下三个步骤:1 ) 从视觉生理学 对人类视觉系统的研究出发,以视觉注意机制的神经生理学和心理学为依据,从机理 上模拟人类视觉系统的功能;2 ) 紧密结合计算机视觉领域中计算模型的要求,建立 模拟人类视觉信息处理过程的模型:3 ) 通过模拟得到的模型进一步结合计算机视觉 处理领域的其他研究成果形成整体的具体计算模型。 本章从神经生理学出发介绍了人类视觉系统及其选择性注意机制原理,从生物视 觉领域阐述计算机视觉领域可借鉴的依据,进而介绍一个经典的基于图像领域的视觉 注意计算模型。 2 1 人类视觉系统及其注意机制 2 1 1 人类视觉系统 人类的视觉系统是人类获取外界信息的重要感觉器官。7 0 8 0 的外界信息都是 由视觉系统获得。经过了漫长而复杂的进化过程,这个系统的功能已经发展到一个相 对完整的阶段。人类在观察和获取外界信息的时候,视觉信息是按照一定的通路在大 脑中传递,而大脑对这些信息通过复杂的机理进行处理和解释,使这些刺激具有明确 的物理意义,这其中经历了极其复杂的感知过程。在本章开始,我们先简要介绍人类 视觉系统的各部分及其在视觉感知中发挥功能作用。主要包括视觉信息传递和处理的 7 中山大学硕士学位论文 主要过程,人眼的构造,视觉通路及视觉信息的多层次并行处理等。 ( 1 ) 视觉信息处理和传递的基本过程 根据神经一t l , 理学和解剖学的研究表明,视觉信息是通过视觉系统及神经系统的各 个器官协调完成视觉信息的获取和传递5 儿6 1 。首先,人眼的角膜从外界场景获取光信 号并通过瞳孔进入眼球内部,在视网膜上完成光电信号转换和初级处理。其中,视网 膜感光细胞中的的柱状细胞( c o n e s ) 主要感应光照条件的变化,而锥状细胞( r o d s ) 则感应视觉信号中颜色的变化。神经节细胞( g a n g l i o nc e l l ,g c ) 中的m 细胞感应 的范围较广,主要接受轮廓和形状等宏观信息,而p 细胞的感应区域小,负责接受细 节和颜色等微观信息。然后,神经节细胞加工的神经信号,经过视交叉部分的交换神 经纤维后形成视束,传到视觉中枢的许多部位,包括丘脑外膝体( l a t e r a lg e n i c u l a t e n u c l e u s ,l g n ) 、四叠体上丘、顶盖前区和皮层等。最后,信息到达大脑的皮层细胞, 并按照细胞的复杂度由低级到高级,由简单到复杂的顺序进行处理,完成对视觉场景 的感知与理解。 ( 2 ) 人眼构造及其各个部分在视觉信息获取中的作用【6 j 人眼是一个前后直径大约为2 3 毫米的近似球状体,由眼前壁和眼球构成,眼前 壁的前方是具有屈光功能的角膜,它使得光线经过曲折后进入眼内。眼前壁的其他部 分包括巩固和保护眼球的巩膜、吸收散光及消除光线在眼球内部乱反射的脉络膜、控 制瞳孔扩大和缩小的虹膜以及调节晶体的睫状肌等。 视网膜位于眼球后壁,主要功能是接收外界光信号并通过感光细胞转化为生物电 信号,具有很强的信号采集和转换能力。在将神经视觉信号传递到高一级的视皮层之 前,它采用了非均匀采样、周边抑制等机制对视觉信号进行了处理。视网膜具有三层 生理结构,包括光感受器层、双极性细胞层和节细胞层。光感受器细胞分为锥状细胞 和杆状细胞两类,其主要功能是将外界场景的光刺激转化为感受器细胞的膜电位的极 化,从而完成光电转换。两种细胞的各自擅长的本领不同,锥状细胞的光敏感度低, 但其包含了视紫蓝质分子,具备分辨颜色的能力。杆状细胞对弱光敏感,但不能分辨 出颜色。锥状和杆状细胞与双极性细胞发生突触联系,进而再和神经节细胞层中的神 经节细胞联系。 视网膜呈现出明显的中央和周边区域。中央区为以视轴为中心,直径约6 毫米的 区域,中央有一小凹,面积约1 平方毫米,其中有高密度的锥体细胞。随着离开中央 8 第二章视觉注意机制及其计算模型 凹,锥体细胞数目呈指数急剧减少而杆体细胞急剧增加。中央凹是产生最清晰视觉的 地方,而杆体细胞则主要在黑暗环境下起作用,同时还负责觉察物体的运动。这种生 理结构使得生物的视觉系统能对外界的光信号进行近似的非线性对数压缩采样,大大 降低了后续视觉处理的运算量,也是本文讨论的视觉注意机制的重要生理基础。 由于视网膜上的光感受细胞能进行光电转换并输出神经信号来影响其他神经细 胞,那么,任何一种神经细胞的输出都依赖于视网膜上的许多光感受器。我们将直接 或间接影响某一特定神经细胞的光感受器的细胞全体称为该神经细胞的感受野 ( r e c e p t i v ef i e l d ) ,即感受野包含了视野中产生刺激的特定区域。 不同的视网膜神经细胞的感受野并不相同,主要存在以下几种感受野 7 1 1 8 1 :1 ) 锥 体细胞感受野。锥体细胞通过细胞间的自适应耦合以及水平细胞的反馈机制自适应地 调整感受野的大小,随着周围局部亮度的增加而使视敏度增加;2 ) 水平细胞的感受 野。水平细胞的感受野大小随着局部亮度的增加而缩小,与锥体细胞相类似;3 ) 双 极性细胞的感受野,双极性细胞感受野的周围部分由水平细胞的输出构成,而中央部 分由锥体细胞的输出构成,进而构成了双极性细胞层同心圆形的中央一周边 ( c e n t e r - s u r r o u n d ) 感受野结构。通过这种组成方式可以有效地形成中央区和周边区 信号的差分处理,从而使得双极细胞对局部亮度的变化敏感;4 ) 内从状细胞( p x ) 的感受野。i p x 从双极细胞接受输入并将输出送给水平细胞以调整其传导性。其细胞 反馈机制在高时空对比度的区域调节双极细胞和神经节细胞感受野周边区的大小,从 而调整视网膜的时空敏感性。它对高空间对比度( 边缘、角点) 和高时间对比度( 运 动、闪烁) 等区域比较敏感;5 ) 神经节细胞和侧膝体的感受野。神经节细胞的感受 野在反应敏感性的空间分布是一个同心圆,即感受野一般是由中心的兴奋区域和周边 的抑制区域构成的同心圆结构,这类感受野称为o n 型感受野。当较小的光电单独刺 激其o n 型感受野的中央兴奋区时,神经细胞的响应强度增加,而当受光面积逐渐增 大到达抑制区时,细胞的响应强度则开始下降。反之,存在一种中心抑制而周边兴奋 的o f f 感受野,其响应方式也相反。此外,同心圆拮抗式的感受野模型也是神经节细 胞感受野的模型,它由一个兴奋作用强的中心机制和一个作用较弱但面积较大的抑制 性周边机制构成。这两个具有拮抗作用的机制,都具有如高斯分布的性质,但中心机 制具有更高的峰敏感度,而且两者方向相反,有相减的关系,故这种模型又称为高斯 差分模型( d i f f e r e n c eo fg a u s s i a n s ,d o g ) 。这个模型也是视觉注意计算模型中大量 9 中山大学硕士学位论文 采用的感受野模型。 ( 3 ) 视皮层的构造及其功能 视皮层的构造及其感受野则比视网膜的情况更加复杂,功能也更加丰富和灵活。 视皮层包含低级到高级的多种细胞,由一层神经元组成,其中包括多个功能丰富,相 互间存在反馈的区域。视觉皮层中第一个接受视觉输入的是主皮层区,在灵长目类动 物中也称为v 1 区,主要负责创建视觉空间的三维映射,并提取场景中的形状、颜色 和方向等信息,具有方向性、局部性和带通性的特征。v 2 区对颜色和运动信息进行 进一步的处理,并在较大的尺度上对v 1 区产生的局部对比度信息进行计算从而检测 出全局的形状轮廓。v 4 区与颜色和复杂形状的形成有关。下颢叶皮层( n f e r i o r t e m p o r a lc o r t e x ) 区实现物体识别的功能。中颞叶皮层( m i d d l et e m p o r a lc o r t e x ) 区 从m 型神经节细胞接收输入,负责全局运动信息的分析。后顶叶皮层( p o s t e r i o r t e m p o r a lc o r t e x ) 区主要是进行物体定位和分析物体的空间关系。 视皮层的感受野相对视网膜细胞而言是比较复杂的,目前对v 1 区的感受野研究 较深。v 1 区的感受特性与侧膝体的细胞相似,为同心圆结构,但对光点刺激没有反 应,而是对具有一定形状的刺激敏感,其最佳刺激是具备定朝向和宽带的光棒。 v 1 中的简单细胞有很好的朝向选择性,其响应与刺激的朝向关系存在定的曲线关 系。另外,还有一些由简单细胞叠加而成复杂细胞,它们能感受一定朝向和宽度的光 刺激,且对外界刺激的微小变化并不敏感,具有较好的连续性。这种特性的感受野对 检测场景目标的恒定特性比较有利【7 1 。其他一些细胞对网状的刺激有明显的响应,这 一机制也被可被利用来进行图像边缘的提取。 2 1 2 人类视觉认知过程的信息选择功能 面对复杂而丰富的场景信息,外界环境对人类视觉系统的刺激是持续而无限的, 这与人类视觉信息的处理能力的有限是一对固有的矛盾。面对这种情况,信息选择机 制是保证在认知过程维持较高效率的关键环节,其核心也是本文讨论的视觉注意机 制。通过有效的信息选择,视觉系统将其中重要的信息提供给下一步处理的视知觉过 程,而舍弃其他的冗余信息,使视觉认知过程具备选择性和主动性。 由前一小节2 1 1 中对人类视觉系统各器官和细胞功能的概述,可以看出不同视 觉性质的信息按照不同的神经通道由不同的皮层细胞进行了分析处理。视觉信息的处 1 0 第二章视觉注意机制及其计算模型 理过程中既有多个器官串行处理的过程,也有不同功能细胞并行处理的过程,最终在 大脑中形成整体视知觉。 ( 1 ) 视觉信息的多层串行处理机制 视网膜中的三层细胞( 感受器、双极性和神经节细胞) 层各层串行处理信息,其 信息的传递方向与光线的传递反向是相反的。神经节细胞形成视神经并经过视交叉和 视束到达丘体,进而在外膝体中进行并行的信息处理。 ( 2 ) 视觉信息的并行处理机制 视觉信息在进行并行处理时主要涉及以下几个通道:1 ) 感受野的空间拮抗。其 并行处理是通过x 细胞( 感受野的兴奋和抑制作用可线性相加) 和y 细胞( 非线性) 分别进行空间和时间信息的传递和处理;2 ) o n 型和o f f 型通道的分离处理;3 ) 左 右眼通道的并行处理。视皮层中的大多数细胞对某个特定眼睛输入的反应并不相同, 基于此点的双眼视差正是立体视觉产生的基础;4 ) 空间频率通道的并行处理。不同 区域细胞对高低不同的空间频率信息的处理分析是有差异的。如v 1 区中具有高空间 频率选择功能的细胞集中在中央,而具有低空间频率的则对应于周边区域。5 ) 颜色 信息的并行处理通道。在视网膜的感受器细胞中,就有三种对应不同光谱敏感度的锥 体细胞分别处理红、绿、蓝三种颜色信息;6 ) 空间方位信息并行处理通道。在视网 膜的神经节、丘体中的外膝体神经元和视皮层等中,均存在着对方向敏感的细胞;7 ) 运动信息并行处理通道。在视网膜的x 和y 型神经节细胞中,均有着明显的方向敏 感性。 ( 3 ) 经过信息选择的视觉信息集成和反馈 对于视觉信息的集成,既存在着平行又有分级处理的过程。研究表明视皮层信息 存在着多级同步集成的机制,即能在几个不同水平上相互反馈作用来多级处理复杂的 视觉信息,使得人类能够感知周为丰富多彩的视觉世界。总而言之,大脑内的整体视 知觉便是各个视皮层和联系通路同时活动的产物。 2 1 3 人类视觉注意机制 注意这一概念最初是在心理学领域被提出而受到广泛的重视。而随着神经生理学 研究的发展,研究表明视觉的选择性注意机制是人类视觉的一项重要的心理调节机 制,是一种能引导人类目光的注视点转移到场景中感兴趣的目标的机制,是将视觉认 中山大学硕士学位论文 知过程中的并行和串行处理相联系的一座桥梁。 灵长目类动物的视觉系统经过漫长的进化过程,具备了处理海量信息的能力,将 场景信息的接收与认识过程分解为串行处理的过程,只允许感兴趣的信息进入记忆系 统。在视觉的感知过程中,注意是指由大脑对信息进行选择和过滤,是一种有意识的 对某种信息进行加工的能力。从心理上而言,视觉注意使得重要的信息能进入到大脑 的记忆系统中,是大脑信息加工的重要机制;从生理上而言,视觉注意也是灵长目类 动物长期在自然界中进化而形成,是在觅食、避敌等生存的基本活动中形成的;从当 代的信息处理和计算机视觉研究而言,建立视觉注意计算模型是模仿生物的选择性注 意机制对有限的计算机资源进行选择性分配和使用,是解决目前计算机视觉领域遇到 的实时性不高等计算效率问题的重要方法之一。 人类的视觉注意机制对视觉信息的处理是与眼动密切相关的。在观察日常场景的 时候,眼球的扫视每秒钟达到5 次左右。正是通过频繁的眼动扫视,使得注意能在各 个感兴趣的显著区域逐个转移。而对于眼动的根本原因,在生理上普遍被认为是因为 眼动和注意转移是由大脑中的许多相通区域所控制,且具有两种不同方向的控制机 制:基于任务驱动的自上而下的控制和基于数据驱动的自底而上的控制。 在视觉注意机制的理论模型中,影响最大的一个是由t r e i s m a n 和g e l a d e 在1 9 8 0 年提出的特征整合模型【9 】,将视觉信息的处理过程划分为预注意和注意两个阶段,通 过这两个阶段的处理得到被注意的目标。在无意识参与的预注意阶段,各种初级特征 ( 包括方向、反差、倾斜度和颜色等) 被并行地提取并同时进行各自独立的表示。这 个阶段的各个特征形成各自的特征图( f e a t u r em a p ) ,且可以并行分析,处理速度快 且各个特征之间不相互干扰。在注意阶段,又称为特征整合阶段。这个阶段过程类似 于“粘胶”,将原始的、彼此分开的特征整合为一个目标,其处理过程相比前一个阶段 慢。 特征整合模型基于前人的神经心理学和生理学对灵长目类生物视觉注意机制的 研究,也得到了计算机视觉领域中许多研究学者的认同。一个基于这个理论模型的静 止图像视觉注意计算模型在1 9 9 8 年由i t t i 等人提出,此计算模型也是现今大量基于 数据驱动( b o t t o m u p ) 的视觉注意计算模型的研究基础,本文将在2 3 小节对该模型 进行分析。 1 2 第二章视觉注意机制及其计算模型 2 2 视觉注意计算模型及其应用的研究现状 2 2 1 视觉注意模型的研究现状 目前,研究学者提出的视觉注意计算模型主要的区分在于是基于数据驱动的、自 底向上的( b o t t o m u p ) 还是基于任务驱动、自上而下的( t o p d o w n ) 。这两种方式分 别对应于对输入信息的不同加工方式。两者是视觉系统中两个不同方向的处理过程, 存在不同的侧重点,两者相辅相成统一而成视觉系统的注意机制。 ( 1 ) 基于数据驱动,自底向上( b o t t o m u p ) 的视觉注意模型 这种加工模型即是仅通过输入的低级视觉特征刺激而计算视觉注意的显著性,并 不加入外部的任务指导驱动。通常先针对较小的知觉单元进行分析,而后再进行较大 的知觉单元,通过一连串的信息处理而实现对现实视觉刺激的解释。在诸如视频、图 像检索之类的视觉信息处理任务中,通常需要在没有任何先验信息的条件下建立对图 像的描述。此时基于数据驱动的视觉注意计算模型就能根据场景中的刺激对场景的不 同区域分配不同的显著性,从而将计算资源按照显著性大小进行分配,使得处理更加 迅速有效。这种模型有两个明显的特征:1 ) 数据驱动,完全基于低级的数据而没有 主观成分:2 ) 自动的多通道并行处理。 ( 2 ) 基于任务驱动,由上而下( t o p d o w n ) 的视觉注意模型 基于任务驱动的视觉注意模型则是根据具体的任务或者外部命令,将视觉系统的 注意点指向与具体任务相关的区域。该模型一般需要具备具体任务的先验信息,首先 针对处理的任务建立一个目标模型,然后在该模型的指导下通过各种匹配方法找到期 望目标,进一步在目标周围进行局部处理。在降低运算复杂度的意义上,基于任务驱 动的视
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工方案编制指南汇编
- 2025年初级营养师笔试模拟试题与答案
- 2025年农村物流岗位知识测试题库及答案
- 2025年信息技术招聘考试预测题
- 租房加阁楼设计合同范本
- 2025年初级数据分析师业务分析预测题集
- 2025年外贸行业招聘面试外贸英语实战演练与题目
- 收售维修摊铺机合同范本
- 提供铝合金护栏合同范本
- 2025年公办中小学音乐教师招聘面试指南及模拟题解析
- 特种设备安全管理实施细则
- 托管运营合同范文
- 显微根管治疗的护理配合
- 电气工程专业导论
- 汽车机械基础课件 项目三 汽车构件静力学分析
- 浙江省七彩阳光联盟2024-2025学年高三上学期8月返校联考语文试题 含解析
- 唐山市2024-2025学年度高三年级摸底演练 英语试卷(含答案)
- 丰巢快递柜场地租赁协议(2024版)
- 人美版八年级上册初中美术全册教案
- 平安车辆保险合同电子版
- 数据挖掘与机器学习全套教学课件
评论
0/150
提交评论