




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)视觉选择性注意机制的研究及其在图像压缩中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 主动视觉是人类视觉研究的热点和发展方向,主动视觉核心内容是:为了完 成给定视觉任务,如何主动、智能、有选择地来获取视觉信息;从计算观点来说, 就是建立视觉选择性注意机制的计算模型,对图像数据进行显著性度量。 在面向图像信息处理的视觉选择性注意机制的研究中主要存在三个方面的 问题:如何从总体上设计一个实用的引入视觉注意机制的图像信息处理方法? 如 何从图像中找到符合人类视觉机制的注意焦点? 如何将视觉注意机制应用于计 算机图像信息处理之中? 本文主要针对这些问题展开研究,并取得了一些有价值 的研究成果。本文主要研究内容包括: ( 1 ) 面向视频图像序列的视觉注意计算模型的研究。针对动态视觉场景,建 立了一个面向视频图像序列的基于目标跟踪视觉注意计算模型。本文首先指出了 i 钍i 模型在动态场景中速度慢、计算复杂,难以满足实时性的要求;然后提出了 一种基于目标跟踪的视觉注意计算模型,利用视频图像序列相邻帧之间的相似 性,通过加权颜色直方图,以最大匹配度作为预测模型,得到下一帧注意焦点的 位置。利用对注意焦点的跟踪,从而了降低计算量,更快地实现注意焦点的实时 监测。 ( 2 ) 融合深度信息的视觉注意计算模型研究。本文针对隐式注意,建立了一 个自下而上融合深度信息的视觉注意计算模型。根据神经科学的研究,本文选取 亮度、方向、颜色以及深度信息四种特征。在基于图像分割的自适应立体匹配基 础上提取深度特征,与亮度、方向、颜色特征相结合,实现空间显著性度量,并 采用侧抑机制和w t a 机制得到注意焦点。融合深度信息的视觉注意计算模型能 更好的反映空间立体视觉信息对注意的影响,使模型的计算结果能更加的符合人 类视觉。 ( 3 ) 将融合深度信息的视觉注意计算模型应用于图像压缩之中。为了提取自 然图像中的主要视觉信息以便更好地对图像进行压缩,本文对如何利用视觉注意 计算模型引导图像压缩进行了研究。首先利用融合深度信息的视觉注意计算模型 计算图像中的感兴趣区域,然后用j p e g 2 0 0 0 算法对感兴趣区域和背景区域采用 不同的压缩比进行压缩,突出了感兴趣区域。实验证明本文算法的压缩率高于 j p e g 2 0 0 0 算法;同时保证了图像良好的视觉效果。 视觉选择性注意机制的研究及其在图像压缩中的应用 将论文中提出的各种方法和算法分别应用于多种类型的图像,都获得了较为 满意的结果。 关键词:视觉选择性注意;目标跟踪;深度信息;图像压缩 a b s t r a c t a b s t r a c t a c t i v ev i s i o ni st h eh o tf i e l da n dt h ed e v e l o p m e n t a ld i r e c t i o no fm a c h i n ev i s i o n , i nw h i c ht h ek e yp r o b l e mi sh o wt oa c q u i r ev i s u a li n f o r m a t i o na c t i v e l y , i n t e l l i g e n t l y a n ds e l e c t i v e l yu n d e rag i v e nv i s u a lt a s k f r o mt h ev i e w p o i n to f c o m p u t a t i o n a l ,i ti st o i m p l e m e n tac o m p u t a t i o n a lm o d e lo fv i s u a ls e l e c t i v ea t t e n t i o nm e c h a n i s mt oc o m p u t e t h es a l i e n c yo fi m a g ed a t a ,i n c r e a s et h ee f f e c t i v e n e s so fc o m p u t e ri m a g ei n f o r m a t i o n p r o c e s s i n g t h e r ea r et h r e ep r i m a r ya s p e c t si nt h er e s e a r c ho fs e l e c t i v ea t t e n t i o nm e c h a n i s m f o ri m a g ei n f o r m a t i o np r o c e s s i n g :h o wt oc o n s t r u c tap r a c t i c a lf r a m e w o r kf o rt h e s e l e c t i v ea t t e n t i o nm e c h a n i s m ? h o wt oa u t o m a t i c a l l yi d e n t i f yt h ef o c u so fa t t e n t i o n t h a tg e n e r a l l yi st h er e g i o no fi n t e r e s t 7h o wt op e r f o r mt h ec u r r e n ta p p l i c a t i o n ? t h i s d i s s e r t a t i o ns t u d i e st h e s ea s p e c t si nd e t a i l s ,a n ds o m ev a l u a b l er e s u l t sa l ea c h i e v e d , i n c l u d i n gt h ef o l l o w i n gr e s e a r c hc o n t e n t s : f i r s t l y , v i s u a la t t e n t i o nc o m p u t a t i o n a lm o d e lb a s e do nt r a c k i n gt a r g e ti nt h e v i d e o s e q u e n c e si s s t u d i e d i nt h ed y n a m i ce n v i r o n m e n t s ,av i s u a la t t e n t i o n c o m p u t a t i o n a lm o d e lb a s e do nt r a c k i n gt a r g e ti nt h ev i d e os e q u e n c e si sc o n s t r u c t e d t h i st h e s i sa n a l y s e st h ei t t i sm o d e lh a st h ec o m p l e xa n ds l o wc o m p u t a t i o ni nt h e d y n a m i ce n v i r o n m e n t s ,a n di ti sn o te f f e c t i v ei nr e a l t i m ep r o c e s s i n g 。t h e nt h et h e s i s u s e st h es i m i l a r i t yb e t w e e nt h ea d j a c e n tf r a m e s ,e s t a b l i s h e st h ec o l o rh i s t o g r a m , s e l e c t st h em a x i m u ms i m i l a r i t ya sp r e d i c a b l em o d e l ,a n dg e t sp o s i t i o no ft h ef o c u so f a t t e n t i o ni nt h en e x tf r a m e s e c o n d l y , ac o m p u t a t i o n a lm o d e lo fv i s u a ls e l e c t i v e a t t e n t i o nd e p l o y e db yd e p t h i n f o r m a t i o ni ss t u d i e d t h em o d e lp r e s e n t e di nt h et h e s i sa i m sa tt h eb o t t o m - u p a s p e c t o fc o v e r ta t t e n t i o nw h i c h d e p l o yb yd e p t hi n f o r m a t i o n b a s e do nt h er e s e a r c ho f n e u r - o s c i e n c eo fv i s u a la t t e n t i o n ,i n t e n s i t y , c o l o r , o r i e n t a t i o na n dd e p t hi n f o r m a t i o na r eu s e da st h ef e a t u r e sa t t r a c t e da t t e n t i o ni nt h i st h e s i s i tu s e si t t i sm o d e lt oc o m p u t ec o l o r , i n t e n s i t mo r i e n t a t i o n t h e nb a s e do nt h es e g m e n t - b a s e ds t e r e om a t c h i n gw h i c hu s i n g b e l i e fp r o p a g a t i o na n da s e l f - a d a p t i n gd i s s i m i l a r i t ym e a s u r e ,t h ed e p t hi n f o r m a t i o ni s c o m p u t e d a tl a s t ,i n t e n s i t y , c o l o r , o r i e n t a t i o na n dd e p t hi n f o r m a t i o na r ed e p l o y e da n d c r e a t et h es a l i e n c ym a p t h es a l i e n c ym a pi sd e p l o y e dt ot h ef o a t h r o u g hi n h i b i t i o n o fr e t u r na n dw t am e c h a n i s m f i n a l l y , ac o m p u t a t i o n a lm o d e lo fv i s u a ls e l e c t i v e a t t e n t i o nd e p l o y e db yd e p t h 视觉选择性注意机制的研究及其在图像压缩中的应用 i n f o r m a t i o na n di m a g ec o m p r e s s i o ni ss t u d i e d i no r d e rt oc o m p r e s si m a g e sm o r e e f f i c i e n t l y , t h et h e s i sd i s c u s s e sh o w t oc o m b i n et h em o d e la n di m a g ec o m p r e s s i o n a s a l i e n c yb a s e db o t t o m - u pv i s u a la t t e n t i o nc o m p u t a t i o n a lm o d e ld e p l o y e db yd e p t h i n f o r m a t i o nw h i c hi sm o t i v a t e db yv i s u a lp h y s i o l o g i c a la n dp s y c h o p h y s i c a le x p e r i m e n t a lr e s u l t si su s e d ,e x t r a c t st h er o i t h e ni ti se n c o d i n gb a s e do nt h ej p e g 2 0 0 0a l g - o r i t h m t h er o io ft h ei m a g ei sc o m p r e s s e dw i t hal o wc o m p r e s s i o nr a t i oa n dt h e b a c k g r o u n dw i t hah i g ho n e t h ei m a g e sc o m p r e s s e dh a v ep e r c e p t u a l l yh i 曲q u a l i t y t h ep r o p o s e da p p r o a c h e sa n da l g o r i t h m sa lea p p l i e dt ot h ev a r i o u si m a g e s r e s p e c t i v e l y , a n dt h ee x p e r i m e n t a lr e s u l t sa r ep r o s p e c t i v e k e yw o r d s : v i s u a ls e l e c t i v ea t t e n t i o n ;t r a c k i n gt a r g e t ;d e p t hi n f o r m a t i o n ;i m a g e c o m p r e s s i o n 厦门大学学位论文原创性j 声明 本人呈交的学位论文是本人在导师指导下取得的研究成果。本人 在论文写作中参考其他个人或集体已经发表的研究成果,均在文中以 适当方式明确标明,并符合法律规范和厦门大学研究生学术活动规 范( 试行) 。 另外,该学位论文为() 课题( 组) 研究成果,获得() 课题( 组) 经费或实验室的资 助,在() 实验室完成。( 请在以上括号内填写 课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作 特别声明。) 声明人( 签名) :穆羞辱 ) 尹9 年i atb ) 纱尸年6 月么日 厦门大学学位论文著作权使用声明 本人同意厦门大学根据中华人民共和国学位条例暂行实施办 法等规定保留和使用此学位论文,并向主管部门或其指定机构送交 论文( 包括纸质版和电子版) ,允许论文进入厦门大学图书馆及其数 据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕 士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编 出版,采用影印、缩印或者其他方式合理复制。 本学位论文属于: () 1 、经厦门大学保密委审查核定的保密论文,于年 月日解密,解密后适用上述授权。 () 2 、不保密,适用上述授权。 ( 请在以上相应括号内打“ 或填上相应内容。保密学位论文 应是已经校保密委审定过的,方可打“ ,未经审批均为公开论文。 此声明栏不填写的,默认为公开论文,均适用上述授权。) 声明人( 签名) :审兰立 年j 只b 第一章绪论 1 1 研究的目的与意义 第一章绪论 对灵长目类动物视觉的仿生是机器视觉研究的重要内容之一。仿生通常具有 功能、结构、机理以及材料仿生四个层次。机器视觉( m a c h i n e v i s i o n ,m v ) ,就 是让机器会看,“通过任何办法对2 d 数据进行理解”,去获知“什么东西在哪 里”的信息,从而指导行动,完成视觉任务,又称计算机视觉( c o m p u t e r v i s i o n , c v ) 或图像分析和理解( i m a g ea n a l y s i sa n du n d e x s t a n d i n g ) ,它是任何智能系统必 不可少的一个信息获取频道【i 。1 ”。视频2 d 图像序列对人和对计算机而言是完全 不同的,见图1 1 所示( a ) 和( b ) 含有相同的图像信息,( a ) 是对人眼而言的表示, 通过它,人可以获得语义上的对图像内容的解释,这种解释可以是不同语义抽象 层次的,它与视觉任务相关,如图像中是否有人脸,或某个人的脸是否出现在图 像中等。那么人的视觉系统是如何做到的。即当我们看到图像时,脑中的神经元 及其网络到底做了什么使得我们可以解释图像? 是对计算机而言的表示,机 器视觉就是通过“一系列工程的或仿生的算法处理”也得到与人相似的解释,那 么如何才能做到呢? 黑霹 0 嘞鸭洲 、 f a )( b 1 图1 1l e a b 图像的两种表示:( a ) 对人眼而言,( ”对计算机而言 露 视觉选择性注意机制的研究及其在图像压缩中的应用 这种对人而言是很容易的事,让机器去做却是十分困难,这是机器视觉面临 的重大挑战【i - 8 , 1 0 , 1 1 】。机器视觉的最终目的,从狭义方面来说,是让计算机通过一 幅或几幅甚至序列2 d 图像对场景做出对观察者有意义的解释和描述,从广义上 讲,还有基于这些解释和描述并根据周围环境和观察者的意愿制定出行为规划。 达到这些目的基本前提是从图像中进行视觉物体识别( v i s u a lo b j e c t r e c o g n i t i o n ) t 1 。”】。目前主要有两类研究方法:( 1 ) 仿生学法,即参照人类视觉系统 的结构原理,以神经生理学、心理学和认知科学对生物视觉系统的研究为基础, 从结构仿生、机理仿生乃至材料仿生的角度来建立相应的处理模块完成类似的功 能;( 2 ) i 程方法,即从分析人类视觉工程的功能入手,而仅仅考虑系统的输入 输出,并采用任何现有的可信的手段实现系统功甜卜1 1 】。 传统通用视觉模型( m a r 视觉计算理论【2 1 ) 认为先进行3 d 重建,然后去识别和 理解,其模型是自下而上的、被动的、过分着重于视觉信息的表示问题,而忽略 了视觉信息的获取和处理过程,尤其忽略了人在获取视觉信息时的主动性和选择 性【1 - 8 , 1 4 - 1 7 】。g i b s o n 曾指出,感知是一种行动( a c t i o n ) ,而不仅仅是一种被动式的 反应( r e s p o n s e ) ,生物视觉系统的认知过程是一种复杂的与外界交互作用的主动 性过程,灵长目类动物对景物的感知具有鲜明的主动性和目的性,所感知的内容 与具体的视觉任务紧密相关:通常我们只对注视着的图像中的某个物体感兴趣, 而忽略图像中的其他信息,即隐式的注意;同时我们通过眼动、头部甚至身体的 移动在场景中去获取感兴趣的有意义的信息,即显式的注意。实际上,人眼视网 膜图像本身就是非均匀采样的,中央密集外周疏密,并且视觉系统通常说要完成 的任务不外乎是在复杂背景中进行导航和识别,也就是说视觉是在一定任务下的 主动过程,即主动视觉( a c t i v ev i s i o n ) 或仿生视觉( a n i m a t ev i s i o n ) ,这是目前机器 视觉发展方向和热点,它的核心就是视觉选择性注意机制。1 9 8 5 年b a j c s y 定义 a c t i v ev i s i o n 为:“主动视觉可以理解为将智能控制策略应用于数据采集的过程, 该过程将依赖于机器人对当前状况的环境数据的解释以及当前环境所出现物体 的识别程度【1 5 】。 1 9 9 1 年b a l l a r d 定义a n i m a t ev i s i o n 为“仿生视觉系统是指通 过主动调节摄像机来对物理刺激做出反应,即它是有指向性的来获取传感信息 【1 6 】 。核心都是如何实现主动、智能、有选择地来获取视觉信息,也就是要从机 理上仿生生物视觉的主动性。对图1 1 ( a ) 中的l e a n 图像,我们感兴趣往往就是其 脸部,也就是说只有这一部分的信息是后期处理需要的,其他的可以忽略。那么 2 第一章绪论 如何让机器知道图像中到底哪部分信息是有意义的( 即数据驱动的,d a t ad r i v e n ) 和我们感兴趣的( 即任务相关的,t a s kd e p e n d e n t ) ,也就是说如何度量图像的自下 而上( b o t t o m - u p ) 与自上而下( t o p d o w n ) 的显著性( s a l i e n c y ) ? 主动视觉研究的一 个核心内容就是探讨如何去实现选择性注意机制的计算模型。 灵长目类动物之所以能很容易的完成对场景的理解,是因为其视觉系统是在 与大自然的交互过程中经过漫长而又复杂的演化发展来的。通常生物视觉系统的 演化和发展会收到三方面的驱动【1 8 2 3 】:( 1 ) 系统所必须完成的任务,即自上而下 的先验知识或先验模型。般从功能角度而言,视觉系统就是实现“什么东西放 在哪里? ,包括视觉感知和视觉认知;( 2 ) 系统中神经元的计算能力与不足。 从信息表示角度而言,视觉系统要对视觉信息进行有效表示和编码;( 3 ) 系统所 处的外部环境,即自下而上的客观场景的统计特性以及成像条件所引入的图像与 场景之间的映射关系。这三点也是我们在设计一个机器视觉系统时所必须考虑 的,其中人们针对( 1 ) ( 2 ) 研究较多,( 3 ) 相对来说研究较少。近几年来人们对( 3 ) 也 展开了积极的研究,一个基本的出发点是利用信息论来搭起外部场景的统计特性 与生物视觉系统的有效编码的桥梁,本文着重考虑动态场景及图像中的深度信息 问题。在动态场景下,物体的运动所带来的对复杂计算、光照条件、遮挡以及人 的选择性视觉注意的影响;所谓深度信息就是研究如何从左右两个摄像机所得到 的两幅视觉图像中获取场景中物体的三维距离,其结果表现为视差图,经过进一 步处理可以得到景物的三维空间信息实现二维到三维空间的重构,从而观察物体 距离的远近。深度信息本身就体现显著性,视觉选择性注意选择的不应该只是图 像中的一个区域,应该还包含选择当前被选区域的深度信息。 本论文的研究工作针对如何建立视觉选择性注意机制的计算模型展开,同时 基于以上的考虑,分别展开对场景、深度信息以及视觉选择性注意应用等视觉问 题的研究。 1 2 视觉选择性注意机制计算模型研究现状 对视觉选择性注意机制,目前人们多数研究的是如何建立隐式注意的自下而 上的计算模型,这是因为:显式注意更加复杂,涉及到更多目前还未知的东西, 隐式注意相对来有更多的实验数据和认知模型可以参考;引导注意的自上而下因 3 视觉选择性注意机制的研究及其在图像压缩中的应用 素主要来自视觉任务,而视觉任务是千变万化的,通常表现为知识,但对知识, 目前还没有很好的描述模型,而是具体问题具体对待,所以近年来人们更多的研 究自下而上方面。一般而言,设计任何一个视觉注意的计算模型,首先都要涉及 到以下五个方面 4 0 , 4 1 】: ( 1 ) 确定模型中注意是否与视觉物体识别相交互 在生物视觉系统中,注意所在的“w h e r e 通道和识别所在的“w h a t ”通道 之间有着复杂的相互关系,注意和识别是密不可分的。但目前这两者交互的机理 还远远不为人们所了解,所以在这个问题上,大多数都是建立一个自下而上的模 型,一般神经科学背景的人都不考虑识别,多数是为了让模型能仿真视觉搜索的 实验结果;而模式识别背景的人都是先借鉴一种注意模型,获得当前注视点后, 再采用各种识别模型。其结果是:在预注意阶段所进行的各种特征提取计算往往 对识别没有作用,或没有有效利用。 ( 2 ) 确定模型是针对隐式注意还是显式注意而建立 隐式注意下输入图像不变,显式注意中输入图像会改变,从而使得在以下 ( 3 ) 、( 4 ) 和( 5 ) 步中所进行的计算要随着输入图像改变而重复,增加了很大的计算 量,并且不同输入图像所产生的结果间如何交互的机理也不清楚。目前的模型都 是针对隐式注意。 ( 3 ) 预注意阶段( p r e a t t e n t i v es t a g e ) 这是任何计算模型实现时的第一个模块,主要进行各种早期视觉特征计算, 那么到底哪些特征自下而上的引导注意呢? 研究表明既可以是一些基本的特征, 如目前己经确定的有【划:颜色、运动、方向以及深度;也可以是特征的组合,如 2 d 图像或3 d 场景中的物体,甚至还可以是学习得到的特征。这些视觉特征在预 注意阶段是按并行方式在整个图像上进行计算,不同的特征对注意引导的作用依 赖于它们在图像中的对比度,然后通过竞争来体现 6 2 - 6 5 】。 ( 4 ) 显著图生成( s a l i e n c y - m a pg e n e r a t i o n ) 在预注意阶段,各种视觉特征被计算出来,那么如何利用这些计算结果来引 导视觉注意呢? 现有的模型几乎都是使用了基于显著 ( s a l i e n c ym a p ) 或称主图 ( m a s t e r m a p ) 的方式,这一方法最早是由k o c h 与u l l m a n 提出的。所谓显著图,就 是一幅和原始图像大小相同的二维“图像,其中的每个象素值表示原图像对应 点的显著性大小。现有模型之间的不同之处正是在于如何由各种早期视觉特征来 4 第一章绪论 融合得到显著图,这是一个模型的核心和关键之处。 ( 5 ) “下一步向哪看”的控制策略 在得到显著图后,通常选取其最大值点为首次注视点,那么下一步看哪呢? 通过认知实验可知,它取决两点:一是对当前注视点的识别结果;二是一旦某个 物体被注视过了,那么它的显著性会被抑制,即回抑制机s o ( i n h i b i t i o no f r e t u r n ) 。 对现有大多数模型来说,它们都是自下而上的对注意进行计算,不包含识别模块, 所以通常根据回抑制机制,认为一旦被注视过,则其显著性降为零,使用一个“胜 者为王的策略在显著图中转移。同时这里还要考虑:如何去选取注视区域的大 小和形状? 通常基于空间观点的模型是用一个预定义大小的圆来表示注视区域, 基于物体观点的模型当然是想选取一个有意义的“知觉物体”,但实现起来比较 困难。另一种解决方法是【6 5 】:将注视分为注视视角、注视区域物体和注视点。 进一步考虑,显著图其实应该是动态的,每次注视过后,显著图会发生改变,也 就是说注视要对前期的视觉特征提取以及其融合的策略产生反馈,但这样会带来 很大的计算量,或者需要找一种更有效的计算显著图的策略,现有模型中都没有 考虑,显著图都是静态的。 从以上五点可知,注意计算模型通常包括两大模块:早期视觉特征提取与显 著图生成模块,和注视区域物体选取与转移模块,分别对应预注意阶段和注意 阶段。显著图的生成是计算模型的核心,目前有四类建立计算模型的思路: ( 1 ) 基于空间观点和基于特征整合模型的思路【4 0 4 1 a s , 4 9 , 6 6 视觉注意的第一个计算模型是由k o c h 和u l l m a n 在1 9 8 5 年提出的,显著图的 概念就是由他们在那时提出,其模型利用颜色、方向特征信息构造出一组特征图, 由各种特征图融合的显著图来引导视觉注意,采用侧抑制机制和w t a 机制来实 现注意点转移,其研究当时主要还是理论上的,只对简单的人工图像进行仿真 3 4 , 3 5 o 龙甫荟在其1 9 9 8 年的博士论文中也提出一个模型,重点从模仿视网膜图像的 非均匀采样出发,在自下而上方面采用亮度、边缘、方向、对称性、曲率和角度 等作为引导注意的线索,产生显著图,模型中也尝试了视觉注意自上而下方面的 引导,认为注意过程基于对待注意物体的匹配,考虑了视觉任务和物体的知识【8 1 1 。 ( 2 ) 基于物体观点和基于整合竞争假设的思路【4 5 , 5 3 , 6 7 , 6 8 】 s t a n v e e r f 。m a h m o o d 在其1 9 9 3 年的博士论文中,将视觉注意分为吸引注意 5 视觉选择性注意机制的研究及其在图像压缩中的应用 模块和付出注意模块,通过颜色、纹理和平行线特征来引导视觉注意【6 8 1 。 y a o r us u n 在其2 0 0 3 年的博士论文中,通过扩展整合竞争假设,使用一种基 于分组的竞争策略,首先假设输入图像的己经完成感知分类,然后利用灰度、颜 色和方向信息来引导注意在不同的区域之间进行竞争,形成显著图来进行注意转 移【蚓。 ( 3 ) 基于尺度空间表示和信息理论的思路【1 8 。2 3 ,6 9 。8 2 】 上面的建模思路( 1 ) 和( 2 ) 中,都是以仿生为主的,参照神经科学的研究结果来 建立计算模型的,同时人们也从信息科学方面进行积极的探讨,主要以信息论为 基础建立计算模型。 m j a g e r s a n d 在1 9 9 5 年给出一个模型,首先选择一种图像描述,如灰度图或方 向图,然后建立其尺度空间表示。通过计算相邻尺度图像间的k u l l b a c k 距离函数, 该函数在空间维上集中就可以用来寻找当前图像中物体的最佳尺度,在尺度维上 集中就可以用来建立一个基于信息量度量的显著图来引导注意【6 9 1 。 m f e r r a r c - 和g b o c c i g n o n e 通过建立图像的尺度空间表示,利用尺度维上的熵来 建立显著图,从而引导注意 7 0 - 7 6 1 。 t k a d i r z e 其2 0 0 2 年的博士论文中,在统一框架下讨论了尺度、显著性和场景 描述的问题,以灰度图作为图像的描述模型,用香农信息熵作为特征空间的显著 性度量函数,用相邻尺度间的差分作为尺度空间的显著性度量,选择使得局部熵 最大时的尺度为最佳尺度,从而完成对图像的显著性度量【8 2 1 。 ( 4 ) 基于图像布局和b a y e s 学习与推理的思路【4 3 , 8 3 - 8 6 a o l i v a 和a t o r r a l b a j l 臣过将整幅图像看作一个整体,建立其描述,对图像所表 示的场景进行分类,得到场景的全局和先验知识,从而可以用来对该场景中哪些 物体会出现,出现在哪里,有多大尺度有了一个限制;通过样本图像的训练和 b a y e s 推理来进行图像中显著物体提 仅1 4 3 , 8 3 - 8 6 ,它是一种自上而下的引导视觉注 意。 现有的计算模型的共同特点是:( 1 ) 都是用基于各种显著图的方法;( 2 ) 大部 分都是只对自下而上的机制建立计算模型;( 3 ) 都是针对隐式眼动( c o v e r t ) 的情况 来做的;( 4 ) 大部分都只处理了注视转移,或下一步看哪的问题,没有结合图像 压缩的环节。 人类视觉所接受到的来自外部环境的视觉信息是动态的、立体的,现有的视 6 第一章绪论 觉注意计算模型往往只针对静态图像进行计算,从而忽视了环境的时空特性。现 有模型的三点主要不足之处是:( 1 ) 没有考虑在动态场景的情况下,视频图像序 列的注意焦点问题;( 2 ) 在早期的特征融合方面,没有考虑和深度信息等多种视 觉特征相整合;( 3 ) 没有考虑和图像压缩结合,为建立计算模型所进行的各种特 征提取,没有被图像压缩有效的利用。 1 3 本文研究的内容与论文组织结构 本文章节内容安排如下: 第一章绪论。首先概述本文研究的出发点、目的以及研究意义,然后对视 觉注意计算模型的国内外已有工作进行总结和分析,进一步阐述本文研究的内容 和意义。 第二章人类视觉和注意机制的心理学理论。本章首先介绍从生理心理学角 度介绍了人类的生理结构,然后从认知心理学角度介绍了人类视觉的认知过程, 最后着重介绍了论文最为关心的视觉选择性注意机制。 第三章基于目标跟踪的视觉注意计算模型。本章以i t t i 模型为基础,利用视 频图像序列相邻帧之间的相似性,引入了图像相似性的计算,接着对注意焦点进 行目标跟踪,建立了目标跟踪的视觉注意计算模型。 第四章融合深度信息的视觉注意计算模型。本章以人类视觉和注意机制的 心理学理论为基础,建立了引入注意机制的视觉信息处理模型。本章首先在双目 立体视觉原理的基础上,采用基于图像分割的自适应立体匹配的方法获取深度信 息,接着利用i t t i 模型计算其他三个视觉特征,融入视觉特征,最后建立融入深 度信息的视觉计算模型。 第五章基于视觉选择性注意机制的图像压缩。本章将选择性视觉注意机制 模型技术应用于图像压缩过程,与j p e g 2 0 0 0 压缩算法相结合,形成了一种新的 图像压缩方法。本章首先分析了视觉注意计算模型和图像压缩的途径,然后给出 选择性视觉注意机制的应用。 第六章总结和展望。首先对本文的主要工作进行回顾,指出本文的创新点; 其次探讨值得进一步研究的方向,并就研究思路进行展望。 7 第二章人类视觉和注意机制的心理学理论 第二章人类视觉和注意机制的心理学理论 人类是使用注意机制进行视觉信息处理的专家,心理学领域已经对此进行了 长期探索,因此为了将注意机制引入到机器视觉中来,有必要首先了解与此相关 的心理学理论。这里的主要问题是:人类是如何处理视觉信息的? 选择性注意机 制在视觉信息处理中发挥着什么样的作用? 它又是如何发挥这种作用的? 针对这些问题,本章将着重从心理学角度对人类视觉及其内部的注意机制进 行介绍,以期为其后的研究打下一个理论基础。 下面首先介绍人类视觉的生理结构:利用生理心理学在视觉感官、视觉通路 和视感觉中枢上的理论优势,重点分析视觉信息的产生、传递和视感觉信息的处 理过程;然后讨论人类视觉的认知特点:利用认知心理学在视知觉、记忆机构和 信息选择上的理论优势,重点分形视知觉信息的处理过程;最后论述视觉选择性 注意机制:描述了注意机制的关注焦点,重点分析了一些较具代表性的视觉注意 理论。 2 1 人类视觉的生理结构 生理心理学是心理学科体系中的重要基础理论学科之一,它以心身关系为 自己的基本命题,力图阐明各种心理活动的生理机制,它是心理学、神经科学和 信息科学之间的边缘学科。本节将主要从生理心理学角度出发,对人类视觉的生 理结构展开讨论。 人类视觉信息处理系统由视觉器官、视觉通路和多级视觉中枢组成,实现着 视觉信息的产生、传递和处理。考虑到其中的视觉信息处理过程的复杂性,我们 又将其分为视感觉处理和视知觉处理两个阶段。这样,就形成了一个由视觉信息 的产生、视觉信息的传递、视感觉信息的处理和视知觉信息的处理四部分组成的 人类视觉体系结构( 见图2 1 ) 。下面依次对该体系中各模块的内部结构和生理机 能进行描述。 视觉感官 ( 信息产生) 视觉通路 ( 信息传递) 视感觉中枢 ( 视感觉处理) 图2 1 人类视觉的生理结构 8 视知觉中枢 ( 视知觉处理) 视觉选择性注意机制的研究及其存图像压缩中的应用 2 1 1 视觉信息的产生 视觉信息由作为感觉器官的眼产生。眼将外部环境中的视觉刺激转换为神经 系统中的视觉信息主要依靠两种生理机i i i - 折光成像机制和感受机制。前者将视 觉刺激清晰地投射到视网膜上,后者通过光生物化学反应和光生物物理学反应, 将视网膜上的光信息转换为视觉信息。 ( 1 ) 折光成像机制 折光成像机制不仅涉及眼的结构与功能,还与脑的高级中枢参与下的多种反 射机制有关。一套完整的折光成像机制是由眼内折光装置、眼内反射机制和眼动 反射机制三部分组成。它们的具体生理机能如下: 眼内折光装置:由角膜、房水、晶状体、玻璃体和瞳孔组成。它是将视 觉刺激投射到视网膜上的生理基础。 眼内反射机制:通过眼内肌肉完成反射活动,保证静止物体在视网膜上 清晰成像,这里的眼内肌肉主要是指睫状肌、瞳孔括约肌和瞳孔扩大肌,它们分 别控制晶状体曲率和瞳孔大小的变化。瞳孔反射、瞳孔皮肤反射和调节反射都属 于眼内反射机制。 眼动反射机制:通过眼外肌肉完成反射活动,保证复杂物体或运动物体 在视网膜上连续成像。这里的眼外肌肉主要指内直肌与外直肌、上直肌与下直肌、 上斜肌与下斜肌这三对肌肉,它们分别控制眼的水平、垂直和外侧运动。包括共 轭和辐辏运动在内的随意性眼动、扫视、注视和追随运动在内的非随意眼动都属 于眼动反射机制。 ( 2 ) 光感受机制 光感受机制包括光生物化学反应和光生物物理学反应,两者均发生在视网膜 内的两类光感受细胞,即视杆细胞和视锥细胞中。 光生物化学反应:包括光分解反应和光化学效应放大反应两个过程。当 光感受细胞受到光线照射时,首先由前者产生化效应,然后由后者将该效应放大 5 万倍左右。因此,光感受细胞非常灵敏,即使十分微弱的光线变化,也会引起 显著的生化效应。 光生物物理学反应:主要指光感受细胞的电位对光刺激的反应。光感受 细胞的电位与光刺激强度的对数成正比: 9 第二章人类视觉和注意机制的- 1 1 , 理学理论 扯挑g 毒 m , 这里,i 。是光感受细胞适应后的阈值强度,是光强度,后是常数。上式 说明光感受细胞的电位与光的相对强度,而不是与绝对强度有关。 2 1 2 视觉信息的传递 通过眼的折光成像机制和光感受机制产生了视觉信息,这些信息立即从光感 受细胞出发,经由视网膜、视神经、视束和皮层下中枢,最后达到视皮层。这就 是视觉信息的传递过程。 ( 1 ) 视网膜内的信息传递 视网膜分为内外两层。外层由色素细胞组成,用来存储光化学物质。内层从 外向内依次由视感受细胞( 视杆细胞和视锥细胞) 、水平细胞、双极细胞、无足细 胞和神经节细胞组成,用来产生和传递视觉信息。 在信息传递过程中,视感受细胞、双极细胞和神经节细胞构成垂直联系,水 平细胞和无足细胞构成横向联系。只有神经节细胞通过以单位发放为基础的数字 方式传递信息,其他细胞都利用以级量反应为基础的模拟方式传递消息。 一个神经节细胞及与之联系的其他视网膜细胞构成视觉的基本结构与功能 单位,称之为视感受单位。视网膜中央部分的视感受单位较小,而周边部分的视 感受单位较大,因此,中央部分视敏度较高,而周边部分视敏感较差。 ( 2 ) 视觉通路中的信息传递 视网膜神经节细胞发出的轴突组成视神经。两眼的视神经一部分左右交叉到 达对侧的外侧膝状体,另一部分不交叉到达同侧的外侧膝状体。视交叉前的视神 经来自同眼神经节细胞,视交叉后的视神经( 视束) 来自两眼同侧视野的神经节细 胞。外侧膝状体是大脑皮层下的视觉中枢,它发出的神经纤维经视放射后投射至 大脑皮层的初级功能区( k ) ,继而与二级( 圪) 、三级( 巧) 和四级( 匕) 等次级功能区 发生联系。 2 1 3 视感觉信息的处理 感觉( s c n s a t i o n ) 是人们对客观事物个别属性的反映,是客观事物个别属性作 1 0 视觉选择性注意机制的研究及其在图像压缩中的应用 用于感官,引起感受器活动而产生的最原始的主观映像。感觉是对刺激的觉察, 感觉信息是具体的、特殊的。 视感觉信息的处理与编码由三个不同层次的视觉中枢按照一定规律和机制 逐级完成。其中,视网膜内的神经节细胞构成低级中枢,外侧膝状体构成皮层下 中枢,视皮层初级功能区构成高级中枢。下面对视感觉信息处理中的几条基本规 律进行详细探讨。 ( 1 ) 感受野 视野、视网膜和各级视中枢的神经元之间存在精确的空间对应关系,每个神 经元都对应于一块视野区域,这就是该神经元的感受野( r e c 印t i v ef i e l d ) 2 4 。视网 膜神经节细胞和外侧膝状体神经元的感受野为同心圆形式,视皮层神经元的感受 野则可能为简单型、复杂型和超复杂型的平行线或长方形形式。 在同心圆形式的感受野中,其中心区和周边区总是拮抗的。对感受野施加光 刺激引起神经元单位发放频率增加的现象称为开反应;撤出光刺激引起神经元单 位发放频率增加的现象称为闭反应。据此,可以将感受野划分为两种类型:中心 区为开反应、周边区为闭反应的o n 中心型和中心区为闭反应、周边区为开反应 的o f f 中心型。 中心区8 周边区4 激活度4 中心区8 周边区3 激活度5 第二章人类视觉和注意机制的心理学理论 中心区0 周边区1 激活度1 图2 2o n - 中心型感受野中的光刺激与神经元激活度的关系 图2 2 描述了o n 中心型感受野中的光刺激与神经元活度的关系。图中左上感 受野中心区和周边区同时受到光刺激,神经元的激活度为4 ;图中右上感受野右 侧1 4 的光刺激被遮掩,神经元激活度为5 ;图中左下感受野右侧为3 4 的光刺激被 遮掩,神经元激活度为1 。该图说明当光刺激的边界线与o n 中心型感受野的中 心区和周边区吻合时,神经元的激活度最高,主观亮度感觉最强。 进一步研究发现,视觉通路上各个层次的神经元感受野尺寸是不同的,神经 元的层次越深入,其感受野的尺寸越大,这种层次体系被称为感受野等级结构。 ( 2 ) 整合野 生理心理学研究者最近发现,在视网膜神经节细胞、外侧膝状体神经元和视 皮层神经元的传统感受野( c l a s s i c a lr e c e p t i v ef i e l d ) 之外,还存在着一个范围很大 的去抑制区,该区域被称为整合野( i n t e g r a t i o nf i e l d ) 2 5 1 。 整合野对神经元的反应能产生抑制( 减弱) 或易化( 增强) 的影响,而且具有在 方位、方向、空间频率和时间频率等方面的调谐特性。7 0 的整合野是抑制性的, 同时刺激它和c r f 会抑制神经元对c r f 内刺激的反应,但是单独刺激它不能引起 神经元的反应,这使得神经元能够对局部与周围的图形特征差别进行编码,从而 把视觉客体从各式各样的复杂背景中分离出来;3 0 的整合野是易化性的,同时 刺激它和c r f 会增强神经元对c r f 内刺激的反应,但是单独刺激它不能引起神经 元的反应,这使得神经元能够对大范围的相同图形特征进行编码。 将传统感受野与整
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北省2025届数学七下期末学业质量监测试题含解析
- 企业战略影响下的可持续发展路径试题及答案
- 续方管理中的难点与对策计划
- 重庆十一中2025届数学八下期末达标检测模拟试题含解析
- 学期工作总结与展望计划
- 江苏省苏州市立达中学2025届数学七下期末学业质量监测试题含解析
- 急诊医学志愿者的参与计划
- 新年实现财务管理的工作安排计划
- 紧贴时事的计算机二级VB试题及答案
- 水务管理数字化转型分析计划
- 煤炭产品质量保障措施
- 【水利水电】李想 案例专项班教案 04-案例专项班(四)
- 光影中国学习通超星期末考试答案章节答案2024年
- DLT 572-2021 电力变压器运行规程
- 水泥物资供应、运输及售后服务方案
- 慢性心衰的解决之道“CRT”心脏再同步治疗课件
- 山西省义务教育阶段中小学文科教学仪器设备配备标准
- 高效液相色谱法分析(纽甜)原始记录
- DB5132∕T 76-2022 熊猫级民宿的划分与评定
- 国家开放大学《思想道德与法治》社会实践参考答案
- 计数型MSA计算分析(假设试验法入门实例讲解)
评论
0/150
提交评论