




已阅读5页,还剩61页未读, 继续免费阅读
(信号与信息处理专业论文)基于时空信息融合的snake视频对象分割技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于时空信息融合的s n a k e 视频对象分割技术研究 学科:信号与信息处理 研究生签字: 指导教师签字 o8f 、37 摘要 伴随着视频编码相关学科及新兴学科的迅速发展,新一代数据压缩技术日益成熟,其 编码思想由基于像素和像素块转变为基于内容,实现基于内容交互的首要任务就是把视频 图像分割成不同对象或者把运动对象从背景中分离出来,也即视频对象的分割与跟踪。 然而由于视频对象分割是目前一个具有挑战性的难题,m p e g 组织并没有制定如何将现 有的数字视频序列分割成视频对象,而是将其作为标准的开放部分留待深入研究。 本文主要研究视频对象分割与跟踪。在对一种近十年来被广泛研究和应用的图像分割 技术一主动轮廓模型( 也称为s n a k e ) 进行深入研究的基础上,本文提出一种基于时空信息 融合二次差分法的s n a k e 视频对象分割技术。在传统的时空信息融合法进行视频对象分割 时,时域信息量利用不充分,对视频对象的分割不够完整,不利于后续算法的处理。时空 信息融合二次差分法使用时域前向差分和后向差分两次差分之和,增加了在时域上的视频 对象信息,再在空域内进行处理,时空信息相结合使得视频对象信息更加完整全面,特别 是边缘处的轮廓信息。这为后续使用s n a k e 算法分割视频对象提供了完整的轮廓信息,使 得利用s n a k e 算法更加有效,且分割出的视频对象更加完整。由于传统s n a k e 模型对初始 化s n a k e 线要求苛刻,且对凹陷的轮廓不能有效的分割,本文最后采取了一种改进的s n a k e 算法,即g v f s n a k e 算法,克服了对凹陷轮廓分割不全的缺点。对于视频对象的跟踪, 本文使用卡尔曼滤波器来实现,从实验来看k a l m a n 滤波器是一种较为理想的运动目标跟 踪器,具有较高的鲁棒性和跟踪准确性。 关键词:视频对象;主动轮廓模型:时空域分割;卡尔曼滤波;视频对象分割与跟踪 s t u d yo nv i d e oo b j e c ts e g m e n t a t i o nu s i n gs n a k em o d e l sb a s e d o n s p a t i o t e m p o r a li n f o r m a t i o nf u s i o n s t u d e n ts i g n a t u r e :必c 叫1 7i 翻n s u p e r v i s o rs i g n a t ur e :纸扒 a b s t r a c t b u i l d i n go nt h er a p i dd e v e l o p m e n to fa l l i e ds u b j e c t sa n dn e wd e v e l o p i n gs u b j e c t so ft h e v i d e oc o d e ,n e wg e n e r a t i o nd a t ec o m p r e s s i o nt e c h n i q u e sa r eb e c o m i n gm a t u r ea n dr e a l ,a n di t s c o d et h o u g h tc h a n g e sf r o mp i x e l - b a s e dt oc o n t e n t - b a s e d t h ep r i m a r yt a s ko fr e a l i z i n gt h e i n t e r a c t i o nb a s e do nt h ec o n t e n ti ss e g m e n t i n gv i d e o i m a g ei n t od i f f e r e n to b j e c t so re x t r a c t i n g o ft h ev i d e oo b j e c t sf r o mt h eb a c k g r o u n d ,i ti sj u s tt h ev i d e oo b j e c ts e g m e n t a t i o na n dt r a c k i n g b u tb e c a u s et h ev i d e oo b j e c ts e g m e n t a t i o ni sad i f f i c u l tp r o b l e mw i t hc h a l l e n g ea tp r e s e n t , m p e go r g a n i z a t i o nh a sn o tm a d eh o wt oc u tt h ee x i s t i n gd i g i t a lv i d e os e q u e n c e si n t ov i d e o o b j e c t b u tr e g a r di ta st h eo p e np a r to f t h e s t a n d a r da n dw a i tf o rf u r t h e ri n v e s t i g a t i o n t h i st h e s i si sf o c u s e do nv i d e oo b j e c ts e g m e n t a t i o na n dt r a c k i n g b a s e do nt h ei n - d e p t h r e s e a r c ho fa c t i v ec o n t o u rm o d e l sw h i c hh a v eb e e ne x t e n s i v e l ys t u d i e da n da p p l i e di m a g e s e g m e n t a t i o nm e t h o d sd u r i n gt h ep a s td e c a d e s ,at w i c ed i f f e r e c em e t h o df o rv i d e oo b j e c t s e g m e n t a t i o na n dt r a c k i n gu s i n gs n a k ei sp r e s e n t e d u s i n gt h e t r a d i t i o n a ls p a t i o t e m p o r a l i n f o r m a t i o nf u s i o nm e t h o d ,b e c a u s eo ft i m ed o m a i ni n f o r m a t i o nn oe n o u g h , v i d e oo b j e c tc a l l n o tb es e g m e n t e d u s i n gt h es u mo ft h ef o r w a r dd i f f e r e n c ea n dt h eb a c k w a r dd i f f e r e n c e ,n l e t w i c ed i f f e r e n c em e t h o db a s e do ns p a t i o t e m p o r a li n f o r m a t i o nf u s i o ne n l a r g ev i d e oo b j e c t i i l f o m a t i o n 1 1 1 e nt h er e s u ro ft h et w i c ed i f f e r e n c em e t h o dt h a tp r o c e s s e do ns p a t i a ld o m a i n c a l lb r i n gt h ev i d e oo b j e c tc o n t o u r si n f o r m a t i o nm o r es u f f i c i e n t i ti sab a s ef o rt h ev i d e oo b j e c t s e g m e n t a t i o nm a k i n gu s eo fs n a k em e t h o d ,a n dm a k e ss u r es n a k em o d e lm o r e e f f e c t i v e t h e t r a d i t o n a ls n a k em o d e li sr e p l a c e db yg v f s n a k et os e g m e n tt h ec o n c a v er e g i o no f t h ec o n t o u r a n dr e d u c ei n f e c t i o no fi n i t i a ls n a k ec o n t o u r k a l m a nf i l t e ri su s e dt ot r a c k i n gv i d e oo b j e c t ,a n d i sak i n do fm o r ei d e a lm o v i n g t a r g e tt r a c k e rf r o m t h er e s u l to ft h ee x p e r i m e n t k e yw o r d s :v i d e oo b j e c t ;a c t i v ec o n t o u rm o d e l s ;s p a t i o t e m p o r a ls e g m e n t a t i o n ; k a l m a nf i l t e r ;v i d e oo b j e c ts e g m e n t a t i o na n dt r a c k i n g 学位论文知识产权声明 学位论文知识产权声明 本人完全了解西安工业大学有关保护知识产权的规定,即:研究生在校攻读学位期间 学位论文工作的知识产权属于西安工业大学。本人保证毕业离校后,使用学位论文工作成 果或用学位论文工作成果发表论文时署名单位仍然为西安工业大学。大学有权保留送交的 学位论文的复印件,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存学位论文。 ( 保密的学位论文在解密后应遵守此规定) 学位论文作者签名: 指导教师签名: 日期: 弓捃谴 学位论文独创性声明 学位论文独创性声明 秉承学校严谨的学风与优良的科学道德,本人声明所呈交的学位论文是我个人在导师 指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,学位论文中不包含其他人已经发表或撰写过的成果,不包含本人已申请学位或他人 已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了致谢。 学位论文与资料若有不实之处,本人承担一切相关责任。 学位论文作者签名: 弓垆j 之 特狮签名匕扣竿 日期: 矿孑r 参j l 绪论 1 1 概述 1 绪论 人类已进入到信息社会,而在人类感知的信息中有百分之八十是可视化信息。视频涉 及到可视化信息,其中包括静态图像和时变图像。静态图像的特点是其信息密度随空间分 布,且相对于时间为常量;而时变图像其空间密度特性是随时间变化的,所以时变图像是 一种时间空间密度模式,通常可表示为f ( x ,y ,f ) ,其中x ,y 是空间变量,f 是时间变量。 本文中的视频所指的是时变图像。 随着数字图像处理技术和硬件的发展,静态图像的数字处理早在6 0 年代就已经广泛 应用于军事商贸及其他领域,例如太空飞行、监视图像、夜视、计算技术、磁共振图像以 及传真机等都是这些应用的一些实际例子。数字视频技术的研究起于7 0 年代,视频为我 们提供了比静态图像更丰富的信息,通过对视频信息进行分析和处理,可以获得从单一的 静态图像中不可能得到的信息。视频分析和处理在商业、军事、工业等领域有着十分广泛 的应用,例如: ( 1 ) 商业上,视频处理广泛应用于数字电视( 包括高清晰度电视) 、多媒体、桌面视 频图像、视频会议系统、可视电话和移动图像通信以及其他消费娱乐领域。 ( 2 ) 工业上用于工业过程控制机器人视觉自主运载器导航等。 ( 3 ) 军事上用于对空监视中的多目标跟踪等。 其他的应用领域包括重点部门的监视系统,智能化交通高速公路系统,港口交通控制,航 空和飞行控制,远程多媒体教育系统等。 为满足通信、存储、检索等不同的应用,人们不断提出各种视频编码技术。到目前 为止,相关的标准化组织己经提出了两代视频压缩标型1 。2 】。第一代压缩标准以m p e g 、 h 2 6 1 h 2 6 3 、m p e g l m p e g 2 等为代表,它们的主要特点是将像素和像素块为作为基本 的编码单元,并在许多应用领域中( 如数字视频监控,视频会议,以v c d d v d 为代表的 娱乐应用等) 已经取得了显著的成功。随着多媒体信息的日益丰富,人们不再满足于对多 媒体信息的简单浏览,而是提出了基于对象的交互、查询和检索等新的要求。而且,传输 的码流应该能够适应不同的网络环境和各种终端。这样,以m p e g 4 为代表的第二代压缩 标准便适时地提出了。除了提供更高的压缩效率之外,m p e g 4 更重要的特点是基于对象 的编码,它要求对图像和视频( 自然的或合成的) 作更多的分析,甚至是理解。所谓对象p j , 是指图像中具有一定的物理的、视觉的或语义的区域。例如,将视频对象分为运动对象和 静止的背景对象,通过对各个对象采用不同的压缩方法或分配不同的比特,使得在一定码 率要求下能提供更好的图像质量。m p e g 4 的另一个重要特点是提供了基于对象的交互功 能,用户能够访问( 搜索和浏览) 和操作( 剪贴、移动) 一个场景中的各个对象。基于对象的 西安工业大学硕+ 学位论文 编码和交互需要首先分割出图像中的各个对象,而对象的分割被认为是一个具有挑战性的 难题,基于语义的对象分割就更困难了。然而,m p e g 4 尽管引入了视频对象这个先进的 概念,它并没有指定如何从视频序列中分割出语义视频对象,而是对用户开放,其目的是 为方便用户针对具体的应用设计特定的视频对象分割算法1 4 1 。视频对象分割的实现是 m p e g 4 成功与否的关键因素之一。因此,尽管m p e g 4 的框架己经制定,但对象分割问 题已经成为制约第二代视频压缩标准进一步发展的“瓶颈”。为了推动m p e g 4 标准的广泛 应用,基于对象的分割技术目前己成为一个此领域内既有理论价值,又有实际意义的研究 课题。 1 ) 视频对象在m p e g 4 标准中,视频对象被定义为“在景物中的一个单元,允许用 户存取( 搜索,浏览) 和操作( 剪切,粘贴) ”,即视频对象是区域的聚集,且至少有一个共同 的特征一致地出现在视频对象中。这个概念较为抽象,在实际的视频场景中,视频对象是 指某些具有语义意义的区域。由于视频所反映的客观世界十分复杂,对象本身也是多种多 样的,缺乏一种十分贴切的定义描述。现实世界中的任何一个有语义意义的实体,如行驶 的汽车,人等,都可以被视为语义视频对象。而且,对同一视频场景,不同的应用所感兴 趣的视频对象是不同的。人眼可以很容易地识别出语义视频对象,但对计算机来说,适合 于通用视频序列的全自动视频分割和提取目前还是一个难题,视频对象的语义很难用图像 分割中常用的低级特征如灰度、颜色、运动来进行明确的定义和描述,而是依赖于具体的 应用。语义对象提取过程,本质上是一个分割问题,而分割本身就是计算机视觉和图像处 理领域的一个经典问题。因此,视频对象分割是一个“病态”问题,必须引入人工智能的知 识或者借助人工的参与过程。视频对象分割算法的研究是随着m p e g 4 和m p e g 7 标准的 制定而出现的新的研究热点。 2 ) 视频分割视频是一串连续的图像序列,视频的每一帧( 某一时刻的采样) 即可视 为一幅图像。因此,视频实际上是图像在时间维的扩展,但视频处理不是图像处理在时间 维的简单扩展,这是因为视频序列中相邻帧之间存在着大量的时间冗余和空间冗余,相关 性很强【5 l 。目前,图像分割的算法已达上千种,然而图像分割常被称为“低级”分割,它主 要依赖于象素级的低级特征,如灰度、颜色和纹理的一致性。图像分割迄今为止尚无通用 的自身理论【6 - 8 1 。相比而言,视频对象分割研究相对较少,但要复杂得多。一方面,视频 对象包含着运动信息,存在着非刚体物体形变、遮挡区和显露区等问题;另一方面,分割 出的视频对象必须是具有语义意义的实体,而这种语义意义上的一致性( s e m a n t i c h o m o g e n e i 够) 很难用上述的低级特征来刻画。由于目前尚不能通过数学模型来对语义视频 对象进行明确地定义和描述,语义一致性往往依赖于具体的应用。因此,在视频对象分割 算法中,除了充分利用当前帧的空间信息进行图像分割外,一般还要利用视频序列前、后 帧之间存在的时间域信息,才能进行有效地对象分割。 3 ) 视频分割基本算法视频对象分割算法的分类方法各异,大多数分类方法是模糊 的或不完整的。常见的分割分类方法有以下几种【弘1 2 1 : 2 西安工业大学硕士学位论文 按照用途的不同分类,视频对象分割算法可以分为两类:一类是用于视频压缩编 码,将分割出来的视频对象单独进行压缩编码,并通过按视频对象对人眼视觉的重要性对 不同的视频对象分配不同的码率,达到有效提高视频压缩比改善视觉效果的目的。这种应 用一般要求实时、自动地实现对视频对象的提取,并对于分割出的视频对象轮廓要求并不 十分严格。另一类是用于基于内容的交互式多媒体应用,这类应用一般不要求实时、自动 实现视频分割,但要求得到准确的视频对象轮廓。这种应用可用于基于m p e g 4 的虚拟场 景,即将视频对象分割出来后,可以在场景中使用,并按对象进行操纵。 按是否需要人工参与分割过程,视频对象分割算法也可以分为两类方式:即自动方 式和半自动方式。自动视频分割算法在分割过程中无需人工的参与,可以自动地从视频序 列中分割出运动目标并进行跟踪。然而,在自动视频分割中,由于语义一致性往往采取一 些低级特征的组合,作为先验知识隐含在算法中,当自动视频分割算法应用于不同的图像 序列时,如果序列中视频对象的语义一致性与先验知识不符,就不可能得到满意的结果。 因此,大多数自动视频分割算法只适合于特定的应用场合,而且绝大多数的自动分割算法 采用运动信息作为主要的特征。一般来说,基于运动的分割往往计算量大,对噪声很敏感。 自动分割算法的主要特点是面向特定应用,预先调整好参数,可完成实时处理任务,如车 辆检测系统、大厅监测系统、可视电话和电视会议等。半自动的分割算法需要借助人工的 参与来定义语义,如协助定义视频对象的轮廓、位置,所选择的跟踪对象是刚性还是柔性 等,然后跟踪后续帧中的初始区域,区域的边界按预先定义的语义特征被修正,以克服由 于跟踪带来的误差。因此,半自动分割往往可以获得更好的分割质量。半自动分割方式则 适用于复杂场景下对象的分割,虽然分割质量较好,但不具有实时性。它的主要特点是依 赖于人工的交互确定语义级对象并干预分割和跟踪结果,可用于任意对象的分割、操作和 高效压缩。 根据分割过程中所利用信息的不同,视频分割算法分为三类:空间分割、时间分割 和时空分割。空间分割将图像划分为区域,其中某些区域具有相似的特征,而与其它区域 明显不同,然后通过空间聚类形成语义视频对象。因此,空间分割实质上是传统的图像分 割技术,按照一定的空间信息( 包括颜色、灰度、边沿、纹理等) ,变换域信息( d c t , d w t ) , 统计信息,模型和先验知识( 对特殊视频序列) 等对图像中的一致性区域进行分割,然后 在帧间进行对象的跟踪。时间分割通常利用前后帧间对象的运动信息,因为大多数运动对 象具有跟背景不同的运动,也可以结合颜色、纹理和边沿等特征。时空分割法则一般先通 过时间分割标识出运动对象,然后与空间分割得到的对象边界融合在一起,以得到更精确 的分割结果。时空分割由于同时利用时间和空间信息,因此可以取得更好的效果,是目前 主流的分割算法。当前视频分割算法的研究趋势之一是寻找更好的时间分割与空间分割的 融合方法。 根据视频是否以压缩形式提供,视频分割算法可以分为两种:压缩域分割和非压缩 域分割。在压缩域分割时,视频是以压缩的形式提供,分割过程一般不要求将视频序列解 西安工业大学硕十学位论文 压缩,以节省处理时间。r v e n k a t e s h 等提出的分割算法采用的唯一线索是m p e g 压缩域 中的稀疏分布的运动向量。首先,多帧上的运动向量被累积起来以增强运动信息,并通过 空间插值得到密度运动矢量。然后,对密度运动矢量场采用最大期望( e x p e c t a t i o n m a x i m i z a t i o n ) 算法,基于块的仿射聚类方法用来决定恰当的运动模型。最后,在时间域上 进行对象的分割以得到视频对象。vm e z a r i s 则针对视频检索提出了一种满足实时性要求 的压缩域全自动分割算法。由于视频的压缩过程一般会损失某些信息,分割出来的结果一 般精度较差。在非压缩域分割时,视频直接以原始视频序列或通过摄像机直接捕获。本论 文只针对非压缩域的视频对象分割,以后的所有分割都是在非压缩域进行。 1 2 课题研究的意义 第二代编码技术强调要充分利用人的视觉系统特征去除帧内、帧间的冗余数据。在第 二代编码技术中,基于对象( o b j e c t - b a s e m 编码是一种最有发展前景的方案。 从视频序列中分割出视频对象对于第二代编码标准而言是一个非常重要的步骤,虽然 它并没有包含在这些标准的具体规定中。视频对象的提取是基于内容的视频应用的基础, 这些应用包括基于内容的视频检索、面向对象的视频压缩和编辑、智能人机交换等方面。 视频对象提取效果的好坏将直接影响以后的视频应用。使用物体模型能够更好地描述图像 视频的内容,因此运动对象的分割是基于对象的视频编码系统中不可缺少的重要组成部 分。 另外,尽管人们对基于对象的视频编码做了大量的研究工作,但仍有几个难题阻碍它 的发展,使其整个编码系统的性能还不能明显地超过基于方块的经典编码技术。其中一个 最大的困难就在于如何有效地将物体模型从景物中分割出来。 视频对象的分割并不仅仅是为基于内容的编码( m p e g 4 ) j 艮务的,在提出m p e g 4 之前, 视频对象作为图像分割技术的一种扩展就己经存在,并被应用到如计算机视觉、视频分析、 视频监控等领域【1 3 】。而m p e g 4 的提出,更是极大地推动了视频对象分割技术的发展。视 频对象分割技术常用于: 1 ) 视频编码传统的视频编码标准,如h 2 6 1 3 和m p e g1 2 获得了较高的压缩比, 并在许多领域得到了广泛的应用。当前,多媒体技术正朝着分布式环境下提供交互式多媒 体服务的方向发展。然而,h 2 6 1 3 和m p e g1 2 都采用基于帧的技术,不要求对景物进 行分割和分析,因而不能支持基于内容的新功能。新的多媒体应用呼唤着新的多媒体编码 标准,为此m p e g 4 引入了视频对象的概念,形成了基于对象编码思想的基础,也就是所 谓的第二代视频编码标准。基于对象的编码技术,不仅可以提高编码压缩效率,提供视频 解码端的多路复用,还可以为交互式的视频应用提供可能。基于对象的编码方法还能更好 地保护视频内容的知识产权,对不同来源和不同重要性的视频对象内容提供相应的产权保 护措施。 m p e g 4 基于对象的编码思想还有助于实现视频的基于内容的网络自适应传输。在网 4 西安工业大学硕士学位论文 络自适应传输中,需要根据网络带宽进行动态的码率控制。对基于对象编码的视频,不同 对象在传输中可以拥有不同的优先级,享受不同的网络资源,以确保人们感兴趣的对象可 以得到优先保护。在带宽资源非常宝贵的无线通信领域,视频对象分割技术也会有它的用 武之地。在可视化通信系统中人们关心的通常是人的头部,如果在终端将人脸区域分割出 来进行传输,而不传输背景区域,可以大大节约带宽资源。 2 ) 视频检索对于多媒体数据来说,每一种媒体数据都具有难以用符号化的方法描述 的信息线索,现有的基于文本表达的搜索引擎已经不能满足多媒体数据库的需求,而基于 内容的多媒体数据库检索突破了传统的基于表达式的局限,它直接对图像、视频、音频中 的语义对象进行分析并提取语义特征,利用这些特征建立索引并进行检索。m p e g 7 就是 这样一个为基于内容的检索服务的标准。在m p e g 7 中,用于描述内容的特征分为三个层 次:低层次( 感知层) 的特征包括颜色、纹理和运动信息:高层次( 概念层,或称语义层) 的 特征是内容的概念信息;中间层( 模型层) 的特征则提供了低层感知特征和高层语义特征之 间的联系模型。为了实现基于内容的检索,首先需要将视频分割为语义对象,并提取这些 对象的各层次特征信息,利用这些特征信息建立视频数据库的索引。 3 ) 智能监控智能监控系统是视频对象分割技术另一个很好的应用场所。在传统的 视频监控系统( 如闭路电视系统) 中,工作人员需要不时监控屏幕去发现可疑的事件和目 标,因此工作量很大而且效率低。在采用视频对象分割技术的智能监控系统中,计算机可 以在分割、检测出运动目标时自动通知工作人员的介入,从而减轻工作人员的负担并提高 效率。如果可能的话计算机还可以对这些目标的运动模式进行一些自动分析,以确定是否 为可疑目标。 在远程监控系统中,视频对象分割技术更有用武之地。大型远程监控系统面临的一个 较大的问题是大数据量的视频传输与存储。传统的监控系统都是传输、存储完整的视频图 像,在带宽和存储容量有限的情况下,只能采用降低空间分辨率和帧率的方法。如果在摄 像端采用视频对象分割技术,在传输和存储的时候可以只传输和存储运动目标部分,而静 止的背景区域可以不用传输和存储,或者只是定时存储背景图像,这样就可以极大减少视 频数据的传输与存储量。 除了以上应用外,视频对象分割还在人脸检测、目标识别、虚拟现实和视频交互处理 以及计算机视觉等技术领域有着广泛的应用前景。 视频对象分割涉及对视频内容的分析和理解,这与人工智能、图像理解、模式识别和 神经网络等学科有密切联系【l 5 1 。提取语义对象的过程实际上是一个特征提取与分割过 程,图像分割本身就是计算机视觉和图像处理中很难解决的一个不确定性病态问题,虽然 已经进行了几十年的研究,但至今尚无统一的理论和评判标准,现有的算法大都是针对具 体问题。另外,缺乏一种明确的适合视频对象分割算法的语义表达和语义均匀标准。要对 视频对象分割,首先要求对视频对象的属性有一明确的规定,即组成它的区域满足某种均 匀一致性,比如通过它的纹理信息、运动信息、形状信息甚至是模型和高层语义信息划分。 5 西安工业大学硕士学位论文 但是这些信息又需要利用分割结果来精确获取,这样就陷入了一个循环之中。截止到目前, 人工智能的发展还不够完善,计算机还不具备观察、识别、理解图像的能力;同时关于计 算机视觉的研究也表明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因 此,尽管m p e g - 4 框架己经制定,但至今仍没有通用的有效方法去根本解决视频对象分 割问题,视频对象分割被认为是一个具有挑战性的难题,基于语义的分割则更加困难。 综上所述,视频对象分割是一项十分有研究价值的学科,不仅在理论研究方面有着重 大的科研价值,可以更深入的明白人类怎样通过视觉系统认知客观世界,而且在实际应用 方面有着广泛的实用价值。 1 3 论文的工作内容及安排 本论文的主要目的是对视频序列中运动对象分割算法的研究,提出一种基于时空信息 融合的两次差分法对视频对象进行分割提取。本论文一共分为6 章论述视频对象的分割提 取及跟踪。 第一章:绪论。主要介绍视频对象分割的概述、研究背景、意义。 第二章:图像分割。作为视频对象分割的基础,图像分割在整个图像处理研究领域中 有着极其重要的位置。在这一章主要介绍图像分割中所用到的数字图像处理的有关概念与 解释。介绍了静态图像和视频序列图像分割的知识方法。 第三章:主动轮廓模型。研究了主动轮廓模型( a c t i v ec o n t o u rm o d e l ) ,即s n a k e 模 型。主要讲解了s n a k e 模型的数学描述,并在此基础上研究了s n a k e 模型的数值计算方法 和一种常用的高效快速的数值计算方法,即贪婪算法。 第四章:g v f s n a k e 模型。本章分析了s n a k e 模型的不足,研究了分割效果更好的 g v f s n a k e 模型。它用梯度向量流场代替了传统s n a k e 模型的外部力,产生了能分割出目 标凹陷轮廓。在这一章引入了视频图像时空信息融合的概念,提出二次差分法增强时域信 息量,有效增加g v f s n a k e 模型可用信息量。 第五章:视频对象跟踪。讨论视频对象跟踪的基础知识,将卡尔曼滤波器应用于视频 对象跟踪,并且结合第四章时空信息融合g v f s n a k e 算法对被跟踪到的视频对象进行分 割与提取。 第六章:总结与展望。对本文工作进行了总结,并对视频对象分割的研究进行了展望。 6 2 视频对象分割基本理论 2 视频对象分割基本理论 视频对象分割的研究基础是数字图像处理理论,它为视频处理提供了底层的技术方 法。在对图像的研究过程中,人们往往仅对各幅图像中的某些部分感兴趣,这些部分常称 为目标或前景( 其他部分称为背景) ,它们一般对应图像中特定的、具有独特性质的区域。 图像分割就是把图像分成各具特征的区域并提取出感兴趣目标的技术和过程。图像的分 割、目标的分离、特征的提取和参数的测量将原始图像转化为更抽象更紧凑的形式,使得 高层的分析和理解成为可能。视频对象分割就是把视频中重要的或人们感兴趣的物体或称 对象( v i d e oo b j e c t , v o ) ,与背景分割开来,或者说就是要划出分别具有一致属性的一个个 区域,同时区分背景区域和前景( 对象) 区域。本章从图像分割的基础知识,边缘检测开始 讨论,介绍一些静态图像分割方法和常用技术,最后过渡到视频对象分割。 2 1 边缘检测及相关算子 2 1 1 边缘 边缘是图像的最重要的特征。它是指周围像素灰度有阶跃变化或屋顶变化的那些像素 的集合。t p o g g i o 说:“边缘或许对应着图像中物体( 的边界) 或许并没有对应着图像中物体 ( 的边界) ,但是边缘具有十分令人满意的性质,它能大大地减少所要处理的信息但是又保 留了图像中物体的形状信息”0 6 1 。边缘存在于目标与背景、目标与目标、区域与区域、 基元与基元之间,它对图像识别和分析十分有用,边缘能勾画出目标物体的轮廓,使观察 者一目了然,包含了丰富的信息( 如方向、阶跃性质、形状等) ,是图像识别中抽取的重要 属性。 常见的边缘有三种,第一种是阶梯形边缘( s t e p e d g e ) ,即从一个灰度到比它高好多的 另一个灰度;第二种是屋顶型边缘( r o o f - e d g e ) ,它的灰度是慢慢增加到一定程度然后慢慢 减小;第三种是线性边缘( l i n e e d g e ) ,它的灰度是从一个级别跳到另一个灰度级别之后然 后回来。 ( a ) 阶梯型边缘 ( b ) 屋顶型边缘( c ) 线性边缘 图2 1 三种不同的边缘类型 7 西安工业大学硕士学位论文 啊= 三三三 ,恐= 曼三2 l ,魄= 三三 l a p l a c e 算子v 2 是近似给出梯度幅值的二阶导数的方法。l a p l a c e 的线性微分算子定 v 2 9 ( w ) :氅掣+ 丁a 2 9 ( x , y ) ( 2 3 ) 0 c 渺 啊= = 呜= 臣兰寻i啊= i 三三l 8 西安工业大学硕+ 学位论文 l a p l a c e 算子有一个缺点是它对图像中的某些边缘产生双重响应。 3 ) c a n n y 算子 c a n n y 的主要工作是推导最优边缘算子【1 7 1 。他考核边缘检测算子的指标是: 低误判率,即尽可能少地把边缘点误认为是非边缘点; 高定位精度,即准确地把边缘点定位在灰度变化最大的像素上; 抑制虚假边缘。 在一维空间,c a n n y 推导的算子与v 2 算子( g a u s s l a p l a c i a n 算子,也称“墨西哥草帽,) 几乎一样。在二维空间,c a n n y 算子的方向性质使得它的边缘检测和定位优于v 2 ,具有 更好的边缘强度估计,能产生梯度方向和强度两个信息,方便了后续处理。 对阶跃边缘,c a n n y 推导出的最优二维算子形状与g a u s s i a n 函数的一阶导数相近。 取g a u s s i a n 函数为: 1 一x 2 _ - + y 2 i t g ( x ,y ) = 丽p 2 , ( 2 4 ) 在某一方向n 上,g ( x , y ) 的一阶方向导数为: g “力。= 粥“力锄= n v g ( x , 力 ( 2 5 ) 非刀= 嘲一加i - i g g ( x , y ) o x l 。 将f ( x ,y ) 与g 进行卷积,改变聍的方向,使f ( x ,y ) q 取得最大值的方向就是梯度 方向( 正交与边缘走向) ,由 皇【鱼:盟巳竺二竺:竺竺:竺l 得到: t a n o :( o g ( x , y ) o y ) * f ( x , y ) ( 扶,协,y ) 苏) 木似,j ,) c o s 9 :( o g ( x , y ) i g x ) * f ( x , y ) i v g ( x ,少) 宰( 易j ,) i s证p:(c3g(x,y)coy)宰f(x,y) lv g ( x ,y ) 牛( x ,y ) i 因此,对应于q f ( x ,j ,) 变化最强的方向导数为: 刀:里堡! 三:坐丝:塑 iv g ( x ,y ) 宰f ( x ,j ,) i 在该方向上q 宰f ( x ,y ) 有最大的输出响应, 回 刀 固 $ 哪 亿 亿 q q m 西安工业大学硕七学位论文 q 拳厂( z ,y ) i - - - ic o s ( a g ( x ,y ) t g x ) * f ( x ,y ) + s i n o ( c a g ( x ,y ) 砂) 幸厂( x ,y ) = iv g ( x ,y ) 厂( x ,y ) i( 2 1 1 ) 由此可见,c a n n y 算子建立在q f ( x ,y ) 基础上,得到边缘强度和方向,通过阈值 判定来检测边缘。 在计算时,可以把v g ( x ,y ) 的二维卷积模板分解成两个一维滤波器: _ c o g ( x 一, y ) :k x e 一毛号:啊 ) h 2 ( y ) ( 2 1 2 ) _ c 3 g ( x 一, y ) :枷一导e 舌: ( 2 1 3 ) , 红( x ) = 、f k x e2 0 - 2 ;( j ,) = 尼p 2 , ( 2 1 4 ) j ,2 , 啊( y ) = 尼妒2 0 2 ;( x ) = 后p 2 0 2 ( 2 1 5 ) 啊( x ) = x h 2 ( x ) ;h l ( y ) = 儿( y ) ; ( 2 1 6 ) 然后将这两个模板分别于f ( x ,y ) 进行卷积,得到 e x a g _ ( x , y ) 幸f ;e y ;c 3 g _ ( x , y ) 丰f ( 2 1 7 ) o xd v 蜘“) = 厅碍,口( “) = a r c t a n 鬻,贝0 么反映边缘醌口( f 为垂直于边 缘的方向。 一个像素如果满足下列条件,就认为是边缘点: 像素( 奶的边缘强度大于沿梯度方向的两个相邻像素的边缘强度: 与该像素梯度方向上相邻两点的方向差小于4 5 。: 以该像素为中心的3 x 3 邻域中的边缘强度极大值小于某个阈值。 1 9 8 6 年c a n n y 用金字塔数据结构提取边缘,其做法是: 选择m 种不同分辨率的图像,例如把原图像每n x 1 个相邻像素合并为一个像素, 其灰度取这, x n 个像素灰度的均值,就得到分辨率下降玎倍的子图像; 分别对这m 个子图像用梯度模板求边缘; 从最高分辨率子图像开始,预计上一级( 较低分辨率) 子图像的边缘点,如果预计 结果与上一级子图像原有边缘点有较大差异,说明较高分辨率的子图像里有重要的边缘点 遗漏,把这些遗漏添加到边缘点输出中; 重复直到最低分辨率子图像结束。 1 0 西安工业大学硕士学位论文 c a n n y 这种算法可以减少小模扳检测中的边缘中断,有利于得到较完整的线段 2 1 3 边缘检测实验 对标准视频测试序列c l a i r e 的第2 9 帧,运用上面静态图像分割算法、理论进行图像 分割如图2 1 。从图2 1 可以看出运用c a n n y 算子边缘检测得到更多的细节,基本可以看 出人的面部轮廓;运用l a p l a c e 算子边缘检测也可以得到较多的信息,l a p l a c e 算子边缘 检测虽然没有c a n n y 算于效果好,但比s o b e l 算子边缘检测好的多,基本接近c a n n y 算子 边缘检测的效果;s o b e l 算于边缘检测质量最差,仅仅得到了人物的粗略轮廓。 ( a ) c l a i r e 的第2 9 帧原围( b ) s o b e l 算子边缘检测 ( c ) l a p l a c e 算于边缘检测 ( d ) c a n n y 算子边缘检测 图2 ic l a i r e 的第2 9 帧s o l :e l 、l a p l a c e 、c a n n y 算子边缘检测 2 2 静态图像分割 静态图像指时不变的图像,( t h f ) ,即只包含空间域的二维信息( x ,y ) ,时间域信息t 为常量的可视图像。视频分割是为了提取视频中的语义信息。在分割完成之前,算法无法 利用这些语义信息,只能将视频分为单帧图像进行独立分割,最后通过加入时间域运动信 息得到完整的视频分割结果。单帧图像的分割不考虑前后帧的信息,可看作静态图像进行 分割。 西安工业大学硕士学位论文 2 2 1 图像分割的定义 图像分割是一个人的主观意识判断的结果,并没有科学的原始定义。多年来研究者对 图像分割提出了不同的数学解释和表述【1 8 】。这里借助集合概念对图像分割可给出如下比 较完整的定义: 令集合尺代表整个图像区域,对r 的分割可看作将r 分成个满足以下五个条件的 非空子集( 子区域) 墨,恐,氐: n ur = r ; i = i 对所有的f 和j ,f j ,有局n 尺,= 彩; 对i = 1 ,2 ,n ,有p ( r ) = t r u e ; 对f j ,有尸( ru l j ) = f a l s e ; 对i = 1 ,2 ,n ,冠是连通的区域。 其中p ( r j ) 是对所有在集合足中元素的逻辑谓词,a 代表空集。 条件说明在对一幅图像的分割结果中,全部子区域的总和( 并集) 包括图像中所有像 素,或者说分割能将每个像素分配到某个子区域中去。条件说明分割结果中,各个子区 域是互不重叠的,或者说每个像素不能同时属于某两个子区域。条件说明分割结果中每 个区域都有独特的特性,也就是说同一个区域中的像素具有共同的特性。条件说明分割 结果中各个区域两两具有不同的特性,或者说不同的区域有不同的特性,没有公共元素。 条件指出分割结果中同一个区域内的像素应当是连通的,即同一个子区域内的任意两个 像素在该区域中互连通。 上述条件不仅定义了分割,也对分割有指导作用。对图像的分割总是根据一些准则进 行的。条件与条件表明正确的分割准则应适用于所有区域和所有像素,而条件与条 件表明合理的准则应能帮助确定各区域像素有代表性的特性,条件说明完整的分割准 则应直接或间接地对区域内的像素的连通性有一定的要求或限定。另外还要指出,实际应 用中图像分割不仅要把一幅图像分成满足上面五个条件的各具特性的区域而且还要将其 中感兴趣的目标区域提取出来,只有这样才算真正完成了图像分割的任务。 2 2 2 静态图像分割算法 静态图像分割技术比视频分割更早成为学者的研究课题。图像处理和机器视觉界的研 究者们为此付出了长期的努力,至今已提出了若干种各种类型的分割算法。常用的图像分 割技术大致可以分为基于边缘检测的方法和基于区域的方法【1 9 锄】。在实际应用中,从不同 的角度提出了许多方法,这些方法主要又可划分为三种类型:阈值分割法、边缘检测法和 区域跟踪法。 1 ) 阈值分割法阈值方法是灰度图像分割普遍采用的方法,这种方法先确定一个处 于图像灰度取值范围之中的灰度阈值,然后将图像中各个像素的灰度值都与这个阈值相比 1 2 西安工业大学硕士学位论文 较,井根据比较结果将对应的像素划分为两类:像素的灰度值大于阈值的为一类,小于阈 值的为另一类。这两类像素一般分别属于图像中的两类区域( 也称前景和背景) ,所以对像 素根据阈值分类达到了区域分割的目的。 闺值的选择通常利用直方图。基于直方圈分析的门限分割法最直观,应用最普遍。这 种方法对于直方图具有明显的双峰图像,可获得很好的分割效果。但现实生活中大多数自 然景象的图像直方图变化丰富,很少表现为明显的双峰。对于这类图像,一种方法是将图 像分为若干小块即子图像,并对每块设定局部阈值。另一种方法是根据空间信息和灰度信 息值采用动态阐值。 图2 2 利用灰度直方图对c l a i r e 的第2 9 帧进行闽值分割,选取直方图上尖峰旁边两个 波谷为阚值。在头发和脸部的细节上,围22 ( d ) 比图2 2 ( c ) 好一些,主要原因是选取的闺 值范围大,因此图像分割后得到的图像质量明显好一些。 r 一_ | | | |l ( c ) 荻度图像目值分割、 ( d ) 灰度图像阈值分割、 阈值设为( 9 5 ,1 5 5 ) 阈值设为( 9 5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025邮储银行校招笔试试题及答案
- 2025农村商业银行秋招笔试题目及答案
- 2025吉林省基层卫生专业技术人员“县聘乡用”“乡聘村用”专项招聘251人考试参考题库及答案解析
- 广州市设计院实习生招聘职位信息笔试历年参考题库附带答案详解
- 《药品管理法》试题练习题(附标准答案)
- 2025年电商售后服务质量提升:售后服务团队激励机制创新报告
- 2025年教育信息化基础设施在农村地区的推广与应用报告
- 2025年工业互联网平台异构数据库融合技术边缘计算与物联网集成报告
- 2025年智慧校园安全管理报告:校园安全信息化与智能化融合趋势
- 四年级上册语文单元主题阅读02《为学患无疑疑则有进》共10篇(含答案)
- 2024年宁波市宁海县国有企业招聘笔试真题
- 义乌市国有资本运营有限公司2025年度员工公开招聘笔试参考题库附带答案详解
- 2025上半年教师资格证小学《综合素质》笔试真题及答案
- 功率半导体器件基础课件
- 拆零药品培训课件
- 2024年江门市直学校招聘考试真题
- 新零售业态选址模型-洞察及研究
- 工业园区污水处理站运行成本优化初步设计评估报告
- 草原网围栏维修合同范本
- DB11T 2441-2025 学校食堂清洁和消毒规范
- 青岛版六三 三年级 数学 上册 第二单元《第1课时 总量与分量》课件
评论
0/150
提交评论