




已阅读5页,还剩55页未读, 继续免费阅读
(信号与信息处理专业论文)基于频域和时域分割的视频对象提取方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 视频对象的提取是任何基于视频对象的操作如索引、访问等的最基 本的步骤。本文提出了一种自动地在频域上提取目标轮廓、在时域上 提取运动矢量并结合两者信息的对象提取方法。对三维运动模型、图 像的小波变换和光流场的分析等,都作了较为深入的研究和探讨。 第一章首先介绍了本论文的课题背景及目前多媒体发展的趋势,说 明在图像序列中提取视频对象的必要性。接着简要地介绍了当前国内 外研究方法及其各自的优缺点,最后提出自己的一套较好的在编解码 应用的场合下提取视频对象的方法。 第二章对本文适用的视频对象模型进行定义及相关说明,并简要介 绍了系统的框图,整个算法从频域和时域这两条主线走,然后联合两 者的信息提取最终的视频对象。 第三章集中阐述在频域上提取视频对象信息的算法。洗介绍图像小 波分解方法的原理、m a l l a t 快速算法、多尺度特性、3 阶b 一样条小波 基函数的选取及其滤波器系数的推导等,然后根据小波变换结果计算 梯度矢量矩阵,进行非极大值抑制和双闽值化,提取目标轮廓。最后 用与经典的c a n n y 边缘检测方法进行比较。l , 在第四章中详细介绍了在时域上提取视频对象运动信息的方法首 先构建三维刚体运动的模型,提出一种计算模型的全局运动矢量的方 法,并进行全局运动补偿、变化检测模板提取和连通域标记等步骤, 然后引入光流场的概念,并介绍其计算原理和方法,用h o r n s c h u n c k 迭代法计算图像中各点的局部运动矢量,并据此对变化检测模板的结 果进一步提取,获得时域上分割的信息。y 第五章在前两章的基础上,提出一种邻域相似程度的判据来联合频 域、时域分割结果提取对象轮廓,最后进行区域生长、数学形态学算 子滤波等后期处理获得最终的视频对象。 第六章用多种标准图像序列测试本文所提出的算法并作相应评价。 最后章第七章进行全文总结,并提出改进的方向。 关键字:视频x 损,二次b - 样条涿波,仿射模塾,全局运动补偿, 光流场,邻域相似程度。 ,、7 a b s t r a c t v i s u a l o b j e c t s ( v o s ) a b s t r a c t i o ni s t h eb a s i c s t e p f o ra 1 1k i n d so f o p e r a t i o n ,s u c ha si n d e x ,a c c e s s i n g ,w h i c ha r eb a s e do nv o s t h i sp a p e r b r i n g s f o r w a r da na u t o m a t i ca n de f f i c i e n tm e t h o do fa b s t r a c t i n gv o s i n f o r m a t i o no fb o t hc o n t o u ro fo b j e c tb a s e do ns p a c i a ls e g m e n t a t i o na n d m o t i o nv e c t o rb a s e do nt e m p o r a ls e g m e n t a t i o ni si n t e g r a t e dt og e tt h e f i n a lv o s w eh a v ei n t r o d u c e da n dd i s c u s s e d3 do b j e c tm o t i o nm o d a l , w a v e l e tt r a n s f o r mo ng r a p h i c ,o p t i c a lf l o wf i e l d ,a n de t c i nc h a p t e r1 ,w ef i r s ti n t r o d u c et h eb a c k g r o u n do ft h i st h e s i sa n dt h e f u t u r ed i r e c t i o no fm u l t i - m e d i ad e v e l o p m e n ti no r d e rt od e m o n s t r a t et h e i m p o r t a n c eo fv oa b s t r a c t i o n t h e nw ep r e s e n tc u r r e n tm e t h o d si n t h e w o r l di nb r i e f , a n dp o i n to u tt h em e r i t sa n dd e m e r i t so fe v e r ym e t h o d a t l a s tw ep u tf o r w a r da ne f f i c i e n tm e t h o dt h a ti sf i t t e df o rt h a tw o r k i nc h a p t e r2 ,w ed e f i n et h em o d a lo fv o sa n dc o n f i n et h ea v a i l a b l e a p p l i e d f i e l d t h e nw ei n t r o d u c ei nb r i e ft h ew h o l ef r a m ea n dt h e a l g o r i t h m t h a t i n t e g r a t e st h ei n f o r m a t i o no fb o t ht e m p o r a la n ds p a c i a l s e g m e n t a t i o n i n c h a p t e r3 ,w ee x p a t i a t eu p o n t h e a l g o r i t h m t h a ta b s t r a c t s i n f o r m a t i o no fv o sb a s e do ns p a c i a ls e g m e n t a t i o n f i r s tw ei n t r o d u c e t h e o r ya n dm e r i t so fg r a p h i cw a v e l e tt r a n s f o r m ,t h e nm a l l a ta l g o r i t h m , m u l t i - s c a l ec h a r a c t e r i s t i c ,q u a d r a t i cb a l p i n ew a v e l e ta n dt h ec o e f f i c i e n t s o ft h i sf i l t e r s ,a n de t c l a t e rw ec a l c u l a t et h eg r a d i e n tm a t r i xb a s e do nt h e r e s u l to fw a v e l e tt r a n s f o r m ,t h i nt h ec o n t o u ra n d g e ts p a t i c a li n f o r m a t i o n a tt h ee n do ft h i s c h a p t e r ,w ec o m p a r e i tw i t ho t h e rm e t h o d ,s u c ha s c a n n yf i l t e r i n c h a p t e r4 ,w ed i s c u s st h em e t h o do fv o sa b s t r a c t i o nb a s e do n t e m p o r a ls e g m e n t a t i o ni nd e t a i l f i r s tw ep u tf o r w a r da f f i n em o d a l ,w h i c h i sak i n do f3 - dm o t i o nm o d a lo fr i g i d b o d y ,c o m p e n s a t eg l o b a lm o t i o n v e c t o rb a s e do nt h i sm o d a l ,a n dg e tt h ec h a n g e dd e t e c t i o nm a s k ( c d m ) t h e nw ei n t r o d u c et h ec o n c e p t i o no f o p t i c a lf l o wf i e l d ,c o m p u t et h el o c a l m o t i o nv e c t o rw i t hh o r n s c h u n c km e t h o d ,a n d a b s t r a c tt h ee s s e n t i a l i n f o r m a t i o ni nt e m p o r a lf i e l d i nc h a p t e r5 ,w ei n t e g r a t et h ei n f o r m a t i o ng o ti nc h a p t e r3 & 4 w i t ha c r i t e r i o no fa d j a c e n tc o m p a r a b i l i t y ,t h e nu s e l a s t o p e r a t i o n si n c l u d i n g s e e dg r o w i n g ,m o r p h o l o g i c a lf i l t e r s ,a n de t c ,t og e tt h ef i n a lv o sf r o m v i d e o s e q u e n c e w ec o m p a r e t h is a l g o r i t h m o f i n t e g r a t i o n w i t ho t h e r r e l a t e da l g o r i t h m si ne n do ft h i sc h a p t e r i nc h a p t e r6 ,w et e s tt h i sw h o l ea l g o r i t h mw i t hf o u rs e t so fs t a n d a r d v i d e os e q u e n c e so fm p e g 一4 ,a n dc o m m e n to nt h er e s u l t i nt h el a s tc h a p t e r ,c h a p t e r7 ,w es u m m a r i z et h i sp a p e ra n db r i n go u t t h ed i r e c t i o no fi m p r o v e m e n t k e yw o r d s :v i s u a lo b j e c t ( v o ) ,q u a d r a t i cb a l p i n ew a v e l e t ,a f f i n e m o d a l ,g l o b a l m o t i o n c o m p e n s a t i o n ,o p t i c a l f l o w f i e l d ,a a j a c e n t c o m p a r a b i l i t y 基于频域和时域分割的视频对象提取方法研究一第一章 1 1 研究背景 11 1 多媒体发展阶段 第一章引言 2 1 世纪的人类社会将是信息化社会,数字化的信息,尤其音频、 视频信息只有海量性,它给信息的存储和传输造成较大的困难,严重 地阻碍信息化社会的发硬。电信、计算机、广播电视这三大网络的最 终融合和多媒体移动通信的发展也迫切要求在低码率下的多媒体娟 信。因此研究和开发高效的多媒体数据压缩编码方法,已成为现阶 段相关研究人员的主要任务。 视频压缩技术是多媒体技术的关键。按照视频压缩编码发展阶段的 不同思想,视频编码方法可分为两代:第一代基于像素的方法,去掉 的是数据冗余,称为低层压缩编码方法;第二代是基于内容的方法, 去掉的是内容的冗余,其中基于对象的方法称为中层压缩编码方法, 基于语义的方法则称为高层压缩编码方法,图1 1 所示的是用来表示 视觉信息的各种方法以及它们之间的关系1 1 o 。 在数字域表示图像视频传统的方法是基于像素的方法,目前使用 对 视觉原语 取 图1 1 视频信息表征金字塔及其内部 的主要技术都依赖于这神表征方法。在m p e g 4 标准之前的m p e g 1 、 m p e g 一2 、h 2 6 1 以及h 2 6 3 等标准都是采用传统的图像编码方、法t a l t 9 l , 依据香农信源编码理论的框架,是将图像作为随机信号,利用其统计 特性柬达到压缩的目的。这种方法把视频序列按时问先后分为一系列 基于频域和时域分割的视频对象提取方法研究第一章 的帧,每一帧的图像又分为宏块以进行运动补偿和编码,这种基于帧、 蛱和像素的编码被称为第一代视频编码技术。第一代视频编码的核心 技术是基于分块的d c t 变换。这主要由于两个方面的原因:一是d c t 具有良好的去相关性和能量集中特性,一是d c t 变换存在快速实现算 法。但随着研究和应用的不断深入,分块d c t 变换的缺点逐步暴露出 来,尤其在低比特率应用环境下压缩后的图像不可避免的出现方块效 应和飞蚊噪声。这是因为采用平稳高斯过程来刻画菲平稳的图像信号, 用余弦基进行非平稳信号的逼近,其结果必然不是最优的。另外,这 种方案本身未能考虑信息获取者的主观特性以及图像的具体结构和内 容,也没有充分利用人类视觉系统的特性,难以实现对图像内容的查 询、编辑和保存等操作。 为了与入眼视觉特性相符合,第二代视频编码技术采用了基丁非像 素的表征方法,即用由轮廓和纹理等定义的区域、对象、语义成分来 表征视频数据。为了应用基于非像素的方法,输入数据必须用基于非 像素的方式获得,或者将基于像素的可用数据转换为基于非像素的表 征方法。他们转换关系如图1 1 所示,包括从简单的视觉原语抽取到 复杂的对象分割和跟踪,其中“基子对象”是一种非常重要的视觉数 据表征方法。 1 1 2 基于对象的视频编码的基本概念及框架 一般而言,视频对象定义为一幅图像中表征有含义的实体的一组区 域。在这种表征方法中,视频对象代替了像素,一幅图像,视频可以看 作是不能再分解的一组视频对象,它可能包括一个或多个视频对象, 并通过纹理编码、形状编码、运动编码来表征每一个视频对象的时间 和空间信息。 由于在基于像素的表征方法中绝大部分数字视觉信息是静止,耍实 现表征方式的转换时,需要采用手丁、半自动和全自动的方式将基于 像素的表征方式转换为基于对象的表征方式。反过来也可咀通过组合、 萤现等方法重新合成原始图像。基于对象的表征方法同样非常适合于 合成数据的编码,因为可以采用与自然对象相同的办法来处理合成二 基于频域和时域分割的视频对象提双方法研究第一章 维或三维对象,并将其加入到场景中。 基于对象的视频编码框架包含下列几种编码方法【_ ”: 对象的形状信息编码所采用的方法。 对象的纹理和颜色信息编码所采用的方法。 对象的运动信息编码所采用的方法。 用以上的几部分合成整个系统时所采取的方法。 在基于对象的视频编码中,编码的基本单元是对象,基于对象的编 码主要是针对纹理、形状和运动这三种信息进行编码。基于对象的视 频编码通用框架如图1 2 所示【1 。从图中可以看出,编码框架中主要 包括三个关键模块,即形状、运动和纹理编码模块。 i - - l :j ! i i ! j ! i l ;i i i 丑一一一 图l - 2 基于对象的视频编码通用框架 总的说来,基于对象的视频编码过程可以分三步进行: 1 ) 从原始视频流中采用全自动、半自动、人工等方法分割出视频 对象。 2 ) 对视频对象进行编码,对不同视频对象的运动信息、形状信息 和纹理信息分配不同的码字。 3 ) 对各个视频对象的码流进行复合。 这种基于对象的视频编码方式非常适合于交互式的操作,可以提供 对场景内容的直接访问。 基于频域和时域分割的视频对象提取方法研究第一章 1 1 3m p e g 4 视频编码标准介绍 m p e g 专家组继成功定义了m p e g 1 和m p e g 一2 之后,于19 9 4 年 开始制定全新的基于对象的m p e g 4 标准。m p e g 4 标准将众多的多 媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提 供标准的算法及工具,用于实现音视频数据的有效编码及更为灵活的 存取。作为m p e g 4 标准的核心内容,m p e ( j 4 的视频编码部分正受 到越来越多的关注,电子工业、广播电视业、电信业、计算机软件业 都在紧密注视着它的发展。 为适应当今多媒体应用要求逐渐从播放型转向基于内容操作型, m p e g 4 视频编码标准中引入了v o ( v i s u a lo b j e c t ) 视频对象的概念 来实现基于内容的表示,以支持高效压缩、基于内容的交互以及内容 分级扩展等功能。m p e ( 3 4 的视频编码部分为了实现丰富多彩的多媒体 应用,为下列功能的实现提供了解决方案【1 2 】: 尽可能去除空问和时间冗余,实现图像和视频的有效压缩 各种视频对象的有效存取 对图像和视频序列的扩展操纵 基于内容的图像和视频编码 2 d 和3 d 网格纹理映射图有效压缩 隐含的2 d 网格的有效压缩 控制网格运动的节点时变几何数据流的有效压缩 纹理、图像和视频基于内容的伸缩性 视频序列中时域、空间及质量的伸缩性 易错环境下的鲁棒性 上述的这些功能大部分与基于内容的创作、发布和存取有关。 m p e g 一4 编解码结构的思想是先将视频序列的场景分割成语义意 义上的各个v o 视频对象。v o 在视频序列中某个时刻的帧图像称为视 频对象平面( v o p ,v i s u a lo b j e c tp l a n e ) ,每个v o p 所包含的形状、 纹理信息和运动矢量可单独编码,用户可根据需要,在编码端通过控 8 r p 0 单元对各个v o 分配不同的码率或通过复用单元来改变组合参数; 也可在解码端,通过组合单元来改变v o 的位置及组合顺序或通过解 基于频域和时域分割的视频对象提取方法研究第一章 复用单元来请求解码所需的码流,从而充分实现了与用户的交互性。 运动对象的提取是m p e g 4 标准能被应用的基础,其价值主要体现在 如下四个方面【7 1 : 能实现基于视频内容的存取、粘贴及查询检索等功能 能有效提高视频压缩编码效率 在现有的视频监控系统中将提高视频监控系统的智能化程度 实现交互多媒体服务,如虚拟会议、虚拟聊天室、交互式视频 教学等 由此可见,要实现m p e g 4 的交互功能,从输入视频序列中分割 出v o 是必须的,对视频序列进行分割及跟踪视频运动对象是一个极 其重要的研究领域。 m p e g 一4 视频编码标准只是为基于对象的编解码定义一个主体框 架,而没有规定或限制其实现的算法,从而让广大的研究工作者在自 由的空间里各施其才、各显神通。 1 2 当前研究状况 提取视频序列中的对象是任何基于对象操作的基本步骤,也是相关 研究人员研究的热点和难点。进行视频对象的分割研究,具有重要的 理论和实际意义。 但就目前来说,视频对象分割仍是一个极具挑战性的课题。因为它 涉及到高级语义的概念,而目前还很难明确地表达一种适合于分割算 法的语义概念,也还没有那种通用算法能够进行精确可靠的自动分割。 一般可以把v o 定义为所处理的感兴趣的区域,如编码时只需对运动 区域进行提取,就只要分割出运动的前景区域,把它作为一个对象。 然而,这种基于运动区域的分割,是一个低层次视觉的过程,对于高 层次视觉而言,其分割的视频对象是不准确的,也是不完整的。 目前已有的视频对象分割算法主要用到计算机图形学、图像分割、 机器视觉、模式识别、数字图像视频处理、小波分析、数学形态学等 多门学科的知识。当算法都是在一定的假设之下,侧重于对象的部分 特征,适用一定的场合。许多学者在这方面作了大量的研究,其算法 基于频域和时域分割的视频对象提取方法研究第一章 主要有两大类:基于运动估计的方法和基于变化检测模板的方法。 基于运动估计的方法【”】主要从运动分割的角度,首先利用光流法 估计出部分背景点的速度场,利用估计出来的值对背景图像进行运动 补偿,对经补偿后的图像进行帧间差分检测,并统计帧间差分结果的 分布规律,得出最佳的分割阀值,最后对差分图像滤噪后,通过识别 连通域检测出多个运动目标,在此基础上再进行区域的合并及小区域 的消除。这种方法的好处是能够处理两个或多个物体运动的情况,而 且采用分层的方法可以处理有遮挡的情况,其缺点是很难快速而又准 确地估算光流场,而且仅有运动信息不能准确定位物体的边缘。为此, 需将运动信息和空间信息如边缘等结合起来。 而基于变化检测模板的方法【l “,主要是检测出帧间变化差,得到 变化检测模板,然后跟踪其在各帧中的运动,但要得到准确的边缘信 息需进行复杂的运算和跟踪等操作。基于变化检测模板的方法原理比 较简单,初始模板的检测是关键。检测算法进行帧间变化检测,将时 空分割结果结合起来,得到初始的变化检测模板,然后又采用了相应 的基于形态算子的后处理方法,处理后得到最终的分割结果。由于整 个过程基本是对灰度图像和二值模板的形态处理,所以方法比较简单 易行。若采用形态算子的一些快速算法,有望对图像序列进行实时分 割。其实验结果表明该算法可以较好地分离前景和背景,较精确定位 视频对象的边缘。 还有一些其它的方法,如对各个帧差进行高阶矩统计或f 检验来 检测运动区域、使用形态运动关联算子【1 6 提取运动对象、采用数学形 态学的分水线算法精确地提取运动对象的轮廓等等。 每种算法都有自己的优缺点,适合特定的场合,满足特定的应用, 它们为后续者的研究提供很好的参考,也提出了面临的问题和改进的 方向,为最终的实际应用做了大量的探索工作。 1 3 作者完成的工作和章节安排 本文参照前人的经验、并结合自己的独立研究成果,提出一种自 动的结合频域、时域分割信息的对象提取方法,其核心原则是视频序 基于频域和时域分割的视频对象提取方法研究第一章 列中视频对象的时空一致性。在论文的整个研究期间( 包括预研、查 阅文献、实验论证等) 作了大量的工作,主要有以下几个方面: 查阅视频编码标准( 包括m p e g 一1 ,2 , 4 、h 2 6 1 、h 2 6 3 、m j p g 等) ,编写j p e g 、m p e g 1 、2 的编解码程序,熟悉去空间冗 余的离散余弦变换( d c t ) 和去时间冗余的运动估计与补偿, 及其它在视频编码中常用的变换与技巧。 参阅大量的相关中英文参考资料,掌握多媒体信息发展趋势, 了解视频分割的相关算法及原理,分析其适用的场合,并比较 各自的优、缺点,为后续的研究作基础。 研究在频域上提取目标轮廓的方法,对经典图像边缘检测算子 c a n n y 和小波分割方法作深入的研究和比较。 研究在时域上提取运动信息的方法,研究全局运动矢量和局部 运动矢量的估算,并用图像处理的相关方法提取运动信息。 研究并比较在不同判据下联合算法的效果。 编写程序实现上述功能,用标准图像序歹0 测试算法的效果。 尝试用视频序列的其它信息特征( 如色度、纹理) 进行辅助分 割,尝试更高层次的图像理解和人工智能,为最终形成语义意 义上的视频对象做准备。 本文第一章介绍课题背景和当前国内外研究方法,第二章介绍算 法的框图和模型,第三章和第四章分别从频域和时域上提取各自所需 的视频对象信息,第五章结合前两章的结果提取最终视频对象,第六 章进行实验和评价,最后一章第七章对本文进行总结,提出改进方向。 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: 丕纽2 11 日期:奶年d 厕日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:茎堑至 导师签名: i :i 塾 日期:待d 月a ) 7 日 , 基于频域和时域分割的视频对象提取方法研究第二章 第二章模型及系统框架 目前的视频对象提取方法都是在对其对象的定义之下适合某种类 型的应用场合。本文提出的算法也有一定的适用范围,在此范围内才 能准确而有效的提取视频对象。在本章中。我们将对本文所讨论的视 频对象作一定义,并建立视频对象和背景的系统模型。最后,介绍整 个系统的框图、要求及其它相关说明。 2 1 对象的定义及模型 2 11 视频对象的定义 视频对象的定义:较明显区别于背景并且与背景运动不完全一致的 前景目标。下面对定义的具体含义进行解释: 较明显区别于背景:即视频对象轮廓周边的灰度( 或色度) 值 不会缓慢过渡,才能保证频域上的边缘检测能正确将对象轮廓 提取出来。否则,对于边缘模糊的目标,甚至连人都不能肯定 为对象的,计算机提取出来也没有太多的实际价值。 与背景运动不完全一致:由于摄像镜头的运动,整个背景遵循 同个三维运动模型,而通常引起人视觉兴趣的视频对象相对 来说是一些比较小的区域,并且这些区域运动特征往往不符合 背景的运动模型。 另外,若满足上述条件的两个前景目标有部分相互覆盖,在本文中 只视为单一的视频对象。 2 1 2 视频对象与背景对象模型 直观的视频对象与背景对象模型见图2 一l 所示,各种标记具体解释 如下: b :背景对象,用六参数的三维仿射变换的运动模型近似。 0 1 :目标一,能明显得从背景中区分,但运动特性符合背景运 动模型,不视为视频对象。 0 2 :目标二,能明显得从背景中区分,运动特性符合也不符合 基于频域和时域分割的视频对象提取方法研究第二章 背景运动模型,视为视频对象。 0 3 & 0 4 :目标三和目标四,与目标二特性相同, 重叠,整体视为一个视频对象。 0 5 :目标五,虽然运动特性不符合背景运动模型, 景中区分开来,不视为视频对象,混同背景对待。 但两者互有 但不易从背 图2 1 视频对象和背景的模型 这种定义和模型的好处在于能有效得分离出视频对象,从而大幅而 提高视频压缩效率。一方面对提取出来的视频对象进行形状编码、运 动编码、纹理编码,由于不同视频序列中的同一个视频对象的相关性, 可以去除大量的信息冗余;另方面,可以对整个大的背景对象进行 静态s p r i t e 编码,从而达到高效压缩的目的【7 。 s p r i t e 编码是针对背景对象的特点提出来的。通常情况下,组成背 景对象的各个部分之间没有相对运动,通过图像的镶嵌技术把整个序 列的背景图像拼接成一个大的完整的背景图像,这个图像叫做s p r i t e 图像。s p r i t e 图像只需要编码传输一次并存储在解码器端,随后的图像 可以从s p r i t e 上进行偏移、变换等手段来恢复其背景。m p e g 一4 标准中 也包括s p r i t e ,是因为这种编码方式可以提供很高的压缩效率。显然, 实现s p r i t e 编码的一个重要前提就是按照它的要求从背景中很好地分 割出视频对象,而本文对视频对象的定义正好满足这一要求。 当然上述定义和模型也有缺点,例如若某个前景目标同背景运动完 全一致,也把其视为背景,对于压缩编码和图像质量都没有影响,但 是不能完全满足一般意义上的对对象检索、描述等基于语义的操作。 本文的一切讨论都是建立在对视频对象做出上述的定义之上,因此 2 基于频域和时域分割的视频对象提取方法研究第二章 本文讨论的算法在满足上述条件的应用场合里有效。 2 2 系统流程框图 本文所讨论的算法的基本原则是时空一致性,即对视频序列分别进 行频域分割和时域分割,在频域上提取目标轮廓,在时域上提取运动 矢量,然后联合两者信息提取最终的视频对象。其系统框图如图2 2 所示。整篇文章从两条主线走,一条是频域上,二条是时域上,这两 条主线汇合后,得出最终结果。 当前 参考 图2 - 2 系统框图 注:若无特别指出,本文中的各种处理均是针对图像的灰度值而言, 如果是彩色图像,则可预先进行r g b 到y u v 色彩空间的转换。 2 3 系统的要求 系统能依据视频序列的频域上和时域上的信息,自动提取出一个或 几个视频对象。对任意的视频序列进行提取时从总体上要考虑如下几 点性能要求】: 通用性:针对的对象是一般的视频序列,对要处理的视频的形 状、纹理、运动信息没有任何先验知识。 质量:能自动地、准确地、完整地分割视频对象。 灵活性:允许在出错的情况下能交互地改正一些错误。 复杂性:能在一般计算机上较快地由软件实现,或经过优化后, 能用硬件近似实时处理。 基于频域和时域分割的视频对象提取方法研究第二章 2 4 小结 本章定义了全文所讨论的视频对象,并建立视频对象和背景的系统 模型,后续章节中研究的算法都是在这个定义和模型下有效的。最后, 介绍整个系统的框图、要求及其它相关说明。 4 基于频域和时域分割的视频对象提取方法研究第三章 第三章频域分割 在本章中我们从频域这条主线出发,在单帧图像上提取目标轮廓, 具体涉及到图像边缘检测、多尺度小波变换,梯度矢量计算、数字图 像常用处理等内容。主要目的是讨论一种高效快速的提取目标轮廓的 方法,并与经典方法进行比较,用实验结果说明其性能。 3 1 频域分割框图 近十多年来,小波分析得以迅速地发展,理论也趋于完善,其优异 的性能使得它在众多领域上都有广泛的应用。经过研究分析,本文在 小波变换的基础上提出一种频域分割算法,其框图如图3 1 所示。主 要包括小波变换、梯度矢量矩阵计算、非极大值抑制和双域值化这四 个部分,其中小波变换是核心。该算法框架与传统边缘检测算子c a n n y 的有些相似,主要不同在于把用差分法计算水平、垂直梯度改成小波 变换方法,使得运算速度大幅提高,性能也有所改善。下文将针对各 部分分别展开详细讨论。 图3 1 单帧图像频域分割框图 3 2 频域算法模块 3 2 1 小波变换 3 2 1 1 小波分析概述 分割结果 小波分析是通过小波基函数的伸缩和平移来构成一系列分辨率不 同的正交投影空间及其对应的小波基,然后用这组小波基去表示或逼 近某一信号或函数。它的多分辨分析能力、时频局部化、表征函数的 基于频域和时域分割的视频对象塑取方法堑塑二篁三童 最优基底、快速算法等等特性,使得它特别适合于信号分析领域,如 图像编码、图像纹理分析、数字电视、计算机视觉、计算机图形学、 电子地图、c t 成像、彩色复印、语音编码、雷达、流体湍流、地震信 号处理和量子场理论等领域。 下面简单介绍一下小波的基本理论5 】【6 1 ,小波是由一个满足条件 广吵( f ) 硪= 0 ( 式3 一i ) 的函数v ( o 通过平移和伸缩而产生的一函数族虬6 ( f ) ( ,) = 一矿( t - d b ) ,口,6 足口o ( 式3 _ 2 ) 其中妒( r ) 称为基小波或母小波,a 称为伸缩因子( 尺度因子) ,b 称为平 移因子。 若函数矿( f ) 的f o u r i e r 变换妒( ) 满足允许性条件: c ,= e 铧姒。 则称】 f ,( f ) 为允许小波。 对任意函数f ( t ) r ( r ) ,它的连续小波变换定义为 阿( 啪) = = 一i f s f ( 咖( 等矽 ( 式3 ,3 ) ( 式3 4 ) 从数学意义上看,连续小波变换是函数f ( t ) 在函数族 6 ( f ) ) 上的 分解。对由允许小波产生的信号f ( t ) 的连续小波变换w f ( a ,b ) ,有如下 的重构r ( f ) 的小波逆变换关系: f ( t ) = 軎e e 彤( 咖警 ( 式3 - 5 ) 一u 一 如果函数矿的中心与半径分别为t + 和,那么函数虬,。就是中心在 a t + 十b ,且半径等于a 。,的一个窗函数,因此连续小波变换具有一个时 间窗 a t + b a a 。,a t + b + a a 。 ;如果函数p 的中心和半径分别用国和 ;给出,那么连续小波变换还具有一个频率窗 【出+ a 一( 1 a ) a 口,c o 口+ ( 1 d ) 口 。可见,小波分析的窗宽随伸缩因子a 的变化而改变。对于检测高频特性,时间窗自动变窄;对于检测低频 特性,时间窗自动变宽。 6 基于频域和时域分割的视频对塞提取虚鲨堑窒二二蔓三皇 3 2 12 多分辨分析与m a l l a t 算法简介 m a l l a t 将计算机视觉领域内的多分辨分析的思想巧妙地引入到小 波分析中,统一了在此之前各种小波基的构造方法,并给出了一种子 带滤波器结构的离散小波变换与重构算法。这一算法在小波分析中的 地位相当于经典f o u r i e r 分析中的f f t ,奠定了离散小波变换在众多领 域的应用基础。由于篇幅原因,m a l l a t 的分解与重构算法就不一一细 说,详情请见附录一。 m a l l a t 在多分辨分析基础上提出的系数分解和合成的这种完整算 法,其本质是不需要知道尺度函数妒( f ) 与小波函数y ( f ) 的具体结构,只 由系数进行滤波运算就可以实现,( f ) 的分解与重构的快速算法,因此它 被与誉为快速小波变换,以与快速f o u r i e r 变换媲美,为小波分析实用 化做出了巨大的贡献。 3 2 2 图像小波分解 小波变换的本质是多分辨率或多尺度地分析信号,非常适合视觉系 统对频率感知的对数特性,另外,小波变换具有检测局域突变的能力, 而物体边缘一般来说是信号变化率最大的地方,因此,小波变换非常 适合于图像边缘检测。 3 22 1 二维小波分锯的m a l l a t 算法 由于图像的分析和处理都是二维的,因此需要将维小波的m a l l a t 算法推广到二维的情况。可以证明,图像数据分别在行、列上进行一 维小波变换就可以实现二维小波变换。为此,m a l l a t 给出了著名的塔 式分解算法,如图3 2 所示【5 】【6 1 ,虿和万表示分解时所采用的高通和低 通滤波器,a ,厂称作f ( n ) 在,分辨率下的离散逼近,d ;f 为f ( n ) 在,分 辨率下的离散细节,n = l 、2 、3 分别为l h 、h l 、h h 子带上的细节, 2 山指以因子2 进行下采样。算法详见附录二。 二维小波分解采用了可分离的滤波器设计,实质上相当于分别对 图像数据的行和列作一维小波变换。因而对二维的数字图像,通过分 别进行水平和垂直滤波,离散小波变换将原始图像分为四个子带:垂 基于频域和时域分割的视频对象提取方法研究第三章 图3 2 二维小波的分解m a l l a t 算法 d ;+ 。厂 d 鼻。厂 巧+ 。, 彳鼻,厂 直和水平方向的低频子带l l ,水平方向的低频和垂直方向的高频子带 i 。h ,水平方向的高频和垂直方向的低频子带h l ,垂直和水平方向的高 频子带h h 。小波变换就是以原始图像为初始值,不断的将上一级图像 分解为四个子带的过程。每次分解得到的四个子带图像分别含有上一 级图像中的低频信息和垂直、水平及对角线方向的高频信息。 小波变换的结果是原始图像信号在一系列倍数频率划分的频带上 的多个高频带数据和一个低频带数据。例如对图像进行三级小波分解, 其示意图如图3 3 所示。 口j 患 h l 2 咽 l 丑1 删 髓、 k b、 l h i 职1 图3 3 图像三级小波分解示意图 3 22 2 小波基的选择 在进行小波变换时,选用不同的小波基会对编码的复杂性、边缘提 基于频域和时域分割的视频对窒提取宣鲨堑窒二二蔓三童 取的性能等产生影响,因此小波基的选择是十分重要的。具有紧支集 的正交归一小波基可以无冗余地表征图像信号,是选择小波基的重要 条件,另外还考虑到小波基的正则性和消失矩,一般而言,具有线性 相位、正则性好、消失矩大的小波基是最优的,这样分解后的小波图 像各高频予带的能量就越集中于图像的边缘附近。 b 样条函数具有偶对称性,小波函数具有奇对称性,并且小波函数 和其尺度函数是正交的,它基本满足上述讨论的条件。在图像边缘检 测中,一方面要求能有效抑制噪声,另一方面能精确定位,而这两者 是无法同时满足的,即边缘检测算法通过图像平滑算子去除了噪声, 但却增加了边缘定位的不确定性;反过来,若提高边缘检测算子对边 缘的敏感度,同时也提高了对噪声的敏感性,而b 样条小波函数可以 在抗噪声干扰和精确定位之间较好地折衷。综上所述,所以本文选择b 样条函数作为小波基。 构造3 阶b 样条函数作为二进小波函数,并具有零点反对称有限 紧支撑特性,能有效地检测阶图像边缘,其滤波器系数如表3 1 所示 【3 0 1 【3 ,系数简单,适合快速运算。 nl012 卜 0 1 2 5o 3 7 50 3 7 5o 1 2 5 g 。 0- 2 02 o0 3 2 2 3 边缘检测 表3 1 三阶b 样条小波滤波器系数 h 。为底通滤波器,g 。为高通滤波器 定义边缘为图像特征的局部不连续性,通常表现为图像强度( 如灰 度值、色度值等) 强烈变化的点的集合。对于图像而言,高频信息主 要集中在边缘、轮廓和纹理的法线方向上,代表了图像的细节变化。 在这种意义上,可以认为小波图像的各个高频带是图像中的边缘、轮 廓和纹理等细节信息的体现,并且不同频带所表示的边缘、轮廓和纹 基于频域和时域分割的视频对象提眍方法研塞二笙熏 理信息的方向是不同的。其中,l h 表示了水平方向的边缘,h l 表示 的是竖直方向的边缘,而对角线,方向的边缘等信息则集中体现在h h 频带中。小波图像的这一特点表明小波变换具有良好的空间方向选择 性,与人眼的视觉特性十分吻合。 对m p e g 一4 标准测试图像序列m o t h e r & d a u g h t e r 的第3 0 帧进行 上述小波分解,其分解的各个子带效果如图3 - 4 所示,其中尺度a = 2 1 , 即进行一级分解,有关尺度的讨论参见后面章节。为不至于丢失图像 ( d ) ( e ) 图3 4m o t h e r & d a u g h t e r 第3 0 帧图像小波分解结果 ( a ) 原图( b ) l l ( c ) h l ( d ) l h ( e ) h h ( 尺度a = 2 1 ) 1 0 基于频域翘时域分剿的视频对象提取方港研究二第三章 信息,采用由m a l l a t 算法延伸而来的多孔算法来避免按行和列的二抽 样,输出结果与原图像等大小。 3 2 2 4 多尺度小波分解 在上述讨论中,我们篱单纯了小波分解串的一个羹要参数一尺 度,暂置认为尺度a = 2 l 。多尺度瀚含义是通过对基本小波压缩或膨胀 褐成一组基函数来实现小波交换。基本小波妒( x ) 被伸缩为矿( x a ) ( 当a i 时变宽,而当0 a l ,分别闽值化得到两个阈值边缘图像一( x ,_ y ) 和t a x ,y ) 。 图像乃( x ,y ) 是用高阈值得到的,含有很少的假边缘r 但在轮廓上可能 会有间断点,于是在图像z ( x ,y ) 的8 邻域位置搜索低阈值边缘,以连 接高阈值边缘上的断点。该算法是迭代运算,直到连续两次的结果完 全相同时停止。 经过双阈值化处理后,可以提取出比较完整的边缘,选择不同的阈 值有不同的效果。还是对m p e g 标准测试图像序列m o t h e r & d a u g h t e r 第3 0 帧进行实验,在上文介绍的多尺度小波分解后,进行非极大值抑 制和双闽值化,其结果如图3 5 所示。 3 3 算法评价 单帧图像经过以上步骤,可以得到比较精确和完整的轮廓。该算法 是基于多尺度小波变换之上,因此可以根据不同的应用场合选择合适 的尺度,能在边缘精确定位和抗噪声之间很好地折衷,具有很强的灵 活性。另外,由于滤波器结构和系数异常简单,故运算速度特别快j 远远超过任何传统的边缘检测算子的速度。 c a n n y 算子是目前公认的综合性能最好的边缘检测算子【,它结合 了边缘检测算子的三个准则,即信噪比准则、定位精度准则和单边缘 响应准则,实现在信噪比和边缘定位精度意义上的最优边缘检测。 c a n n y 算子不同于本文讨论的算法在于,前者先用高斯滤波器平滑图 像,然后用一阶偏导的有限差分来计算梯度的幅值和方向,而后者是 利用图像的多尺度小波变换来求梯度矢量矩阵。前者的复杂程度明显 高于后者,因此后者更适合实时处理的场合。 图3 5 也显示了特定参数下的利用小波变换检测的效果和c a n n 。y 算 子检测的效果,我们可以看出,两种边缘检测的结果非常接近。由此 1 4 基于频域和时域分割的视频对象提取方法研究第三章 可以得出以下结论:本文所讨论的频域分割算法是一种高效快速的提 取目标轮廓的方法。 3 4 小结 本章
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 品牌声誉风险评估-洞察及研究
- 消防安全月培训记录课件
- 租赁合同解除条件解析-应对租赁纠纷
- 高端私立幼儿园教师专业素质培养聘用合同
- 离婚前婚姻关系解除财产分割及子女成长及教育协议书
- 2025至2030中国镍基高温合金行业产业运行态势及投资规划深度研究报告
- 离婚协议书制作指南与范本:财产分割与子女抚养
- 离婚协议书:财产分割及子女抚养权分配协议范本
- 离婚财产分割协议范本二:清晰界定财产权益
- 股权回购合同中目标公司控制权变更与保障
- 人教版美术五年级上册第2课 色彩的和谐 课件
- 2024年中国电子级硅烷气行业市场调查报告
- 产妇护理全套课件
- 输血相容性检测室内质量控制及流程
- 医院质控指标管理制度
- 2025年全国中小学教师职称评审考试试卷及答案
- 《健身力量训练》课件
- 赔偿保密协议书范本
- 隔物灸的作用与护理
- 云服务器故障应急预案
- 汉服妆造培训课件
评论
0/150
提交评论