




已阅读5页,还剩64页未读, 继续免费阅读
(信号与信息处理专业论文)基于时域相关性的h264压缩域运动对象分割.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 摘要 随着信息技术的不断创新和发展,视频通信已经成为信息技术中尤为 重要的热点之一。数字电视、视频电话和基于图像的交互式多媒体等视频 应用正在大量涌现,视频运动对象分割正是伴随着这些应用而发展起来的 一种先进视频处理技术,它能够实现视频数据更高效的存储和传输,以及 更准确的分析和更灵活的操纵。 本文主要研究了基于时域相关性的h 2 6 4 压缩域运动对象分割方法。 由于主要使用了运动矢量场信息来进行运动对象分割,因此需要研究能够 反映运动对象真实的运动矢量场的处理方法。本文提出了运动矢量场累积 方法来增强显著的运动信息,同时利用滤波和运动矢量稠密化方法来获取 可靠的运动矢量场。 然后,本文提出了基于熵模型的压缩域运动对象分割方法。该方法主 要利用运动矢量在时空上的相关性建立了时空一致性熵模型,然后再采用 最大熵自适应阈值方法获得阈值以实现运动对象分割,最后利用形态学进 行后处理以获得更加精确的分割结果。 最后,本文根据运动矢量场的时域相关性,提出了一种基于累加变化 检测的压缩域运动对象分割方法。通过累加连续多帧相对于中间帧的运动 矢量差的幅值来获得累加帧差图像,然后采用迭代均值算法选择合适的阈 值,从而分割出准确的运动对象。大量的实验证明了上述分割方法的有效 性和实时性。 关键词:压缩域运动对象分割运动矢量场h 2 6 4 时域相关性 v 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 a bs t r a c t w i t ht h ei n n o v a t i o na n dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , v i d e o c o m m u n i c a t i o nh a sb e c o m eo n eo ft h em o s ti m p o r t a n tf o c u s e si n0 1 1 1 d a i l y1 i v e s t h ee m e r g i n gd i g i t a l v i d e o p h o n e ,i m a g e - b a s e di n t e r a c t i v em u l t i m e d i aa n d o t h e rm u l t i m e d i aa p p l i c a t i o n sd e m a n dm o r em v a n c e dv i d e o p r o c e s s i n g t e c h n i q u e s v i d e oo b j e c ts e g m e n t a t i o ni ss u c hak i n do ft e c h n i q u ew i t ht h e d e v e l o p m e n to ft h e s ea p p l i c a t i o n s ,w h i c hc a np r o c e s sv i d e od a t af o re f f i c i e n t s t o r a g ea n dt r a n s m i s s i o n 。a c c u r a t ea n a l y s i sa n df l e x i b l em a n i p u l a t i o n t h i sd i s s e r t a t i o nf o c u s e so nm o v i n go b j e c ts e g m e n t a t i o ni nt h eh 2 6 4 c o m p r e s s e dd o m a i n t h em o t i o nv e c t o rf i e l di sm a i n l ye x p l o i t e di nt h eh 2 6 4 c o m p r e s s e dd o m a i ns e g m e n t a t i o n ,a n dt h u st h er e s e a r c ho nm o t i o nv e c t o rf i e l d p r o c e s s i n gm e t h o d si sr e q u i r e dt oa c t u a l l yr e p r e s e n tt h eo b j e c tm o t i o n t h e m o t i o nv e c t o ra c c u m u l a t i o na l g o r i t h mi su s e dt oe n h a n c et h es a l i e n tm o t i o n i n f o r m a t i o n a n ds o m ef i l t e r i n ga l g o r i t h m sa r ea l s ou s e dt oo b t a i nar e l i a b l e m o t i o nv e c t o rf i e l d t h e n ,an o v e lm o v i n go b j e c ts e g m e n t a t i o na l g o r i t h mb a s e do ne n t r o p y m o d e li sp r o p o s e di nt h i sd i s s e r t a t i o n t h es p a t i o t e m p o r a lc o r r e l a t i o no fm o t i o n v e c t o ri se x p l o i t e dt ob u i l dt h es p a t i o t e m p o r a lc o h e r e n c em o d e l t h ea d a p t i v e t h r e s h o l ds e l e c t i o nm e t h o db a s e do nm a x i m u me n t r o p yp r i n c i p l ei st h e n e x p l o i t e dt os e g m e n tm o v i n go b j e c t s l a s t l y , m o r p h o l o g i c a lo p e r a t i o n sa r eu s e d t of u r t h e rr e f i n et h eo b j e c ts e g m e n t a t i o nr e s u l t s f i n a l l y , t h i sd i s s e r t a t i o np r o p o s e sa na c c u m u l a t e dc h a n g ed e t e c t i o nb a s e d s e g m e n t a t i o na l g o r i t h m ,w h i c hu t i l i z e st h et e m p o r a lc o r r e l a t i o no fm o v i n g v e c t o rf i e l d t h et e m p o r a ld i f f e r e n c eo fm o t i o nv e c t o rf i e l d sb e t w e e ns u c c e s s i v e f l a m e si sc a l c u l a t e du s i n gt h ec h a n g ed e t e c t i o nm e t h o d ,a n dt h e na c c u m u l a t e dt o g e n e r a t et h ef r a m ed i f f e r e n c ei m a g ef o rr e l i a b l es e g m e n t a t i o n t h ei t e r a t i v e a v e r a g i n ga l g o r i t h mi sa d o p t e dt oo b t a i nt h et h r e s h o l d ,w h i c hi su s e dt os e g m e n t t h em o v i n go b i e c t sf r o mt h eb a c k g r o u n d e x p e r i m e n tr e s u l t so nav a r i e t yo f v i d e os e q u e n c e sd e m o n s t r a t et h ee f f e c t i v e n e s so ft h ep r o p o s e da l g o r i t h m si n r e a l t i m ea p p l i c a t i o n s k e y w o r d s :c o m p r e s s e dd o m a i n ,m o v i n go b j e c ts e g m e n t a t i o n ,m o t i o n v e c t o r sf i e l do u v f ) ,h 2 6 4 ,t e m p o r a lc o r r e l a t i o n v i 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:辫日期:碰且 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) i i 刊志 上海大学硕士学位论文 基于时域相关性的h 2 6 4 压缩域运动对象分割 1 1 课题来源 第一章绪论 本课题来自国家自然科学基金项目基于压缩域的二维三维视频对象提取 研究( 6 0 5 7 2 1 2 7 ) 。 1 2 课题研究的目的和意义 多媒体是指使用计算机交互技术和数字通信网络技术处理多种表示的媒体 ( 文本、图形、图像、视频和声音) ,使多种信息建立逻辑连接、集成的交互系 统。随着多媒体技术的发展和社会的不断进步,人类对信息的需求越来越丰富, 人们希望无论何时何地都能方便地通过语音、数据、图像和视频等多种方式进 行通信。人们对多媒体信息的依赖越来越强,可以说多媒体技术已经成为信息 产业的一个重要组成部分。 视频对象分割( v i d e oo b j e c ts e g m e n t a t i o n ) 是指在时空域上将一段连续的视 频分割为若干个具有语义特征的视频对象,具体地说,就是将每帧视频分割成 若干个视频对象区域。视频对象一般可以分为运动对象和静止对象两类,在视 频中人们一般更关注运动对象。很多运动对象分割技术都是在像素域实现,事 先要对压缩码流进行解码,虽然分割算法能够提取出具有准确边缘的对象,但 通常不能满足实时分割的要求。目前视频对象分割技术大多是基于像素域的算 法,直接在压缩域中分割视频运动对象的研究尚不多。基于压缩域的分割方法 在减少计算复杂度方面有较大的优势,但在分割的精确度方面逊于像素域中的 分割算法。由于原始视频数据十分巨大,对存储器的容量和网络传输带宽都提 出了苛刻的要求,因此视频数据经过压缩后再进行存储或者通过网络传输,这 已经成为多媒体应用的标准模式。在众多多媒体应用中需要对这些数据进行处 理,以获取有用的信息,因此研究压缩域中的运动对象分割算法有很大的实用 价值,在很多方面都得到了应用【l 】【2 1 。在视频编码中,提取视频对象可以很大地 提高压缩率,并为存储和传输提供了便利【3 】;在互联网领域的w e b 技术中,提 上海大学硕士学位论文 基于时域相关性的h 2 6 4 压缩域运动对象分割 取视频对象,可以对静止或动态场景进行查询和交互;在模式识别、计算机视 觉、目标监控、视频检索等领域也有广泛的应用【4 】【5 1 。 传统的视频对象处理都是在原始视频数据或者解码以后的视频数据上进行 操作,而压缩域下的视频对象处理是直接对压缩域的数据操作,无需进行繁琐 的解码过程,数据量也比原始视频数据少得多。两种分割方案分别如图1 1 和 图1 2 所示。传统的视频对象分割方法虽然能达到像素级的分割精度,但是其 复杂的计算成为了许多实时应用的瓶颈。而且,压缩域运动对象分割所需的纹 理信息和运动信息,在压缩域中直接提取d c t 系数和运动矢量场( m o t i o nv e c t o r f i e l d ) ,这样就大大降低了计算负担,具有良好的实时应用前景。面向m p e g 标 准的压缩域运动对象分割一般可以使用这两类信息,而h 2 6 4 视频编码标准中 由于i 帧采用帧内预测方式,其d c t 系数一般无法直接作为分割所需要的纹理 特征,所以一般只利用运动矢量场。下一节将分别简要介绍m p e g 系列视频编 码标准和h 2 6 4 视频编码标准。 压缩视频码 卜、 视频全解码 卜、像素域视频 分割对象 奇春 对象分割 流显示 图1 1 像素域视频对象分割方案 压缩视频码 八 压缩域视频 八 分割对象 0 占 v 对象分割 显示况 1 3 视频编码标准 图1 2 压缩域视频对象分割方案 视频信息包含的信息量巨大,未经压缩的视频数据需要大量的存储空间来 存放,无论传输还是处理都不方便。例如,一路可视电话或会议电视信号,由 于内容较少,所需要的带宽较窄,但要达到良好的质量,不压缩大约需要若干 m b i t s 的带宽,而压缩后只需3 8 4 k b i t s 。为了高效存储和传输视频,人们开发了 各种视频压缩算法,产生了一批视频压缩标准。在压缩标准中,编解码技术是 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 关键,其发展促进了数字视频的广泛应用。运动图像专家组( m o t i o np i c t u r e s e x p e r t sg r o u p ) 以编码技术为核心,先后推出了m p e g 1 、m p e g 2 、m p e g - 4 、 m p e g 7 等多个多媒体压缩标准。 ( 1 ) m p e g - 1 视频编码标准发布于1 9 9 1 年。视频压缩后的码率为1 5 m b i t s , 可用于视频传输和视频存储,主要应用于家用v c d 的视频压缩。m p e g 1 标准 定义了三种图像类型:i 、p 和b 图像。其中,b 图像表示双向预测( b i p r e d i c t e d ) , 参考前后两个方向的图像,能够更加准确地找出运动矢量,并只有在视频存储、 v o d 等非实时通信及数字广播电视中应用。m p e g 1 的编码结构类似于h 2 6 1 , 也采用分层结构。但有所不同的是m p e g 1 中多出了s l i c e 层,用于防止误码在 一帧内扩散。m p e g 1 标准以信息论为基础,以像素块为编码实体,把一帧图 像分成许多小块来处理。通常采用预测编码、变换编码和统计编码等编码方法。 由于现实场景中的对象不是按块来组成的,当压缩率增加时,这种块结构在解 压图像中很明显得显现出来,产生“块效应 。 ( 2 ) m p e g 2 标准从1 9 9 0 年开始研究,它是一个直接与数字电视广播有关的 高质量图像和伴音编码标准。m p e g 2 增加了许多m p e g 1 没有的功能。例如 增加了隔行扫描电视编码,提供了位速率的可变性能。m p e g 2 按不同的压缩 比分成五个档次,并按照视频清晰度分为四个级别,共有2 0 种组合。其中最常 见的有1 1 种,分别用于标准数字电视、高清晰度电视,码率从4 m b i t s 1 0 0 m b i t s 。 m p e g 2 标准提出的运动估计算法以8 8 像素块为单位来获得运动矢量场,而 d c t 变换后的d c 系数可表示块纹理的平均值,a c 系数则可表示不同方向的 纹理特征。 ( 3 ) m p e g 4 作为新一代多媒体数据压缩编码的代表,提出了基于对象的编码 思想,该思想代表了当前数据压缩技术的发展方向。m p e g 4 实现了从帧到v o p ( v i d e oo b j e c tp l a n e ) 的转变,以及从基于像素的传统编码到基于对象和内容 编码的转变。基于内容的交互性是m p e g 4 的核心思想,对编码技术的发展方 向及广泛应用有特别重要的意义。v o p 是m p e g 4 视频编码的核心概念,针对 不同v o p 采取不同的编码策略。在编码时,对前景v o ( v i d e oo b j e c t ) 尽可能 采用较低的压缩比率,保留细节和平滑;对背景v o 则采用高压缩率以提高编 上海大学硕士学位论文 基于时域相关性的h 2 6 4 压缩域运动对象分割 码效率,甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频 编码不仅克服了第一代视频编码中高压缩率编码产生的块效应,而且使用户和 场景能够交互,为视频编码提供了广阔的发展空间。 ( 4 ) m p e g 7 标准的工作于1 9 9 6 年启动,名称叫做多媒体内容描述接口 ( m u l t i m e d i ac o n t e n td e s e r i p t i o ni n t e r f a c e ) ,目的是制定一套描述符标准,用来 描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。 例如,用户可能想访问一张关于视频内容的表,它可以从一个条目跳到另一个 条目,这就要求把视频数据按照镜头和场景结构化。与其他m p e g 标准一样, m p e g 7 是为了满足特定需求而制定的视听信息标准。m p e g 7 继承了m p e g 4 中使用的形状描述符、m p e g 1 和m p e g 2 中使用的运动矢量。 ( 5 ) h 2 6 4 视频编码标准于2 0 0 3 年正式被i t u 通过并在国际上正式发布。h 2 6 4 不仅具有优异的压缩性能,而且具有良好的网络友好性,这对实时的视频通信 是十分重要的。现在已有基于d s p 的采用h 2 6 4 编码的可视电话出现在市场上, 进一步说明了h 2 6 4 在视频通信中的重要应用价值。h 2 6 4 还有个重要应用就 是网络流媒体。应用流媒体技术的视频点播( v o d ) 近几年来得到了迅速发展, 韩国的宽带上网应用中v o d 占据了第二位。我国宽带上网用户已达1 0 0 0 多万 用户,而且还在继续发展。应该说,h 2 6 4 的颁布是视频压缩编码技术发展中 的一件大事,它优异的压缩性能将在数字电视广播、视频实时通信、网络视频 流媒体传输以及多媒体短信等各个方面发挥重要作用。帧内预测是h 2 6 4 新引 入的编码工具之一,该预测能避免帧间编码时因参考块的运动补偿引起的误码 扩散。帧内预测以绝对误差和为标准选取最佳预测模式,使预测帧更加接近于 原始帧,减少了相互间的差异,去除时间上的数据冗余,提高了编码的压缩效 率。但其d c t 变换系数不能直接反映纹理信息,因此一般不使用h 2 6 4 域的 d c t 信息来分割对象。 1 4 视频对象分割的应用 视频对象分割作为图像分割技术的一种扩展已经得到了一定的发展,其应 用领域不仅仅局限于基于内容的编码,还应用到了如计算机视觉、视频分析、 4 上海大学硕士学位论文基于时域相关性的h 2 “压缩域运动对象分割 视频监控等领域中。 1 视频编码 基于对象的视频编码有助于实现基于内容的网络自适应传输。在网络自适 应传输中,需要根据网络带宽进行动态地控制码率。在基于对象编码的视频中, 不同对象在传输中可以拥有不同的优先级,享受不同的网络资源,以确保人们 感兴趣的对象可以得到优先保护。在带宽资源非常宝贵的无线通信领域,视频 对象分割技术也有十分重要的应用。具体来说,m p e g - 4 在编码过程中对不同 的视频对象采用不同的编码策略:对于前景对象的压缩编码尽可能保留细节和 平滑;对背景对象采用高压缩率的编码策略。m p e g - 4 基于对象的编码结构如 图1 3 所示。每个视频对象分别可以用三类信息来描述:运动信息、形状信息 和纹理信息。其中,运动对象的形状信息是经过运动估计算法直接得到,而将 运动估计到的帧作为当前帧的预测可以获得残差信息,再经过d c t 变化和量化 可以对运动对象的运动信息和纹理信息分别进行编码,最后合成这三类编码数 据以比特流的形式发送出去。相应地,m p e g 4 的视频解码结构也是基于对象 的形状、运动和纹理信息,如图1 4 所示。解码端的多路信号选择器将码流分 成形状、运动和纹理三部分,分别对这三类信息解码,对解码后的信息进行运 动补偿和重构,获得视频图像后输出。所以,视频编码是视频对象提取应用最 广的领域之一,具有很好的发展前景。 v o p 图1 3m p e g - 4 编码结构图 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 d ei 形状解码 m lj【 u l t 一运动解码h 运动补偿卜 重构v 。pl一咖印。;缸 i p l t 。 ij e x l e 一 纹理解码 r 视频 输出 v o p 缓存 图1 - 4m p e g - 4 解码结构图 2 视频检索 对于多媒体数据来说,每一种多媒体数据都难以用符号化的方法描述信息 线索,现有的基于文本表达的搜索引擎已经不能满足多媒体数据库的需求,基 于内容的多媒体数据库检索突破了传统的基于表达式的局限,它直接对图像、 视频、音频中的语义对象进行分析并提取语义特征,利用这些特征建立索引并 进行检索。在m p e g 7 中,用于描述内容的特征分为三个层次。低层次( 感知 层) 的特征包括颜色、纹理和运动信息;高层次( 概念层,也称语义层) 的特 征是内容的概念信息;中间层的特征则提供了低层次感知特征和高层次语义特 征之间的联系模型。为了实现基于内容的检索,首先需要将视频对象分割为语 义对象,并提取这些对象的各个层次的特征信息,利用这些特征信息建立视频 数据库的索引。 3 智能监控 智能监控系统是视频对象分割技术的另一个颇具潜力的应用领域。在传统 的视频监控系统( 如闭路电视系统) 中,工作人员需要不时地监控屏幕去发现 可疑的事件或者目标,因此工作量很大而且效率很低。采用视频对象分割技术 的智能监控系统中,计算机可以在分割、检测出运动目标时自动通知工作人员 的介入,从而减轻工作人员的负担并提高效率。如果可能的话计算机还可以对 这些目标的运动模式进行一些自动分析,以确定是否为可疑目标。 6 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 在远程监控系统中,视频对象分割技术更有用武之地。大型远程监控系统 面临的一个较大的问题是大量数据的视频传输和存储。传统的监控系统都是传 输、存储完整的视频图像,在带宽和存储容量有限的情况下只能采用降低比特 率的方法。如果在摄像机端采用视频对象分割技术,在传输和存储的时候就可 以只传输和存储属于运动对象的区域,这样就可以减少视频数据的传输量。 除了上述应用领域外,视频对象分割还在人脸检测、目标识别、虚拟现实 以及计算机视觉等领域有广泛的应用前景。 1 5 论文的主要研究内容和安排 本论文是作者攻读硕士学位期间所承担课题的主要工作,主要是基于运动 矢量场的h 。2 6 4 压缩域运动对象分割方法进行了具体研究。具体工作如下: ( 1 ) 研究了h 2 6 4 视频编码标准和j m 8 6 代码,了解了编解码器结构,并 从中提取出了运动矢量场。 ( 2 ) 分析了运动矢量场的特点并提出了运动矢量场累积的方法。运动矢量 的有效性是利用运动矢量场分割对象的主要难点,所以对提取的运动矢 量场必须进行一定的预处理。 ( 3 ) 基于运动矢量在时域上的相关性,本文分别提出了基于熵模型的压缩 域运动对象分割方法和基于累加变化检测的压缩域运动对象分割方法。 大量实验证明了这两种分割算法是有效的。 论文章节安排如下: 第一章中阐述了课题的来源,研究课题的目的和意义,介绍了m p e g 系列 标准和h 2 6 4 标准,以及当前视频对象分割的应用领域。 第二章简要介绍了视频对象分割的基本概念,分类介绍了像素域对象分割 方法和压缩域对象分割方法。 第三章简要介绍了h 2 6 4 运动矢量的产生以及运动矢量场的特点,然后着 重阐述了提高可靠运动矢量场的一些预处理方法。 第四章提出了一种基于熵模型的压缩域运动对象分割方法。该方法主要利 用运动矢量时空上的一致性来建立熵模型,然后利用最大熵的原理获得阈值以 7 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 分割出运动对象,最后以形态学的方法进行后处理以消除噪声点的影响。 第五章提出了基于累加变化检测的压缩域运动对象分割方法。首先利用运 动矢量在时域上的相关性,累加连续多帧相对于中间帧的运动矢量差的幅值, 以得到变化区域和非变化区域,再通过迭代均值收敛获得阈值后分割得到运动 对象。 最后第六章总结全文。 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 第二章视频对象分割 2 1 视频对象分割概述 上世纪8 0 年代末9 0 年代初,多媒体信息量增长越来越快,多媒体消费的 需求和水平越来越高。于是,对于多媒体信息尤其是图像视频信息的高效压缩 编码研究蓬勃发展起来,人们研究视频对象分割的兴趣逐渐转向基于对象的视 频编码。作为多媒体应用标准,m p e g 4 最初的应用目标就是视频编码( 极低 比特率) ,后来加入了对多媒体信息的基于内容的访问、操作功能m p e g 7 标准 是描述多媒体内容的标准,以适应于未来视频检索、访问、操作与控制等应用 的需求。 视频通常是由许多在时间上连续,并且时间间隔很短的视频图像组成。从 视频语义方面理解可以分为帧( f r a m e ) 、镜头( s h o t ) 、场景( s c e n e ) 等。帧是 指视频流中的一幅图像,可以被划分成许多小的宏块和子宏块。镜头是由许多 不问断的帧组成,也是电影组成部分的基本单元。有时镜头也可以分解成子镜 头,子镜头是由一些运动对象和摄像机运动保持一致的帧组成。场景是高层次 语义的组织单元,由具有相同兴趣的镜头序列组成。 近年来,已经提出了有许多视频对象分割的方法。不同的分割方法中分割 对象的具体含义不同,这取决于这种分割方法所能适用的分割对象范围。如果 分割方法只能分割运动对象,那么按照有无用户交互,可以将对象分割方法分 为自动分割和交互式分割两大类。如果按照视频数据是否以压缩形式存在,则 可以划分为像素域视频对象分割和压缩域视频对象分割。以下将分别介绍这两 种视频对象分割方法。 2 2 像素域视频对象分割 传统的像素域视频分割算法都由三个主要步骤来完成,分别是预处理、特 征提取和分割判决 6 1 。其中,预处理主要是为了降低数据间的相关性,可以通 过低通、形态学滤波等方式来完成。特征提取是至关重要的一个过程,可选择 9 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 的特征信息包括纹理、运动、深度、帧差和直方图,根据特征的一致性将图像 划分成区域,最后分割得到的各个区域具有相似或一致的特征。分割判决是选 择合适的判决模式对提取的特征信息进行处理,完成视频对象的分割,是分割 过程中最重要的一步。 众多的视频对象分割方法按照是否有人工参与分割,可以分为两大类,即 自动视频对象分割和半自动视频对象分割。自动视频对象分割又包括基于光流 场的运动对象分割、基于变化检测的运动对象分割、基于时空融合的视频对象 分割和基于时域跟踪的视频对象分割。 2 2 1 基于光流场的视频对象分割 所谓光流场,就是三维物体的实际运动在图像平面上的投影而得到的图像 亮度随时间变化的运动场。基于光流场的运动对象分割就是根据光流场提供的 运动特性信息来分割视频对象。由于运动对象通常与背景有不一致的运动,所 以基于光流场分割的经典算法是先估算稠密运动场,然后在此基础上进行分割。 由于存在孔径问题和遮挡问题,光流场有时并不对应于运动场,需要使用附加 的假设模型来模拟二维运动场的结构,可采用的模型包括参数模型和非参数模 型。 参数模型能够描述曲面的三维运动在平面图像上的正交或透视投影。采用 基于参数模型的光流场分割方法先假设有k 个相互独立的运动物体,每一个矢 量对应于单个不透明的三维刚体运动的投影,基于这一假设,每一个不同的运 动可以通过一系列映射参数来正确描述。w a n g 7 】等提出了聚类仿射参数来实现 运动对象分割的方法。首先将一帧图像分割成个块,分别进行运动估计求出 它们的运动参数,然后使用迭代k 均值聚类把这些运动参数向量分组,得到聚 类中心,通过将各个像素分配到距离最近的聚类中来完成运动对象分割。这种 方法对仿射运动估计中的微小误差很敏感,y u c e l 8 】对该方法做了改进,用一种 新的区域标记法来增强运动分割的空域平滑性,使参数运动模型的边界与对象 的边界相匹配,利用颜色分割的区域精确性来提高运动分割产生对象的边缘平 滑度。 1 0 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 典型的利用非参数模型进行运动对象分割的方法有贝叶斯法,贝叶斯法是 在给定的光流数据条件下,搜索分割标记的最大后验概率( m a p ) ,即检测当 前的分割符合被观察的光流数据的程度和当前分割与我们的期望值一致程度。 贝叶斯法利用随机平滑度约束条件,通常采取g i b b s 随机场方法来估算位移场。 m a p 分割法用分段的二次流场模拟光流数据,用g i b b s 分布模拟分割场。 2 2 2 基于变化检测的视频对象分割 基于变化检测的视频对象分割方法是通过检测序列图像上的变化区域与不 变区域,以实现将运动对象与静止背景进行分离。最早提出的变化检测方法是 对每一帧的帧差图像采用一个固定的阈值来判断每个像素属于运动对象还是背 景。但是在变化检测过程中有噪声的存在,使得检测结果中出现许多孤立的噪 声区域,为了提高对象分割的可靠性,必须去除这些区域。因此,在不引入过 高复杂度算法的情况下,可以利用先前的变化检测结果来自适应地更新一幅背 景图像,或者采用如高斯混合模型的参数模型以及基于核密度估计的非参数模 型来建立背景的概率模型,考虑到对象在空域的平滑性和时域的连贯性,利用 m a r k o v 随机场模型( m i 讧) 将对象分割问题转换为求最大后验概率( m a p ) 的问题,可以增强分割的可靠性。 于跃龙【l o 】等提出了一种基于统计变化检测的实时视频对象分割方法。在该 方法中,统计变化检测方法利用t 分布能有效地消除噪声的影响,而不需要估 计噪声的方差,利用间隔的两帧图像代替连续两帧图像来进行变化检测,可以 有效地处理快速运动或者慢运动,算法复杂度不高,能够自动实时分割视频对 象。m 【1 1 】等利用变化检测分割出属于运动对象的区域,再用松弛算法处理对 象的边界块以获得精确的对象边界。x u 【1 2 】等先建立一个初始的变化检测掩膜, 然后用c a n n y 进行边缘检测,通过多帧的整合、边缘匹配和区域生长可以检测 出运动对象的阴影区域。 2 2 3 基于时空融合的视频对象分割 基于时空融合的视频对象分割方法主要分三部分:时域分割、空域分割和 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 时空融合分割。时域分割一般采用变化检测的方法,要求能比较准确地检测出 运动区域,同时也要避免检测出过多的噪声区域。空域分割可以采用各种图像 分割方法将每帧图像分割成若干颜色或者纹理一致的区域,获得比较准确而且 完整的边界信息。基于时空融合的视频对象分割方法就是要求对每一帧图像同 时进行时域分割和空域分割处理,然后再选择不同的融合策略将两种分割结果 结合起来,提取视频对象。这种算法的核心是选择合适的方法融合时域和空域 的分割信息。因为时域分割结果主要是确定运动对象所在的大致区域,空域分 割结果则是能够得到运动对象的准确边界信息,所以常见的融合方法是利用空 域得到的边界信息来修正时域分割结果。 m e c h ”】等采用松弛算法估计得到变化检测掩膜,然后使变化检测掩膜的轮 廓与其附近的图像边缘相符合,以提高视频对象边界的准确性。h a b i l i l l 4 1 等利用 空时融合的方法分割出人的脸和手。首先根据肤色模型和马氏距离将图像像素分 割成肤色和非肤色区域,然后根据变化检测确定运动对象在视频中的位置,最后 将空域的肤色分割和时域的变化检测分割结果融合起来分割出人的脸和手。 c h e n 1 5 】等提出了一种基于g i b b s 随机场模型的时空分割方法,该方法为每一帧图 像的分割模板建立g i b b s 随机场模型,将时域分割结果作为初始标记场,空域分 割结果作为一个图像观察场,然后利用g i b b s 模型的约束条件将二者结合起来, 得到运动对象的最后分割结果。 2 2 4 基于时域跟踪的视频对象分割 运动信息是视频中最显著最易于描述的特征之一。当前许多分割算法只是 针对单帧提取运动对象,为了从多帧中提取运动对象,分割算法必须应用到每 一帧并把分割结果联系起来。然而,每一帧分割的计算开销又相当大,这样的 分割方法不利于实际应用。一种可行的方法就是利用多帧之间的时域相关性的 对象跟踪方法。运动对象跟踪是指在连续的视频帧之间建立运动对象的连续对 应关系。运动对象的跟踪可以是在已知目标初始状态、形状和位置的条件下, 在后续帧中寻找对应的对象区域,也可以是先在不同视频帧中分割出运动对象 区域,然后建立这些视频帧中运动对象区域之间的联系。例如采用运动等高线 1 2 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 模型可以扩大前一帧分割对象的边界线作为当前帧分割的初始状态;运动补偿 方法可以通过运动估计将当前分割对象投影到后续的帧上。完成跟踪之后只需 对分割对象做边界细化处理就可以了,可以大大提升分割速度和效率。在后续 帧中进行视频对象跟踪,可以采用三种跟踪模型:区域模型、轮廓模型和边缘 模型。区域模型不仅包括视频对象的整体轮廓信息,还包括了视频对象内部的 颜色和运动信息。g r i n i a s c l 6 1 提出了一种半自动种子区域生长的视频对象定位和 跟踪方法。首先通过运动估计获得视频对象的种子区域的初始分割,对后续帧 采用运动补偿和位置预测进行跟踪。轮廓模型提取了视频对象随时间变化的轮 廓,这些轮廓信息表示了视频对象在相邻帧间的运动信息。l u o 1 7 】在若干关键 帧中手工定义好视频对象轮廓,对于其它帧利用其前后两个关键帧的对象轮廓 进行轮廓匹配,然后用轮廓插值算法合并两个匹配轮廓以得到最终的视频对象 轮廓。边缘模型是指视频对象所有边缘点组成的一个二值模型,跟踪边缘模型 就是在后续帧的边缘图像中找到属于视频对象的那些点。f a n ”】贝0 使用了 h a u s d o r f f 距离来跟踪视频对象的轮廓点来获得一个边缘模型,在模型的更新过 程中,还考虑使用视频对象的颜色信息来增强视频对象分割的稳定性。 2 3 压缩域视频对象分割 像素域内的视频对象分割尽管可以得到满意的分割结果,但往往难以满足 实时性的要求。而且,视频数据大部分都是经过压缩处理后存储和传输的,如 果仍然使用上述像素域的分割算法,则需要先还原到像素域再进行视频对象分 割。反之,直接在压缩域中提取视频对象,不需要经过相对耗时的解码步骤, 可显著地减少运算时间。当然,还是需要进行部分解码,例如熵解码提取运动 矢量信息等,只是不需要经过占解码器相对耗时的反离散余弦变换( i d c t ) 和运 动补偿等步骤,从而可显著减少运算时间。此外,压缩域运算的基本单位是i 帧部分的d c t 系数和p b 帧的运动矢量,相对于像素域运算以像素为基本单 元来说,需要处理的数据量大大减少。一般来说,在压缩域中进行视频对象分 割所需要的时间,相对像素域来说能显著地减少。因此,近年来视频对象分割 的国际前沿研究热点已经由像素域转向压缩域。 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 2 3 1 压缩域中可利用的信息 基于m p e g 1 2 的压缩域的视频对象分割可利用的信息主要有两类:i 帧 的d c t 系数和p b 帧的运动矢量。运动矢量代表相邻帧间宏块的位置偏移, 描述偏移量的就是运动信息。一个p 帧或b 帧的运动矢量可以构成一个稀疏 的运动矢量场,也可以通过累积或内插得到一个稠密的运动矢量场。此外,d c t 系数包含了纹理信息,如直流( d c ) 系数表示块的平均能量,交流( a c ) 系数表 示了纹理分布。与m p e g 1 2 相比,h 2 6 4 压缩域中i 帧的d c t 系数不能 直接用作分割的纹理特征,因为它们是在块的空域预测残差基础上进行变换的, 而不是在原始的图像块上进行变换的。因此,在h 2 6 4 域进行运动对象分割可 以直接使用的信息只有运动矢量。m p e g 的运动矢量和d c t 系数可以从压缩 视频流中通过部分解码得到,并可以直接近似地用于分割所需的运动特征和纹 理特征。从h 2 6 4 压缩视频流中获取运动矢量,则通过基于上下文的变长编码 ( c a v l c ) 或基于上下文的二进制自适应算术编码( c a b a c ) 相应的解码步骤获 得。 2 3 2 压缩域视频对象分割 根据压缩域分割方法中所利用的主要信息,压缩域视频对象分割技术可以 分为以下几类: 1 m p e g 域利用d c t 系数的分割。w a n g 1 9 】等提出了一种在m p e g 码流 中快速提取人脸的算法,使用了肤色的统计数据,形状和亮度d c t 系数的能量 分布来确定人脸区域。r a o 2 0 1 等利用了文献中提出的算法确定视频对象区域, 然后用k 均值算法对颜色信息进行空域聚类,最后细化分割区域。j i 【2 l 】等用d c t 系数来得到空域特征矢量,比较相邻特征矢量的相似性来确定是否属于同一区 域。g u 2 2 1 等利用肤色的空间信息进行种子区域生长,并以区域的边界信息作为 种子区域生长的阈值。m a 2 3 1 等使用最大熵模糊聚类的方法对d c 系数进行粗略 的分割,再通过最大后验概率( m a p ) 的方法使用a c 系数细化分割图像的边 界。 1 4 上海大学硕士学位论文基于时域相关性的h 2 6 4 压缩域运动对象分割 2 m p e g 域利用运动矢量( m v ) 的分割。b a b u 2 6 】等先对运动矢量场进行 累积,然后使用k 均值聚类算法获取对象的个数,最后采用e m 聚类算法完成对 象的分割。b a b u 2 5 】以他在文献 2 6 】中提出的算法为基础,在分割完后又提取了对 象特征,根据特征来进行运动对象的跟踪。b o r s h u k o v l 2 7 】等提出了一种基于运动 矢量场的分割方法,这种方法需要稠密的运动矢量场,将具有相似运动特征的矢 量归为一个区域。b a b u 2 8 】等提出了一种利用运动矢量场进行压缩域运动对象分 割的方法,首先累积运动矢量场来增强运动信息,并采用空域插值算法得到稠密 的运动矢量场,然后使用k 均值聚类算法获取对象的个数并利用e m 算法完成对 象的分割,最后对分割对象的边缘块进行解码来细化分割对象。p i r o d d i t 了7 】等提出 了一种从稠密的矢量场中获得多个不变量,精确地描述对象的运动而不需要建立 初始化模型的方法。 3 m p e g 域利用运动矢量和d c t 系数的分割。w a n g 2 9 】等先结合空域、时域 和纹理来获得具有鲁棒性的运动信息,通过主要运动信息的检测提取出运动对象 块。w a n g _ 【3 0 】等首先通过校正得到对象真实的运动矢量,随后使用e m 算法得到粗 糙的分割结果,然后用c a n n y 边缘检测提取真实对象的边缘来对粗糙的分割结果 进行细化。z e n 3 1 】等用运动矢量的幅值和相位来分割对象,利用前后帧d c t 系数 的匹配关系来跟踪对象。b e n z o u g a r t 3 2 】根据全局运动补偿后运动矢量的相似性, 利用m r f 来分割运动对象。y u t 3 3 】等先由运动矢量场分割图像,然后从d c 系数图 像得到块尺寸的差异分割图,最后把两个分割结果根据一定的条件结合起来,这 种方法比光用运动矢量或d c 图像要好得多。c o i m b r a 3 4 1 等先由运动矢量和d c t 系数提取到的背景进行简单分割,然后对特殊斑点分析来减少噪声和解决封闭问 题。m a 3 5 】等用运动矢量来确定运动对象的位置,而d c 系数用来细化对象边缘。 用最大熵模糊聚类算法把m v 和d c 系数归为一致区域。m e z a r i s 2 4 】采用了基于迭 代拒绝算法的双线性运动模型来分割前景块和背景块,对每一帧都做同样的处 理。由迭代拒绝算法得到块的标记来完成时域上的对象跟踪,同时也可以分割出 背景。用低层的描述符来描述分割对象的一些特征,映射到中层的描述符。最后 结合合理的反馈机制得到对象的高层的定义,以完成对象的分割。 4 h 2 6 4 域的分割。h 2 6 4 压缩域对象分割一般只利用运动矢量。因为h 2 6 4 上海大学硕士学位论文 基于时域相关性的h 2 6 4 压缩域运动对象分割 里面i 帧是帧内编码,它在空
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设计公司工资管理制度
- 2025年中国激光导航扫地机器人行业市场全景分析及前景机遇研判报告
- 评审医疗废物管理制度
- 诊所排污登记管理制度
- 诊断试剂购进管理制度
- 财务租赁合同管理制度
- 财政所应收款管理制度
- 货代公司收款管理制度
- 货物内部流转管理制度
- 货站装卸安全管理制度
- 2024年湖南融通资源循环产业有限公司技能岗位招聘真题
- 2025压覆矿产资源调查评估规范
- 2025年安徽省农业职业技能大赛(水生物病害防治员)备赛试题库(含答案)
- java笔试题目及答案
- 安徽省合肥一中2025届高三5月回归教材读本
- 2024年江苏省无锡市中考历史真题(解析版)
- 人人讲安全个个会应急 课件-2024-2025学年高二下学期防灾减灾主题班会
- 《成人慢性肾脏病食养指南(2024年版)》解读
- 静电放电(ESD)及其防护措施培训课件
- 城市更新中历史文化街区非物质文化遗产保护与开发报告
- 2025年北京市东城区九年级初三一模语文试卷(含答案)
评论
0/150
提交评论