(模式识别与智能系统专业论文)面向基于内容多媒体应用的视频对象分割.pdf_第1页
(模式识别与智能系统专业论文)面向基于内容多媒体应用的视频对象分割.pdf_第2页
(模式识别与智能系统专业论文)面向基于内容多媒体应用的视频对象分割.pdf_第3页
(模式识别与智能系统专业论文)面向基于内容多媒体应用的视频对象分割.pdf_第4页
(模式识别与智能系统专业论文)面向基于内容多媒体应用的视频对象分割.pdf_第5页
已阅读5页,还剩127页未读 继续免费阅读

(模式识别与智能系统专业论文)面向基于内容多媒体应用的视频对象分割.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j ,t q 圭差茎鱼蔓堕主兰丝丝苎 面向基于内容多媒体应用的视频对象分割+ 摘要 随着互联网和多媒体技术的迅速发展,我们在每天的生活中都会接触到大量的图像和视 频信息。图像和视频的压缩技术已经取得了巨大的成就,有效地解决j ,存储和传输的问题 目前的多媒体应用迫切需要的是基于内容的功能。为了有效地提供基十内容的功能,必须从 视频场景中分割出有意义的视频对象,以获得视频内容的基于对象的表示。视频对象分割最 初的研究动机是为了实现m p e g 4 基于内容的编码功能现在它已经成为支持任何种基 于内容的多媒体应用的关键技术其中包括视频索引和检索、智能视频监控、人机交互以及 视频编辑等应用。 视频对象分割方法基本上可分为两类:即自动分割方法和半自动分割方法。在详细回顾 已有方法的基础上,本文提出了一种更细化的分类标准,强调了视频对象跟踪算法在自动和 半自动分割方法中的通用性。对于自动分割,本文提出了两种运动对象分割算法以及一种人 脸对象分割算法。对于半自动分割,本文提出了一个交互式视频对象分割工具以及。种同样 可用于自动分割中的视频对象跟踪算法。 具体来说,本文的主要刨新工作如下: ( 1 ) 使用光流场的运动信息,提出了基于假设检验的运动对象分割算法。初始分割采 用分水岭分割算法,接着根据颜色相似性进行区域合并:然后利用光流场估计和全局运动估 计获得全局运动的残余误差:最后以各个区域的残余瀑差数据进行假设检验来确定运动区 域,组合所有的运动区域来生成具有准确边缘的完整视频对象。 ( 2 ) 在时空分割框架下提出了一种自动视频对象分割算法。时域分割采用= r 基于f 检 验的变化检测方法;针对空域分割提出了一种彩色图像的分裂台并算法:然后考虑以前帧分 割出的运动对象的累积结果,进行时空分割结果的融合;最后提出了一种利用边缘信息来消 除显露的背景区域的后处理方法。 ( 3 ) 针对半自动分割的第一步,开发了一个交互式视频对象分割工具来方便用户定义 + 本论文的研究工作曾得到以下基金项目的资助:国家自然科学基金项目( 3 0 1 7 0 2 7 4 ) 、上海市科委基金项 目( 0 3 d z t 4 0 15 ) ,谨致谢忱。 摘要 感兴趣的视频对象。用户交互结合了画标记和区域选择这两种方式,所提出的快速种子区域 合并算法用来从分割区域中提取出视频对象。灵活的用户交互方式和种子区域台并算法相瓦 配合,最大程度上减少了用户交互的工作量。 ( 4 ) 提 n 了一种双向投影的方法用于视频对象跟踪+ 它有机地结台了前向投影和后向 投影各自的优点。前向投影用来在当前帧中粗略定位视频对象的边界,接着在其膨胀区域内 进行实际的分水岭分割。然后在较小的搜索范围内只对一些分割区域进行后向投影,提高了 跟踪的效率而且在后向投影中融合了象素分类和区域分类,保证了跟踪的可靠性。所提出 的烈向投影方法不仪i j 用于半自动视频对象分割的第二步,也可作为一个独立的跟踪模块用 于自动视频对象分割中。 t 5 ) 提出了一种基于二叉划分树的人脸分割算法。首先结合象素分类和分水岭分割的 结果来获得肤色区域;然后利用谷底检测和熵闽值化的方法提取出脸部特征来修正肤色区 域。为了从肤色区域中分割出人脸区域,提出了一种新的区域合并算法,在合并过程中考虑 了相邻区域之间公用边界的影响,并用二叉划分树来表示整个区域合并过程。接着利用一系 列描述人脸的几何特征和形状特征的模糊隶属度函数,给二叉划分树的每个结点赋值来表示 该结点的人脸相似度。最后提出了一种在二叉划分树中的结点选择算法来完成人脸分割它 能够在无需任何假设的情况下准确地分割出人脸对象。 关键词:视频对象分割,m p e g 4 ,视频对象跟踪人脸分割,假设检验时空分割种子 区域合并,双向投影,二叉划分树 j t f q 兰蔓茎鱼茔堕兰兰垡堡苎 v i d e oo b j e c ts e g m e n t a t i o nf o rc o n t e n t b a s e dm u i j r l m e d i aa p p l i c a t i o n s + a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t c m e ta n d o fi m a g ea n dv i d e oi n f o r m a t i o ni ne v e r y d a yl i f e m u l t i m e d i at e c h n i q u e ,w ea c c e s sal a r g ea m o u n t w h i l es i g n i f i c a n ta c h i e v e m e n t sh a v eb e e nm a d e i ni m a g em i dv i d e oc o m p r e s s i o nf o rt h ep u r p o s eo fs t o r a g ea n dt r a n s m i s s i o n ,t h ee m e r g i n g m u l t i m e d i aa p p l i c a t i o n su r g e n t l yd e m a n dc o n t e n t - b a s e df i m c t i o n a l i t i e si no r d e rt o e f f i c i e n t l y p r o v i d es u c hc o n t e n t - b a s e df u n c t i o n a l i t i e s ,i ti sn e c e s s a l 3 ,t os e g m e n tm e a n i n g f u lv i d e oo b j e c t s f r o mt h es c e n et oe n a b l eo b j e c t - b a s e dr e p r e s e n t a t i o no f v i d e oc o n t e n t v i d e oo b j e c ts e g m e n t a t i o n i si n i t i a l l ys t u d i e da sa l li n d i s p e n s a b l es t e pt oi m p l e m e n tt h ec o n t e n t - b a s e dc o d i n gf u n c t i o n a l i t y i n t r o d u c e db ym p e g - 4 ,a n dn o wi th a sa l r e a d yb e c o m eak e yt e c h n i q u et o s u p p o r ta n y c o n t e n t - b a s e dm u l t i m e d i aa p p l i c a t i o n i n c l u d i n gv i d e o i n d e xa n dr e t r i e v a l i n t e l l i g e n tv i d e o s u r v e i l l a n c e ,h u m a nc o m p u t e ri n t e r a c t i o n ,v i d e oe d i t i n g ,e t c b a s i c a l l y , v i d e oo b j e c ts e g m e n t a t i o na p p r o a c h e sc a nb ec l a s s i f i e di n t ot w oc a t e g o r i e s : a u t o m a t i co n u sa n ds e m i - a u t o m a t i co n e sw i t hat h o r o u g hr e v i e wo fe x i s t i n ga p p r o a c h e s ,t h i s d i s s e r t a t i o np r o p o s e daf i n e rc l a s s i f i c a t i o ns t a n d a r dt oe m p h a s i z et h eg e n e r a l i t yo fv i d e oo b j e c t t r a c k i n ga l g o r i t h m si nb o t hc a t e g o r i e s f o ra u t o m a t i cs e g m e n t a t i o n ,t h i sd i s s e r t a t i o np r o p o s e st w o s e g m e n t a t i o na l g o r i t h m sf o rm o v i n go b j e c t sa n das e g m e n t a t i o na l g o r i t h mf o rf a c eo b j e c t s f o r s e m i a u t o m a t i cs e g m e n t a t i o n t h i sd i s s e r t a t i o np r o p o s e sa ni n t e r a c t i v ev i d e oo b j e c ts e g m e n t a t i o n t o o la n dav i d e oo b j e c tt r a c k i n ga l g o r i t h mt h a te a r la l s ob eu s e di na u t o m a t i cs e g m e n t a t i o n s p e c i f i c a l l y , t h em a i nc o n t r i b u t i o n so f t h i sd i s s e r t a t i o na r ea sf o l l o w s : ( 1 ) u s i n gt h em o t i o ni n f o r m a t i o no fo p t i c a lf i e l d ,am o v i n go b j e c ts e g m e n t a t i o na l g o r i t h m b a s e do nh y p o t h e s i st e s t i n gi sp r o p o s e d t h ew a t e r s h e ds e g m e n t a t i o na l g o r i t h mi su s e dt oo b t a i n a l li n i t i a ls e g m e n t a t i o n ,a n dt h e nr e g i o nm e r g i n gi sp e r f o r m e da c c o r d i n gt oc o l o rs i n u l a r i t yt h e g l o b a lm o t i o nr e s i d u a le r r o ri sc a l c u l a t e db a s e do nt h er e s u l to fo p t i c a lf l o we s t i m a t i o na n dg l o b a l m o t i o ne s t i m a t i o n h y p o t h e s i st e s t i n gi sp e r f o r m e do nt h o s ee r r o rd a t ao fe a c hr e g i o nt od e c i d e w h e t h e ri ti sam o v i n gr e g i o no rn o t a l lm o v i n gr e g i o n sa r eg r o u p e dt og e n e r a t et h ew h o l ev i d e o o b j e c t sw i t ha c c u r a t eb o u n d a r i e s ( 2 ) b a s e do nt h ef r m n e w o r ko fs p a t i o t e m p o r a ls e g m e n t a t i o n 、a na u t o m a t i cv i d e oo b j e c t t h i s w o r k w o ss u p p o r t e d b y t h e n a t i o n a l n a t m - a ls c i e n c e f o u n d a t i o no f c l m mu n d e r t h e g r a n t n o3 0 1 7 0 2 7 4 a n dp a a m l l ys u p l x = r t e d b t h ep r o j e c to f s c i e n c ea n d t c c t m o l o g yc o m m j t t c co f s h a n g h a iu n d e r t h e g r a n t n o 0 3 d z l 4 0 1 5 a b s l r a c t s e g n r e n t a t i o na l g o r i t h mi sp r o p o s e dt h ec h a n g ed e t e c t i o nm e t h o db a s e do nft e s t i n gi sa d o p t e d f o rt e m p o r a ls e g m e n t a t i o n ,a n da h 3 b r i ds p l i t - m e r g ea l g o r i t h mi sp r o p o s e df o r t h es p a t i a l s e g m e n t a t i o no fc o l o ri m a g et w os e g m e n t a t i o nr e s n i t sa r ei n t e g r a t e dw i t hs o m es p e c i f i cr u l e s c o n s i d e r i n gt h ea c c u m u l a t i o nr e s u l t so fp r e v i o u ss e g m e n t e dv i d e oo b j e c t s ap o s t - p r o c e s s i n g m e t h o du s i n ge d g ei n f o r m a t i o ni sp r o p o s e dt or e m o v et h eu n c o v e r e db a c k g r o u n dr e g i o n ( 3 ) f o rt h ef i r s ts t e po fs e m i - a u t o m a t i cv i d e oo b j e c ts e g m e n t a t i o n ,a l li n t e r a c t i v ev i d e oo b j e c t s e g m e n t a t i o nt o o li sd e v e l o p e df o rt h eu s e rt oe a s i l yd e f i n et h ed e s k e dv i d e oo b j e c t s t h eu s e r i n t e r a c t i o nc o m b i n e sm a r k e rd r a w i n ga n dr e g i o ns e l e c t i o n ,a n daf a s ts e e d e dr e g i o nm e r g i n g a p p r o a c hi sp r o p o s e dt oe x t r a c tt h ev i d e oo b j e c tf r o mt h er e g i o n so fs p a t i a ls e g m e n t a t i o nt h e f i e x i b l eu s e ri n t e r a c t i o nw a ym a dt h ep r o p o s e ds e e d e dr e g i o nm e r g i n ga p p r o a c he f f i c i e n t l yw o r k t o g e t h e rt om i n i m i z et h eu s e ri n t e r a c t i o na c t i v i 够 ( 4 ) ab i r d i r e c t i o n a lp r o j e c t i o na p p r o a c hi sp r o p o s e df o rv i d e oo b j e c tt r a c k i n g ,w h i c ht a k e s b o t ha d v a n t a g e so ff o r w a r dp r o j e c t i o na n db a c k w a r dp r o j e c t i o nf o r w a r dp r o j e c t i o ni su s e dt o l o c a t et h er o u g hb o u n d a r y o fc u r r e n tv i d e oo b j e c t ,a n dt h e nw a t e r s h e ds e g m e n t a t i o ni sa c t u a l l 3 p e r f o r m e do nt h ed i l a t e da r e ao ft h er o u g hb o u n d a r ya ni m p r o v e db a c k w a r dp r o j e c t i o n ,w h i c h i n c o r p o r a t e sp i x e lc l a s s i f i c a t i o nw i t hr e g i o nc l a s s i f i c a t i o n ,i sp e r f o r m e do ns o m es e g m e n t e d r e g i o n si nar a t h e rs m a l ls e a r c hr a n g e ,a n dt h et r a c k i n gp e r f o r m a n c ei se n h a n c e di nr e s p e c to f b o t h r e l i a b i l i t ye n de f f i c i e n c yt h ep r o p o s e db i r d i r e c t i o n a lp r o j e c t i o na p p r o a c hi ss u i t a b l ef o rt h e s e c o n ds t e po fs e n t i - a u t o m a t i cv i d e oo b j e c ts e g m e n t a t i o n ,a n dc a na l s ob eu s e da s at r a c k i n g m o d u l ei na i la u t o m a t i cv i d e oo b j e c ts e g m e n t a t i o na l g o r i t h m ( 5 ) a ne f f i c i e n tf a c es e g m e n t a t i o na l g o r i t h mb a s e do nb i n a r yp a r t i t i o nt r e ei sp r o p o s e d s k i n l i k er e g i o n sa r ef i r s to b t a i n e db yi n t e g r a t i n gt h er e s u l t so fp i x e lc l a s s i f i c a t i o na n dw a t e r s h e d s e g m e n t a t i o nf a c i a lf e a t u r e sa r ee x t r a c t e db yt h et e c h n i q u e so fv a l l e yd e t e c t i o na n de n t r o p i c t h r e s h o l d i n g e n da r eu s e dt or e f i n et h es k i n - l i k er e g i o n si no r d e rt os e g m e n tt h ef a c i a lr e g i o n s f r o mt h es k i n l i k er e g i o n s ,an o v e lr e g i o nm e r g i n ga l g o r i t h mi sp r o p o s e db yc o n s i d e r i n gt h e i m p a c to ft h ec o m m o nb o r d e rr a t i ob c m - e e oa d j a c e u tr e g i o n s ,a n dt h eb i n a r yp a r t i t i o nt r e ei sn s e d t or e p r e s e n tt b ew h o l er e g i o nm e r g i n gp r o c e s s t h e nt h ef a c i a ll i k e n e s so f e a c hn o d ei nt h eb i n a r y p a r t i t i o nt r e ei se v a l u a t e du s i n gas e to ff u z z y m e m b e r s h i pf u n c t i o n sd e v i s e df o ran u m b e ro f f a c i a lp r i m i t i v e so fg e o m e t r i c a l ,e l l i p t i c a la n df a c i a lf e a t u r e sa ne f f i c i e n ta l g o r i t h mo fn o d e s e l e c t i n gi nt h eb i n a r yp a r t i t i o nt r e ei sp r o p o s e df o rt h ef i n a lf a c es e g m e n t a t i o n ,w h i c hc a ne x a c t l y s e g m e n tt h ef a c eo b j e c t s , x l t h o u ta l l yu n d e r l y i n ga s s u m p t i o n k e y w o r d s :v i d e oo b j e c ts e g m e n t a t i o n ,m p e g - 4 ,v i d e oo b j e c tt r a c k i n g ,f a c es e g m e n t a t i o n , h j ,p o t h e s i st e s t i n g ,s p a t i o t e m p o r a ls e g m e n t a t i o n s e e d e dr e g i o nm e r g i n g ,b i d i r e c t i o n a l p r o j e c t i o n b i n a o - p a r t i t i o nt r e e 上海交通大学学位论文答辩决议书 8 申请者l 刘志 i 所在学科( 专业) 模式识别与智能系统 i f 论文题目f 面向基于内容多媒体应用的视频对象分割 | l 雀辩日期1 2 0 0 5 0 5 1 2 答辩地点 上海交通大学浩然高科技大厦 一一一一 ! 答辩委员会成员 阿面匾厂_ 丽匠穗r 厂磊 签名 视频对象的分割技术是目前多媒体应用中非常活跃的个课题。论文在自动 和半自动( 交互式) 视频分割领域的多个方面进行了研究工作,具有重要的理论 和应用意义。论文研究工作取得了以下结果: 在铰全面地练述了视频对象分割技术的基础上,提出了一种更细化的分类标 准,强调了视频对象跟踪算法在自动和半自动分割方法中的通用性:提出了基于 光流场的假设检验的运动对象分割算法:提出了时空分割框架下的自动视频对象 分割算法;开发了一个交互式视频对象分割工具,使用户能够快速地分割出感兴 趣的视频对象:提出了基于双向投影的视频对象跟踪算法,在提高视频对象分割 效率的同时保证了分割质量:提出了基于二叉划分树的人脸分割算法,它能够较 准确地分割出人脸对象。 论文立论正确,条理清晰,层次分明,实验数据可靠。论文有创新性。论文 工作体现了作者已经掌握本专业的坚实宽广的基础理论和系统深入的专门知识, 独立从事科研能力强。 该同学在答辩过程中表述清楚,能正确回答所提问题,经答辩委员会无记名 投票,一致同意通过论文答辩。建议校学位委员会授予工学博士学位。 表决结果: 该同学在答辩过程中表述清楚,能正确回答所提问题,经答辩委员会无记名 投票,致同意通过论文答辩。建议校学位委员会授予工学博士学位。 答辩蓼蠢席凛羚。签名, f 枷厂章月斌日 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:曳l j 志、 日期:捌r 年f 月f l 日 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。奉人授权上海交通大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密团。 ( 请在以上方框内打“”) 学位论文作者签名:长_ 怎、 指导教师签名:争易l 乞 日期:2 触晖r 月肛日 日期:f 年f 月,l 日 j t u 兰壁塞垒苎鲎堕兰壁堡茎 第一章绪论 1 1 研究背景 随着多媒体技术和互联网技术的迅速发展,我们在每天的工作和生活中都会接触到大量 的多媒体信息,如文本、图形、图像、音频和视频。其中,视频信息无疑是多媒体信息中最 重要的一种表现形式,因为视频信息能够表示现实世界中更为丰富的内容而且在我们通过 各种形式的媒体获得的信息中占有最大的比例。数字视频技术已经深刻地改变了我们的日常 生活,数码相机、数码摄像机、多媒体电脑已经进入寻常百姓家,v c d d v d 、网络视频点 播、视频电话、视频会议、远程医疗等也已经成为现代生活中不可或缺的娱乐或工作方式, 而颇具潜力的数字电视也在逐渐取代我们所熟悉的模拟电视。 数字视频给我们带来了更为丰富和精彩的生活,各种存储形式的数字视频每天都以令人 吃惊的速度增长,而且互联网上传输流量最大的就是数字视频。面对如此海量的数字视频信 息,如何有效地分析、描述和复用,如何使用户能够快速搜索到最相关的数字视频,已经成 为数字视频技术迫切需要解决的问题,其中的关键环节就在于获得数字视频基于内容的表 示。原始的数字视频信息是基于象素表示的,要想以基于内容的形式表示数字视频信息,视 频对象分割技术就是能够联系这两种表示的唯一桥梁。因此,近年来视频对象分割技术一直 是国际上的一个研究热点,也是一个颇具挑战性的研究课题。 视频对象分割的目的就是通过从视频序列中分割出具有定语义的视频对象,来获得基 于内容表示的视频信息。视频对象分割具有相当广泛的应用背景,主要的应用领域包括:视 频编码、视频索引和检索、视频监控、人机交互、视频编辑以及场景理解等。已有的这些应 用领域以及不断涌现的各种基于内容的多媒体应用,正是本文研究视频对象分割技术的原动 力。视频对象分割技术的一些典型应用如图1 1 所示,以下将具体插述视频对象分割技术在 几个应用领域所起的重要作用。 户视频编码 m p e g 4 视频编码器要实现基于对象的编码功能,视频对象分割就是一个必不可少的前 处理步骤。在视频会议或者视频电话这类已经应用广泛的窄带视频通信中,以及应用前景广 阔的无线视频通信中,基于对象的视频编码器可咀给感知重要的视频对象( 如人脸区域) 分 配较多的码字,而给感知不重要的背景分配较少的码字,这样在相同码率条件f 解码器一 端就叮以获得主观视觉质量更高的解码图像。观频对象分割在这类同时要求高压缔t - i s n 高质 璺二! 堕笙 。 鞋的视频通信巾,所起的重要作用足不言向喻的 任意观颈序列- 磊磊鬲? ;i 石; - 基于对象的诅豫害鲁码 - - 有汽车_ 了楹罐 交通监控视频卜 磊磊再磊j 石习, 特定摹件检测 家庭。v + i i j j j i :i 卫- 卜坦额鳙辑, 机交互 图11 视频对象分割的典型应用 f i gil r y p i c a 2a p p k c a t i o n so f v i d e ( 】o b j ts e g m e n t a t i o n , 视频索引和检索 目前吏用的税频数据库索引技术仍然依靠诸如颜色、纹殚和运动等底层特征检索到用 户满意的视频片断往往需要多次的用户反馈。如果视频序列能够存储为各个视频对象的形 式必将h 助于在视颤数据庳中检索特定的对象或者特定内容的片断。视频信息的索引邗榆 索就如同处理文本信息一样方便数宁国书馆就可l 提供给读者更为有效的视j 频榆素服务。 ,视频监控 智能化的视频监控系统要求能够从临控场景中榆删出特定事件、跟踪可疑的运动刈晷、 甚至理解场景肾像的高层语义,视频别象分割足蛮地这些功能的前提。例如智能交通的监 一2 一 圭蔓差鱼苎坚壁主堂竺堡兰 j ,t t 畦 控系统通过统计分割出的车辆和行人对象的密度来分析文通的拥堵情况:通过跟踪分割出的 车辆对象来判断超速或可疑车辆,进而检测m 需要监控者关注的事件,智能监控系统的应用 领域和市场前景是十分广阔的,智能化楼宇、银行、机场和任何需要安仝保护的地方都将需 要更加智能化的监控系统。 人机交互 视频对象分割技术已经催生了许多交互式多媒体应用如虚拟演播室,虚拟场景下的娱 乐或比赛项目等。这类应用需要从现实环境中拍摄的税频中分割出感兴趣的视频对象,如运 动的人或者车辆,再将这些视频对象叠加到虚拟场景中。这样用户在屏幕上看到自己或眚自 己驾驶的车辆,就有一种身临其境的感觉。例如欧洲几个国家的台作项日a r t l i 、c ( a r c h i t e c t u r ea n da u t h o r i n gt o o l sp r o t o t y p e sf o rl i v i n gi m a g e sa n dv i d e oe x p e r i m e n t s ) 就是交 互式多媒体应用的一个范例,它为媒体创作人员提供方便的开发工具来制作混合现实对象和 虚拟场景的媒体,给普通用户提供多种虚拟场景的交互环境,使用户感觉置身于这一虚拟场 景之中,并且可以扮演其中的一个角色经历一段故事。 视频编辑 视频对象分割对于视频编辑等应用领域的意义是十分显著的。例如在影片制作中,分割 出的视频对象可以在不同的影片片断中重复使用,还可以给视频对象链接上附加的描述信 息,这就使得用户能够在观看影片的同时主动获取其感兴趣对象的更多信息。影片制作人员 还可以将各类视频对象存储到数据库中,利用专业的动画工具来制作某个视频对象的特技场 面。 视频对象分割的研究与新一代的视频编码标准m p e g 4 m p e g9 9 之间的联系一直是密 不可分的。从起草m p e g - 4 标准的提案开始,视频对象分割就开始成为一个十分活跃的研 究领域,m p e g 专门组织了关于视频对象分割技术的讨论,并且提交了自动分割和半自动分 割方案,作为m p e g 4v i s u a l 部分非标准化的一个附件 m p e g9 8 1 。在1 9 9 9 年m p e g 4 蛀 终成为新的视频编码国际标准后,出现了更多的基于m p e g 4 的多媒体应用更加有力地 推动了视频对象分割技术的深入研究。可以说,视频对象分割的研究是视频编码技术发展的 需要,因此有必要简单回顾一下视频编码标准的发展过程,同时有助于解释清楚视频对象分 割中一些基本概念的来龙去脉。 1 2 视频编码标准 在各种视频传输和存储的应削领域,视频压缩的重要性是不言而喻的,传输和存储原始 第一章绪论 的视频图像,所需的传输带宽和存储窄间部是相当巨大的,存现实的应用t t 必须对原始视频 进行压缩,以满足传输带宽和存储空间的限制。原始视频往时间和空间上存存大量的冗余信 息,备种视频编码技术都是通过去除帧问和帧内的冗余信息来达到视频压缩的日的。针对不 同的应用领域,m p e g 和| t u ( 前身为c c i t t ) 这两个组织单独或者合作制定了多个砚频 编码标准分别命名为m p e g - x 和h ,2 6 x ,例如它们最新合作制定的先进税频编硅3 ( a d v a n c c d v i d e oc o d i n g ) 标准,i t u 称为h 2 6 4 而m p e g 称为m p e g 4p a r t1 0 ,这两个系列的标准 都为视频编码技术的迅速发展做出了各自的贡献。由丁二本文研究的视频对象分割技术与 m p e g - 4 密匕 相关,所以以下将简要回顿m p e g 系列的视频编码标准的发展历程。 m p e g l 标准 m p e g9 1 1 的日标是建意一个用于数字存储媒体的动态图像及其伴音的编 码标准。主要指标是图像和伴音的总码率为l5 m b p s :图像质量能够达到当前录像机的水平; 数字存储适合当前应用的几种媒体。m p e g 1 主要采用了两项基本技术来进行视频压缩,一 是基于1 6 1 6 宏块的运动补偿,以减少视频序列的时间冗余度:二是对残差进行d c t 变换, 以减少空间冗余度。m p e g 1 的主要贡献在于引入了b 帧的概念,通过双向预测解决,由于 遮挡造成运动估计不准的问题,提高r 压缩比;此外,还引入了图像组( g o p ) 的概念,便 于随机访问、快进快退和反向播放。 m p e g 一2 标准( i s o i e c l 3 9 1 8 ) m p e g9 4 1 的目的是支持高的圈像分辨率,包括符台c c i r 6 0 1 格式的标准分辨率的数字电视和更高分辨率的h d t v 。m p e g - 2 的码率范围是3 m b d s 1 0 0 m b p s ,它还能支持更广泛的应用如d v d 、视频点播v o d 和数字广播电视。m p e g - 2 采用的编码策略与m p e g 1 基本相同,但是增加了很多新特征。如针对隔行扫描的电视图 像另外设置了按场编码的模式,并相应地扩展了运动补偿,显著提高r 编码效率。m p e g 2 针对不同的应用提出了类( p r o f i l e ) 和级( 1 e x r e l ) 的概念,按编码图像的分辨率分成4 个级, 接所使用的编码工具的集合分成5 个类,某一级,类的组合就构成了m p e g 2 在某种特定应 用f 的子集对于某一输入格式的视频,采用特定集合的视频压缩工具,产生规定码率范围 内的码流。存总共2 0 种可能组合中,为r 保证与m p e g - i 向下兼容及广播、通信、计算机 车【】家用视听设备的需求,目前有1 1 种已获通过,称为m p e g 2 适用点。m p e g 2 增加了可 分级性( s c a l a b i l i d ) 允许从同一码流中得到不同质量等级或不同时空分辨率的视频图像。 m p e g 1 和m p e g 2 都是相当成功的视频编码标准,在数字视频压缩领域已经获得广泛 的应用。它们能够住中等压缩比的情况下扶得高质量的解码图像,但是住高压缩比情况下解 码图像的方块效应是相当明显的,这足因为这两个标准的核心技术仍然是基于块的运动补偿 和d c t ,而场景中的各个对象不可能恰好是一些块区域的组合,所以出现方块效应是不可 4 一 兰差塞鱼苎鲞堕主兰壁堡奎 j t t h 避免的。此外,它们将每帧视频图像分成大小固定的块来进行编码,没有考虑到不同视频图 像的具体内容,没有利用人类视觉系统的感知特性,因此压缩比不是很高,不适合在窄带视 额通信中应用。这两个标准主要分别应用在媒体存储和电视广播领域从用户的角度来看, 一个共同的特点就是它们不支持用户的交瓦,用户只能被动地观看事先压缩好的视频,所以 不适用于交互式多媒体应用中。 m p e g - 4 ( i s o 1 e c l 4 4 9 6 ) f m p e g9 9 i 于1 9 9 9 年正式成为新一代视频编码的国际标准, 与m p e g - l 和m p e g 一2 相比,它能够利用很窄的传输带宽,以最少的码字获得最佳的解码 图像质量,【乱比适用于低码率视频传输的应用领域,如视频电话、移动多媒体通信、视频电 子邮件等。m p e g 4 的强大功能不仅在于犬幅度提高了压缩性能更重要的是提供了基于对 琢的视频编码功能,这也是它与以前基于块的视频编码标准的最大区别。m p e g 4 将每个对 象单独地编码到”一个码流层中,这样就提供了用户交互的功能,允许用户访问和操作场景中 各个对象。为了描述视频序列中这些实际对象m p e g - 4 引入了视频对象平面( v i d e oo b j e c t p l a n e ) 的概念,视频序列的每帧图像被分割成若干任意形状的v o p ,每个v o p 覆盖的区域 可能完全对应某个感兴趣的对象( 如运动的人或车辆) ,或者具有特定的内容( 如背景区域) , 即分割出的v o p 应该对应一个有意义的完整对象,称为语义对象( s e m m t i co b j e c t ) 。当然, 也可以像m p e g 1 和m p e g - 2 那样将每帧图像划分成若干相同大小的方块,每个v o p 对应 一个方块区域,不过这样的v o p 就不具有一定的语义了,也就体现不了m p e g 4 基于对象 的功能。 对于一个基于对象的m p e g 4 视频编码器【e b r a h i i ,l j9 7 】而言它的输入不再足一个个大 小相同的方块区域,而是一个个形状各异的v o p 。在视频序列的所有帧中,属于场景中同 一个实际对象的所有v o p 通称为一个视频对象( v i d e oo b j e c t ) 。将每个视频对象的轮廓、 纹理和运动信息单独编码到一个视频对象层( v i d e oo b j e c tl a y e r ) ,在解码器一端对每个v o l 的码流单独解码以重建该层的视频对象,对所有的v o l 进行解码就可以重建完整场景的视 频序列。用户可以对感兴趣的视频对象进行平移、旋转以及缩放等操作,也可以从码流中获 得视频对象的一些附加描述信息。 m p e g - 7 于2 0 0 0 年成为国际标准 m p e g0 0 1 它的正式名称是多媒体内容描述接u 用 来解决日益庞大的声音、图像和视频信息的管理和检索问题。它对各种不同类型的多媒体信 息进行标准化的描述,该描述与所描述的多媒体的具体内容密切相关,根据该描述与用户感 兴趣的内容的相似性匹配,来实现快速有效的检索 s i k o i ai ) lj 。m p e g - 7 标准化的只是内容 描述的方法,而没有规定如何从原始多媒体信息中提取内容的方法,全局内容可以通过提取 一5 一 第一章绪论 整幅视频图像的颜色、纹理、形状和运动等底层特征来j j n u , 描述,不过更有价值或者更感兴 趣的可能是某个视频对象的局部内容描述,这就需要一定的视频对象分割技术来分割出感兴 趣的视频对象,然后再从视频对象区域而不足整幅图像中提取相应的特征来获得基于对象的 局部内容描述。 1 3 研究意义 从上述税频编码的回顾中可以看出,无论对于m p e g 4 视频编码标准还是m p e g 7 多 媒体内容描述标准,以及与这两个标准密切相关的各种多媒体应用,视频对苏分割都是个 不可或缺的关键环节,这在前文中也已经有所叙述。视频对象分割技术是伴随着m p e g - 4 标准的产生过程而发展起来的,在这期间许多研究者已经做r 很多开创性的研究工作。即使 在m p e g 4 正式成为国际

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论