(通信与信息系统专业论文)时空联合的视频对象分割.pdf_第1页
(通信与信息系统专业论文)时空联合的视频对象分割.pdf_第2页
(通信与信息系统专业论文)时空联合的视频对象分割.pdf_第3页
(通信与信息系统专业论文)时空联合的视频对象分割.pdf_第4页
(通信与信息系统专业论文)时空联合的视频对象分割.pdf_第5页
已阅读5页,还剩108页未读 继续免费阅读

(通信与信息系统专业论文)时空联合的视频对象分割.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 新一代多媒体标准m p e g 4 和m p e g 一7 采用了基于内容的视频编码和视频描述框架, 包括照于内容的压缩、可扩展性和可交互性等几方面内容。m p e g - 4 在编码之前将视频场景 划分成若干有意义的视频对象( v o ) ,然后根据视频对象的形状、运动、纹理等信息进行编码。 而m p e g 一7 是对各种多媒体对象统一的描述和各种多媒体接口的标准化,以实现高效的内 容检索和奇询。其中,视频对缘分割技术是解决基于内容编码和描述问题的关键所在,直接 影响着编码器的性能和视频描述的有效性。然而,m p e g 4 和m p e g - 7 标准仅定义了视频 的编解码过程和语法规则,并没有制定具体的视频对象分割方法。作为视频处理领域中的重 要支撑技术,研究视频对象分割具有深远的现实意义和重大的应用价值。有鉴于此,本文重 点研究视频对象分割技术。 本文介绍了视频对象分割技术在多媒体标准、视频监控、图像模式识别等领域的应用和 研究状况,讨论了其在当今高速发展的信息时代的重要意义和应用价值,综述了国内外视频 分割技术的发展现况,分析了交互式分割和自动分割技术。在此基础上,从空域帧内分割、 全局运动估计与补偿、时域帧问分割、时空联合投影等几方面对视频对象分割算法进行了深 入、充分的讨论,提出了相应的背景全景图重建方案。多组仿真实验结果检验了文中提出的 视频对象分割方案和背景重建方案的有效性。 首先,在空域分割方面针对传统分水岭变换对噪声和细密纹理敏感而易于产生过分割 现象的问题,从图像预处理以及区域标记的角度改进了分水岭变换方案:以开闭双重建的 方法获取原始图像的形态梯度,采用一次开闭重建从整体上抑制图像噪声,之后采用二次开 闭重建消除部分纹理产生的明暗细节;提出了结合给定阈值变换和尺度等级划分的非线性 处理方法,给定阈值变换可以减少区域极小值点,保留对象和背景之间的高梯度轮廓,尺度 等级划分可以克服对象和背景内部细密纹理的影响,本质上具有区域合并的作用;提出了 一种基于像素连通性思想的改进的分水岭浸没标记算法,无需传统方法中的距离变换。测试 结果表明,本文方案所得区域数量仅为传统方法的十分之一,且边缘定位准确,有效地避免 了区域融合的后处理。 其次,在静止背景序列的运动检测方面,针对传统的区域基运动检测思想对物体内部纹 理灰度一致性造成的“伪零帧差”区域判定的不稳健,提出了一种以边界运动信息衰征区域 运动性的检测思想,仅在空域分割所得区域的边界像素上进行高斯检验,根据边界上运动像 素占边界像素总数的比例来确定该区域的运动与否,这在极大地降低了计算复杂度的同时, 也显著提高了对具有内部纹理一致性区域的运动检测能力。测试结果表明,本文运动检测算 法耗时仅为传统区域基算法的五分之一左右。 再次,在动态背景序列的运动检测方面,提出了在双尺度邻域上建立马尔可夫随机场模 型的方法,突破了传统的单一邻域马尔可夫随机场模型对像素空域相关性的限制,并结合帧 差图像的商斯混合分布模型建立时空运动检测模型,提出了简单且便于计算的系统能量函 数。此外,针对静态前景区域,提出了通过相邻两帧运动模板的逻辑运算来进一步提取的方 浙江大学博士学位论文 法。 最后,联合时空两域的分割结果,具体实现了一套视频对象分割方案。此外,面向 m p e g 一4 中的sp r t e 编码应用,在视频对象分割的基础上,研究了+ 种与之对应的背景全景 图的重建方案,提出了一种条件均值合成的图像拼接规则,实验给出了具有一定意义的重建 结果。 关键词:视频对象分割;分水岭变换;全局运动估计:运动检测;高斯检验;马尔可夫随机 场;高斯混合模型;期望最大化;时空投影;背景全景图 i i a b s t r a c t a b s t r a c t t h ee m e r g i n gm u l t i m e d i as t 卸d a r d sm p e g 一4a n dm p e g 一7a d 叩tc o n t e m - b a s e dc o d i n ga n d d e s c r j p t i o nm e t h o d ,t h ec o n t e n t _ b a s e df u n c t i o n a m yw a sp r o p o s e d ,w h i c hi n c l u d e sc o n t e n t - b a s e d v i d e oc o m p r e s s i o n ,s c a i a b i l i t y i n t e m p e r a b t ya n ds oo n i nm p e g - 4 ,av i d e os e q u e n c ei s s e g m e n t e di n t os e v e r a lm e a n i n g f u iv i d e oo b j e c t s ( v o s ) c o d i n gi sp e r f o m l e do ns h a p e ,m o t i o na n d t e x t u r e m p e g - 7a i m sa td e s c r i b i n ga l lk j n d so f m u l t i m e d i ao b j e d sa n ds t 明d a r d i z i n gm u l t i m e d i a i n t e r f a c eu n i v e r s a l l yt oe n a b l ee f f i c i e n tc o n t e n t b a s e ds e a r c ha n dq u e 叫t h e r e i m o ,v d e oo b j e c t s e g m e n t a t i o np l a y sac r i t i c a lr o l ei nr e a l i z i n gc o n t e n t - b a s e dc o d i n ga n dd e s c r i p t i o n ,w h i c hh a sa n i m m e d i a t ei n f l u e n c eo nc o d i n ge m c i e n c ya n dd e s c r i p t i o nv a l i d i t y h o w e v e m p e g - 4a n d m p e g - 7j u s td e f i n e d c o d n gm e t h o da n ds y n t a ) cp r i n c i p a l s ,d i d n o ts p e c i pv i d e oo b j e c t s e g m e n t a t i o nm e t h o d a sak e ys u p p o n i n gt e c h n i q u ef b rv i d e op m c e s s i n g ,s t i l d i e s 伽v j d e oo b j e c t s e g m e n t a t i o nh a v ef 址g o i n gp r a g m a t i s ms i g n i f i c a n c ea n da p p l c a t i o nj m p o r t a n c e t o w a r d st h i s g o a l ,t h i sd i s s e r t a t i o nf o c u s e so nv j d e oo b j e c ts e g m e n t a t i o nt e c h n i q u e s t h i sd i s s e n a t i o ni n t r o d u c e st h ea p p l i c a t i o n sa n dd e v e l 叩m e n t so fv i d e oo b j e c ts e g m e n t 鲥o n t e c h n i q u e si na s p e c t so fm u l t i m e d i as t a n d a r d ,v i d e os u r v e m a n c ea n dp a n e mr e c o g n i t i o n w e d i s c u s si t s s i g n 讯c 柚c e nc u r r e n th i 曲- s p e e dd e v e i 叩i n gi n f o r n l a t i o ne p o c h ,a n ds u m m a r i z e r e s e a r c ha c 虹v i t i e so fv i d e o s e g m e n t a t i o n a i lt h ew o r l d , a 1 1 a l y s i s i n t e r a c t i v e 、a i l t o m a t i c s e g m e n t a t j o nm e t h o d s o nt l l eb a s i so f t h i s ,f u r t h e r 锄ds u f f i c i e n td i s c u s s i o n sa r ec o n c e n 仃a t e do n s e v e r a lk e yt e c h n i q u e s 曲o u to b j e c ts e g m e n t a t i o ni n c l u d i n gs p a t i a l i n t r a - 如m es e g m e m a t i o n , g l o b a l m o t i 伽e s t i m a t i o na n d c o m p 翱s a t i o n ,t e m p o r a l i n t e 卜疔a m e s e g m e n t a t i o n a n d s p a t i o t 唧p o r a lp r o j e c t i o n m e 柚w h i l e ,ar e l a t i v eb a c k g m u n ds p r i t ei m a g er e c o n s t r u c t i o nm e t h o d i sp r e s e n t e d m a n ys e r i e so fs i m u l a t e de x p e r i m e n t a lr e s u l t sv e r m e dt 1 1 ep r o p o s e dm e t h o do f s e g m e n t a t i o na i l db a c k g r o u n ds p r i t er e c o n s t n j c t i o n f i r s t l y i n 舾p e c to fs p a t i a ls e g m e n t a t i o n ,a ni m p r o v e dw a t e r s h e ds t r a t e g yi sp r e s e n t e di n i m a g ep r e p r o c e s s i n ga n dr e g i o nl 曲e l i n gt or e m i no v e f - s e g m e n t a t i o ni nc o n v e n t i o n a lw a t e r s h e d c a u s e db yn o i s ea n dc l o s et e x t u r e s ,t h em a i ni m p m v e m e n t sa r ea sf o l l o w s :d o u b l eo p e n i n g a n dc l o s i n gr e c o n s t l u c t i o nj sp m p o s e dt oo b t a i nm o r p h 0 1 0 9 i c a lg r a d i e n t ,w i t ht l l e 矗r s to n ef o r r e s t r a i n i n gw h 0 1 ei m a g en o i s ea 1 1 dt 1 1 es e c o n do n ef o rr e d u c i n gl i g h ta f l dd a r kd e t a i l sc a u s e db y t e x t u r e s an o n - 1 i n c a rt r 柚s f o mi sp r o p o s e db yi m e g m t i n gc e n a i nt 1 1 r e s h o l d n ga 1 1 ds c a l eg m d e c l a s s i f i c a t i o n ,t l l ef o r h l e ri st or e d u c et h en u m b e ro f r e g i o nm i n i m a 卸dr e s e r v em a i nc o n t o u r s ,a n d t h e1 a n e rj st oa v e r c o m et h ei n f l u e n c eo f c l o s et e x t l l r e si n s d eo b j e c t s a ni m p r o v e dw a t e r s h e d r e g i o nl a b e l i n ga l g o r i t l l mj sp r o p o s e do nt h eb a s i so fp i x e l s c o l l l l e c t i v i t y w i t ht h ea d v a n t a g eo f d i s c a r d i n gd i s t 锄c et r 加s f b 兀1 1 e x p e r i m 朋t a lr e s u l t si l l u s 仃a t e dt h a tt t l en u m b e ro fr e g i o n sb yt h e p m p o s e dm 劬0 di sa b o u to n et e n t l lo ft h a tb yc o n v e n t i o n a lm e t h o dw i t l l o u tp o s t _ p r o c e s s e m p l o y m e n ts u c ha sr e g i o nm e 曙i n g ,a n de x a c te d g e sa r ei o c a t e d 1 儿 s e c o n d | y a sf o rm o t i o nd e t e c t i o nf o r s t a t i o n a r yb a c k g m u n ds e q u e n c e s , a ni d e ao f r e p r e s e n t i n gr e g i o nm o t i o nw i t hr e g i o n sb o u n d a 叫i n f o m a t i o ni sc r e a t e dt or e s o l v et h ep r o b l e m e x i s t i n gi nr e g ;o n b a s e dm e t h o d ,t h j sp r o b l e mi st h a tr e g i 佣- b a s e dm e t h o du s u a l l yf a i l st oi d e n t i f y m o t i o nd u et ot h es i m i l a rt e x t i l r ea n dg r a yi n s i d e t h er e g i o n o n i yt h r o u g hg a u s s i a l l 耐t e s t0 n b o u n 血r yp i x e i sa n dm o t i 仰p i x e l sr a t j ot ow h o l eb o u n d a r yc a nm o t i o nr e g i o n sb ei d e n t i f i e d , w h i c hr e d u c e sc o m p u t a t i o n a lc o m p l e x n yg r e a t l ya n de n h a f l c e st h er o b u s 仃l e s so fm o t i o nr e g i o n s w i t hs i m i l a rt e x t u r ea n dg r a y e x p e m e n t a ir e s u t ss h o w e dt h a tt h ec o n s u m e dt i m eb yp r o p o s e d m e t h o dw 嬲a b o u to n e 矗n ho f t h a tb yr e g i o n - b a s e dm e t l l o d t h i r d l y ,m a r k o vr a n d o mf i e l dm o d e l o nd o u b l es c a l en e j 曲b o r h 0 0 di se s t a b l i s h e df o r m o t i o nd e t e c t i n go fd y n 枷i cb a c k g r o u n ds e q u e n c e s ,i tb r e a l 【st h er e ;t r i c t i o no f 1 ec o n v e n t i o n a l s i n g l es c a l en e i g h b o r h o o dt os p a t j a lr e l a t i v i t y 啪o n gp i x e l s i n t e g r a t i n gg a u s sm i x t i l r ed i s t r i b u t i o n w i t hm r fo nd i 仃e r e n c ei m a g e s ,am o t i o nd e t e c t i n gm o d e ia n dc o n v e n i e n ts y s t e me n e 哟rf u n c t i o n a r ep r o p o s e d m o r e o v e lc e n a i nl o g i co p e r a t i 叽i sp e r f 响e do nc u 兀e n ta n dl a s tb i n a wm o t i o n m a s kt 0a c h i e v es t a t j cf o r e g r o u n dr e g i o n s f i n a y av i d e 0o b j e c ts e g m 朗t a t i o ns t r a t e 盱i sj m p l e m e n t e do nt h eb a s i so fs p a t i o t e m p o m l r e s u l t s f na d d i t i o n ,w i t h 忙g a r d 幻t h es p r i 亡ec o d i n gt e c h n i q u ej nm p e g - 4 ,ab a c k g r o u n ds p r i t e i m a g er e c o n s t n l c t i o n m e t h o di sr e a l i z e da c c o r d i n g l yb a s e do nt h e p m p o s e dv i d e oo b j e c t s e g m e n t a t i o nm e t h o d ,ac o n d i t i o n a lm e 卸c o m p o s i t i o np r i n c i p a li ss u g g e s t e dt om e 曙i “gi m a g e , m e a n i n g 如lr e c o n s t i v c t i o nr e s u l ti sa n a j n e di ne x p e r i m e n t k e y w o r d s :d e o o b j e c ts e g m e n t a t i o n ;w 砸e r s h e d t r a n s f o m ;g 1 0 b a 】m o t i o ne s t i m a t i o n ( g m e ) m o t i o nd e t e c t i o n ;g a u s s i a i l 时t e s t :m a r k o vr a n d o mf i e l d ( m r f ) ;g a u s sm i x t u r cm o d e l ; e x p e c t a t i o nm “i m i z a t i o n ( e m ) ;s p a t i o t e m p o r a 】p m j e d i o n ;b a c k g m u n ds p r i t ei m a g e i v 浙江大学博士学位论文 插图清单 图1 1n e w s 序列中的v o 示例2 图1 2m p e g 4 中基于v o 的编码结构3 图1 3m p e g 4 中基于v o 的解码结构5 图1 4 人脸识别系统框图8 图2 1图像分割算法分类1 4 图2 2 分水岭算法思想示意图1 7 图2 3 测地距离示意图1 8 图2 4 测地影响区概念示意图1 9 图2 5r n 墨。和瑚三种包含关系2 0 图2 6 从而至m 碥+ l 的迭代过程示意图2 0 图2 7 基于对比度增强的分水岭方案2 4 图2 8 基于形态梯度的分水岭分割方案2 5 图2 ,9 本文改进的分水岭分割方案2 6 图2 1 0 给定阈值变换的效果图2 8 图2 1 1 尺度等级划分的效果图2 9 图2 1 2 改进的分水岭标记算法流程3 0 图2 13 对t e n n i s3 5 4 的分割结果一3 3 图2 1 4 对c i a i r e3 5 4 的分割结果3 4 图2 1 5 对n o w e rg a r d 3 5 。的分割结果3 5 图2 1 6 对h a l lm o n i t o r3 5 “的分割结果3 5 图2 1 7 对o w n l 63 5 4 的分割结果3 6 图2 1 8 对开闭双重建模块的单元测试结果。3 9 图2 1 9 对非线性处理模块的单元测试结果4 0 图2 2 0t e n n i s5 。参数对算法性能影响的测试结果4 2 图2 2 l n o w e rg a r d e n5 4 参数对算法性能影响的测试结果4 3 图3 1块匹配运动估计示意图4 9 图3 2两种全搜索模式。5 1 图3 3三步搜索算法过程的示意图5 2 图3 4扩展菱形搜索模式。5 3 图3 5改进的三层迭代全局运动估计算法流图。5 5 图3 6 标准测试序列c o a s t g i l a r d 的全局运动补偿结果5 7 图3 7标准测试序列f o r e m a n 的全局运动补偿结果5 8 图3 8标准测试序列s t e 胁的全局运动补偿结果5 9 图4 1时域运动区域检测方案框图。6 2 图4 2区域平移和形变的帧差过程6 3 图4 _ 3a k i y o 序列第9 帧的运动检测结果对比6 5 图4 4h a m o n i t o r 序列第5 2 帧的运动检测结果对比。6 6 图4 5o w n 3 1 序列第1 5 0 帧的运动检测结果对比6 6 图4 6 o w n 2 2 序列第j 5 7 帧的运动检测结果对比 图4 7帧差图像与区域分割图像的叠加效果 图4 8二二维点阵上的一阶、二阶和三阶邻域系 图4 9双尺度邻域系 图4 10对c o a s t g u a r d 第3 7 帧运动检测结果一 图4 1l对s t e 胁第5 0 帧运动检测结果 图4 1 2参数对性能影响的测试结果 图5 ,1视频对象分害4 方案 图5 2c l a i r e 序列连续三帧的实验结果 图5 - 3 a k i y o 序列第1 2 1 帧的实验结果 图5 4s i l e n t 序列第7 7 帧的实验结果 图5 5t r e v o r 序列第1 0 4 帧的实验结果一 图5 6h a l lm o n i t o r 序列第3 5 帧的实验结果 图5 7 b o w i n g 序列第7 0 帧的实验结果 图5 8 m o t h e r d a u g h t e f 守列第2 6 帧的实验结果 图5 9c h i l d m 2 序列第2 2 4 帧的实验结果 图5 1 0a w n 2 2 序列第1 6 3 帧的实验结果 罔5 1 1o w n 3 1 序列第1 4 7 帧的实验结果。 图5 1 2c o a s t g u a r d 序列第3 5 帧的实验结果 图5 1 3 s t e f h 序列第2 5 帧的实验结果 图5 1 4 背景全景图重建方案 图5 1 5 对前8 0 帧s t e f a n 序列重建的背景全景图 6 7 6 7 一7 0 7 3 7 7 7 8 7 9 8 2 8 3 8 4 8 4 8 5 8 5 8 5 8 6 8 6 8 6 8 7 8 7 8 8 8 9 9 0 1 x 浙扛大学博士学位论文 表格清单 表2 1 实验平台环境配置 表2 2 实验测试图片 表2 3 三种方案所得区域数日对比一 表4 1 本文边界基算法中需计算的像素数目与运算时间的统计分析一 x _ 3 1 3 2 3 7 6 8 第一章绪论 本章介绍了视频对象分割的基本概念,讨论了视频对象分割在多媒体标准、视频监控及 模式识别等领域的应用背景及意义,总结了目前国内外视频对象分割技术的研究现状和发展 趋势,从不同的角度对视频分割方法进行了分类,最后给出了全文的主要内容和结构安排。 1 1 引言 随着多媒体技术的发展和计算机处理能力的提高,在数字视频应用变得越来越广泛的同 时,人们也相应地提出了更多方面的需要和更深层次的要求。比如,m p e g ( m o l i o np i c l u r e e x p e r ig r o u p ) 组织提出和制定的新一代多媒体标准m p e g - 4 【l s o ,1 9 9 8 ;l s 0 ,1 9 9 9 】、 m p e g 一7 【丁h o m a s ,2 0 0 1 ;a v a r 0 ,2 0 0 1 ;c h a n g ,2 0 0 1 】等,另外,高清晰度电视( h d t v ) 的研制、视频会议系统、视频电话、视频监控、视频点播系统、医疗和军事领域的目标自动 检测与识别等的发展归根结底都取决于数字视频技术,因此,视频处理与分析技术的进步是 当今信息时代高速发展的重要基础。 数字视频与图片和语音相比,数据量巨大,对存储器、通信信道以及处理器等都提出了 相当高的要求。因此,视频数据的高效压缩意义重大,是降低存储成本,缓解网络带宽,突 破存储空问和处理器主频限制的关键技术。人类视觉的信息处理主要是基于比较抽象的、能 够直接有效地进行记忆和处理的方式,可以说是基于一定层次的对象个体( 或内容) 表征的。 m p e g 4 和m p e g 一7 就是基于这样的思想而制定出来的基于内容的新一代多媒体压缩标准 和接口标准i k o e n e , 2 0 0 0 】。 视频压缩标准m p e g - 4 提出了视听对象( a u d i o s u a io b j e c l ,a v o ) 的概念和方法,从 而提高视频编码压缩率,并完成基于视频内容的存取和粘贴的交互操作,也同时为多媒体内 容描述接口m p e g 一7 提供了技术基础【er o l , 2 0 0 1 】。同时,视频对象概念和方法的提出与 应用也必然引入了新的研究课题,因为存在对象从何得来的问题,而图像和视频中的对象不 是现成的、固定不变的,其在不同场景和不同兴趣的情况下,具有不同的内容和形式,这就 需要对视频或图像中对象的获取方法进行研究,即视频( 或图像中) 对象分害4 技术。 1 2 视频对象分割概念 视频是指具有一定长度的若干活动的图片序列,比如电影、电视,它通常在时域上具有 内容的连贯性。为了记录现实世界中的活动场景,必须在时域上进行采样。考虑到人眼的视 觉暂留效应,一般每秒采样2 4 帧以上就可以在人眼中得到连续的重现效果。比如,p a l 制 电视2 5 帧,秒,n t s c 制电视采用3 0 帧,秒。 浙江大学博士学位论文 对象,是指在个场景中能够访问和操纵的实体,对象的划分- n 】根掘其独特的纹理、运 动、形状、模型和高层语义为依据。而视频对象是指一个具有一定生存周期的、在时间轴上 连续的对象,属于包含时间在内的三维空间上的概念。一个视频对象就对应于视频场景中的 一个特定的物体比如,最简单的情况下就是矩形框,或者它也表示为对应于场景中的背景 或者某个任意形状的物体。在m p e g - 4 中,视频序列的每一帧图像都被分解成若干个任意 形状的有意义的对象,视频对象在某一时刻( 某一帧中) 的表象称为视频对象平面( v i d e o o b j e c tp l a n e ,v o p ) 。 视频对象分割是把视频序列中人们感兴趣的或者具有某种重要性的一个和多个物体( 称 为视频对象,v i d e oo b j ec l ,v o ) 从视频场景中提取出来,这些对象往往在某些方面具有一 致属性,比如亮度、色彩、形状及运动等。视频场景中可访问和操纵的实体就是视频对象, 也就是说,视频对象是具有一定高层“语义”的区域,是更符合现实生活中人们视觉上对事 物认知的抽象表达。比如,m p e g - 4 中标准测试序列n e w s 中的v o 如图1 1 所示,其中, 两个电视播音员的头肩像可以认为是一个视频对象,可以用一个视频对象平面来表示:播音 员后面播放舞蹈表演的大屏幕可以认为是一个视频对象;整个画面中具有说明性的文本也可 以作为一个视频对象。这些v 0 基本属于人们感兴趣的前景对象,而除了这些v o 之外的静 止部分就可以看作一个背景对象。 2 ( a ) 原始帧 ( c ) v 0 2 ( b ) v o l ( d ) v 0 3 图1 1n c w s 序列中的v o 示例 1 3 视频分割的背景与意义 1 3 1m p e g _ 4 和m p e g 7 领域 m p e g - 4 标准的编码是基于对象的,以便于操作和控制对象,而传统压缩方法是基于帧 的,显然无法对对象操作。由于网络传输带宽的限制,必须对压缩比特率进行控制,这就直 接影响图像的质量。过去在比特率低时,整帧图像的质量都受到影响,没有灵活性可言;而 m p e g 4 中对比特率控制可以基于对象,即使在低带宽时,也可以利用码率分配方法,对用 户感兴趣的对象可以多分配些比特率,而对于用户不感兴趣的对象可以少分配一些比特 率,这样图像的主观质量就可以得以保证【钟,2 0 0 0 】。为了表示用户感兴趣的区域,m p e g _ 4 引入了视频对象的概念,同时来实现基于内容的表示,即内容交互( 操作、编辑、访问等) 和基于内容的分级扩展( 空域分级、时域分级) 。 为了实现高效压缩,每个视频对象用三类信息来描述:运动信息、形状信息、纹理信息, 在根据这些信息完成视频的编码和解码【m e i e r ,1 9 9 8 :b r a d y ,1 9 9 9 ;k a u p ,1 9 9 9 】。具体 图1 2m p e g 4 中基于v o 的编码结构 地,m p e g _ 4 在编码过程中针对不同的v 0 采用不同的编码策略:即对前景v o 的压缩编码 尽可能保留细节和平滑;对背景v o 采用高压缩率的编码策略,甚至不予传输而在解码端由 其他背景拼接而成。m p e g - 4 的基于对象的编码结构如图1 2 所示【i s 0 ,2 0 0 1 】。 形状编码 3 浙江大学博士学位论文 在m p e g _ 4 标准中,有两类形状信息被看作是一个视频对象的继承特性。它们是二进 制形状信息和灰度形状信息。 二进制形状信息最常用的表示是与个视频对象平面边界大小一致的矩阵。矩阵元素的 取值为0 或1 取值的选定依赖于像素是否在该视频对象内。二值形状信息的编码可以采用 基于运动补偿块的技术,可以是有损编码或无损编码。 获度形状信息用0 2 5 5 之间的数值来表示v o p 的透视程度,它是二进制形状信息的 扩展,可以用来表示透视的物体,并降低混迭的现象。其中,o 表示完全透视,相当于二值 形状信息中的o ;2 5 5 表示完全不透视,相当于二值形状信息中的1 。灰度形状信息的编码 采用基于块的运动补偿d c t 方法,属于有损编码。 目前的标准中采用矩阵形式来表示二值或灰度形状信息,称之为位图或阿尔法平面。这 种位图表示法具有较高的编码效率和较低的运算复杂度。但是为了能够进行更有效的操作和 压缩,在最终的标准中可能会出现另一种表示方法,即借用高层语义的描述,以轮廓的几何 参数进行表征。 运动编码 与现有的视频编码标准相似,m p e g 一4 采用运动预测和运动补偿技术来去除图像信息中 的时间冗余成分,而这些运动信息的编码技术可视为现有标准由向任意形状的v o p 的延伸。 v o p 的编码有三种模式,即帧内编码模式、帧间预测编码模式、帧问双向预测编码模式。 为了能适应任意形状的v o p ,m p e g 一4 引入了图像填充技术和多边形匹配技术。对标 准宏块的运动估计和补偿,可以采用传统的基于块的运动估计与补偿技术。而对位于v o p 边界的轮廓宏块,则要采用图像填充技术,即用一定的灰度值填充轮廓宏块中位于边界毗外 的像素。后用“多边形”匹配技术进行运动估计与补偿。 图像填充技术利用了v o p 内部的像素值来外推v o p 外的像素值,以此获得运动预测 的参考值。“多边形”定义了轮廓宏块中位于v o p 以内的部分,而把位于v o p 以外的像素 排除在外。运动估计只对多边形定义的属于v o p 活动区域的像素进行。对于各个帧的v o p 预测仍然可以采用m p e g 或h 2 6 l 定义的前向预测或双向预测,内插技术也可以用于v o p 序列。“多边形”匹配技术则将v o p 轮廓宏块的活跃部分包含在多边形之内,以此来增加运 动估计的有效性。 纹理编码 在帧内的情况下,纹理信息直接包含了亮度和色度分量;在运动补偿的情况下,纹理信 息表示经过运动补偿后的残差。纹理编码的对象可以是帧内编码模式,也可以是帧间编码模 式或者运动补偿后的预测残差。编码方法基本上仍然采用基于像素块的d c t 方法。在帧内 编码模式中,对于完全位于v o p 内的像素块,则采用经典的d c t 方法;对于完全位于v o p 之外的像素块则不进行编码;对于部分在v o p 内,部分在v o p 外的像素块则首先采用图 像填充技术来获取v o p 之外的像素值,之后在进行d c t 编码。帻内编码模式中还将对d c t 4 第一章绪论 变换的d c 和a c 因子进行有效的预测。在帧间编码模式中,为了对运动补偿后的预测误差 进行编码,可将那些位于v o p 活跃区域之外的像素值设为1 2 8 。此外,还可采用形状自适 应d c t 方法对v o p 内的像素进行编码。变换之后的d c t 因子还需要经过量化、扫描和变 长编码。 相应地,m p e g 一4 的视频解码结构也是基于对象的形状、运动和纹理信息的,如图1 3 所示。从m p e g - 4 的编码和解码结构可以看出,m p e g _ 4 标准是严格细致地建立在视频对 象的概念基础之上的,以到达高压缩效率、高视频质量的目的。 d e 叫s h a p e d e c o d i n g1 曼j m u l 叫兰n 幽s i 兰士 r-罕叶 t j p l e x e r 多媒体内容描述接口m p e g 一7 ( m u l t i m e d ac o n t e n td e s c r i p t i o ni n t e 晌c e ) m p e g - 7 【i s o ,2 0 0 2 】,它将为各种类型的媒体信息制定一种标准化的描述,这种描述与多媒体信息 的内容本身一起,支持用户对其感兴趣的各种媒体信息进行快速、有效的检索。实现将无结 构的视频数据流变换成易于查询检索的有结构视频数据流,能依据某一主题( 如人物、场景、 语音等) 找出有意义的情节片段。m p e g - 4 中的v o 概念也适合于m p e g 一7 ,视频对象的分 割也同时为m p e g 7 提供了技术基础。 若要实现上述多媒体标准所提出的面向对象的压缩、存储和编辑,人们必须能够从视频 序列中获取视频对象,这就需要对视频对象分割技术进行深入研究,可以说,开展视频分割 的研究是实现m p e g - 4 及m p e g 一7 应用的重要基础。而对象的分割被认为是一个具有挑战 性的难题,尽管m p e g 4 的框架己经制定,但是最为重要的对象分割问题却直未得到满 意的解决,m p e g 组织并没有制定将数字视频序列分割成视频对象的具体方案。为了推动 m p e g _ 4 和m p e g 7 的广泛应用,对视频对象分割技术进行研究是非常迫切的,也是非常 必需的。 浙江人学博士学位论文 1 3 2 视频监控领域 视频技术的发展已经逐渐渗透到人们的现实生活中,改变了人们的生活方式,极大地提 高了生活的自动化程度尤其是在视频监控领域。这主要表现在以下几个方面: 室内监视 室内监视系统一般是出于某些安全考虑,通过在室内墙壁或出入u 处安装摄像头,来完 成对室内一段时问的人物活动或其他环境变化等进行监视的功能。比如旅店、商场、超市安 装监视系统记录顾客出入及活动情况,以便于出现事故后进行回放分析;在监狱或者一些具 自高度机密性质的场所也需要安装室内监控系统,以便于对企图越狱的囚犯或非法进入的外 来人员进行监测和报警。但是由于受视频对象分割水平的限制以及视频自动分析能力的不 足,目前,室内监视系统的智能化程度不高,因此,许多学者在相关领域也进行了大量的研 究和实验【w r e n ,1 9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论