(通信与信息系统专业论文)视频对象自动分割技术及其细胞神经网络实现方法的研究.pdf_第1页
(通信与信息系统专业论文)视频对象自动分割技术及其细胞神经网络实现方法的研究.pdf_第2页
(通信与信息系统专业论文)视频对象自动分割技术及其细胞神经网络实现方法的研究.pdf_第3页
(通信与信息系统专业论文)视频对象自动分割技术及其细胞神经网络实现方法的研究.pdf_第4页
(通信与信息系统专业论文)视频对象自动分割技术及其细胞神经网络实现方法的研究.pdf_第5页
已阅读5页,还剩108页未读 继续免费阅读

(通信与信息系统专业论文)视频对象自动分割技术及其细胞神经网络实现方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学博士学位论文 摘要+ 传统的视频压缩编码标准m p e g l 2 和h 2 6 x 都采用基于帧的技术,不要求 对场景进行分割。它们自获得较高的压缩比,并在许多领域得到了广泛的应用。 随着多媒体信息的日益丰富,人们不再满足于对视频信息的简单浏览,而要求提 供基于对象的操纵、交互等功能。 为此,m p e g 组织提出了第二代视频压缩标准m p e g - 4 ,m p e g 一4 最显著的 特征之一就是基于对象的编码方式。要实现基于对象的视频编码,首先要进行视 频对象分割。视频对象分割是指在时空域上将视频分割为一些视频语义对象的集 合,也就是将每一个视频帧分割为一些不同语义对象区域。事实上,视频对象分 割技术不仅仅可以为m p e g - 4 服务,在许多计算机视觉领域都能发挥视频对象分 割技术的作用。视频对象分割技术有很广阔的应用前景,其中的些典型例子包 括视频编码、视频制作和编辑、视频检索、视频监控等。 视频对象分割是计算机视觉领域中的一个难点,这主要是由于现实世界中场 景的复杂性和多样性,很难建立个统一的先验模型,这就决定了很难找到一种 单一的方法来完成这项任务。研究通用视频对象分割方法的困难还来自于对“语 义对象”的定义:视频对象的分割不仅仅是低层次的视觉分割,还涉及到高层次 的语义定义和特征提取。所以,尽管视频对象分割算法的研究得到了广泛的重视, 并且已经提出了众多的算法,但是,视频对象分割算法与m p e g - 4 标准的要求相 比还远未成熟。概括起来,目前的视频对象算法主要存在以下一些问题:首先, 目前还不存在一种适合于所有序列的通用算法;其次,由于分割过程中计算量大, 尚难满足实时性要求。 本论文熏点研究m p e g - - 4 框架下从视频序列中分割出视频对象的方法和技 术,针对目前的视频分割算法大多数难以满足实时性要求的缺点,引入细胞神经 网络来解决。 论文主要工作包括以下几个方面: 1 ) 提出了一种基于边缘投影的头肩序列人脸提取算法。通过对头肩序列进 行分析,可知面部的运动细节比较丰富,也比较集中。因此可以通过对 帧间差分图像做水平和垂直投影,确定人脸的大致坐标,搜寻范围变为 一个矩形小区域。之后对这小块区域使用游程编码进行区域划分,结合 前面得到的帧差运动信息,提取出人脸区域。这种算法综合利用了空间 灰度信息和运动信息,因雨能够比较准确地分割出人脸。 2 ) 提出了两种头肩序列中视频对象的分割算法。其中一种是时空结合的视 基金项目:国家自然科学基金项目( 6 0 1 7 2 0 2 0 ) 上海市教委博士点基金( j f 5 ) 视频对象自动分割技术及其细胞神经嘲络实现方法的研究 频对象分割方法,首先使用帧间差分得到运动信息,然后使用灰度连通 区域标记法对图像进行空间划分,最后结合两种信息得到最终的对象。 另外一种是基于最大梯度淹没区域聚类的快速分割算法。由于头肩序列 中通常都有大片相同颜色的背景区域,这样在经过梯度淹没后,就会在 背景区域出现大片的集水盆,而最大集水盆对应的边缘就会近似头肩序 列的对象边缘,然后对边缘附近像素从灰度、欧拉距离等特征出发进行 多尺度聚类分析,达到精确分割的目的。 3 1 提出了一种适合于运动和静止背景的基于光流和改进的分水岭的视频 对象分割方法。这种方法也是一种时空联合的方法,首先对待处理图像 进行形态学重建滤波预处理,然后使用多尺度形态学算法求取梯度,对 梯度淹没形成集水盆后使用改进的分水岭算法进行区域划分;利用 h o m s c h u n c k 光流法求取运动信息,其中使用了一种新的有限差分方法 来估算光流法中的偏微分;最后结合时空信息得到最终的视频对象。 4 ) 使用c n n 实现了上述的1 ) 和3 ) 两种算法,使之能实时分割。一种是 头肩序列中人脸提取算法,另一种是全自动的视频对象分割方法。给出 了1 3 种模板结构,其中构建了逻辑“与”模板、+ l 模板和有限差分模 板等模板。 本文对提出的所有方法都进行了实验验证。 关键词:视频对象分割,m p e g - 4 ,时空联合,数学形态学,细胞神经网络,光 流,分水岭 i i 上海大学博士学位论文 a b s t r a c t c l a s s i c a lv i d e oc o d i n gs t a n d a r d ss u c ha sh 2 6 xa n dm p e g - 1 2a r ef r a m e - b a s e d t e c h n i q u e s ,a n dn os e g m e n t a t i o no fv i d e os c e n a r i o si sr e q n i r e d t h e i rh i 曲c o m p r e s s i o n p e r f o r m a n c em a k e st h e mw i d e l yu s e di nv i d e oa p p l i c a t i o n w i t ht h ep r o l i f e r a t i o no f m u l t i m e d i ai n f o r m a t i o n p e o p l ea r cn om o r es a t i s f i e d 丽t hs i m p l en a v i g a t i o no fv i d e o c o n t e n t s ,b u tr e q u i r eo b j e c t b a s e df u n c t i o n a l i t i e s t h e r e f o r e ,m o t i o np i c t u r ee x p e r t sg r o u p ( m p e g ) p u b l i s h e dt h es e c o n d a r y g e n e r a t i o nv i d e oc o d i n gs t a n d a r d , m p e g - 4 c o m p a r e dw i t ht h ef i r s tg e n e r a t i o ns t a n d a r d , as i g n i f i c a n tc h a r a c t e ro fm p e g - 4i so b j e c t - b a s e dc o d i n gw h i c hm e a n st oc o d ev i d e o s a sas e to fs e m a n t i cv i d e oo b j e c t s v i d e oo b j e c ts e g m e n t a t i o ni sn e c e s s a r yt og e te a c h v i d e oo b j e c t v i d e oo b j e c ts e g m e n t a t i o nh a sb e e np r o m o t e dg r e a t l yb yt h eo c c u r r e n c e o fm p e g - 4b u ti sn o tl i m i t e dt om p e g - 4 v i d e oo b j e c ts e g m e n t a t i o nc a l ls e r v ef o r m a n ya p p l i c a t i o ni nc o m p u t e rv i s i o na r e a s o m et y p i c a la p p l i c a t i o n so fv i d e oo b j e c t s e g m e n t a t i o na r ev i d e oc o d i n g ,v i d e oa u t h o r i n ga n de d i t ,v i d e or e t r i v a l ,v i d e o b a s e d m o n i t o r i n g ,e t c v i d e oo b j e c ts e g m e n t a t i o ni san u ti nv i d e op r o c e s s i n ga n dc o m p u t e rv i s i o n t h e d i f f c u l t yo fv i d e oo b j e c ts e g m e n t a t i o nl i e so nt w oa s p e c t s o n ei st h ee x t r e m e c o m p l e x i t yo fv i d e os c e n e s ,w h i c hm e a n sn ou n i f o r mm o d e lf o ra l lv i d e oo b j e c t s a n o t h e ro n ei st h ed e f i n i t i o na n dd e s c r i p t i o no fs e m a n t i cv i d e oo b j e c t v i d e oo b j e c t s e g m e n t a t i o ni sc a r r i e do u to nl o wv i s i o nl e v e lw h i l es e m a n t i cv i d e oo b j e c t sa r c d e f i n e do nh i g hv i s i o nl e v e l i ti sd i f f i c u l tt o g e th i g h - l e v e lo b j e c t sb yl o w 1 e v e l s e g m e n t a t i o n g e n e r a l y , t h e r ea r et w op r o b l e m si nt h ec u r r e n ts e g m e n t a t i o nm e t h o d s : o n ei sn ou n i v e r s a la l g o r i t h ms u i t e df o ra l lt h es c e n e s ,a n o t h e ro n ei sm o s to ft h e c u r r e n ta l g o r i t h m sa r eh a r dt om e e tt h er e a l t i m ep e r f o r m a n c e t h i sd i s s e r t a t i o nf o c u s e so nt h em e t h o d o l o g ya n dt e c h n i q u e sf o rv i d e oo b j e c t s e g m e n t a t i o nu n d e rt h ef r a m e w o r ko fm p e g - 4 ,c e l l u l a rn e u r a ln e t w o r ki si n t r o d u c e d t oc o n q u e rt h ep r o b l e mo f r e a l - t i m ep e r f o r m a n c e m a j o rw o r ko f t h i sd i s s e r t a t i o ni sa sf o l l o w s : f i r s t ,af a c e e x t r a c t i o na l g o r i t h mb a s e do ne d g ep r o j e c t i o ni sp r o p o s e d a n i m p o r t a n tc h a r a c t e ri sd i s c o v e r e dv i a 也ea n a l y s i so fh e a d s h o u l d e rs e q u e n c e s t h e m o t i o nd e t a i l sa r er i c hi nt h ef a c er e g i o n ,s ot h ea p p r o x i m a t ec o o r d i n a t e so ft h ef a c e c o a ld e t e r m i n e db yt h ev e r t i c a la n dh o r i z o n t a lp r o j e c t i o no fd f di m a g e t h e nt h i s + t h i sw o r ki ss u p p o s e db yt h en a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no f c h i n a ( 6 0 1 7 2 0 2 0 ) a n dt h ep h df o u n d 砒i o n o f s h m g h a lm u n i c i p a le d u c a t i o nc o m m i s s i o n ( j f 5 ) 1 1 i 视频对象自动分割技术及其细胞神经网络实现方法的研究 s m a l lr e c t a n g l er e g i o ni sd i v i d e di n t os e v e r a ls m a l lr e g i o n su s i n gr u nl e n g t hc o d i n g a l g o r i t h m ,j u d g e db yt h em o t i o ni n f o r m a t i o n si nd f d ,t h ef a c ec a r lb ee x t r a c t e d s e c o n d ,t w oa u t o m a t i cv i d e oo b j e c ts e g m e n t a t i o na l g o r i t h m so fh e a d - s h o u l d e r s e q u e n c ea r ep r o p o s e d t h ef i r s to n e i sas p a t i o - t e m p o r a la l g o r i t h m ,as y m m e t r i c a l i n t e r - f l a m ed i f f e r e n c ei sp e r f o r m e do nag r o u po fg r a yi m a g ei n i f i a l l y ,t h e nt h ei m a g e i sd i v i d e di n t os o m ef i a tz o n e sw i mu n i n t e r r u p t e dg r e ys c a l ei n f o r m a t i o n f i n a l l y s o m er e g i o n s & r em e r g e da n df o r m i n gt h eo b j e c ta c c o r d i n gt oar u l e ,o t h e r sa r e d i s c a r d e d t h es e c o n do n ei saf a s ts e g m e n t a t i o nm e t h o d ,t h i sm e t h o di sb a s e do nt h e m a x i m a lg r a d i e n tr e g i o ne d g ec l u s t e r i n g t h i r d ,a na u t o m a t i cv i d e oo b j e c ts e g m e n t a t i o na l g o r i t h mb a s e do no p t i c a lf l o w a n di m p r o v e dw a t e r s h e di sp r o p o s e d i n 廿i i sm e t h o d an e wf i n i t ed i f f e r e n c ei su s e di n t h eo p t i c a lf l o wc o m p u t a t i o no ft h ep r o p o s e da l g o r i t h ma tf i r s t ;t h e n , t h eo r i g i n a l i m a g ei sl a b e l e di n t od i f f e r e n tr e g i o n sb yi m p r o v e dw a t e r s h e da l g o r i t h m ;f i n a l l gs o m e r e g i o n sa r em e r g e di n t ov i d e oo b j e c ta c c o r d i n gt oac e r t a i nc r i t e r i o n , o t h e r sa r e d i s c a r d e d f o u r t h t h ef i r s ta n dt h et h i r da l g o r i t h m sa r er e a l i z e db yc n nt or e a c ht h et a r g e t o fr e a l - t i m ep e r f o r m a n c e 13t e m p l a t e sa r eu s e di nt h i st a s ki n c l u d et h r e et e m p l a t e s m a d eb ym y s e l f i a n d ”t e m p l a t e ,+ lt e m p l a t ea n dl i m i t e dd i f f e r e n c et e m p l a t e a l l t h ep r o p o s e da l g o r i t h m sa v a l i d a t e dt h r o u g he x p e r i m e n t s k e y w o r d s :v i d e oo b j e c ts e g m e n t a t i o n , m p e g - 4 ,s p a t i o - t e m p o m l ,m a t h e m a t i c m o r p h o l o g y , c e l l u l a rn e u r a ln e t w o r k s ,o p t i c a lf l o w , w a t e r s h e d i v 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工 作。除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已发表或撰写过的研究成果。参与同一工作的其他同志对本研 究所做的任何贡献已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅; 学校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 弋 签名:导师签名彩 日期:o l 叩、彤 上海大学博士学位论文 1 1引言 第一章绪论 当今时代,信息技术和计算机互联网飞速发展,在此背景下,多媒体信息已 成为人类获取信息的最主要载体,同时也成为电子信息领域技术开发和研究的热 点。多媒体信息经数字化处理后具有易于加密、抗干扰能力强、可再生中继等 优点,但同时也伴随海量数据的产生,这对信息存储设备及通信网络均提出了很 高要求,从而成为影响人们有效获取和使用信息的瓶颈。 因此研究高效的多媒体数据压缩编码方法,以压缩形式存储和传输数字化的 多媒体信息具有重要意义。作为多媒体技术的核心及关键,多媒体数据压缩编码 近年来在技术及应用方面都取得了长足的进展,它的进步和完善正深刻影响着现 代社会的方方面面。 人类获取的信息中7 0 来自于视觉,视频信息在多媒体信息中占有重要地 位;同时视频数据冗余度最大,经压缩处理后的视频质量高低是决定多媒体服务 质量的关键因素。因此数字视频技术是多媒体应用的核心技术,对视频编码的研 究已成为信息技术领域的热门话题。 伴随着视频编码相关学科及新兴学科的迅速发展,新一代数据压缩技术不断 诞生并日益成熟,其编码思想由基于像素和像素块转为基于内容( c o n t e n t b a s e d ) 。 它突破了香农信息论框架的束缚,充分考虑了人眼视觉特性及信源特性,通过去 除内容冗余来实现数据压缩【3 j 。 与此同时,视频编码相关标准的制定也日臻完善。视频编码标准主要由i t u t 和i s o i e c 开发。i n j t 发布的视频标准有h 2 6 1 、h 2 6 2 、h 2 6 3 、h 2 6 3 + 、h 2 6 3 + + , i s o i e c 公布的m p e g 系列标准有m p e g 1 、m p e g - 2 、m p e g - 4 和m p e g 7 。 近年又发展了两者联合制订的h 2 6 4 ,瓜,c 。 m p e g 即m o v i n gp i c t u r ee x p e r tc r o u p ( 运动图像专家组) ,它是专门从事制定 多媒体视音频压缩编码标准的国际组织,i v p e g 系列标准已成为国际上影响最大 的多媒体技术标准,其中m p e g - 1 和m p e g - 2 是采用以香农信息论为基础的预 测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术;m p e g - 4 则 是基于第二代压缩编码技术制定的国际标准,它以视听媒体对象为基本单元,采 用基于内容的压缩编码,以实现数字音视频的对象编码和交互合成。m p e g 系列 标准对v c d 、d v d 等视昕消费电子及数字电视和高清晰度电视( d t v 和h d t v ) 、 多媒体通信等信息产业的发展产生了巨大而深远的影响。图l 所示为m p e g 系 列标准视频信息表征对比图。 视频对象自动分割技术及其细胞神经网络实现方法的研究 1 2问题背景 图1 - 1m p e g 系列标准视频信息表征对比图 m p e g - 4 标准的第一版是于1 9 9 9 年1 月正式公布的【2 】。在m p e g 4 制定之 前,m p e g 1 、m p e g - 2 、h 2 6 1 、h 2 6 3 都是采用第一代压缩编码技术,着眼于 图像信号的统计特性来设计编码器,属于波形编码的范畴。第一代压缩编码方案 把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和 编码,这种编码方案存在以下缺陷。 将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块 效应,即马赛克效应: 不利于对图像内容进行访问、编辑和回放等操作; 未充分利用人类视觉系统( h v s ,h u m a nv i s u a ls y s t e m ) 的特性。 m p e g - 4 则代表了基于对象的第二代压缩编码技术,它充分利用了人眼的视 觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内 容的交互功能,这适应了多媒体信息的应用由播放型向基于内容的访问、检索与 操作的发展趋势。 视音频对象( a v o ,a u d i ov i s u a lo b j e c t ) 是m p e g - 4 为支持基于内容编码而 提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可 根据其独特的纹理、运动、形状、模型和高层次语义为依据。a v o 是听觉、视 觉、或者视听内容的表示单元。其基本单位是原始a v o ,它可以是自然的或合 成的声音、图像。原始a v o 具有高效编码、高效存储与传输以及可交互操作的 特性,它又可进一步扩展组成新的a v o 。因此m p e g 4 标准的基本内容就是对 a v o 进行高效编码、组织、存储与传输。a v o 的提出,使多媒体通信具有高度 交互及高效编码的能力,a v o 编码是m p e g 4 的核心编码技术。 尽管m p e g - 4 的框架已经确定,而且在提供甚低比特率编码方面已经取得了 很大的成功,但是在提供基于对象的交互性方面m p e g 4 仍然没有太大的突破。 2 上海大学博士学位论文 这其中主要原因就是视频中的对象分割问蹶没有得到很好的解决。因此视频对象 分割一直是这几年的一个研究热点【4j 。 研究视频对象分割的价值在于【5 】:第一,视频对象分割不仅可以提高压缩编 码效率,而且支持对象可分级,即可以通过对感兴趣的对象分配较多的码流改善 视觉效果,这在低码率时和网络环境下的作用更为明显;第二,单独的视频对象 能实现基于视频内容的存取、粘贴和查询功能;第三,在视频监控系统中,若能 自动检测并跟踪运动对象,或提供基于对象的查询,则可提高监控系统的智能化 程度;第四,在未来的网络应用中,分割出的视频对象与虚拟场景可以构成虚拟 会议系统,实现具有真实沉浸感的远程分布式会议。 1 3视频对象分割综述 在传统的模拟视频时代,视频处理的功能非常有限,这一状况直到数字视频 的出现才得以改变( 本文中此后所称视频都是指数字视频) 。视频有时又称视频 序列( v i d e os e q u e n c e ) ,因为看似连续的视频序列实际上是由一些时间间隔很小 的静态图像( 又称帧f r a m e ) 组成,每秒钟内的视频帧数目即帧率( p a l 视频制 式中为2 5 帧秒,n t s c 中为3 0 帧,秒) 。每个视频帧都可视为像素( p i x e l ) 矩阵, 像素矩阵的行列数就是视频帧的大小( 分辨率) 。 1 3 1视频对象分割的相关概念 视频对象分割( v i d e oo b j e c ts e g m e n t a t i o n ) 就是在时空域上将一段连续的视 频( 通常是一个镜头) 分割为若干个有语义特征的视频对象。具体地说,就是将 每个视频帧都分割成若干个视频对象区域,m p e g - 4 中将每一帧的对象称为视频 对象平面v o p ( v i d e oo b j e c tp l a n e s ) ,所以视频帧对象分割有时又叫做视频对象 平面分割,如图1 2 所示。 图1 - 2 视频对象分割 不同的视频对象可以独立地编码、存储和操作,这适合于更加灵活的人机交 互以及基于内容的视频理解和视频编码。一般地说,视频对象可以是任意人们感 兴趣的目标,如视频序列中的人,车辆,动植物等等。在m p e g 4 标准中【6 l 视 上海大学博士学位论文 这其中主要原因就是视频中的对象分割问蹶没有得到很好的解决。因此视频对象 分割一直是这几年的一个研究热点。 研究视频对象分割的价值在于口 :第一,视频对象分割不仅可以提高压缩编 码效率,而且支持对象可分级,即可以通过对感兴趣的对象分配较多的码流改善 视觉效果,这在低码率时和网络环境下的作用更为明品:第二,单独的视频对象 能实现基于视频内容的存取、粘贴和查询功能:第三,在视频监控系统中,若能 自动检测并跟踪运动对象,或提供基于对象的查询,则可提高监控系统的智能化 程度;第四,在未来的网络应用中分割出的视频对象与虚拟场景可以构成虚拟 会议系统,实现具有真实沉浸感的远程分布式会议。 1 3 视频对象分割综述 在传统的模拟视频时代,视频处理的功能非常有限,这一状况直到数字视频 的出现才得以改变( 本文中此后所称视频都是指数字视频) 。视频有时又称视频 序列( v i d e os e q u e n c e ) ,因为看似连续的视频序列实际上是由一些时间间隔很小 的静态图像( 又称帧f r a m e ) 组成,每秒钟内的视频帧数目即帧率( p a l 视频制 式中为2 5 帧秒,n t s c 中为3 0 帧,秒) 。每个视频帧都可视为像素( p i x e l ) 矩阵, 像素矩阵的行列数就是视频帧的大小( 分辨率) 。 1 3 1视频对象分割的相关概念 视频对象分割( v i d e oo b j e c ts e g m e n t a t i o n ) 就是在时空域上将一段连续的视 频( 通常是一个镜头) 分割为若干个有语义特征的视频对象。具体地说,就是将 每个视频帧都分割成若干个视频对象区域,m p e g - 4 中将每一帧的对象称为视频 对象平面v o p ( v i d e oo b j e c t p l a n e s ) ,所以视频帧对象分割有时又叫做视频对象 平面分割,如图1 - 2 所示。 圈i = 2 视频对象分割 不同的视频对象可咀独立地编码、存储和操作,这适合于更加灵活的人机交 瓦以及基于内容的视频理解和视频编码。一般地说,视频对象可以是仟意人们感 兴趣的目标,如视频序列中的人,车辆,动植物等等。在m p e g 4 标准中“,视 必趣的目标,如视频序列中的人,车辆,动植物等等。在m p e g - 4 标准中”1 ,视 视频对象自动分割技术及其细胞神经网络实现方法的研究 频对象( v i d e oo b j e c t ) 被规范地定义为“在景物中的一个单元,允许用户存取 ( 搜索,浏览) 和操作( 剪切,粘贴) 的实体”,即视频对象是区域的聚集,且 至少有一个共同的特征一致地出现在视频对象中。如自然界中的一个人、一架飞 机、一幢大楼等都可以看成是一个视频对象,而人的一条胳膊、一个飞机轮子或 是一扇窗户等就不能称为视频对象。m p e o - 4 中所定义的视频对象要求具有语义 上的完整性,因此视频对象分割有时又称为视频语义对象分割。但事实上这种语 义上的意义很难用视频图像本身一些属性的组合来准确描述。这种定义的模糊性 虽然对发达的人脑和视觉系统不会有太大的障碍,但是对于现有计算机来说,理 解的歧义是很难避免的。对视频对象的特征描述越准确,对视频进行基于对象的 自动分割的可能性也就越大。要实现机器语言对视频对象的准确描述,还有赖于 机器语言、图像分析、图像处理、计算机视觉、生理学和心理学等领域的进一步 研究。 1 3 2视频分割与图像分割的关系 视频是一串连续的图像序列,视频的每一帧即可视为一幅图像。因此,视频 实际上是图像在时间维的扩展,但视频不是图像在时间维的简单扩展,这是因为 视频序列中相邻帧之间存在很强的相关性。从上述的图像和视频的关系可以看 出,视频分割也与图像分割必然存在着联系。目前,图像分割的算法已经达到上 千种,然而图像分割常被称为“低级”分割,它主要依赖于像素级的低级特征。 如灰度、颜色和纹理的一致性。图像分割迄今为止尚无完整的自身理论。相对而 言,视频对象分割研究得尚较少,且要复杂得多。一方面,视频对象包含着运动 信息,存在着非刚体物体形变、遮挡区和显露区等问题;另一方面,分割出的视 频对象必须是具有语义意义的实体,而这种语义意义上的一致性( s e m a n t i c h o m o g e n e i t y ) 很难用上述的低级特征来刻画,由于目前尚不能通过数学模型来 对语义视频对象进行明确地定义和描述,语义一致性往往依赖于具体的应用。因 此,在视频对象分割算法中,除了充分利用当前帧的空间信息进行图像分割外, 一般还要利用视频序列前、后帧之间存在的时间域信息,才能进行有效的对象跟 踪,以得到后续帧的视频对象。 1 3 3视频对象的表示 分割出来的对象目标需要用一种方式进行表示和标记。目标的表示方式主要 有点( p o i n t ) 表示法、矩形框( b o x ) 表示法、外轮廓( s i l h o u e t t e ) 表示法、团 块( n o b ) 表示法、变换域表示法、边缘描述法、特征表示法以及掩模( m a s k ) 表示法。 点表示法使用一系列能代表目标特征的特征点来表示目标。矩形框表示法使 上海大学博士学位论文 用一些包含目标区域的矩形框来表示目标。外轮廓法表示法采用目标的外轮廓来 表示目标。团块表示法采用一个或多个团块表示目标,每个团块内的像素点具有 某种相似特征。这种相似特征可以是相似的光流、相似的颜色或两者的结合。变 换域表示法将目标变换到非笛卡尔空间,从而得到对图像数据的更简洁表示。通 常的变换方法有傅立叶变换、主分量分析、离散余弦变换和小波变换等。边缘描 述法是用点或对噪声不敏感的线段表示图像中的边缘。特征表示法使用上述的一 些目标表示方法和一些附加信息计算目标的特征,并用这些特征对目标进行描 述。掩模表示法是用一个分割掩模来标记目标像素的形状和位置。每一帧的分割 掩模都是一个与当前帧大小相同的数值矩阵,矩阵的每个元素标记相应位置的像 素属于哪个目标。 1 3 4视频分割技术的应用 m p e g 4 的出现极大地推动了视频对象分割技术的发展,但是事实上视频对 象分割技术的应用范围远远不只限于对m p e g 4 的支持。按用途来分,视频分割 大致可分为用于编码的目的和基于内容可操纵两大类【7 】,具体体现在计算机视 觉、视频管理、视频合成、视频分析、视频编码以及视频监控等许多领域。下面 是其中的部分应用【8 】: 1 ) 视频编辑与交互( v i ( 1 e oe d i t i n ga n di n t e r a c t i v i t y ) 视频对象分割可以为视频编辑注入新的活力。用户可以象对待其他物理对象 一样对视频对象进行编辑操作,可以充分发挥想象力把不同来源的视频对象作为 素材,将它们组合在一起制作出新的视频内容。以前,这些视频素材全靠手工获 得,即耗时成本又高,因此能够获得的素材很有限。自动或者交互式的视频对象 分割技术可以大大改善这种状况。一旦获得了这些视频对象,就可以通过对它们 的进一步编辑、特技处理以及与一些计算机生成的虚拟对象( 如动画) 的合成来 得到更丰富的视频内容。 联合各个视频对象的信息可以编辑出新的内容,通过这种途径,在w w w 网页上,就可以象文档和图片一样为视频对象建立超级链接,用户点击超级链接 可以获取他们感兴趣的视频对象及其相关的一些信息,这种应用在电子商务中将 会有很好的前景。例如在观看足球比赛视频的同时,用户可以点击画面中的某个 运动员来获取他的个人资料,并发表评论;或者通过点击运动员的球衣来了解球 队的赞助商、球衣价格和俱乐部信息等。 2 ) 增强现实智能环境( a u g m e n t e dr e a l i t ya n di n t e l l i g e n te n v i r o n m e n t ) 虚拟现实是计算机视觉领域一个方兴未艾的研究方向,混合现实和增强现实 是虚拟现实的继续发展。在虚拟现实中,人视觉中的整个场景都是计算机虚拟构 造的;在混合现实中,虚拟的场景中加入了一些真实的目标:在增强现实中,则 视频对象自动分割技术及其细胞神经网络实现方法的研究 是在真实的场景中加入了一些虚拟对象。混合现实中的真实目标以及增强现实中 的虚拟对象都可以是通过视频对象分割得到的视频对象,通过在虚拟或真实的环 境合成一些事先采集好的视频对象,可以创造出非常逼真的( 所谓的“沉浸式的”) 虚拟环境。它们的直接应用例如虚拟会场、飞行员训练或大型游戏中使用的头盔 系统等。 3 ) 视频编码( v i d e oc o d i n g ) 视频对象分割技术在第二代视频编码标准m p e g 4 中的重要性已经不言而 喻,它是实现m p e g 4 基于对象编码的基础之一。将视频编码为一些视频对象的 集合,不仅可以提高编码压缩效率,提供视频编码端的多路复用,还可以为交互 式的视频应用提供可能。基于对象的编码方法还能更好地保护视频内容的知识产 权,对不同来源和不同重要性的视频对象内容提供相应的产权保护措施。 m p e g 4 基于对象的编码还有助于实现视频的基于内容的网络自适应传输。 在网络自适应传输中,需要根据网络带宽进行动态的码率控制。对基于对象编码 的视频,不同对象在传输中可以拥有不同优先级,享受不同的网络资源,以确保 人们感兴趣的对象可以得到优先保护。在带宽资源非常宝贵的无线通信领域,视 频对象分割技术也会有它的用武之地:如在可视化通信系统中人们关心的通常是 人的头肩,如果在终端将人脸区域分割出来进行传输,而不传输背景区域,可以 大大节约带宽资源。 4 ) 视频检索( v i d e oi n d e x i n g ) 对于多媒体数据来说,每一种媒体数据都具有难以用符号化的方法描述的信 息线索,现有的基于文本表达式的搜索引擎已经不能满足多媒体数据库的需求。 基于内容的多媒体数据库检索突破了传统的基于表达式检索的局限,它直接对图 像、视频、音频中的语义对象进行分析并提取语义特征,利用这些特征建立索引 并进行检索。m p e g - 7 就是这样个为基于内容的视频检索服务的标准。m p e g - 7 中,用于描述内容的特征分三个层次。低层次( 感知层) 的特征包括颜色、纹理、 形状和运动信息;高层次( 概念层,或称语义层) 的特征是内容的概念信息;中 间层( 模型层) 的特征则提供了低层感知特征和高层语义特征之间的联系模型。 为了实现基于内容的检索,首先需要将视频分割为一些语义对象,并提取这些对 象的各个层次特征信息,利用这些特征信息建立视频数据库的索引。 5 ) 视频监控( s e c u r i t y ) 视频监控系统已经由第一代的闭路电视系统( c c t v ) 进化到第二代的基于 p c 的系统。利用数字图像处理技术可以辅助监控,这样工作人员就不用一直盯 着屏幕了。只有在紧急情况发生,需要做决定的时候,计算机才通知工作人员介 入,从而减轻工作人员的负担并提高效率;如果可能的话计算机还可以对这些目 标的运动模式进行一些自动分析,以确定是否为可疑目标。 6 上海火学博士学位论文 1 3 5视频分割算法的分类 视频对象分割的方法很多,分类也没有统一的标准4 ”。按照是否需要人工 参与分割过程,视频对象分割算法可以分为两类方式:即自动分割和半自动分割。 自动分割难度大,分割效果随图像和视频的内容复杂程度变化很大。主要特点是 面向特定的应用,预先调整好参数,可完成实时处理任务,如车辆检测系统、大 厅监测系统、可视电话和电视会议等;半自动分割方式则适用于复杂场景下对象 的分割,虽然分割质量较好,但不具有实时性。其主要特点是依赖于人工的交互 确定语义级对象并干预分割和跟踪结果,可用于任意对象的分割、操作和高效压 缩。图1 3 是一个典型的视频运动对象分割系统框架图。其中的全局运动估计用 于补偿摄像机的运动,镜头检测用于分割各个视频镜头,待分割对象可以根据情 况自动或交互地确定,根据各种信息分割出运动对象后,利用二值化模板可以提 取运动对象,并实现运动对象的跟踪。完成对象的分割之后,就可以根据m p e g 4 标准实现基于对象的编码。 国1 - 3 一种典型的视频运动对象分割系统框圈 此外,按分割用途和精度要求看,大致可分为目标跟踪级分割、编码级分割 和内容操作级分割三大类。目标跟踪级的视频对象分割对分割精度的要求可以比 较低一些,只要能确定目标的大致轮廓甚至大致的位置就可以较好地跟踪目标的 轨迹;编码级的分割对对象边界的要求可能更高一些,但一般还是基于视频图像 低层次级( 像素级) 的特征:内容操作级的分割不仅对分割精确性有较高要求, 而且往往要依靠视频图像的高层次( 对象级) 语义特征。 本文主要从是否人工参与的角度来进行分割方法的划分,分为自动、半自动 和特殊分割。从分割对象来看,目前的研究主要集中于运动目标的分割,这也是 本文的研究重点。 1 3 5 1 自动分割方法 在视频对象分割技术研究工作开始的阶段里,人们把注意力集中于自动分割 的系统。在m p e g - 4 的标准中【l3 1 ,有三个方案被建议采纳。他们分别是f o n d a z i o n e 视频对象自动分割技术及其细胞神经网络实现方法的研究 u g o b o r d o n i ( f u b ) 【1 7 】以及m e u n i v e r s i t y o f h a n n o v e r ( u h ) 【1 8 】提出的两种时域 分割方案和t h ee l e c t r o n i c sa n dt e l e c o m m u n i c a t i o n sr e s e a r c hi n s t i t u t e ( e t r i ) “” 提出的时域空域分割方案。 f u b 采取多帧的分割技术: ( 1 ) 选取一组帧,将每一帧与这一组的第一帧比较,计算出差值。 ( 2 1 对这些差值采用四阶统计检验来确定变化区域。 ( 3 ) 用运动估计去除由于背景去遮挡而引起的变化。 ( 4 ) 采用形态学中的开闭操作对结果进行修正。 u h 采用的则是连续两帧间的运动信息: ( 1 ) 两帧之间的差值构成变化检测的模板( m a s k ) 。 ( 2 ) 去遮挡的背景区域用多级块匹配去除。 ( 3 1 根据亮度梯度调整区域的边界,以增加物体分割边界的准确性。 e t r i 又增加了空间的相关性信息: ( 1 ) 对帧图像首先用形态学滤波器进行过分割,去掉小的区域且保持物体边 界的形状。 ( 2 ) 使用形态学梯度算予估计帧图像的亮度梯度。 ( 3 ) 定义亮度梯度且和运动场组合为相似度的度量准则,用分水岭算法进行 区域分割。根据图论将相似的区域合并。 这些方案都把视频对象的分割问题归结为:将每帧图像的像素点分为两类: 运动的前景,静态的背景。 在自动分割领域里,除了上述m p e g - 4 所建议的方案以外,还有很多其他的 方案。总的来说,它们可以分成两大类:基于运动的分割方法和基于时空

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论