(通信与信息系统专业论文)基于h264avc压缩域的视频镜头边界检测方法研究.pdf_第1页
(通信与信息系统专业论文)基于h264avc压缩域的视频镜头边界检测方法研究.pdf_第2页
(通信与信息系统专业论文)基于h264avc压缩域的视频镜头边界检测方法研究.pdf_第3页
(通信与信息系统专业论文)基于h264avc压缩域的视频镜头边界检测方法研究.pdf_第4页
(通信与信息系统专业论文)基于h264avc压缩域的视频镜头边界检测方法研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(通信与信息系统专业论文)基于h264avc压缩域的视频镜头边界检测方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于内容的视频检索技术通过镜头边界检测、关键帧提取、特征提取、特 征匹配等方法对数字视频作出摘要、浏览和检索,实现对海量视频信息的有效 管理。镜头边界检测技术正是基于内容的视频检索系统的关键技术。传统的基 于像素域的方法通过统计图像帧像素间的差异,对视频镜头进行分割。而基于 m p e g 压缩域的方法利用压缩视频的特性,无需完全解压即可实现对镜头边界 的检测,大大提高了检测效率。 新一代视频编码标准h 2 6 4 a v c 具有良好的压缩性能和网络适用性,其应 用同益广泛。由于h 2 6 4 a v c 采用了帧内编码、多尺寸块分割、多参考帧等新 技术,现有的镜头边界检测方法无法直接应用于h 2 6 4 a v c 压缩码流。基于此, 本文对在h 2 6 4 a v c 压缩域中直接检测镜头边界技术进行了深入的研究。 本文首先分析了像素域和m p e g 压缩域中经典的镜头边界检测算法,总结 了当前h 2 6 4 a v c 压缩域镜头边界检测技术研究现状与存在的问题,在此基础 上提出了一种基于预测模式差异的镜头边界检测算法( p m d 算法,as h o t b o u n d a r yd e t e c t i o na l g o r i t h mb a s e do np r e d i c t i o nm o d ed i f f e r e n c e ) 。该算法从 h - 2 6 4 a v c 码流中直接提取帧预测模式信息,通过统计相邻帧对应块之间的预测 模式差异,实现对不同类型视频镜头的边界检测。其创新点主要体现在以下两 个方面: ( 1 ) 针对现有镜头边界检测方法的不足,充分利用h 2 6 4 a v c 标准的新特性, 提出了一种利用帧预测模式差异信息来检测h 2 6 4 a v c 视频镜头边界的新方法, 首先对图像帧块分割做归一化处理,然后利用相邻帧对应块之间的帧内或帧间 预测模式差异来检测镜头边界,检测效果好且计算复杂度低。 ( 2 ) 针对现有算法难以同时检测发生在不同类型编码帧中的镜头转换的问 题,对所有图像帧采用统一的检测框架,不仅能检测发生在i 帧的镜头转换,而 且对于发生在p 、b 帧的镜头转换也可精确定位其转换图像帧号。 实验结果表明,提出的算法不仅能有效地检测镜头突变转换,对于渐变转 换也能取得令人满意的查全率和查准率。 关键词:h 2 6 4 a v c 标准,镜头边界检测,模式选择,预测模式,阈值 a b s t r a c t c o n t e n t - b a s e dv i d e or e t r i e v a lt e c h n o l o g ya i m sa tm a k i n gs u m m a r y , b r o w s ea n d r e t r i e v a lo ft h ed i g i t a lv i d e ob yu s i n gs h o tb o u n d a r yd e t e c t i o n ,k e y - f r a m ee x t r a c t i o n , f e a t u r ee x t r a c t i o n ,f e a t u r em a t c h i n ga n do t h e rm e t h o d s ,i no r d e rt om a n a g et h ev i d e o i n f o r m a t i o ne f f e c t i v e l y a st h ek e yt e c h n o l o g yo fc o n t e n t b a s e dv i d e or e t r i e v a l s y s t e m ,s h o tb o u n d a r yd e t e c t i o na t t r a c t sm a n y r e s e a r c h e r s a t t e n t i o n t h et r a d i t i o n a l s h o tb o u n d a r yd e t e c t i o nw a sa p p l i e dt ot h ep i x e ld o m a i n ,u s i n gt h ed i f f e r e n c e i n f o r m a t i o no ft h ep i x e lb e t w e e nf r a m e s a n dt h em e t h o d sb a s e do nm p e g c o m p r e s s e d d o m a i nc a ns e g m e n ts h o tb o u n d a r ye f f e c t i v e l yb ya d o p t i n g t h e c h a r a c t e r i s t i co ft h ec o m p r e s s e dv i d e o a st h en e wg e n e r a t i o nv i d e oc o d i n gs t a n d a r d ,h 2 6 4 a v cb e c o m e sv e r yp o p u l a r f o ri t se f f i c i e n tp e r f o r m a n c ei nv i d e oc o m p r e s s i o na n dn e t w o r ka p p l i c a b i l i t y s i n c e t h e r ei sal o to fn e wt e c h n o l o g i e sa d o p t e db yh 2 6 4 a v c ,s u c ha si n t r a - p r e d i c t i o n , m u l t i s i z eb l o c ks e g m e n t a t i o n ,m u l t i p l er e f e r e n c ef r a m e sa n ds oo n ,t h ef o r m e rs h o t b o u n d a r yd e t e c t i o nm e t h o d sc a nn o t b e d i r e c t l ya p p l i e d t ot h eh 2 6 4 a v c c o m p r e s s e ds t r e a m f o rt h i sr e a s o n ,t h i sp a p e rs t u d i e st h es h o tb o u n d a r yd e t e c t i o n t e c h n o l o g yi nh 2 6 4 a v cc o m p r e s s e dd o m a i n f i r s t l y , t h i sp a p e ra n a l y z e dt h ec l a s s i cs h o tb o u n d a r yd e t e c t i o na l g o r i t h mb a s e d o np i x e ld o m a i na n dm p e gc o m p r e s s e dd o m a i n t h e n ,i td i s c u s s e dt h ed e v e l o p m e n t o fs h o ts e g m e n t a t i o nb a s e do nh 2 6 4 a v cc o m p r e s s e dd o m a i n f i n a l l y , t h ep a p e r p r e s e n t e da n e ws h o tb o u n d a r yd e t e c t i o na l g o r i t h mb a s e do nh 2 6 4 a v cc o m p r e s s e d d o m a i nn a m e dp m d ( as h o tb o u n d a r yd e t e c t i o na l g o r i t h mb a s e do np r e d i c t i o n m o d ed i f f e r e n c e ) t h ep r e d i c t i o nm o d ei n f o r m a t i o no ff r a m e si se x t r a c t e d ,a n dt h e d i f f e r e n c eo fc o r r e s p o n d i n gb l o c k sm o d eb e t w e e nf r a m e si sc a l c u l a t e a tl a s t ,t h e v a r i o u st y p e so fs h o tb o u n d a r ya led e t e c t e db ys e t t i n ga d a p t i v et h r e s h o l d t h em a i n i n n o v a t i o ni sm a i n l yr e f l e c t e di nt h ef o l l o w i n g : ( 1 ) a i m i n ga ts o m ed e f e c ti np i x e ld o m a i na n d t h em p e gc o m p r e s s e dd o m a i n f o rs h o tb o u n d a r yd e t e c t i o n ,m a k i n gf u l lu s eo fn e wc h a r a c t e r i s t i c so ft h eh 2 6 4 a v c v i d e oc o d i n gs t a n d a r d ,an e ws h o tb o u n d a r yd e t e c t i o nm e t h o db a s e do nh 2 6 4 a v c c o m p r e s s e dd o m a i nu s i n gd if f e r e n c ei n f o r m a t i o no fp r e d i c t i o nm o d eb e t w e e nf r a m e s i sp r o p o s e d a tf i r s t ,t h eb l o c ks i z ei nf r a m e ss h o u l db en o r m a l i z e d ,a n dt h e nt h e d i f f e r e n c eb e t w e e nt h ec o r r e s p o n d i n gb l o c k si nt h ei n t r a p r e d i c t i o nm o d eo rt h e i n t e r - p r e d i c t i o ni sc o u n t e du pt od e t e c tt h es h o tb o u n d a r y t h en e wm e t h o db r i n g s m o r ee f f e c t i v ed e t e c t i o nb u tr e d u c e st h ec o m p u t a t i o n a lc o m p l e x i t y ( 2 ) a i m i n ga tt h ed i f f i c u l t yo fs h o tb o u n d a r yd e t e c t i o ni na l lt y p e so fc o d e d f r a m e s ,au n i f i e dd e t e c t i o nm o d e li se s t a b l i s h e d i tc a nn o to n l yd e t e c tt h es h o t b o u n d a r yi nif r a m e , b u ta l s oc a np o i n to u tt h ep r e c i s ep o s i t i o no ft h es h o tt r a n s i t i o n t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e da l g o r i t h ma c h i e v e ss a t i s f a c t o r y p e r f o r m a n c eo fr e c a l la n dp r e c i s i o ni nb o t ha b r u p tt r a n s i t i o na n dg r a d u a lt r a n s i t i o n k e y w o r d :h 2 6 4 a v cs t a n d a r d :s h o tb o u n d a r yd e t e c t i o n ;m o d es e l e c t i o n ;p r e d i c t i o n m o d e ;t h r e s h o l d i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:盘壹丛e 1 期:巡丝! 丝 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :谢意琳导师( 签名) :熟日期哆肛形 武汉理t = 大学硕十学位论文 1 1 课题来源 第1 章绪论 本课题来源于广西科学研究与技术开发计划项e ( 0 511 2 0 0 1 7 a 2 ) 。 1 2 研究目的和意义 进入2 1 世纪,随着计算机技术、多媒体处理技术的飞速发展,以及互联网 在工业、商业和人们日常生活中的广泛应用,数字多媒体信息呈现出爆炸式的 增长。与传统的语音、图像等信息载体相比较,视频信息以其生动、直观、形 象的优势成为新的关注热点,其应用日益广泛。 海量数字视频信息的存在必然要求有效的存储和管理措施,然而由于视频 数据涵盖了文字、语音、图像等多种多媒体数据,数据流组成复杂,数据量庞 大,这使得传统的数据检索技术已无法满足视频检索的需求。因此我们寻求一 种能将数字视频数据转化为更为简洁紧凑的数据模式,对视频内容做出语义摘 要的新技术,以满足数据处理的实际需求【1 1 。基于内容的数字视频检索技术应运 而生,实现了对数字视频的检索、浏览、索引和摘要等。基于内容的数字视频 检索技术通过对视频镜头进行边界检测,并提取出能够代表其所有镜头的关键 帧,得到该视频的摘要,最终实现对目标的检索,并且该检索结果不受个人对 视频不同理解的影响【2 】。可以看出,镜头边界检测则是基于内容的数字视频检索 技术的基本前提和关键步骤。 传统的镜头边界检测技术是基于像素域的,直接利用相邻图像帧之间的颜 色、纹理和形状等特征进行检测,通过检测相邻帧之间的特征差异来判定是否 存在镜头边界【3 】。而目前大部分的视频数据都是经过压缩的,传统的基于像素域 的方法已不再适用,如何对压缩域视频直接进行镜头边界检测己成为基于内容 的视频检索技术的研究热点,近十年来也涌现了许多基于m p e g 压缩域的新方 法,推进了数字视频检索技术的向前发展。 新一代视频编码标准h 2 6 4 a v c 草案【4 j 于2 0 0 3 年公布,它是由i t u t 的视 频编码专家组( v c e g ) 和i s o i e c 的活动图像编码专家组( m p e g ) 共同组成 武汉理i = 人学硕十学位论文 的联合视频小组( j v t ) 开发的。与现有的视频编码标准相比,h 2 6 4 a v c 在性 能上有了明显的提升,具有优异的压缩性能和良好的网络亲和性,同时兼顾了 不同速率和清晰度要求,可以满足多种场合的需求【5 1 ,目前,越来越多的视频压 缩都采用了h 2 6 4 a v c 标准。作为最新的视频编码标准,h 2 6 4 a v c 引入了许 多新的特性,如不同尺寸宏块分割、帧内预测编码模式,多参考帧等【6 】,这使得 以往的压缩域检测方法无法直接应用于h 2 6 4 a v c 码流中。目前基于h 2 6 4 a v c 压缩域的视频边界检测研究正处于起步阶段,国内外专家学者也提出了一些新 的视角来解决这一问题,但均存在检测精度不高,检测效率较低等问题。 综上所述,视频镜头边界检测是基于内容的数字视频检索领域的关键技术, 而对于基于h 2 6 4 a v c 压缩域的镜头边界检测技术的研究才刚刚开始,尚存在 众多难点。因此研究该问题的解决具有十分重要的现实意义和较高的理论价值, 其应用前景十分广泛。 1 3 国内外研究现状 2 1 世纪是一个信息化的社会,各种信息量急剧增长,在这之中图像、视频 等视觉信息又占据了重要地位。多媒体数据,尤其是数字视频数据的广泛应用 不仅对数据的存储和传输提出了更高的要求,发展一种能对海量视频数据进行 描述和管理的有效技术更成为人们的迫切需要。基于内容的数字视频检索技术 与传统的检索手段相比,它将对视频图像内容的分析和理解融入到特征库中, 从而可以提供更有效的检索手段。视频镜头边界检测技术作为基于内容的数字 视频检索技术的关键步骤,在系统中占据了重要地位,是检索系统取得成功的 基本前提。作为新一代的视频编码标准,h 2 6 4 a v c 以其良好的性能成为视频编 码的首选,具有十分广泛的应用前景。因此,研究基于h 2 6 4 a v c 压缩域的视 频镜头边界检测技术已成为视频检索领域新的热点。 传统的镜头边界检测技术直接在像素域对视频数据进行处理,以相邻两帧 间的信息差异作为检测依据,主要包括像素比较法1 7 ,引、直方图比较、法【9 , 1 0 】、基于 边缘变化率澍1 1 】、基于运动信息的方法【1 2 l 以及基于物体轮廓的方法【1 3 j 等。然而, 现有的大多数视频数据都是以压缩格式来进行传输与存储,若采用像素域的检 测算法,就需要对压缩视频先解压再做处理,在检测效率上就会大大降低。因 此,近年来国内外研究人员在这方面做了大量的工作,提出了许多直接对压缩 视频进行镜头边界检测的方法,主要包括基于d c t 系数的方法【1 4 】、基于d c 图 2 武汉理工人学硕十学位论文 的方法【1 5 1 、基于运动矢量的方法【1 6 】、基于宏块类型的方法1 1 7 1 以及基于比特率的 方法【1 8 j 等等,这些基于压缩域的视频镜头边界检测方法大都是针对早先制定的 m p e g 标准。 目前,关于直接在h 2 6 4 a v c 压缩码流中直接检测视频镜头边界的研究工 作才刚刚起步。国内外的专家学者就这一研究方向作了一定的探讨和研究,并 取得了一定的成果。提出的新方法主要包括以下几种: l i uy a n g 和w a n gw e i q i a n g 等【l9 】提出利用帧内预测模式直方图的差异找出 可能存在镜头转换的帧,再利用帧间预测模式宏块数作为计算特征,使用隐马 尔可夫模型( h m m ) 来确定发生转换的帧。由于采用了隐马尔可夫模型,该算 法避免了设置阈值这一关键而又复杂的程序。然而要训练出符合要求的马尔可 夫模型,至少需要全部视频数据的四分之一,这使得该算法效率较低。 k i ms u n gm i n 与b y u nj uw a n 等【2 0 】提出通过检测两个连续i 帧的帧内宏块 分割模式来检测镜头边界,方法简单易行。但该方法在发生激烈运动时容易产 生误检测,为了消除运动干扰,作者采取了对所检测的帧图像进行子块划分的 方法,取得了不错的效果。但是该算法无法得到精确的镜头转换边界,而只能 判断两个i 帧之间是否发生了镜头转换。 而f e n gj i e 和h u a n ga i a i 等【2 l 】则提出计算帧内预测编码宏块及帧间预测编 码宏块的比特分配,以及每帧中s k i p 模式的宏块数来检测镜头边界,该方法对 切变和渐变都取得了不错的检测效果,但尚无法检测发生在b 帧的镜头边界。 s a r a hd eb r u y n e 和w e s l e yd en e v e 掣2 2 】提出在h 2 6 4 压缩码流上直接提取 帧图像中宏块、子块的编码类型,对于不同的帧类型,即对于i 帧、p 帧和b 帧 分别统计其帧内编码宏块数、前向编码宏块数以及后向编码宏块数,若其值大 于所给定的阈值,则判定镜头边界的存在。对于镜头的突变边界和渐变边界, 作者采用了不同的阈值来进行检测,取得了较好的检测效果。 h o n gb o h y u n 以及e o mm i n y o n g 掣2 3 】贝u 提出了一种新的检测思路,他们利 用帧内编码宏块占全部宏块数的百分比来找出候选的镜头转换帧集合,然后再 用帧内预测模式的八个预测方向的边缘直方图来具体定位转换帧,该方法对消 除闪光灯的干扰效果较好,但对于发生在i 帧的镜头转换检测能力较弱。 1 ) a r n g h a n i a nb i t a 与m a h m o u dr e z ah a s h e m i 等【2 4 】利用h 2 6 4 a v c 中的新特 性亮度权重预测因子( l u m i n a n c ew e i g h t e dp r e d i c t i o n ) 实现了对淡入淡出渐 变边界的检测,方法简单并取得了不错的检测效果。但该方法只能针对发生在p 、 b 帧的镜头边界进行检测,并且只能对淡入淡出渐变类型进行检测。 武汉理t 大学硕士学位论文 随着h 2 6 4 a v c 编码视频的广泛应用,直接对h 2 6 4 视频流进行镜头边界 检测的技术也将成为关注的焦点。当前,基于h 2 6 4 a v c 压缩域的视频镜头边 界检测方法研究仍处于新兴阶段,尤为值得我们进一步的探索和研究。 1 4 本文主要研究内容 本文在充分研究视频镜头边界检测技术和h 2 6 4 a v c 标准新特性的基础上, 提出了一种在h 2 6 4 a v c 压缩域检测视频镜头边界的方法,并取得了令人满意 的检测效果。本文的研究内容主要包括以下几个方面: ( 1 ) 学习数字视频的基本理论,深入研究数字视频的层次结构; ( 2 ) 学习镜头边界检测算法原理,并对传统的基于像素域与m p e g 压缩域的 视频镜头边界检测经典算法进行深入分析; ( 3 ) 学习h 2 6 4 几w c 视频编码标准,分析现有基于h 2 6 4 a v c 压缩域视频镜 头边界检测算法;在此基础上,结合镜头边界检测理论,构建一个基于h 2 6 4 a v c 压缩域的镜头边界检测基本框架; ( 4 ) 在深入学习h 2 6 4 a v c 标准新特性和镜头边界理论基础上,结合h 2 6 4 码流结构分析,提出一种在h 2 6 4 a v c 压缩域直接进行镜头边界检测的新方法; ( 5 ) 实现对h 2 6 4 a v c 压缩码流的镜头边界检测,并对实验结果进行分析。 1 5 本文章节安排 本文主要包括五个章节,各章节的主要内容如下: 第1 章为绪论,主要介绍了课题研究的目的和意义,该领域国内外研究现 状,本文的主要研究内容以及文章结构。 第2 章介绍了数字视频镜头边界检测的相关理论,并对像素域和压缩域的 各种代表性镜头边界检测算法做了分析,比较其优缺点,为后续研究工作提供 理论支持。进一步在分析h 2 6 4 a v c 标准新特性和现有算法基础上,给出了一 个基于h 2 6 4 a v c 压缩域的镜头边界检测框架。 第3 章首先分析了现有基于h 2 6 4 a v c 压缩域视频镜头边界检测算法存在 的问题,构建了针对发生在不同类型图像帧上镜头转换的统一检测框架,在此 基础上,提出了一种直接对h 2 6 4 a v c 码流进行镜头边界检测的算法基于 预测模式差异的镜头边界检测算法。 4 武汉理1 :大学硕士学位论文 第4 章是对提出的检测算法加以实现,并分析实验结果。 第5 章为全文工作的总结和对下_ 二步工作的展望,对全文内容进行总结陈 述,并提出当前工作的未尽事宜以及未来工作的重点。 武汉理工人学硕十学位论文 第2 章视频镜头边界检测 2 1 基于内容的视频检索系统 计算机处理技术和多媒体压缩技术的新发展导致数字视频的广泛应用,如 在线视频、交互电视、数字图书馆、多媒体信息系统等,如何有效管理和组织 大型视频数据库成为人们研究的重点。基于内容的视频检索技术研究正是致力 于解决从海量视频信息中寻求人们感兴趣目标的问题,镜头边界检测则是基于 内容的视频检索技术的基本步骤。因此,对于一个大型的视频数据库,不论是 检索、浏览、索引和摘要或是其它一些基于内容的处理技术,都离不开镜头边 界检测这个重要方法。一个典型的基于内容的视频检索系统框图如图2 - 1 所示。 图2 - 1 基于内容的视频检索系统基本框图 大部分的视频都是由众多镜头剪辑而成,前后镜头之间相关性较弱。为了 更好的分析视频内容,对于输入的视频流,首先要对其进行镜头边界检测,使 其分割为一个个独立的镜头。对于每一个镜头都对其提取个或一组关键帧来 代表镜头内容,这样一段数据量庞大的视频就被转换为一组帧图像,由此可以 把目前较为成熟的图像检索技术引入到视频检索系统中来。通过对关键帧提取 6 武汉理一r = 大学硕士学位论文 图像特征建立特征库,将检索目标特征与之相匹配,若符合检索要求则输出相 对应的目标视频,从而实现对数字视频的检索。由上述框图可以看出,作为分 析视频序列内容的首要步骤,镜头边界检测技术具有十分重大的作用。 2 2 镜头边界检测相关理论 从物理性质上看,视频数据流由成千上万在时间上连续的帧图像序列组成, 镜头内部图像帧之间相关性较强,而前后镜头的图像帧之间相关性较弱。对视 频流进行镜头边界检测,将视频分割成更易于处理的部分,这也是视频处理的 必然选择。下面就镜头边界检测的一些基本概念做简单介绍。 视频流是多组运动图像的集合,其典型结构为场景( s c e n e ) 、镜头( s h o t ) 以及帧( f r a m e ) 【2 5 】,其组成如图2 2 所示。 蟛陟: 镜头l 镜头2 镜头3 _ 、。,、厂一 场景1场景2 图2 2 视频流组成结构 场景也称为故事单元( s t o r yu n i t ) ,一般是指在空间和时间上连续的一段完 整而独立的故事单元,每个场景中由数目不等的镜头组成。镜头是指摄像机从 打开到关闭,不间断记录下来的一段帧序列,它是基于内容的视频处理的基本 单元。帧图像则是视频结构中最小的单位,所有的视频都可以归结成一定数量 具有关联性的帧图像连接而成的图像序列。 镜头边界检测就是要找出摄像机从开机到关闭这一过程中所记录的帧图像 的边界,根据镜头转换的快慢,可将其分为突变转换( a b r u p tt r a n s i t i o n ) 和渐 变转换( g r a d u a lt r a n s i t i o n ) 2 6 1 : 突变转换,是指不加入任何剪辑效果,由一个镜头直接切换为另一个镜头, 这个转换过程在一帧之内完成。由于突变镜头边界两端的帧图像分别属于两个 镜头,所以其内容跳跃,相关性较弱。 渐变转换,是指利用剪辑手段,使前一镜头与后一镜头之间的过渡变得较 7 武汉理工人学硕十学位论文 为缓和,这个转换过程一般在几十甚至是上百帧之间完成。因此,对于渐变镜 头边界,前后帧图像之间具有一定的相关性。根据渐变效果的不同,又可分为 以下几种【”1 : ( 1 ) 溶解( d i s s o l v e ) :上一镜头的最后几帧与下一镜头的前几帧交迭出现。 在交迭过程中,消失镜头的帧图像亮度渐渐减弱为零,而新镜头的帧图像亮度 由零逐渐趋于正常。 ( 2 ) 淡入淡出( f a d ei n f a d eo u t ) :上一镜头帧图像逐渐减弱直至变黑( 或其 它单色帧) ,然后新镜头帧图像渐渐呈现。 ( 3 ) 划变( w i p e ) :两个镜头的内容共存于帧图像中,并分别处于不同空间区 域,上一镜头的内容渐渐被新出现镜头的内容所取代。 除了上述三种渐变转换方式以外,视频剪辑过程中还用到了许多创造性手 法来实现镜头的转换,这使得渐变镜头边界的检测变得十分困难。用数学模型 来描述突变和渐变转换有助于我们研究分析镜头边界检测问题,下面给出其通 用模型: 令p ( x ,y ,t ) 表示镜头转换前的帧图像,o ( x ,y ,t ) 表示镜头转换后的帧图像, 则转换过程可用下列数学模型表示: r ( x ,y ,f ) = c t ( t ) p ( x ,y ,t ) + f l ( t ) q ( x ,y ,f ) ,t o ,t ( 2 一1 ) 其中t r ( t ) o ,1 】,p ( t ) o ,l 】。 ( 1 ) 棚圳为阶躺数叫f ) _ 僻翌删= 踔暑贼 模型对应突变转换。 ( 2 ) 若a ( t ) 、( f ) 为定义域中的单调递增或递减函数,则该模型对应渐变转 换的几种类型: 若口( f ) 单调递减且口( f ) = 【o , , 1 f - :- o 丁,( f ) 单调递增且( f ) = i1 0 ,, f t := 丁0 ,则该 模型对应溶解转换过程; 若口( f ) = 。,( f ) 单调递增且( f ) = l0 l ,, f t := 丁0 ,或( f ) = 。,口( f ) 单调递减 且口( f ) = 支:三;,则该模型对应淡入淡出转换过程; 武汉理i :大学硕十学位论文 设z o n e 为划变区域,则划变转换过程的数学模型为: 酏川= 【姒p ( x , y y , f ) ( t ) , ( x x , ,y j ,) ) 萑z z d o n 刀e p ( 2 2 ) 上面给出了各种镜头转换过程的数学模型,在此基础上我们将进一步研究 镜头边界检测领域的一些经典算法。 2 3 经典算法分析 镜头是构成视频流的基本单元,而镜头又可以看作是由一系列具有相关性 的帧图像按时间顺序排列而成。对于帧图像,像素是其基本表示粒子,因此传 统的镜头边界检测方法都是在像素域对帧图像进行处理,利用相邻帧图像之间 的颜色、纹理和形状等物理特征,通过统计它们之间的特征差异来判定是否存 在镜头边界。然而现有的大部分视频数据都是经过压缩的,如果继续采用像素 域的方法对其进行检测,就需要对压缩视频做完全解压后再检测其镜头边界, 这无疑会大大降低检测效率。因此,国内外研究人员在这方面做了大量的工作, 提出了许多直接对压缩视频进行镜头边界检测的方法,这些方法主要是针对 m p e g 压缩域的。下面就该领域的一些经典算法作简要分析。 2 3 1 基于像素域的检测方法 在像素域检测视频镜头边界一般是利用图像的物理特征,通过计算相邻两 帧问的特征差异来作为检测依据,较为经典的有基于像素差的方法【7 8 】、基于直 方图比较的方法1 9 , 1 0 、基于边缘变化的方法【1 l 】等。 ( 1 ) 基于像素差的方法 基于像素差的方法通过比较帧图像之间对应像素点的灰度值来衡量帧图像 内容的差异度。第f 帧与第,帧之间对应点像素差表示为: d ( i ,j ) = i z ( x ,y ) 一z ( x ,y ) i ( 2 3 ) 其中,z ( 工,y ) 、六( x ,y ) 分别表示第f 帧与第帧中( x ,j ,) 像素点的灰度值。那么 第f 帧与第,帧总的帧差则为: m i ,一l d ( i ,) = d ( i ,) ( 2 - 4 ) 9 武汉理工人学硕十学位论文 其中,m 、为帧图像的长和宽。当总帧差d ( i ,) 大于预先设定的阈值时,就 认为镜头转换存在。4 这种方法比较直观,但对于摄像机的运动较为敏感,当镜 头里出现大区域运动时容易产生误检。为了提高检测精度,文献 8 】提出首先对 图像做3 3 平滑滤波,以此来降低摄像机运动的干扰。 ( 2 ) 基于直方图比较的方法 利用帧图像之间选定特征的直方图来检测镜头边界是一种比较通用的方 法。直方图表示一幅图像中不同灰度级或颜色分布情况的统计特性图表,而与 其所处的空间位置无关【2 引。假设一幅图像总的像素个数为n ,i i t 为图像中具有 特征值为z 的像素个数,三为特征可取值的个数,h ( z ) 为第z 个特征值的统计直 方图,那么: 日( ,) = 罟,= 0 ,1 ,2 ,三一l ( 2 - 5 ) v 则第f 帧与第,帧之间的总帧差d ( i ,j ) 为: 垡1 d ( i ,j ) = l 一( ,) 一一( ,) i ( 2 - 6 ) 1 = 0 。 当d ( i ,) 大于某一阈值时,则认为存在镜头转换。由于直方图仅仅是图像中 某一特征分布情况的统计,丢失了特征的空间信息,因此利用直方图差异来检 测镜头边界可以防止局部运动对检测精度的干扰。但也正是由于直方图只是特 征值的统计特性,无法反映其空间位置,因此,这种方法对于具有相同特征分 布的镜头边界很有可能将其遗漏。为了解决这个问题,可以引入分块思想【2 9 1 , 首先对图像进行分块处理,对每个块分别统计其特征直方图分布,再比较两图 像帧之间对应块的直方图,这样就可以大大降低漏检的发生。但这种方法同时 也带来了一个新的问题,即如何划分图像块,若块划分不当,反而会使检测效 果大大降低。 ( 3 ) 基于边缘变化的方法 基于边缘变化的镜头边界检测方法是利用镜头转换时新旧图像交替而产生 旧边缘退出,新边缘进入的特性,通过计算边缘像素点变化的程度来检测镜头 边界。这种方法首先要进行边缘检测,而后计算边缘的变化程度,通过退出和 进入边缘的对比来确定镜头转换是否存在以及镜头转换的类型。实现图像边缘 检测常用的微分算法有r o b e r t 算子、s o b e l 算子、l a p l a c i a n 算子、p r e w i t t 算子 以及c a n n y 算子等【3 0 1 。而边缘检测算法中比较具有代表性的是z a b i hr ,m i l l e rj 等提出的边缘变化率法( e d g ec h a n g er a t i o ) ,第j 帧与第f 一1 帧之间边缘变化率 1 0 武汉理: 人学硕十学位论文 e c r i 定义如下: c r = m a x ( x ;”q ,s o u t q 1 ) ( 2 - 7 ) 其中,霹表示第f 帧进入边缘的像素点数,s o u r 是第f 一1 帧中退出边缘的像素 点数,呸、正一,分别为第f 帧与f 一1 帧中所有边缘像素点总数。若e 皑出现一个 孤立的峰值,则判断发生了镜头突变,而e c r i 若出现连续的较大值,则表明可 能存在渐变过程。边缘变化率法与前两种镜头边界检测方法相比较为复杂,计 算量较大,而且在突变镜头边界的检测效果上并不占有优势,但它对各种渐变 转换具有较好的区分度。此外,由于该算法是利用边缘特征来检测镜头边界, 因此对于某些局部运动如字幕等较为敏感,易产生误检。 上面介绍了在像素域进行镜头边界检测的几种经典算法,除此之外研究人 员还提出了许多切实有效的新方法,如将分块理论与像素差法或直方图比较法 相结合的方法,计算选定特征均值与方差的方法,提取物体轮廓并计算轮廓变 化率的方法等等来进行检测。同时,聚类算法、支持向量机( s v m ,s u p p o r tv e c t o r m a c h i n e s ) 、网格计算( g r i dc o m p u t i n g ) 、神经网络等技术也被引入该领域,成 为镜头边界检测技术发展的新方向f 3 l 3 2 1 。 2 3 2 基于m p e g 压缩域的检测方法 鉴于数据存储和传输的需要,目前人们所接触到的数字视频极少是以完全 解压的形式存在,绝大部分都经过了不同程度的压缩处理。若仍然采用像素域 的算法对压缩视频进行镜头边界检测,就要首先对所处理的视频做解压,然后 才能使用像素域的方法来检测镜头边界,毫无疑问这将大大降低检测效率。因 此,如何在压缩域直接对视频进行镜头边界检测成为研究的重点,近年来的研 究工作也取得了不小的成果,提出了一些基于m p e g 压缩域的镜头边界检测算 法,主要有基于d c t 系数的方法【14 1 、基于d c 图的方法【1 5 】、基于运动矢量的方 法【1 6 】、基于宏块类型的方法【1 7 1 以及基于比特率的方法【1 8 1 等。下面详细介绍其中 具有代表性的几种算法: ( 1 ) 基于d c t 系数的方法 图像与视频压缩编码标准中普遍采用d c t 变换( d i s c r e t ec o s i n e t r a n s f o r m ) ,利用d c t 系数与像素域特征的相关性可以实现对压缩视频直接进 行镜头边界检测。该方法主要利用了压缩帧图像中块的6 4 个d c t 系数,其计 算公式如下所示: 武汉理t 大学硕十学位论文 眦删= 去善基器裂 p 8 , 其中,d ( z ,五,k ) 表示第f 帧与第帧中第k 块的归化绝对差值,c ( z ,k ,甩) 表 示f 帧中第k 块的第聆个系数。若d ( z ,六,k ) 大于某预先设定的阈值,那么就 认为第k 块发生了变化,当发生变化的块超过一定数量时则判定镜头边界存在。 该方法简单直观,对于渐变转换也有令人满意的检测效果。但在m p e g 压缩视 频中,d c t 系数只存在于i 帧,因此对于发生在不含d c t 系数的b 、p 帧上的 镜头转换,该方法就无能为力。为了解决这个问题,在此基础上提出了基于d c 图的方法。 ( 2 ) 基于d c 图的方法 该方法利用原图像的d c 系数来构造一个d c 帧序列,通过计算d c 帧之间 的差异来检测镜头边界。对于i 帧,d c 系数可以直接获得,而对于b 、p 帧, 其d c 系数通过运动补偿估计获得。与原图像相比,d c 图相当于一个缩小版, 是原图像8 8 平均的结果【3 3 1 。d c 帧之间差异计算方法如下: d ( f y , 矿) = k 嬲( 训) 一矿( 训) l ( 2 9 ) 其中,d ( f p c ,) 表示d c 序列第f 帧与第,帧的绝对差值,z d c ( 工,y ) 表示d c 序列第f 帧( x ,y ) 块的d c 系数,m 、n 为原图像的长和宽。若d ( f y :,) 大于 预先设定的阈值则认为镜头边界存在。这种方法不仅适用于i 帧,还可用于b 、 p 帧的检测,且计算量也大大减少,但对于具有类似像素值而密度函数完全不同 的两个图像帧容易造成误划3 4 】。 ( 3 ) 基于运动矢量的方法 视频实质上是一组运动图像的集合,因此对于镜头边界的检测,运动分析 是一个十分有效的手段。显而易见,相同镜头内部的运动矢量是连续着的,而 对于不同的镜头,运动矢量则不具有连续性。因此,考察视频序列中运动矢量 的特性有助于分析镜头的边界。文献 1 6 】就提出了一种利用运动矢量的数目来检 测镜头边界的方法。y 表示p 帧中运动矢量的数目,表示b 帧中前向 非零运动矢量和后向非零运动矢量中较小的数,若 n p m y qo rnb m y q q 一1 0 ) 则认为镜头边界存在。其中,t 为阈值且其数值接近于零。此外,该方法还可以 结合运动向量幅度的平均值来更好地检测镜头边界f 3 5 1 。 1 2 武汉理上人学硕七学位论文 除了上面介绍的几种方法,在压缩域检测镜头边界还可以采用比较宏块类 型的方法、矢量量化的方法以及基于小波变换的方法等【3 6 , 3 7 , 3 8 】。以上列举的这些 方法大都是针对m p e g 压缩视频,而h 2 6 4 a v c 压缩编码采用的新技术使得这 些方法无法直接应用于新的领域,因此有必要对在h 2 6 4 a v c 压缩域检测镜头 边界展开研究,以适应视频检索发展的新要求。 2 4 基于h 2 6 4 a v c 压缩域的镜头边界检测 2 4 1h 2 6 4 a v c 标准简介 2 0 0 3 年公布的新一代视频编码标准h 2 6 4 a v c 较以往的视频编码标准具有 更加优越的性能,更适用于实时视频通信、交互式点播、网络流媒体传输等数 字多媒体领域【3 引。由于其高效率的压缩表现和高可靠的传输方式,以及对于不 同网络良好的兼容性使得越来越多的视频压缩都采用了h 。2 6 4 a v c 标准,应用 日益广泛。 图2 3h 2 6 4 a v c 编码框图 和以往的视频编码标准类似,h 2 6 4 a v c 标准并没有对编解码器的结构做出 规定,而只是规定了码流的语法【5 j 。h 2 6 4 a v c 以宏块( m a c r o b l o c k ) 为基本处 理单位,采用帧内预测编码与帧间预测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论