(计算机应用技术专业论文)视频镜头边界检测的研究.pdf_第1页
(计算机应用技术专业论文)视频镜头边界检测的研究.pdf_第2页
(计算机应用技术专业论文)视频镜头边界检测的研究.pdf_第3页
(计算机应用技术专业论文)视频镜头边界检测的研究.pdf_第4页
(计算机应用技术专业论文)视频镜头边界检测的研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要视频镜头边界检测是视频检测和索引的首要步骤,本文在总结分析现有的镜头边界检测技术的基础上,深入研究了从视频帧特征提取到阈值选择的边界检测全过程,通过分析镜头的变化特点,将镜头分为两类:突变镜头和渐变镜头,利用改进的算法对两类镜头分别予以实现,本文主要研究工作如下:1 根据镜头边界的特征值变化特点设计出峰值识别器,根据特征值变化,用峰值识别器来决定进行突变检测还是渐变检测,以实现最佳的检测性能。2 对于突变镜头的检测,针对一般聚类算法可能导致帧序不连续或分割错误,并且现有的分割算法基本上都是对镜头中连续帧依次进行比较,效率比较低,为了解决以上问题,提出了一种改进的镜头分割算法一基于聚类的间隔帧分割算法,在此算法引入了参考变量,镜头中的很多帧不需进行比较,从而提高了检测的准确率。3 对于渐变镜头的检测,把视频帧图像分割为1 6x1 6 的小宏块,提出了比较不同帧之间对应宏块内的边缘点的狄度值变换情况。根据渐变特征值变化特点设计出渐变检测器( g s cd e t e c t o r ) ,算法在实验中取得了很好的检测效果。本文所有算法都在v c6 0 上实现,通过实验证明,此方法有很好的检测效果。关键词:镜头边界检测;颜色直方图;切变镜头;渐变镜头:视频分割a bs t r a c td i v i d i n gav i d e os e q u e n c ei nt os h o t si st h ef i r s ts t e pt o w a r d sv i d e o c o n t e n ta n a l y s i sa n dc o n t e n t - b a s e dv i d e od e t e c t i o na n dr e t r i e v a l t h i st h e s i sa d d r e s s e st h ek e yt e c h n i c a lp r o b l e m sa r i s i n gi ns h o tb o u n d a r yd e t e c t i o na n dv i d e oc a p t i o nd e t e c t i o n ,p r o p o s e st h en e wm e t h o d o l o g i e sa n da l g o r i t h m sf o rt h e m t h i sp a p e ra n a l y z e st h ed i f f e r e n c eo fd i f f e r e n ts h o tc h a n g e ,t h e nb a s e do ft h ed i f f e r e n c ef e a t u r ew ec l a s st h es h o t si n t og r a d u a ls h o t sa n dc u ts h o t ,a ni m p r o v e da l g o r i t h mf o rs h o ts e g m e n t a t i o ni sp r o p o s e dt od e t e c tt h es h o t ,t h em a i nw o r ka sf o l l o w s :1 a c c o r d i n gt ot h ec h a n g eo ff e a t u r e s ,w ed e s i g np e a k s e l e c t o r ;u s i n gp e a k - s e l e c t o rt od e c i d ed oa b r u p ts h o tc u t sd e t e c t i o no rg r a d u a ls h o tc u t sd e t e c t i o ni no r d e rt oa c h i e v et h eb e s tp o s s i b l ed e t e c t i o np e r f o r m a n c e s 2 t od e t e c tt h ec u ts h o t ,f r a m es e q u e n c e si n - c o n t i n u i t yo rf a l s es e g m e n t a t i o nc a nb ec a u s e db yu n s u p e r v i s e dc l u s t e r i n g ,a n dt h ee x i s t i n gt e c h n i q u e sa r eb a s e do ns e q u e n t i a ls e a r c h ,w h i l ei st o oe x p e n s i v ef o rp r a c t i c a lu s e t os o l v et h ep r o b l e m sa b o v e ,a ni m p r o v e da l g o r i t h mf o rs h o ts e g m e n t a t i o nb a s e do nc l u s t e r i n gi sp r o p o s e d ,ar e f e r e n c e dv a r i a b l ei su s e di nc l u s t e r i n gt od e c i d ew h e t h e rt h es h o t sc o n t i n u ec l u s t e r i n g ,a n dm o s tv i d e of r a m e sd on o tn e e dt ob ec o m p a r e d i tc a ni m p r o v et h e i rp e r f o r m a n c es u b s t a n t i a l l y 3 t ot h eg r a d u a ls h o ts u c ha sf a d e i n ,f a d e - o u ta n dd i s s o l v e ,w es h o u l dd i v i d et h ei m a g ei n t o16 16m a c r o b l o c k s ,a n dt h e nc o m p a r et h eg r a yv a l u eo ft h ee d g ei nt h em a c r o b l o c k sb e t w e e nd i f f e r e n tf r a m e sa tt h es a m el o c a t i o n a c c o r d i n gt ot h ec h a n g eo ft h ef e a t u r e si ng r a d u a ls h o t ,w ed e s i g ng s cd e t e c t o r t h es i m u l a t i o nr e s u l t ss h o wt h a tt h ep r o p o s e da l g o r i t h mc a ns e g m e n tw h o l ev i d e oo b j e c ta c c u r a t e l y a l lt h ea l g o r i t h m sh a v e b e e nr e a l i z e di nt h ep l a t f o r mv c 6 0 f i n a l l y , t h ee v a l u a t i o n sa n dt e s tr e s u l t sa r ep r e s e n t e d k e y w o r d s :s h o tb o u n d a r yd e t e c t i o n ;c o l o rh i s t o g r a m ;c u ts h o t ;d i s s o l v es h o t ;v i d e os e g m e n t a t i o ni i i原创性声明本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人的已经发表或未发表的成果、数据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文研究成果做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:鱼亡为簪日期:- 盈二_ 盟关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。保密论文在解密后应遵守此规定。论文作者签名:聱勘,荦导师签名:兰州大学硕士学位论文视频镜头边界检测的研究1 1 研究背景和意义第一章绪论随着多媒体技术及i n t e r n e t 网络的发展,网络电子文化已成为继语言、文字、活字印刷之后的第四个人类文明的里程碑,信息文化的浪潮正席卷全球。人们在网上工作、学习、查询、购物、聊天、娱乐等,互联网用虚拟手段为人类开启了一方全新的文化空间,然而虚拟的网络世界并非一方净土,网络信息异常庞杂,反动、色情、迷信、暴力、欺诈等有害信息混杂在网络信息之中,尤其是i n t e r n e t 上色情与暴力等不良内容对青少年造成了极大的负面影响,已经成为影响社会稳定的重大社会问题之一,值得全社会关注和重视。采用先进的技术手段,及时检测和识别不良的网络文化内容,研制出一套不良网络文化检测系统是非常必要的。镜头边界的检测( s h o tb o u n d a r yd e t e c t i o n ) ,它是实现不良视频的识别和检测的第一步,直接影响到视频检测的成败,因此不良视频的识别和检测系统离不开镜头转换检测算法的研究。1 2 国内外相关课题的研究动态为了加强对不良网络的监控能力,不良视频的识别和检测系统技术正成为目前国内外多媒体研究的热点。f 1 e c k 【1 j 等人通过肤色分割和人体姿态的几个特征检测来识别色情图片;k i m l 2 j 等人提出的方法是基于肤色检测、纹理分析以及特征向量分类来识别色情图片的,但是这些算法只适用于图片检测,对于日益增多的不良视频信息检测并不适用。卡内基梅隆大学开始基于内容检索的视频数字图书馆方面的研究工作,该项目在多媒体内容识别处理技术方面做了大量的研究。目前国内对这一领域的研究还处于初步阶段,各研究者都只涉及了多媒体信息内容识别的某一个或某几个研究分支,如国防科技大学的视频结构化浏览和查询原型系统( v i d e o w s e r ) 、哈尔滨工业大学所进行的综合音频特征和图像序列特征的唇读( l i p r e a d i n g s p e e c h r e a d i n g ) 研究等。兰州大学硕士学位论文视频镜头边界检测的研究目前,有关互联网不良的内容( 如色情、暴力等) 的辨识主要针对文字和图像这两种媒体形式,针对成人视频以及含有暴力内容视频的检测技术和系统在国际上尚属空白,因此对不良视频的研究具有很重要的意义。1 3 镜头边界检测的研究现状镜头转换的检测的算法按处理对象可分为【3 】:非压缩域镜头转换检测算法和压缩域镜头转换检测算法:非压缩域( 像素域) 镜头转换检测算法是针对未经压缩的数字视频的,它可以利用视频帧的像素域信息,直接进行各种图像处理,提取视频帧的特征向量,如颜色直方图、边缘改变率i 引。压缩域镜头边界检测算法主要是针对m p e g 压缩视频的。由于越来越多的视频数据是以m p e g 压缩形式进行捕捉、传送和存储的,因而有必要对m p e g 压缩视频域进行研究。先解压,再使用非压缩域的算法进行分析的方法,不但要消耗大量的解压时间,而且还需要额外的存储空间,因此近年来开始出现了直接对压缩视频进行镜头检测的算法,主要有以下两种:一种以日本的y a s u y u k i 5 】为代表,该算法是利用i 帧的d c 序列,考查前后两个i 帧d c 图的色度相似性,在镜头转换时,色度变化一般较大。这种方法的缺点是检测精度不高,因为镜头转换可能发生在两个i 帧之间,另外没有利用运动信息,难以区分镜头运动和渐变。另一种方法以z h a n gh j e t a l 6 j 为代表,利用b 帧和p 帧的运动向量,在镜头转换时,b 帧和p 帧中采用预测编码的宏块数较少。这种方法虽然比较简单,但是i 帧中没有运动向量,且m p e g 中运动估计采用了块匹配方法,运动向量不一定表示真实的运动,因而检测精度不高。具体的参考文献【7 ,8 1 。本课题中,我们研究的是非压缩域镜头转换检测算法。1 4 研究内容和安排1 4 1 研究内容本文对镜头边界检测技术做了比较详细的分析和研究,针对突变镜头和渐变2兰州大学硕士学位论文视频镜头边界检测的研究镜头两种不同类型的镜头切换使用了两种不同的算法,来实现了其高效的检测。首先对视频中的颜色特征、运动特征和纹理特征进行了提取,构造了峰值识别器,从而可以区分镜头突变和镜头渐变。对于突变镜头的检测,提取h s v 特征值,由于在一个镜头内连续两帧图像的颜色内容没有明显变化,所以突变镜头边界和某些渐变镜头边界在帧差图中将表现为一个孤立的峰值,使用改进的基于聚类的自适应间隔帧算法可检测出突变镜头边界。对于渐变镜头的检测,本文先把图像帧分为1 6 1 6 的小宏块,然后使用c a n n y 提取出物体的边缘点,从而提取宏块内边缘点的灰度值,使用设计出的渐变识别器( g s cd e t e c t o r ) 来判断是否为渐变镜头。1 4 2 章节安排本文的组织如下:第一章:绪论。本章首先介绍了边界检测的研究背景和意义,然后分析了镜头边界的研究现状等;第二章:视频数据结构与a v i 文件格式。主要介绍了视频的层次结构,以及a v i 文件结构的相关的知识;第三章:视频镜头边界检测概述。介绍镜头分割的基本概念,并介绍了传统的镜头突变和渐变的检测方法;第四章:改进的镜头边界检测的研究与实现。主要介绍了检测镜头边界时用到的特征,并构造了峰值识别器:然后使用改进的算法实现突变镜头和渐变镜头的检测;第五章:对全文作总结和对未来工作展望。3兰州大学硕七学位论文视频镜头边界检测的研究第二章视频数据结构与a v i 文件格式在对镜头边界检测深入讨论之前,有必要先对视频数据的结构和视频数据处理的层次化模型做一个简单的介绍。由于本论文在实验阶段所选用的视频流为a v i 格式,所以在本章内容中也增加了对a v i 文件格式的说明。2 1 视频与视频数据处理的层次化结构视频( v id e o ) 泛指将一系列的静态影像以电信号方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。视频是一段时间内连续播放的图像与声音的融合,它不仅包含静止图像所包含的内容,还包含场景中目标运动的信息和客观世界随时间变化的信息。因此,首先对视频和视频数据处理的层次化结构作一个简要的分析。2 1 1 视频数据的特点视频l9 】是一类重要视觉信息源,通常意义上的视频是由多幅连续的图像序列构成的,不同于图像它具有时域特性,不仅包含静止图像的内容,还包含场景中目标运动的信息和客观世界随时间变化的信息,因此它在人类的感知层次上呈现出一定的意义,具有一定内容。视频包含的信息量大,内涵比较丰富,而且结构比较复杂特殊,数据量也比较大。这首先表现在它的内容多样,其次还表现在对它的理解有模糊性,常没有完全确切固定的和客观的解释。视频数据既有时间属性也有空间属性,但各单元间的关系又不完全确定。视频数据与文本数据和图像数据的区别可以用表2 1 直观的比较说明。表2 1 文本、图像以及视频数据的对比淤!文本数据图像数据视频数据比较内容、信息含簧少丰富1 卜常丰富数据维数静态,一维静态,二维动杰,= 维数据组织有结构的非结构的非结构的数据容鼙小中等人数据关系简单、易定义复杂、不易定义复杂、不易定义5兰州大学硕十学位论文视频镜头边界检测的研究2 1 2 视频数据的表示视频具有多种属性,包括颜色、纹理、形状、运动以及位置关系等,视频内容的分析和表示就是指通过对视频各图像帧像素的颜色、纹理等属性的分析,得到一系列的数字或者描述特征,来刻画图像的内容。因此视频内容的表示可以归结为对上述属性的描述,即视频特征的提取。颜色是视频的一个重要属性,可以说是最直观的一种视觉要素,它能简化目标提取和分类的重要描述符,并且通过准确的选择颜色空间,可以接近人类的视觉感知系统。颜色的描述符通常包括颜色空间、颜色主分量、颜色直方图和颜色量化。视觉上的变化通常伴随着物体运动的变化,从视频序列中估计出来的运动矢量表现了同一镜头中运动相对连续的改变,这种连续性在不同的镜头之间会被破坏,利用这一点可以检测镜头边界。因此,运动特征是一种表示视频特征的有效方法。形状以及位置关系等属性,也是视频内容的重要属性,但它们的提取一般比较复杂。将摄像机的运动特征,溶于视频的颜色和纹理特征的分析之中,这样可以利用简单的易于提取的特征来表征复杂且难于提取的特征。2 1 3 视频数据处理的层次化结构和组织在对视频进行处理时,通常会分成故事单元、场景、镜头和帧【1 0 】四层结构来表示。其中,最高级为故事单元,中间为场景和镜头,最低一层为帧。对故事单元、场景和镜头需要进行的处理是视频数据处理结构层次化的基础,例如场景检测、镜头分割等。由于边界是由各种编辑效果模型生成,所以分割镜头可基于这种模型进行,称为模型驱动方法;也可以基于切换时视频数据上的变化情况来进行,称为数据驱动方法。最后的帧层的处理实际上就是对图像的分析处理技术。视频数据处理的层次化结构如图2 1 所示:6兰州大学硕士学位论文视频镜头边界检测的研究图2 1 视频数据处理的层次化结构视频数据组织的实现需要从最底层,即帧图像层开始,这层对应原始的视频帧序列。借助镜头检测所得到的镜头层,这层对应视频的一种基本单元( 物理单元卜镜头( 按时间连接的一组帧图像) 。在镜头层的基础上,借助高层知识进行镜头聚类( 相关的镜头组合在一起) ,可得到上面一层场景和故事单元层,这层对应视频的一种语义单元故事情节。将多个情节有机地结合在一起,即将不同的镜头合理的组织起来,就得到最上面一层视频文件层。视频组织是一个对视频流不断进行抽象,逐步得到高层表达的过程,而实现帧图像层的视频图像帧序列的构建是研究不良视频识别和检测问题的出发点。2 2a v i 文件格式a v i a u d i ov i d e oi n t e r l e a v e 1 1 1 ,即音频视频交叉存取格式。1 9 9 2 年初m i c r o s o f t 公司推出了a v i 技术及其应用软件v f w ( v i d e of o rw i n d o w s ) 。在a v i文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。构成一个a v i 文件的主要参数包括视像参数、伴音参数和压缩参数等。a v i 文件用的是a v ir i f f 形式,a v i 文件类型用一个四字符码a v i 来表示。整个a v i 文件的结构为:一个r i f f 头+ 两个列表( 一个用于描述媒体流格式、一个用于保存媒体流数据) + 一个可选的索引块。a v i 文件的展开结构大致如下:r i f f ( a v i 7兰州大学硕十学位论文视频镜头边界检测的研究l i s t ( h d r l a v i h ( 主a v i 信息头数据)l i s t ( s t r l s t r h ( 流的头信息数据)s t f f ( 流的格式信息数据)【s t r d 】( 可选的额外的头信息数据)【s t m 】( 可选的流的名字)l i s t ( m o v i s u b c h u n k l l i s t ( r e c s u b c h u n k ls u b c h u n k 2)【i d x l 】( 可选的a v i 索引块数据)首先,r i f e ( a v i ,) 表征了a v i 文件类型。然后就是a v i 文件必需的第一个列表h d r l 列表,用于描述a v i 文件中各个流的格式信息( a v i 文件中的每一路媒体数据都称为一个流) 。h d r l 列表嵌套了一系列块和子列表:首先是一个a v i h 块,用于记录a v i 文件的全局信息,比如流的数量、视频图像的宽和高等,可以使用一个a v i m a i n h e a d e r 数据结构来操作:t y p e d e fs t r u c t _ a v i m a i n h e a d e r f o u r c cf c c ;必须为a v i h d w o r dc b ;本数据结构的大小,不包括f e e 和c b 两个域d w o r dd w m i c r o s e c p e r f r a m e ;视频帧间隔时间d w o r dd w m a x b y t e s p e r s e c ;a v i 文件的最大数据率d w o r dd w p a d d i n g g r a n u l a r i t y ;数据填充的粒度d w o r dd w f l a g s ;a v i 文件的全局标记d w o r dd w t o l t a l f r a m e s ;总帧数d w o r dd w l n i t i a l f r a m e s ;为交互格式指定初始帧数d w o r dd w s t r e a m s ;本文件包含的流的个数d w o r dd w s u g g e s t e d b u f f e r s i z e ;建议读取本文件的缓存大小d w o r dd w w i d t h ;d w o r dd w h e i g h t ;d w o r dd w r e s e r v e d 4 ; a v i m a i n h e a d e r ;视频图像的宽( 以像素为单位)视频图像的高( 以像素为单位) j 保留其次,就是一个或多个s t r l 子列表( 文件中有多少个流,这里就对应有多少个s t r l 子列表) :每个s t r l 子列表至少包含一个s t r h 块和一个s t r f 块,而s t r d 块( 保存编解码器需要的一些配置信息) 和s t m 块( 保存流的8兰州人学硕士学位论文视频镜头边界检测的研究名字) 是可选的。首先是s t r h 块,用于说明这个流的头信息,可以使用一个a v i s t r e a m h e a d e r 数据结构来操作:t y p e d e fs t r u c ta v i s t r e a m h e a d e r f o u r c cf c c ;必须为s t r h d w o r dc b ;本数据结构的大小f o u r c cf c c t v p e ;流的类型f o u r c cf c c h a n d l e r ;指定流的处理者d w o r dd w f l a g s ;标记:调色板d w o r dw p r i o r i t y ;流的优先级d w o r dw l a n g u a g e ;d w o r dd w l n i t i a l f r a m e s ;为交互格式指定初始帧数d w o r dd w s c a l e ;这个流使用的时间尺度d w o r dd w r a t e ;d w o r dd w s t a r t ;流的开始时间d w o r dd w l c n g t h ;流的长度d w o r dd w s u g g e s t e d b u f f e r s i z e ;读取这个流数据建议使用的缓存大小d w o r dd w q u a l i t y ;流数据的质量指标( 0 1 0 0 0 0 )d w o r dd w s a m p l e s i z e ;s a m p l e 的大小s t r u c t s h o r ti n tl e f t ;s h o r ti n tt o p ;s h o r ti n tr i g h t ;s h o r ti n tb o t t o m ; r c f r a m e ;指定这个流在视频的显示位置) a v i s t r e a m h e a d e r ;然后是s t r f 块,用于说明流的具体格式,a v i 文件中的所有流都使用一个s t r l 子列表说明了以后,h d r l 列表的任务也就完成了。紧随其后的就是a v i 文件必需的第二个列表:m o v i 列表,用于保存真正的媒体流数据。下面就介绍一下a v i 如何组织这些数据:可以将数据块直接嵌在m o v i 列表里面,也可以将几个数据块分组成一个r e c 列表后再编排进m o v i 列表。当a v i 文件中包含有多个流的时候,数据块使用了一个四字符码来表征它的类型,这个四字符码由2 个字节的类型码和2 个字节的流编号组成。标准的类型码定义如下:d b ( 非压缩视频帧) 、d c ( 压缩视频帧) 、p c ( 改用新的调色板) 、w b ( 音缩视频) 。最后,紧跟在h d r l 列表和m o v i 列表之后的,就是a v i 文件可选的索引块。这个索引块为a v i 文件中每一个媒体数据块进行索引,并且记录它们在文件中的偏移( 可能相对于m o v i 列表,也可能相对于a v i 文件开头) 。索引块使用一个四字符码i d x l 来表征,索引信息使用一个数据结构来9兰州大学硕士学位论文视频镜头边界检测的研究a v i o l d i n d e x 定义:t y p e d e fs t r u c t _ a v i o l d i n d e x f o u r c cf c c ;必须为i d x l d w o r dc b ;本数据结构的大小s t r u c t a v i o l d i n d e x e n t r y d w o r dd w c h u n k i d ;表征本数据块的四字符码d w o r dd w f l a g s ;标记是否有r e c 列表等信息d w o r dd w o f f s e t ;本数据块在文件中的偏移量d w o r dd w s i z e ;本数据块的大小 a l n d e x ;定义一个索引信息 a v i o l d i n d e x ;只要遵循这个标准,任何视频编码方案都可以使用在a v l 文件中。这意味着a v i 有着非常好的扩充性。这个规范由于是由微软制定,因此微软全系列的软件包括编程工具v b 、v c 都提供了最直接的支持,因此更加奠定了a v i 在p c 上的视频霸主地位。由于a v i 本身的丌放性,获得了众多编码技术开发商的支持,不同的编码使得a v i 不断被完善,现在几乎所有运行在p c 上的通用视频编辑系统,都是以支持a v i 为主的。a v i 的出现宣告了不断完善的a v i 格式代表了多媒体在p c 上的兴起,这也是本文采取a v i 文件作为实验视频流的原因。2 3 本章小结本章主要对视频数据的结构和视频数据处理的层次化模型做一个简单的介绍,然后对a v i 文件格式进行了说明。1 0兰州大学硕士学位论文视频镜头边界检测的研究第三章视频镜头边界检测概述镜头边界检测是视频结构层次化的基础,要求能够正确检测出各种复杂编辑的镜头边界,并能够有效地分辨镜头内的运动变化,排除它们对镜头边界识别的干扰。3 1 基本概念3 1 1 镜头边界检测根据转换处编辑特征的不同,镜头转换可分为突变( a b r u p tc h a n g e ) 和渐变( g r a d u a lc h a n g e ) 两类。突变就是从一个镜头直接切入第二个镜头,中问没有任何编辑效果,没有时间上的延迟,也叫直接切换。渐变是在镜头的变换之间加入空间或时间上的编辑效果以改善视觉效果,常用的编辑类型可以规划为三种:淡入淡出、渐隐渐现、划入划出。淡入是使画面逐渐增强,淡出是使画面逐渐减弱直至消失;一个画面消失的同时另一个画面逐渐出现称为渐隐渐现;划入划出是指从画面的某一部分开始逐渐地被另一个换面取而代之的方式。镜头边界检测【1 2 】的基础是两个相续镜头的内容有较大的不同性,因此可以用定量的方法来确定帧序列之间的差别;如果这种差别超出了给定的阈值,就可以提取出镜头的边界。因此,关键是通过利用合适的内容转换检测方法、合理的设置阈值,发现帧序列的内容变化。由于突变的转换方式较为简单,现有算法的检测效果较为理想。但是,镜头渐变的检测确实非常的困难。首先,渐变的方式多样化,另外,其它因素的影响也是不能忽略的。例如:摄像机或视频对象的运动、光照的变化,以及其它的噪声等。图3 1 给出了镜头边界的检测过程。首先,某种特征被提取出来作为衡量帧间内容的变化,例如颜色、形状、纹理等特征都可以用来作为对视频帧的描述,然后,根据某种标准来度量帧间内容的差别,这种差别就是计算出来的帧间不连续值z 似,七+ ,) ,其中,苫1 ,然后经过阈值判决,不连续值大于某一预先设定的阈值,则认为第k 与七+ 1 帧形成了边界,否则两帧在同一镜头内。图3 2 给出一兰州人学硕士学位论文视频镜头边界检测的研究组计算出来的不连续值,在突然有很大的值出现的时候一般是镜头边界,好的特征和标准应使边界与非边界的差别更大一些,这可以将边界与非边界划分得更准确一些。图3 1 镜头边界的检测过程在边界检测中,经常会出现两种情况:错检和漏检。漏检是镜头边界被漏掉,这是因为所选取的特征对这两帧没有很好的区分能力。错检是把镜头内部的两帧判作是镜头边界。错检基本上是由于以下两个因素所引起:物体相机运动和光照的变化,或者说镜头内部的视觉内容的变化是这两种变化所引起的,但是当变化过于激烈时,就被当作镜头边界了。如果能消除这两种因素的影响,那么镜头内的帧间差就不存在了,镜头边界的检测将变得很容易,但是实际上并不能完全消除这两种影响,只能尽量使帧间的这种差别变得更小一些来减少它们被错检的机会。总之,为了减少错检和漏检,特征和标准的选择应厶匕e i 伯w - 好的区分以下三种情况:镜头的突变、缓变;相机或物体的运动:光照变化或噪音的干扰。对于运动的影响,可借助于运动补偿来减少,但运动补偿并不能消除减少光照的影响,并且对于剧烈的复杂的运动,运动补偿不定能起到好的效果,相反的却带来了时间上的代价。虽然不能通过选择好的特征和标准来完全弥补这两种因素带来的影响,但是可以在阈值检测时借助于附加的信息来做到这一点。例如,一种由相邻的几个不连续值所形成的实时模式可以认为是附加的信息,那么,第k 帧和第k + 1 帧是否有边界出现不仅依赖于这两帧之间的不连续值z 取的阈值丁,而且还要比较这一1 2兰州人学硕士学 奇论文视频镜头边界检测的研究实时模式和已知的边界模式的匹配程度。己知的边界模式是指某一类边界有它自己特有的特性,这种特性表现在不连续值曲线上,就变成一种模式,例如,溶解类的缓变边界在选取某种特征和标准的条件下可模型化为抛物线型。帧间距离3 1 2 镜头转换的类型刚3 2 不连续值曲线视频帧由于镜头只能拍摄相邻地点连续发生的事情,所以大多数情况下,一段视频都是由许多镜头通过编辑软件连接而成。根据表现内容的不同视频有不同的编辑方式:有的视频切换频繁,镜头持续时间短,如新闻节目,故事片等通过大量镜头的切换来表现不同时间不同地点发生的事情;有的视频切换较少,每个镜头持续时间比较长,如纪录片,足球等:还有一些视频几乎没有镜头切边,如监控录像等。镜头切换的方式有如下几种:1 突变( c u t ) :前个镜头的晟后一帧与后一个镜头的第一帧之间没有过渡帧。2 淡入、淡出( f a d ein 、f a d eo u t ) :浈入是一个镜头的前几帧在扶度上逐渐由暗变亮,相反演出是指个镜头的后几帧在灰度上逐渐由亮变暗,通常淡入与淡出是同时出现的,后个镜头的淡人紧踞在酊卟镜头的淡出后曲。如图33 ,是从段视频中截取出来的一个淡出和淡入的例子:a ) 淡八( f a d ei n兰州大学硕_ 学位论文视频镜头边界检测的研究( b j “t l “l j幽3 3 渍入浈 出( f a d ei n 、f a d eo u t l3 消隐( d l s s o l v e ) :是指前个镜头的后几帧在灰度上逐渐变唁同时后一个镜头的前儿帧在扶度上逐渐变亮,类似于演出、淡入,不过在消隐中的淡出与浈入在时间上有一定的亳叠,如图34 ,由于淡入、演出和消隐的构造原理相同所以我们将其视为同一类型来处理。蹦3 4 消i 盘( d i s s o l v e l综上所述,尽管视频的种类多种多样,我们所需要检测的仅仅有两种,突变镜头和渐变镜头。3 2 镜头分割算法概述32 1 传统的镜头突变检测方法( 1 ) 直接利用帧问扶度颜色差值检测镜头边界它是晟简单的一种计算帧间差值的方法,原理简单,具体过程如r :对两帧相邻的帧图像( x ,y ,t ) 和f ( x ,y ,t + 1 ) ,可以计算其对应位黄上两个像素的扶度差:d = i ,o ,y ,t ) 一,扛,y ,t + 1 ) l( 31 )如果这两帧图像中扶度差太于某个阉值的像素超过一定数目,常r 认为序列有中断。通过计算像素各个彩色通道的差,也可检测彩色视频中的突变。这种方法的展大问题是对摄像机和物体的运动比较敏感,当运动较大时,相邻两帧的差异往往会超过预定的闽值,从而造成误检。一种可行的解决办法是先甲滑图像,比如用8 x 8 邻域甲滑以抵消一些运动的影响,同时滤去噪声,但是对酝。摹。石酿兰州大学硕士学位论文视频镜头边界检测的研究较大的运动帧间差异仍然会较大而使误检情况严重。因此,有人提出了基于直方图的分割方法。( 2 ) 基于直方图的分割方法直方图描述了一幅图像的灰度和颜色的分布情况,所以通过直方图的相似性也可以判断图像之间的相似情况,并且以此来判断是否有场景切换。由于直方图不考虑像素的位置信息,因此对物体相机的运动并不敏感,从而一定程度上克服了帧差法的缺点。但是,直方图对图像整体情况的描述,并不能反映出图像的整体内容,两副完全无关的图像可能有完全相同的直方图信息,基于直方图的方法隐患正在于此。它的具体过程如下:定义相邻两帧的差异为:k lym i n h f ( i ,_ ,刀) ,x 】,h 【厂( f ,厅+ 1 ) ,工】)d ( l ,l + 。) = 旦l 百一( 3 2 )h f q ,+ 1 ) ,工】z 刁其中,h f ( i ,j ,以) ,x 】是图像的直方图,k 表示图像灰度或色彩级别。定义:z ( l ,l + 。) = l - d ( l , + 。)( 3 - 可见,z ( l ,+ 。) 值越大则两帧间差异越大,反之则越小。当差值大于某一特定值时,镜头存在突变。总体说来,基于直方图的方法比较简单,易于实现。对于一般的突变和渐变镜头,如果阈值设置得当,直方图算法可以达到较好的结果。( 3 ) 基于块的镜头分割算法通过对前两种方法的分析,我们发现镜头内物体摄像机运动的影响是不可忽略的。所以,有人提出通过运动补偿等方法减少对象和摄像机运动造成的镜头内帧差值的变化。接着,对经过运动补偿的块进行分块处理:它将每帧图像分为mx n 个小块,然后将相邻帧的对应块进行比较,对于差值超出确定阈值的块,进行标记。最后,统计出超出阈值的块的个数。如果这个值足够大,那么我们认为镜头在该处发生了突变。这种算法可以在一定程度上改善对局部运动的容忍度。( 4 ) 基于运动矢量的方法从视频序列中估计出来的运动矢量表现了单个镜头中相对连续的改变,这种1 5兰州大学硕十学位论文视频镜头边界检测的研究持续性在不同镜头之间会被破坏,利用这一点可以检测镜头边界。运动矢量的估计有两种方法:一是传统的基于块的运动估计,这种方法在基于块的编码方法中已经被证明是有效的;二是基于点的运动估计,这种方法主要在基于网格的编码技术中使用,即估计关键点的运动矢量,这一技术也是目前发展的方向之一。3 2 2 传统的镜头渐变检测方法( 1 ) 双值门限比较法上面提到的方法对于检测场景变化中镜头的突变时行之有效的,但对于溶解( d i s s o l v e ) 、淡) x ( f a d ei n ) 、淡出( f a d eo u t ) 这类渐变的镜头,这些方法显然不合适。此时可以通过双值门限比较的方法来检测场景的变化。该方法设置两个门限值瓦,i ,当帧差大于瓦时,存在镜头突变。当帧差大于t 而小于五时,存在镜头渐变。当相邻帧差超过z 时,该段连续帧的首帧称为镜头缓变的起始帧。计算两种帧差:一种是相邻帧帧差e ,另一种是间隔帧的帧差e ,从渐变起始帧开始逐渐增加l ,显然间隔帧的帧差随的增加而增加,因为相隔帧帧差是一个累计帧差,当相隔帧的帧差累计超过瓦而相邻帧帧差e 低于z 时,这一帧便为镜头渐变的终止帧。这种算法虽然适用性强,但是检测效果确非常一般。( 2 ) 基于模型的方法从以往的研究来看,突变镜头的检测方法都是基于不同镜头之间存在的较大的帧差来处理,而对于渐变镜头,我们可以发现:整个变换是一个连续的过程,可以近似认为这个变化过程符合某个线性直线方程。由此,有人提出了基于模型的镜头检测方法。基于模型的镜头检测方法是基于视频编辑时使用的渐变效果的数学模型的方法,通过这些模型,我们可以系统的选取表示视觉差异的特征来检测这些渐变效果。视频制作的剪辑效果一般都是二维的图像变换。若像素位置( x ,y ) 帧数记为t ,z 和c 分别代表象素位置空间和颜色空间实施的变换,则通过视频剪辑生成的帧表示如下:e ( z ,y ,t ) ;s o 埘( 亭i 。) i 。 & ( 亭互:) i :( 3 - 4 ) 表示连接符号,按照变换的效果可以分为四种类型,如表3 1 所示:1 6兰,- i 1 火学硕士学位论文视频镜头边界检测的研究表3 1 各种类型的边界类型变换意义示例1无对镜头直接连接切换2颜色对颜色值进行改变淡入、淡出、融化3空间对像素空问位置进行变换翻页、扫换4混合空间颜色混合变换变形据此可以对淡入、淡出和溶解进行建模。对淡入、淡出可理想地分别建模化为:毛o ,y ,f ) = b ( 石,y ) + s ( z ,y ) x ( ti l )( 3 5 )叫o ,y ,f ) = s o o ,y ) ( 1 - t i l ) + b 0 ,y )( 3 6 )其中,b ( x ,y ) 代表黑色图像,毛 ,y ,t ) 表示淡入时的第一帧,邑叫o ,y ,t ) 表示淡出的最后一帧。上述模型认为在淡入淡出时,原始序列不随时间变化,所以可用一帧代替。溶解可模型化为:咒o ,y ,t ) ;s ,y ) 厶) + s 。o ,y ) 0 - t l )( 3 7 )其中厶和厶分别是溶解中两个镜头各自的长度。基于模型方法的要点是针对不同的镜头渐变效果,需要不同的镜头渐变效果模型。因此,算法总是带有很大的局限性,一种算法往往只能检测一种或几种渐变方式。此外,它对运动和噪声也是非常敏感的,因此,只有在含有少量运动的视频中,才会有比较好的检测效果。通常,在检测前,我们会通过对图像进行平滑处理来降低噪声和运动对检测的影响。( 3 ) 基于边缘检测镜头的方法这种镜头边界的检测方法是根据边缘特征,它的基本思想是:在发生镜头转换时,新出现的边缘应远离旧边缘的位置,同样旧边缘消失的位置应远离新边缘的位置。首先计算出帧间的总体位移,以此进行匹配,然后计算边缘的数量和位置。帧差由边缘变化率e c r ( e d g ec h a n g er a t i o n ) 表示,它表示边缘从一帧到另一阵移进和移出的比例。其定义女下:e c r | m a x ( ,x - 1 ) ( 3 - 8 )其中e c r 是第玎一1 帧和n 帧之间的边缘变化率。仃是第n 帧的边缘像素总数,x ,是第n 帧的进入边缘像素总数,x = 是第n 一1 帧的消失边缘像素总数。边缘可以用c a n n y 算子进行提取。检测过程中,可以发现突变、淡入淡出、溶解和扫描的e c r 时间序列会呈现各自不同的模式特征。突变的e c r 时间序列会出现一个单独的峰值;在淡入的过程中,进入的边缘会占优势,淡出的过程中,消失的边缘会占优势,而融化的过程中,e c r 曲线会呈现明显的“高原 区。该算法对画面简单的视频进行分割时,基于边缘的算法效果很好,在渐变镜1 7兰州大学硕十学位论文视频镜头边界检测的研究头的检测上尤为突出。但是,大多数的视频中主要对象或背景可能有很多复杂、细微或不断变化的边缘,如飘逸的长发、波光翱翔的水面等。虽然在提取边缘前可以通过高斯滤波或小波变换滤波以减少细微轮廓的干扰,但大量的边缘,还是会干扰对镜头边界的判断,造成误检;而在光线比较暗和边缘轮廓不是很明显的情况下,由于难以检测到边缘又会造成误检。另外,视频中对象的快速运动也会使前后帧的边缘位置相差很多,从而造成漏检。g :l u p a t i n i 等人对各种镜头分割方法作了一个实际的比较,发现这种基于边缘的算法的实验结果并不令人满意,而且,较大的计算量更限制了这种算法的应用。( 4 ) 基于聚类模糊聚类的镜头分割方法该方法不但可用于检测镜头突变也可用于检测镜头渐变。基于模糊聚类的镜头分割方法先将一段视频进行模糊聚类后便得到各帧属于明显镜头变化( s c ) 、可能镜头变化( s s c ) 和无镜头变化( n s c ) 三类场景的隶属度,再依次分析s c 中的两个相邻成员s c ( i ) 和s c o + 1 ) 中的刀个s s c 成员s s c ( j ) ,s s c ( j + 1 ) s s c ( j + n 一1 ) ,然后通过下式来判断s s c 中的各帧是属于明显镜头变化还是无镜头变化:h s s c ( k ) p a r a m 1 0 5 ( h s c ( i ) + h s c ( i + 1 ) ) 】( 3 9 )其中h s s c ( k ) 是s s c ( k ) 的直方图差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论