（通信与信息系统专业论文）视频影像镜头转换识别.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-12 格式：PDF 页数：40 大小：1.31MB 积分：14 举报 版权申诉

已阅读5页，还剩35页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要、9 3 1 0 4 l 关键词t 镜头检测视频影像视频检索本篇论文丌发出一种新的检测视频影像镜头转换的方法。此算法考虑到逐渐转换的镜头的特征：在逐渐转换时，相邻帧之间的差异较小。所以此算法引入了一个累积帧c 。累积帧c 可以“记忆”相邻帧之间的不同并累积这些差异，直至累积的差异超过了一定的门限，则判为镜头转换。此算法利用的特征量是在r g b 空间中的颜色均值。运用块匹配的方法来进行运动补偿和跟踪。并目l z r 因子来增加较暗块的对比度以利于提高算法的性能。为了进一步提高算法的性能，我们充分利用了融合和淡入淡 1 的特性。我们有从m p e g 形式的v c d 中抽取的片断进行测试。此算法具有很好的性能。 a b s t r a c t k e y w o r d s ls h o tb o u n d a r yd e t e c t i o n ，v i d e o ，v i d e oi n d e x i n g t h i sd r o j e c ta i m st od e v e l o pan e wa l g o r i t h mf o rv i d e os h o td e t e c t i o n t h ea l g o r i t h mc o n s i d e r st h e f e a t u r eo fg r a d u a lt r a n s i t i o n ：i ng r a d u a l t r a n s i t i o n ，t h e r ei so n l yas m a l la m o u n to f d i f f e r e n c eb e t w e e nc o n s e c u t i v e f r a m e s t h ea l g o r i t h mc a nr e m e m b e rt h ed i f f e r e n c eb e t w e e nc o n s e c u t i v e f r 锄e sa n dc u m u l a t ei t w h e nt h ea c c u m u l a t i o nd i f f e r e n c ee x c e e d st h e t h r e s h 0 1 d w ec a nd e c l a r et h eo c c u r r e n c eo fs h o tt r a n s i t i o n w eu s et h e m e a nv a l u eo fp i x e l sc o l o ri nr g bc o l o rs p a c ea st h ef e a t u r e w ee m p l o y t h eb l o c km a t c h i n gm e t h o dt oc o m p e n s a t et h ee f f e c t so fm o t i o na n dn o i s e avf a c t o ri si n t r o d u c e dt oi n c r e a s et h ec o n t r a s to fd i mo rd a r kf l a m e a n d f o rd i s s o l v ea n df a d e ，w em a k ef u l lu s eo ft h e i rs p e c i a lf e a t u r et of u r t h e r i m p r o v et h ep e r f o r m a n c eo ft h ea l g o r i t h m w et e s t o u ra l g o r i t h mw i t h c l i p s e x t r a c t e df r o mm p e gv c d s t h ea l g o r i t h m s h o w s g o o d p e r f o r m a n c ei nd e t e c t i n gt h eg r a d u a lt r a n s i t i o na sw e l la st l ea b r u p tc u t s 1 1 第一章序言近年来，信息的增长是非常迅速的。从信息的类别来说，已经从文本发展到图像、声音、动画、视频影像等多媒体信息；从信息量来说一个文件已经由数k ( 2 1 0 ) 、数十k 字节( 如a s c i i 文本，w o r d 或w p s 文档，j p e g 、g i f 等单幅图像) 发展到数m ( 22 0 ) 字节( 如m p 3 、动厕等) 以至数十m 、上百m 字节( a s f 或咖形式的电影，电视节目) ，甚至达到g ( 2 ”) 字：_ 3 ( v c d 或d v d 影视内容) 。而大型的数据库则包括数百万的文件，数万g 的信息。而信息的增长是与技术的发展分不丌的。存储媒质性能价格比的逐渐提高使人们能够收集和存储越来越多的数字信息。数字影像压缩技术的发展使得数字影像图书馆的产生成为可能。同时，带宽技术的发展，例如有线电视电缆调制解调器( c a b l em o d e m ) 、异步数字订户线( a s y n c h r o n o u sd i g i t a ls u b s c r b e r l i n e ，简称a d s l ，带宽1 5 兆) 的出现，使家庭用户在线观看高清晰的电影和下栽整部电影文件成为可能。因此以商业服务为目的的数字影像图书馆也应运而生。 1 】 1 1 视频影像检索的重要性如何管理如此大量的信息昵? 以文本为基础的数据库解决方案已经成熟f 如 s q l 等) ，但是浏览，查询，和管理视觉信息( 如图像、图形和视频影像) 的方法还处于起步阶段。在大量的视觉信息中，检索感兴趣的视频影像片断是非常困难的任务。传统上，我们所做的只是眼睛盯着屏幕，快速( f a s t - - f o r w a r d ) 的浏览影像。这是非常费时费力的。因此需要一个有效的视频影像检索系统来提高浏览、查询、管理视频影像信息效率。 2 l 因此视频影像检索是当前图像处理计算机视觉、人工智能、信息检索、数据库管理等领域研究的热点。而镜头转换识别是视频图像检索的基础。 2 视颡影像的镜头转换识剐是视频影像梭索的第一步为了达到有效捡索视频影缘的h 的，其t j 最糖水、媛重要的处理步骤就足分析影像序列并殿把影像分成片1 断的集合。最简便的视频影像检索技术就足把影像分成鬣态镜头，每一个镜头代表运动螅连续廖烈。镜头转换检测技术还可以用于黑白电影的彩色化，因为实际上每一个镜头郝对应予不弱关联的获魔彩色奢我裹。男芥，还可l 三i 踊藏技术检测蓟漪镜头长度和编辑效果的类型柬研究电影导演的风格【3 】。这些不属于本文讨论范围，但我们可以看出检测镜头转换是一个非常髓要、德得研究的课题。 1 3 本课题的研究目的本课题的羁标是设计釉瓤检测视频影像镜头转换的算法岁在此基础上对视频影像进行结构化。此算法成该可以自动的把任意的视频影像分成镜头集会，熊够瀵灏豹髂辑凄个个镜头黝器羧。捡测系统应该糠唆镜头赛袋奁援频影像序列中的位置以便进一步在更商的层面上分析视频影像。 1 4 本论文的主搂成果本途文豹主癸成栗筵没诗了静崭掰魏捡溅撬菝彩豫转换懿簿法，魏算法具有高准确性；较少的计算量；兼容性较好，可以用来检测各种形式的格式数字铙频影像；其鸯较侠谤葬速度。 l 。s 论文组织在第二章中介绍了关于视频影像及视频影像镜头的一烘基本檄念和问题。第三章对薪入的工作进行了回顾。箱谣章哞l 详细介绍了新簿法的构成原理。在第五章r i ，简述了系统的士幻成。第六章足结募与讨仑。第七索是憨缎。 2 第二章简介在这章中首先介绍关于视频影像的基本概念，包括视频影像的特征及其压缩格式。然后介绍关于视频影像巾镜头转换的基本概念及其主要问题。 2 1 视频影像数据的特征视频影像是一种具有高度的解析度和蕴有： i 京信息的媒质。除了基本信息如标题作者或制做数据：视频影像也提供了其他的信息，如运动的轨迹、事件的发生和不同物体的形状。视频影像不同于文本数据的特性就在于其具有时间维和空间维。而且，数字视频影像的数据的量和结构不定的格式使得对它的管理、访问、再利用和把影像片断构成影像文档等任务都是相当困难的。 2 1 1视频影像数据的独特性质 h a m p n p u r 1 4 】讨论了视频影像数据的独特性质，如表】所示：准绳文本数据图像数据视频影像数据信息疲乏丰富非常丰富维度静态，非空阃静态、空间时间、空间组织有组织无结构无结构数据量少一般极大关系简单、容易定义复杂、不容易定义表l 视频影像数据与其他类型数据的对比信息：因为视频影像和图像数据包含了比纯文本数据更多的数据，所以对它们的解释是模糊的而且依赖于观察者和具体应用。而文本数据却有确定的意义。维度：文本数据既没有空剧性又没有时问性，可以认为是一维的。图像数据仅仅包含了空间性，可以看成是二维的。视频影像数据有另外一个维度时问可以看为是三维的。组织与传统的文本数据相比，视频影像和图像数据没有清晰的结构，是比较困难表示和定义的。 3 数据量。一幅图像的数据量通常是1 。产节的数量级i 叮一分钟的视频影像包含 t , l 盈k l ：1 0 0 0 幅罔像。i i i 如存f 1 4 】叫j 的，| ! l l 频影像数掘的氐l e 般的数据量高7 个数量级关系t 定义文本数据的关系运算，如相等、不等是很简单、很容易定义的。但是，视频影像( 图像) 数据的天系足j l l - 常复杂，f ：且难以定义的。这使视频影像的数据检索和查询非常困难。例如，没有广泛接受的两幅图像之间相似运算定义。 2 1 2 视频影像数据的内容视频影像具有非常丰富的信息内容和特征。这些特征将帮助我们更好的理解视频影像数据和对它进行检索和分类。我们按照下列绳准定义视频影像的内容。语义内容；视频影像的语义内容足指其传达给, q j j 的思想或知以，通常是模糊且是上下文相关联的。例如，两个人在看电视但是会有不同的见解。通过限制上下文或应用，视频影像数据的模糊性可以减低。音像内容：一声音t 视频音像中包含声音。声音信息可以帮助我们理解视频音像的语义内容。声音可以从视频影像中抽出，出语音识别算法来处理一颜色t 颜色的强度和分布一样式：不同的样式结构一物体的运动：旋转，平动，等等一物体的关系t 前后、上下等等一摄像机的运动：平动、淡入、淡出、缩放等等。一物体，形状、面积等等视频影像数据的内容并不是同等重要的。关于特征的选择依赖于视频影像数据的目的用途。对于检测视频影像镜头转换来说，我们比较关心颜色，运动等特征。 2 2 视频影像数据的压缩格式数宁视频影像部足以定的爪缩格，仃鸺的。为了处理数宁见频影像必须对其压缩格式有一定的了解。大多数现存的视频影像压缩标准足有损视频影像压缩算法。这种算法特别适于视频影像数据。因为包含在视频影像数掘中的信息，并不是同等重要或都可被人眼觉察的。例如，人眼对亮度比对彩色敏感，因此压缩算法就分给亮度信息更多的存储位。视频影像中一个重要的问题就是压缩率与影像质量之削的妥协。高质量的影像就意味较低的压缩率。现在有许多基于不同妥协方法的视频影像压缩标准。下面就简述几个重要的压缩标准。 2 2 1 姬e g m p e g 代表运动图像专家组( m o v i n g p i c t u r e se x p e r tg r o u p ) 。这个组织为国际标准组织1 s o ( i n t e r n a t i o n a ls t m t d a r d so r g a n i z a t i o n ) 的f 属机构，其目的是开发数字视频图像和声音的压缩标准。m p e g 图像压缩是一种基于块的编码技术。确切地说，它定义了压缩位流，同时就隐含地定义了解压器。只要产生的位流符合标准，压缩算法的选择可以由各个生产者自己决定，这样他们就可以在公共的国际标准范围内获得自己的产品优势。从而使m p e g 有很大的机会成为家庭和商业应用上的视频压缩标准。实际上，几乎每个多媒体制造商都在做丌发或兼容m p e g 的工作。不过，虽然m p e g 提供了非常好的压缩技术，但是在播放前需要很大的计算量来将视频数据解压。当前的网际网络中，几乎所有的系统都采用软件解压，这在很大程度上限制了可以达到的帧速率。 2 2 2j p e g 和m j p e g j p e g 代表连接图片专家组( j o i q tp h o t o g r a p h i ce x p e r t sg r o u p ) ，这是这个标准的委员会的原名。j p e g 是一种标准化的图像压缩格式，是为全彩色或比例灰度的自然、真实场景图像的压缩而设计的。它非常适合于照片、自然主义工艺图或类似的图像，但是对印字、简单的卡通或线条画与素描却不很适合。j p e g 是用来处理静态图像，它是有损压缩。j p e g 的非常有用的特性就是信息损失的程度可以由调整压缩参数来决定。同样在解码时，j p e g 解码器可以调整解码速度与图像质量之间的关系。 5 m j p e g 代表运动j p e g ( m o t i o nj p e g ) ，但它1 i 足种标准。而足制造商把j p e g 压缩算法应川于视频影像序列的各个帧，所以把这种胍缩了的视频影像称为m j p e g 。与m p e g 州比m j t l e g 的优点足：一基于帧的编码，有利于视频影像的准确编辑一一致的码速率一简单的压缩，没有帧之间的编码，计算量较小，适于实时运算但是由于没有帧之间的压缩，其压缩率是m p e g 的三倍。 2 2 3其他的压缩标准本文主要是利用m p e g 和j p e g 数据格式，其他的压缩标准就不加详细叙述。其他标准有：一h 2 6 1 是国际上最广泛应用的视频会议标准。 m h e g ( 多媒体和超媒体信息编码专家组，m u l t i m e d i aa n dh y p e r m e d i a i n f o r m a t i o nc o d i n ge x p e l sg r o u p ) 是i s o 的一个起草标准是为了独立于操作平台的超媒体应用。它是基于物体的。 d v i ( 英特尔数字视频界面，i n t e l sd i g i t a lv i d e oi n t e r a c t i v e ) 是基于区域的编码技术。 - q u i e k t i m e 是苹果机的交叉平台文件格式，是为了存储和交换属于序列的数据。 2 3 视频影像镜头转换的基本问题从上述可以看出，视频影像数据的最是非常巨大的，内容是非常丰富的，形式也是多样的。其特性使视频影像的管理、检索等都是非常困难的。关于视频影像的分类和管理还没有一个公认的标准。但是对于镜头是视频影像的基本单元这一点，研究者都没有异议。所谓镜头是指从一部摄像机摄下的唯一、持续的帧序列。因此同一镜头的相邻帧之间会显示出时间域的持续特性。一旦视频影像序列被分成镜头就容易用仅仅一些代表性的帧( k e y - - f l a m e ，k 一帧) 建立整个视频影像的上下文。k 一帧是指可以代表整个镜头的一个或儿个i 帧，其k 一帧的数日依赖于运动分量的 6 多少。同时，把视频影像分成镜头是把数字视频影像按内容分割的相当重要的第一步 2 】。每个镜头对应于单一持续运动并且在一个镜头内影像内容是不可变的。内容的变化总是发生在镜头转换的边界。 2 3 1镜头的类别在视频影像序列中镜头的转换有两类：一般的镜头切换和逐渐变换。一般的馈头切换是指镜头的内容( 或场景) 突然的变换。这种编辑手法在普通的电影、电视中是最常用的。几乎9 5 以上的镜头转换都属于镜头切换，如图l 所示。逐渐变换是利用逐渐变化合成两个镜头( 在剪辑的过程中) ：从一个镜头到另一个镜头的转换有几帧到几十帧长。用的最多的转换是：淡入淡出和融合。所谓淡入是指影像起始于一幅完全黑色的帧，然后逐渐增加亮度，最后显现出本来的影像；淡出是淡入的反过程，起始帧是普通的影像，然后逐渐减少亮度，直至最后帧完全变黑；融合是前一个镜头的影像渐渐淡出，同时后一个镜头的影像渐渐淡入的过程，如图2 。图1 镜头切换图2 融合在检测镜头转抉时有两个主要问置 1 当把视频序列分成镜头时，是否可以辨别镜头转换与属于同一镜头中正常的变化之间的区别。一般来说，一个镜头中的大的运动比较容易与镜 7 头转换混淆。这楚大秘运动色援：镜_ 失t p 物体的较诀移葫；占一+ 桢嫠豫 t l t 较火划织物体运动：摄像移0 熄运动t 例如，燃放、j ：f 移动、跟踪等等) 。 2 。是否可趺辫象凄逐渐转换。在逐淹转换审，每一赣与裁犊佼露少量鹣靛别，不像镜头切换时会有突变。因此邂渐转换不是很容易就检测出来髂。逐激转挟虽然弼静较少，毽憝纯稻缝常技弼米强诵窿弼中“语义” 内容的变化。西此他们的检测也怒非常熬耍的。 8 第三章前入工俸回顾为了把视频影像序列分成镜头首先必需定义两帧_ ，；，之间测量差异。测爨移暖，磊必羲满足经仅警瑟梭壤二j 二毒i 弱鹣镜头涎蠢返瓣一令大毽。毯奁蕃鸯矗种主要的测量方法： ( 1 ) 基于像索及其统计特性的算法，( 2 ) 基于色谱曲线斡算法，( 3 ) 基于运动的算法， ( 4 ) 基予m p e g 的算法，( 5 ) 基予轮廓的算法。 3 。1 基于像素及其统计特性的算法 h j z h a n g 4 考虑两桢之间像素一像素对眈的麓异测爨。其测鳖是通道计数亮度差异越过一定f 1 眼的相对瘟像素的数题：如聚数强大劐一定程度，技处理的两帧就懿布为属于不同的镜头。这种方法对运动和亮度变化有商度的敏感。从嬲捷扬傍域摄像枧的运动与场藏豹交换混淆。必了藏，j 、这裂t 方法露摄像雾运动和较小亮度变化的敏感，h a m p a r a u r ，e t c 7 l 把两帧之间每对像素的灰度水平变纯滁疆第二秧像素熬获褒承平。餐辫不能彩底解决鼹运动裁敏惑佼。 3 。2 色谱魏线算法为了克服像素算法带来的问题，a n a g a s a k a 5 和f 4 】建议以色谱曲线为基础的方法。饱餐j 译倍瓣顿之褥色谱蘸线弱差舜，如果箕差异怒够大，则场景变换发生。【6 】i k s e t h i 比较了几种不周的色谱曲线的测量方法，其色谱曲线是幽亮度方程得到的。其中r 检测取得了嫩好的特性。仅仪利用亮度信息也许会因为强烈的亮度变化丽产生错谖捡测。魍此1 5 】遽议剃嬲颜色色谗越线。迄载是镣一个像素由合并每一颜色元素最显著的位而成的颜色码来代表。不幸熬楚，当不同靛镜头兵舂稽蔺熬色谱整线辩，色谱淹线的方法簸失去了作用。这是因为色谱曲线代表的仅是全局特征丽完全忽略了亮度的空间分布。因此其有不同的亮度空间分布却具有褶同的色谱曲线的连续的两帧就被当作嗣镜头。如图3 所示。图( a ) 的内褰是完全不同予霪( b ) ，瞧是缀显然，这两幅图却有相同的色谱曲线。这虽然是个简单化、特殊化的例子，但是磁实骣豹援颓影像处理中骞可能衾逛现织炎曩冀瓣憾况。 9 5 】提出了一种解决方法就是把每一帧分成同样大小的1 6 块( 4 x 4 型) 然后评价相对应的局域色潞曲线n q 的差异。这种方法列各块内存在的运动有较好的容限，并且对整个的帧中亮度空问变化订较血的敏感性。隧严 a ) ( h ) 图3 色谱曲线栩同，但内容不同到目前为止，基于色谱曲线的方法在检测场景的突然变化方面有很好的效果( 大于9 0 ，有的甚至可以达到9 9 2 3 【3 】) 。但不幸的是，在有融合时，连续帧之间的差异有可能太小而导致错误的解释为在一个镜头中运动所引起的差异。为此，【4 】提出了一个称作“双了剥照”的方法。这种方法用两个门限比较全局色谱曲线的差异：较低的一个门限( t ) 被用来寻找可能的融合边界，而较高的门限( t 。) 确定融合的存在。 3 3 基于运动的算法为了区别因为在场景中由于运动而引起的差异和由于场景的转换而引起的差异，研究人员开发了种种基于运动的算法。 b s h a h r a r a y 8 年1 用块比较算子，把一帧分成大小相等的1 2 块( 呈4 3 矩形型) 。利用运动补偿差异值来决定场景转换。因为来自于运动的差异可以用运动补偿来消除，余下的差异来自于其他原因如场景变换。此方法的缺陷是块匹配仅对特殊类型的运动有效( 例如，平动) ，而镜头变换检测对块匹配不能处理的运动( 如旋转，物体间的遮挡) 是非常敏感的，而容易把这种运动判断为镜头转换。 1 0 述。近年来基r 运动的算法一般足j jj ：m p e g j i 缩文件，所以将在下一即1 详 3 4 基于m p e g 的算法基于m p e g 的算法主要足考虑到两方面的问题。 ( 1 ) 可以利用在m p e g 编码时的一些特征量来进行镜头转换的检测。( 2 ) 为了减少计算量尽可能在不完全解码的情况下进行镜头转换检测。 h j z h a i l g 【9 】就利用了m p e g 中的运动向量。如果在m p e g 中编码中所利用的运动向量数目足够多，那么就有可以运用运动补偿从一帧估计另一帧。反之，如果数闷少，则意味差异很大以至不能从一帧预测另一帧，那么场景转换就发生了。更复杂的，m e n g 1 0 从m p e g 压缩视频影像中提取出运动向量的同时，抽取出在b 帧和p 帧中的d c ( 离散余弦) 系数，然后利用自适应局部门限设定的技术来检测镜头界限。基于相似的空阃内容在数学上会有相似的d c t ( 离散余弦变换) 系数这一想法。n a k a j i m a 1 1 1 设计了一种通过计算i 帧d c t 系数的相互关系，快速检测场景变换的方法。a r m a n 1 2 设计了另一种加速检测场景转换的方法。此方法考虑到视频影像数据空间和频率域的关系，通过排除代表性不强的块而减少了所处理块的数日。而s o o - - c h a n g 2 直接利用m p e g 中m b ( 宏块) 的类型来进行镜头检测，更进一步减少了计算量。虽然这类方法处理速度较快，但是它与m p e g 的编码质量有很大的关系并且它仅仅适用于特定的影像格式( m p e g ) 。 3 。5 轮廓算法这种算法的初衷是为了检测融合( 或，更一般的，渐变) ，是由z a b h i 1 6 设计。它在相邻帧之问进行空问轮廓的比较。当与i j 一帧相比，在当时帧一l l 出现或消失的轮廓点的数目足够高时，那么就是一个场景变换。不过当物体的轮廓或图案变的复杂时就失去了作用。第四章视频影像镜头检测的新算法一般= j | 乏说，视频影像的镜头检测是对相邻的两帧进行对比。如果相邻帧的差异大于一定的门限则判断为场景转换。如在简介中所述，因为在逐渐转换中，若相邻帧之间的差别太小，场景转换是才i 容易检测到的。但从整个的逐渐转换的视频序列来看，就容易发现从起始帧到终l l 帧或与从起始帧到与其柑距几幅的帧有较大的差异。所以如果利t 算法能够己忆侮一帧的变化，：累积，扣= 耐( 石， ) + 耐( ，以) + + 耐( ，+ ，) 当从起始帧石到某帧，的累积差异大到一定程度，既 t 时，则场景发生变换。 4 1 算法的基本思想在上述思路的指导下，我们构成了我们新算法的基本思想。我们引入一个累积帧c 。对于一个影像序列一，首先起始帧z 与相邻帧进行比较。帧正和的相似部分在帧c 中保存，而刁i 同的部分在帧c 中作标记。也就是说帧c 记忆了帧z 与厶的之间的变化e 然后帧c 与接下来的帧六，，进行比较直至不同的部分超过了一定的门限，就意味着镜头转换的发生。流程图如图4 所示：图4 ：基本思想 1 2 4 2 算法的构成 4 2 i块匹配实现上述思想最直接的方法足i j 像素一像素对比的方法。但如3 1 节i f 所提到的，这种方法对运动和噪声都相当敏感。所以我们考虑用分块的方法来实现算法的基本思想。我们把一帧分成1 6 1 6 个大小相当的块。我们对比累积帧 c 与帧，：之问相对应的块，保留相似的块并且标记不同的块。当不同的块的数目超过一定的门限n ，就判断为镜头转换发生。此过程如图5 所示： c - 5 f 1 比较 c 与f 2 比较 ( b ) c 与f 3 比较 ( c ) 豳圜 c 与f 毗b 较 ( d ) 帧c 与帧f 酌不相同的块口桢c 与帧f 钓相同的块在镜头转换时 ( ) 图5 ：分块实现基本算法图5 仅仅是一个概念化的例子，实际情况要复杂的多。 4 2 2特征量在每一块内，我们用颜色的均值作为特征量。我们之所以用这个阶统计特征量是出于两方面的考虑。一是为了减少计算量；二是在我们的试验中已经取得了很好的结果，因此没有必要引入更高阶的统计量特征。我们利用r g b ( 红、绿、蓝) 颜色空问。r g b 是任何压缩格式的影像解码后显示的颜色空间。所以本算法的实现可以不考虑视频影像的格式。我们对于每一个块计算其r g b 空间的颜色均值。 1 3 = 鼍，p = ，a = p q 其中m 分别为帧中行像素和列像素的数曰；p 、q 则对应块中行像素和列像素的数目；v 。是块内f 行_ ，列的像素值；只。为一帧中第埘行疗列块的像素均值。所以一帧就被抽成一个1 6 x 1 6 的特征矩阵f 。特征矩阵中的每一个元素都代表相对应块的特征。我们把累积帧c 与帧的特征矩阵f 与f ，相减就得到了差异特征矩阵d 。 d 。=j ，蜀：一) 2 其实f 卅。是一个含3 个元素的向量，分别对应于在r 、g 、b 三个颜色轴的值。如果在累积帧c 中的块与在帧中相对应的块相似，那么在特征矩阵e 和一中相对应的元素值就比较相近，则对应的差异特征矩阵d 中的元素值d 。就会很小。所以如果差异特征矩阵d 中的某一元素值d 。大于一定的门限咒，那么在累积帧c 中的相对应的块，h ) 就被认为不同。 4 2 3 跟踪运动运动无论是物体的运动或是摄像机的运动，在所有的视频影像序列中都是普遍存在的，运动是视频影像压缩和处理中的一个考虑的重要因素。我们借鉴以区域为基础的物体跟踪的方法来估计和补偿运动。 j l - l j l23456 t v| ，- 、 ( c ) 图6 ：块的运动 1 4 如图6 所示，尢两棚邻帧r f ，i ，f j 彤物体从矧( a ) 的位胃运动到蚓( b ) 。我们可以看出由于运动，在图( a ) 和图( b ) 中有些相邻块是不相似的，例如块( 2 ，5 ) 。很显然我们刁i 能把这些块标址为i ：同。如果我们这么做了，此算法将对运动非常敏感，会引起许多锚误的镜头检测发生。我们注意到这些块仅仅是从个位置移到了另一个位置，例如在图( a ) 中的块( 2 ，5 ) 移动到了图( b ) 中的块( 3 ，6 ) 。这个算法是这样处理运动的。如果在累积帧c 和帧厂之间某一相对应的块不同。我们将帧c 的这一块与帧f 中对应块的相邻块进行比较。如图7 所示，在累积帧c 中的“网格”块与帧厂中的l 、2 、3 、4 、6 、7 、 8 、9 块相比较。在八个相邻块中，最相似的块就是与“网格”块特征量差异 d 。元素值最小的块。所以，我们通过比较差值来找出具有最相似的块，如块 3 。并且如果此最小差值小于一定的门限，那么我们就判定在帧c 中的“网格”块移到了此块的位置，如块3 。：h ( a ) 累积帧c ( b ) 帧f ( c ) 更新后的累积帧c 图7 与相邻块比较为了跟踪运动，累积帧c 必须进行更新。为说明简单起见，我们仍以图7 为例。如图“网格”块移动到位置3 ，那么就把帧f 中的块3 和块。拷贝到累积帧c 的对应块，如图( c ) 。这样就实现了跟踪运动并且还可以恢复被运动的物体所遮挡的背景。 4 2 4运动的补偿在相邻帧之间块的运动，块不可能总是运动到整块的位置，有可能运动到的位置是一部分属于这块，一部分属于那块。如图8 所示，图( a ) 中在位置5 的物体向右移动；在图( b ) 中，物体移动到位置5 和位置6 之间。显然在图 1 5 ( a ) 中粥块5 瓯不同于圜( b ) t ，的块5 ，义f ：l i i jj ：图( b ) 【| i 的块6 。住l 楚如果我们比较隧( a ) 秽图( c ) ，就可判定往燃( a ) 唾；的物体出位置5 移动到了位置 6 。这就需罄一种机制来进行这种运动的补偿。影像序列在时问上的连续性，其爨邂录豹运动选聂鸯连续链。我簦l 采嚣一秘稔为“等德”豹方法。累积犊c 中的块似，”) 与帧_ ，：比较后，判定为不同，如果是营次判为不同，则把一个称为 “话忆矩阵”e 垂懿糨应位甏知，“) 熬元素德标为- 1 ( 关予“注酝楚阵”将在下一节中详述) 。然后与帧，+ ，进行比较，如果块( k 玎) 仍判定为不同则把“记忆矩阵”中的相应僚置( 小，h ) 的元素标为一? 。诸如此类。当此值达到一4 时，块，抬就毅宣森先绝对不嬲，块妇，群) 姆不簿与箕衾熬较稳魄较蠹到一个掰熬镜头开始。也就是溉，在时间上等待了三帧米进行运动补偿。之所以等待三帧这是国羯酝块之阕羡异的门戳嚣所决定静。 j 隈越淹，羯浚之蠲新容忍豹差异就越大，运动补偿所糯等待的帧数就越少：反之就越多。田一圈一圈 ( 矗)惭( c ) 图8 ：运动的补偿元素值代表意义 s 4不同且不再用于比较一一3不满，毽锯撼予磁较 0 相似 l 穆向左上 2 移囊土方 3 移向右上 4 移向左方 6 移蠢丧穷 7 穆向左下 8 移向下方 9 移蠢杏下表2 记忆矩阵元素值的代袭意义 1 6 4 。2 。5 记坯矩黪我们引入一个1 6 1 6 的记忆矩阵来存储比较的结果。矩阵巾的每一元素对瘦子羧中豹每一块。元豢瓣莛淡了兆较弱缝聚，如表2 。妇累楣对戏块是相似的，则对应元素的值为0 。如果块移动到相邻的位鬣，其取值是按照图7 ( b ) 孛豹经嚣取德。鲡繁糖对寂豹块l ：溺( 甄没骞剿为稿骰，蠢没舂潮为移动) ，则取值为负，按上节的规则取德。所以，一帧中不同的块的数目就是记忆矩阵中负僖的数强。在检测镜头转换辩其实就是检测淀侣缒阵中受簸元素的数扫。负值元蘩的数目超过了定的门限n ，则判为镜头转换发生a 4 2 6对于移入运动的处理物体竣摄像帆的运动很可能会馒镜头中的背爨或物体移入、移出镜头。此类运动主骠是由摄像机的运动引起的如平移、缩放等，当然物体的平移也有可戆发生移入、移滋豹揍形。对予移窭凌头麴壤形，出上嚣节掰述熬运动跟踩秘补偿已经较容易处理，例如移出镜头的物体其背景可以通过更新累积帧c 束恢复。两麓体或背祭静移入翔不同，由于移入懿内容是原来犊中掰没有静，掰致就不会判为运动，那么就会在累积帧c 标为不同而且累积帧c 也不会更新。随着移入，累积帧c 中的不同块的数目越来越多，虢很容翁产生错误检测。我 | 、3 淀意到，移入熬糖薅或赞景黄毙会“侵入”犊中兹“边缘块”( 处于既第l 行、第1 6 行、第l 列、第1 6 列的6 2 块) 。在继续移入的过程中，“侵入”“边缘块”熬部分对于“爽郏块”( 处于第2 一1 5 行，露2 1 5 列鹣块) 来说就不“陌生”了，就可以用上两节所述的运动补偿和跟踪来处理。所以我们的策略是对移入的部分不进行比较简是完仝接受移入的部分。具髂实瑰是这徉熬。当累积姣c 与梭厂摆纥较慰，仅仅魄较樱瓣应豹“内部块”；而时于“边缘块”。我们抱帧厂中“边缘块”的内容拷贝到相对应累积赣e 孛静“边缘浚”。秘蠲这秘梳潮我稻赣成功鼢解决了这个瀚蘧。由0 二我翻分的块比较多，因此不比较边缘块是不会影像对帧之蒯差异的判断。毒2 。7 流翟圈此流穰图是蒸本思想流程图的“比较帧石和帧c ”和“在帧c 中保魁相同标记不同”部分的其体实现。 1 7 图9 ：块比较部分流程图 4 3 算法的修正 4 3 1 t 修正在试验中，我们发现当帧的亮度比较暗或是有许多黑暗的背景块时，此算法检测镜头转换的性能就会降低。如图1 0 ( a ) 和图1 0 ( b ) 是两相邻的帧，因为亮度比较暗时，其颜色值就比较小，所以均值差就比较小，仅仅用以上的处理并不能分辨它们。所以我们引入了一个t 因子来增强较暗的帧的对比度。当 1 8 帧中较暗块的数目超过了一定的门限t ，我们纠正像素的r o b 值如以下公式。 r = r 7 ，g = 9 7 ，b = b 7 在r g b 颜色空间中我们用的是无符号整数的八位码，像素颜色值的范围是 0 2 5 5 ( 从暗到亮) 。y 的取值是1 1 2 5 1 ，其效果是增加图像的对比度，如图 1 0 ( c ) 、1 0 ( d ) 所示。因此对应块之间的不同增加了，这样就可以检测出他们之间镜头的转换。图1 0 纠正前后的比较 4 3 2 提高检测淡出的性能运动补偿虽然可以很好的处理运动，但是另一方面却使检测累积相邻帧之间差异的性能降低。其最直接的影响就是对淡出的检测。当淡出时，一帧比一帧暗，也就是背景的黑块越来越多。运动补偿就把这些逐渐增加的黑色背景块误认为是运动。因此淡出就比较难判断。相反在淡入时则没有这种情形。在淡入时，一帧比一帧亮，也就是原来的色彩块逐渐显现。在上几帧中并没有与这些的突显的色彩块特征相似的相邻块，因此就不会受运动补偿的影响。 1 9 我们注意到在淡出邋程的最后时，总是有j l 帧到几十帧的全黑或几乎全黑黝羧出现并且在其他类型的镜头瓣这釉愤形一般是不会发尘的。所以在检测镜头时，同时检测有无全黑( 或几乎全黑的帧) ，若这种帧持续几帧以上，则判梵淡接发生。 4 3 3 融合的判断敬上舞法兹处理，对于融合誓戮缓容荔兹捻浏窭融合串戆交换点( 凝聚会过程中的菜一帧，是以前的帧逐渐变化到这帧超过了一怒的门限r ) ，不过并不能分辨融合与一般镜头转换酶区羽。这样的簸遴，虽然胃戬满足大部分的褫频影像处理的需婺，但是有时候褥要区别融合与一般镜头转换戏检测出融合过稔的长斑( 如研究导演的编辑风格、在谮义的高度研究影像，等等) 。因此在北基础上我 | 对融会又避亍了进一步豹处理。图1 1 融合岛一般镜头转换的比较如图ll 我们可以看出，融合的特征i 褥线与一般转换的特征谱线有明箍的不罚n 在一般镜头转换酵t 在转换焱骞一令突变，獒转换竟凄藏只蠢一孛爽；嚣融合是一个渐变的过程，其变化比较缓慢，而且转换宽度有几帧到几十帧：我们 2 0 裁裁臻这一特性来进行融合蕊判款。当在累我顿( t l 曩i 列块豹数蝤火予一定的门限n 时，我们酋先和f j f 儿帧比较累干j 帧c l 小闻块的数i1 ，乃=(疗)一n(n1)l+tn(n-1)一n(n-一2)ixo5+ln(n-2)-n(n-3)ix025 3 其中n ( n ) 为在序列第打帧h t 漯积帧c 。| 1 4 i 同块的数目。糟很人则是突变，判为般酶镜头切换；若茹徽小，则是一个渐变鹃过程翔为融台。然后我们就需要寻找融念的起始点和终皮点。融合炮个渐变的过程，其特征曲线程峰状。相邻帧之间由相似经藏异越来越大达翔一个蓑并豹极大毽；然螽差器越来越，l 、，孬到穗酝。起始熹我稻霹以选其“融合峰”中左极小值。由于累积效应，右极小值彳；一定可靠，所以对予终止点我们选择当差异块小予一定门限辩的帧。班上麟是本算法豹基零构残。 2 l 第五章系统的构成为了实现此算法和检测算法的性能，我们的系统构成是如图1 2 所示：首先，获取视频影像序列的数据，并记录下此视频影像中存在的镜头数目和类型：然后把此视频影像的数据格式转换成易于处理的格式：最后实现算法并比较结果。我们的操作系统平台是s u n - - u l t r a s p a r c 6 0 ，s o i o r i s 5 7 。我们利用了儿套成熟的软件包构成了我们的数据预处理系统，数据处理部分是我们编程实现的。数据预处理匿圈田图1 2 系统的构成 5 1 软件包简介我们利用了两个软件包来实现数据截取、数据转换。其中前两个过程是属于数据的预处理i 数据处理部分是我们工作的重点，大部分的编程和调试工作都是在此部分完成的。 5 1 1 数据麓取软件对于视频影像数据最容易获得的、资源最丰富就是v c d 电影。v c d 电影的数据格式是d a t 形式的文件( 属于m p e g 数据格式，但是需要转换成m p g 形式的文件以利于下一步处理) 。为了试验的需要，往往要截取整个v c d 中的某一段片断而且我们需要事先确定这一段片断中包含镜头转换的数目和类型以便后来比较算法的性能。因此我们选择了w e b f l i x p r o 这一软件。其软件具有下数的优点：可以快速准确的切入视频影像序列中的任何位置点并且可以帧单位进行逐帧播放，这样利于我们记录下镜头的转换点和分析镜头转换的类型。可以从整令的v c d ( a a t ) 文传中截取部分的影像序列著转换成( m p g ) 的文件形式，这样利于我们选择台适的视频影像片断。姥软箨赛螽懿下：强1 3w e b f l i xp r o 器莲 5 1 2 数据转换软件数据转援软髂完成荛数据截袋爱夔。m p g 形式静文彳孛转换戒j p e g 形式的一系列有序号的文件。每一个j p e g 的文件都是代淡视频影像序列中的每帧。文绎懿穿弩藏是赣在程颓影像序列中的枣号，魏0 0 1 j p g ，x 0 0 2 , j p g 。魏就是用一幅幅的静态图像表示动态的视频影像。我们选择k e n v o t o r 这软件来完成以上功能，其界面如下：图1 4 数据转换软件的界面 5 1 3 数据处理软件数据处理部分主要是编程实现本算法。一幅图像在数学上表示为矩阵。对图像的处理实际上就是对矩阵的运算。本算法需要对矩阵进行频繁的运算。 m a t l a b 对矩阵有强大的功能和丰富的函数。因此我们选用m a n a b 软件包。在 m a t l a b 中直接读取j p e g 图形文件，读取后的形式是m n x3 的矩阵。m 是指一帧中像素行的数目；是指列的数目；3 对应像素的r g b 三个值。然后对矩阵进行操作。关于本算法软件的构成在下一节中详述。 5 2 算法软件的构成算法软件构成结构如图1 5 所示图1 5 算法软件构成图其备块的功能如下程序功能 m a m 蕾u 始化读j p e g 图形文件成矩阵记录镜三l 转换点州断镜头的类型并据此进行不同的处理 c o l o r m e a n 求各块的颜色均值判断帧的明暗并根据判断的结果进行y 纠正 c o m p a r e b l k 比较块之间的差异进行运动补偿更新累积帧c d i s d e t e c t 削断足否为融合 d i s s t a r t 削断融合的起始点 g e t n a m e 把一系列j p e g 文件名读入一个变量 p o s t p r o c e s s 对镜头转换点进行处理，以利于检索 s h o t b o u n d a r y 判断镜头转换点判为镜头转换时还原初始量 b l o c k 把一帧图像分为1 6 1 6 块 b l k 2 p x l 从对应的块找出对应的像素表3 程序功能块的定义 5 3 视频影像镜头描述语言在算法检测出镜头之后，我们利用视频影像镜头描述语言来组织和定义镜头的属性。视频影像镜头描述语言是视频影像序列描述语言( v s d l ，v i d e o s e q u e n c ed e s c r i p t i o nl a n g u a g e ) 的一部分。v s d l 可以使用户在较高的抽象层面上定义视频影像序列。 2 5 我们的视频影像镜头描述语言定义如r 第层：影像片断：名称、长度、格式镜头数目：数目镜头位置：处于帧序列中的位置第二层i 镜头名称：以在影像序列中的朐后顺序定义( 如镜头1 、镜头2 ) 镜头类型：切换、融合、淡入、淡出镜头长度t ( 起始帧，截止帧i - ) 这样一个视频影像序列就构成了一个基于镜头有层次的结构，以利于进一步的分类和检索。第六章结果及讨论我们从v c dr t t 影q ，抽出了九个m l ，e g 形式的片断。我们的试验是在s u n u l t r a s p a r c 一6 0 的系统上进行的。我们用的工具语言是m a t l a b 。我们首先是把 m p e g 的形式的视频影像文件转换成一系列j p e g 形式的图形文件( 也就是视频影像中的一帧对应于一个j p e g 下面是测试本算法的结果。 6 1 算法的性能我们采用两个参数来评价检测的性能，效能和精度。效能参数定义了检测到的真正镜头转换与在影像序列中实际存在镜头的百分比。而精度是指在整个检测到的镜头中真f 的镜头转换的百分比。效能和精度的公式如下： r e c d ，：生一1 0 0 n ! + n 。 p r p c 括f o ”：l 1 0 0 n ：+ n 。其中，。是正确检测的镜头数目；n 。是没有检测到的镜头数目；n

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）视频影像镜头转换识别.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）视频影像镜头转换识别.pdf

文档简介

温馨提示

最新文档

评论

相关文档