(通信与信息系统专业论文)视频影像镜头转换识别.pdf_第1页
(通信与信息系统专业论文)视频影像镜头转换识别.pdf_第2页
(通信与信息系统专业论文)视频影像镜头转换识别.pdf_第3页
(通信与信息系统专业论文)视频影像镜头转换识别.pdf_第4页
(通信与信息系统专业论文)视频影像镜头转换识别.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 、9 3 1 0 4 l 关键词t 镜头检测视频影像视频检索 本篇论文丌发出一种新的检测视频影像镜头转换的方法。此算法考虑到逐 渐转换的镜头的特征:在逐渐转换时,相邻帧之间的差异较小。所以此算法引 入了一个累积帧c 。累积帧c 可以“记忆”相邻帧之间的不同并累积这些差 异,直至累积的差异超过了一定的门限,则判为镜头转换。此算法利用的特征 量是在r g b 空间中的颜色均值。运用块匹配的方法来进行运动补偿和跟踪。并 目l z r 因子来增加较暗块的对比度以利于提高算法的性能。为了进一步提高算法 的性能,我们充分利用了融合和淡入淡 1 的特性。我们有从m p e g 形式的v c d 中抽取的片断进行测试。此算法具有很好的性能。 a b s t r a c t k e y w o r d s ls h o tb o u n d a r yd e t e c t i o n ,v i d e o ,v i d e oi n d e x i n g t h i sd r o j e c ta i m st od e v e l o pan e wa l g o r i t h mf o rv i d e os h o td e t e c t i o n t h ea l g o r i t h mc o n s i d e r st h e f e a t u r eo fg r a d u a lt r a n s i t i o n :i ng r a d u a l t r a n s i t i o n ,t h e r ei so n l yas m a l la m o u n to f d i f f e r e n c eb e t w e e nc o n s e c u t i v e f r a m e s t h ea l g o r i t h mc a nr e m e m b e rt h ed i f f e r e n c eb e t w e e nc o n s e c u t i v e f r 锄e sa n dc u m u l a t ei t w h e nt h ea c c u m u l a t i o nd i f f e r e n c ee x c e e d st h e t h r e s h 0 1 d w ec a nd e c l a r et h eo c c u r r e n c eo fs h o tt r a n s i t i o n w eu s et h e m e a nv a l u eo fp i x e l sc o l o ri nr g bc o l o rs p a c ea st h ef e a t u r e w ee m p l o y t h eb l o c km a t c h i n gm e t h o dt oc o m p e n s a t et h ee f f e c t so fm o t i o na n dn o i s e avf a c t o ri si n t r o d u c e dt oi n c r e a s et h ec o n t r a s to fd i mo rd a r kf l a m e a n d f o rd i s s o l v ea n df a d e ,w em a k ef u l lu s eo ft h e i rs p e c i a lf e a t u r et of u r t h e r i m p r o v et h ep e r f o r m a n c eo ft h ea l g o r i t h m w et e s t o u ra l g o r i t h mw i t h c l i p s e x t r a c t e df r o mm p e gv c d s t h ea l g o r i t h m s h o w s g o o d p e r f o r m a n c ei nd e t e c t i n gt h eg r a d u a lt r a n s i t i o na sw e l la st l ea b r u p tc u t s 1 1 第一章序言 近年来,信息的增长是非常迅速的。从信息的类别来说,已经从文本发展 到图像、声音、动画、视频影像等多媒体信息;从信息量来说一个文件已经由 数k ( 2 1 0 ) 、数十k 字节( 如a s c i i 文本,w o r d 或w p s 文档,j p e g 、g i f 等单幅图 像) 发展到数m ( 22 0 ) 字节( 如m p 3 、动厕等) 以至数十m 、上百m 字节( a s f 或咖 形式的电影,电视节目) ,甚至达到g ( 2 ”) 字:_ 3 ( v c d 或d v d 影视内容) 。而大 型的数据库则包括数百万的文件,数万g 的信息。 而信息的增长是与技术的发展分不丌的。存储媒质性能价格比的逐渐提高 使人们能够收集和存储越来越多的数字信息。数字影像压缩技术的发展使得数 字影像图书馆的产生成为可能。同时,带宽技术的发展,例如有线电视电缆调 制解调器( c a b l em o d e m ) 、异步数字订户线( a s y n c h r o n o u sd i g i t a ls u b s c r b e r l i n e ,简称a d s l ,带宽1 5 兆) 的出现,使家庭用户在线观看高清晰的电影和 下栽整部电影文件成为可能。因此以商业服务为目的的数字影像图书馆也应运 而生。 1 】 1 1 视频影像检索的重要性 如何管理如此大量的信息昵? 以文本为基础的数据库解决方案已经成熟f 如 s q l 等) ,但是浏览,查询,和管理视觉信息( 如图像、图形和视频影像) 的方法 还处于起步阶段。 在大量的视觉信息中,检索感兴趣的视频影像片断是非常困难的任务。传 统上,我们所做的只是眼睛盯着屏幕,快速( f a s t - - f o r w a r d ) 的浏览影像。这是 非常费时费力的。因此需要一个有效的视频影像检索系统来提高浏览、查询、 管理视频影像信息效率。 2 l 因此视频影像检索是当前图像处理计算机视觉、人工智能、信息检索、 数据库管理等领域研究的热点。而镜头转换识别是视频图像检索的基础。 2 视颡影像的镜头转换识剐是视频影像梭索的第一步 为了达到有效捡索视频影缘的h 的,其t j 最糖水、媛重要的处理步骤就足 分析影像序列并殿把影像分成片1 断的集合。最简便的视频影像检索技术就足把 影像分成鬣态镜头,每一个镜头代表运动螅连续廖烈。 镜头转换检测技术还可以用于黑白电影的彩色化,因为实际上每一个镜头 郝对应予不弱关联的获魔彩色奢我裹。男芥,还可l 三i 踊藏技术检测蓟漪镜头 长度和编辑效果的类型柬研究电影导演的风格【3 】。这些不属于本文讨论范围, 但我们可以看出检测镜头转换是一个非常髓要、德得研究的课题。 1 3 本课题的研究目的 本课题的羁标是设计釉瓤检测视频影像镜头转换的算法岁 在此基础上 对视频影像进行结构化。此算法成该可以自动的把任意的视频影像分成镜头集 会,熊够瀵灏豹髂辑凄个个镜头黝器羧。捡测系统应该糠唆镜头赛袋奁援频影 像序列中的位置以便进一步在更商的层面上分析视频影像。 1 4 本论文的主搂成果 本途文豹主癸成栗筵没诗了静崭掰魏捡溅撬菝彩豫转换懿簿法,魏算法 具有高准确性;较少的计算量;兼容性较好,可以用来检测各种形式的格式数 字铙频影像;其鸯较侠谤葬速度。 l 。s 论文组织 在第二章中介绍了关于视频影像及视频影像镜头的一烘基本檄念和问题。 第三章对薪入的工作进行了回顾。箱谣章哞l 详细介绍了新簿法的构成原理。在 第五章r i ,简述了系统的士幻成。第六章足结募与讨 仑。第七索是憨缎。 2 第二章简介 在这章中首先介绍关于视频影像的基本概念,包括视频影像的特征及其压 缩格式。然后介绍关于视频影像巾镜头转换的基本概念及其主要问题。 2 1 视频影像数据的特征 视频影像是一种具有高度的解析度和蕴有: i 京信息的媒质。除了基本信息 如标题作者或制做数据:视频影像也提供了其他的信息,如运动的轨迹、事件 的发生和不同物体的形状。视频影像不同于文本数据的特性就在于其具有时间 维和空间维。而且,数字视频影像的数据的量和结构不定的格式使得对它的管 理、访问、再利用和把影像片断构成影像文档等任务都是相当困难的。 2 1 1视频影像数据的独特性质 h a m p n p u r 1 4 】讨论了视频影像数据的独特性质,如表】所示: 准绳文本数据图像数据视频影像数据 信息疲乏丰富非常丰富 维度静态,非空阃静态、空间时间、空间 组织有组织无结构无结构 数据量少一般极大 关系简单、容易定义复杂、不容易定义 表l 视频影像数据与其他类型数据的对比 信息:因为视频影像和图像数据包含了比纯文本数据更多的数据,所以对它 们的解释是模糊的而且依赖于观察者和具体应用。而文本数据却有确定的意 义。 维度:文本数据既没有空剧性又没有时问性,可以认为是一维的。图像数据 仅仅包含了空间性,可以看成是二维的。视频影像数据有另外一个维度时问 可以看为是三维的。 组织与传统的文本数据相比,视频影像和图像数据没有清晰的结构,是比 较困难表示和定义的。 3 数据量。一幅图像的数据量通常是1 。产节的数量级i 叮一分钟的视频影像包含 t , l 盈k l :1 0 0 0 幅罔像。i i i 如存f 1 4 】叫j 的,| ! l l 频影像数掘的氐l e 般的数据 量高7 个数量级 关系t 定义文本数据的关系运算,如相等、不等是很简单、很容易定义的。 但是,视频影像( 图像) 数据的天系足j l l - 常复杂,f :且难以定义的。这使视频 影像的数据检索和查询非常困难。例如,没有广泛接受的两幅图像之间相似 运算定义。 2 1 2 视频影像数据的内容 视频影像具有非常丰富的信息内容和特征。这些特征将帮助我们更好的理 解视频影像数据和对它进行检索和分类。我们按照下列绳准定义视频影像的内 容。 语义内容;视频影像的语义内容足指其传达给, q j j 的思想或知以,通常是 模糊且是上下文相关联的。例如,两个人在看电视但是会有不同的见解。 通过限制上下文或应用,视频影像数据的模糊性可以减低。 音像内容: 一声音t 视频音像中包含声音。声音信息可以帮助我们理解视频音像的语 义内容。声音可以从视频影像中抽出,出语音识别算法来处理 一颜色t 颜色的强度和分布 一样式:不同的样式结构 一物体的运动:旋转,平动,等等 一物体的关系t 前后、上下等等 一摄像机的运动:平动、淡入、淡出、缩放等等。 一物体,形状、面积等等 视频影像数据的内容并不是同等重要的。关于特征的选择依赖于视频影像数据 的目的用途。对于检测视频影像镜头转换来说,我们比较关心颜色,运动等特 征。 2 2 视频影像数据的压缩格式 数宁视频影像部足以定的爪缩格,仃鸺的。为了处理数宁 见频影像必须 对其压缩格式有一定的了解。 大多数现存的视频影像压缩标准足有损视频影像压缩算法。这种算法特别 适于视频影像数据。因为包含在视频影像数掘中的信息,并不是同等重要或都 可被人眼觉察的。例如,人眼对亮度比对彩色敏感,因此压缩算法就分给亮度 信息更多的存储位。视频影像中一个重要的问题就是压缩率与影像质量之削的 妥协。高质量的影像就意味较低的压缩率。现在有许多基于不同妥协方法的视 频影像压缩标准。下面就简述几个重要的压缩标准。 2 2 1 姬e g m p e g 代表运动图像专家组( m o v i n g p i c t u r e se x p e r tg r o u p ) 。这个组织为 国际标准组织1 s o ( i n t e r n a t i o n a ls t m t d a r d so r g a n i z a t i o n ) 的f 属机构,其目的 是开发数字视频图像和声音的压缩标准。m p e g 图像压缩是一种基于块的编码 技术。确切地说,它定义了压缩位流,同时就隐含地定义了解压器。只要产生 的位流符合标准,压缩算法的选择可以由各个生产者自己决定,这样他们就可 以在公共的国际标准范围内获得自己的产品优势。从而使m p e g 有很大的机会 成为家庭和商业应用上的视频压缩标准。实际上,几乎每个多媒体制造商都在 做丌发或兼容m p e g 的工作。不过,虽然m p e g 提供了非常好的压缩技术,但 是在播放前需要很大的计算量来将视频数据解压。当前的网际网络中,几乎所 有的系统都采用软件解压,这在很大程度上限制了可以达到的帧速率。 2 2 2j p e g 和m j p e g j p e g 代表连接图片专家组( j o i q tp h o t o g r a p h i ce x p e r t sg r o u p ) ,这是这个标 准的委员会的原名。j p e g 是一种标准化的图像压缩格式,是为全彩色或比例灰 度的自然、真实场景图像的压缩而设计的。它非常适合于照片、自然主义工艺 图或类似的图像,但是对印字、简单的卡通或线条画与素描却不很适合。j p e g 是用来处理静态图像,它是有损压缩。j p e g 的非常有用的特性就是信息损失的 程度可以由调整压缩参数来决定。同样在解码时,j p e g 解码器可以调整解码速 度与图像质量之间的关系。 5 m j p e g 代表运动j p e g ( m o t i o nj p e g ) ,但它1 i 足种标准。而足制造商 把j p e g 压缩算法应川于视频影像序列的各个帧,所以把这种胍缩了的视频影 像称为m j p e g 。与m p e g 州比m j t l e g 的优点足: 一基于帧的编码,有利于视频影像的准确编辑 一一致的码速率 一简单的压缩,没有帧之间的编码,计算量较小,适于实时运算 但是由于没有帧之间的压缩,其压缩率是m p e g 的三倍。 2 2 3其他的压缩标准 本文主要是利用m p e g 和j p e g 数据格式,其他的压缩标准就不加详细叙 述。其他标准有: 一h 2 6 1 是国际上最广泛应用的视频会议标准。 m h e g ( 多媒体和超媒体信息编码专家组,m u l t i m e d i aa n dh y p e r m e d i a i n f o r m a t i o nc o d i n ge x p e l sg r o u p ) 是i s o 的一个起草标准是为了独立 于操作平台的超媒体应用。它是基于物体的。 d v i ( 英特尔数字视频界面,i n t e l sd i g i t a lv i d e oi n t e r a c t i v e ) 是基于区域 的编码技术。 - q u i e k t i m e 是苹果机的交叉平台文件格式,是为了存储和交换属于序列 的数据。 2 3 视频影像镜头转换的基本问题 从上述可以看出,视频影像数据的最是非常巨大的,内容是非常丰富的, 形式也是多样的。其特性使视频影像的管理、检索等都是非常困难的。关于视 频影像的分类和管理还没有一个公认的标准。但是对于镜头是视频影像的基本 单元这一点,研究者都没有异议。 所谓镜头是指从一部摄像机摄下的唯一、持续的帧序列。因此同一镜头的 相邻帧之间会显示出时间域的持续特性。一旦视频影像序列被分成镜头就容易 用仅仅一些代表性的帧( k e y - - f l a m e ,k 一帧) 建立整个视频影像的上下文。k 一 帧是指可以代表整个镜头的一个或儿个i 帧,其k 一帧的数日依赖于运动分量的 6 多少。同时,把视频影像分成镜头是把数字视频影像按内容分割的相当重要的 第一步 2 】。每个镜头对应于单一持续运动并且在一个镜头内影像内容是不可变 的。内容的变化总是发生在镜头转换的边界。 2 3 1镜头的类别 在视频影像序列中镜头的转换有两类:一般的镜头切换和逐渐变换。 一般的馈头切换是指镜头的内容( 或场景) 突然的变换。这种编辑手法 在普通的电影、电视中是最常用的。几乎9 5 以上的镜头转换都属于 镜头切换,如图l 所示。 逐渐变换是利用逐渐变化合成两个镜头( 在剪辑的过程中) :从一个镜头 到另一个镜头的转换有几帧到几十帧长。用的最多的转换是:淡入淡出 和融合。所谓淡入是指影像起始于一幅完全黑色的帧,然后逐渐增加亮 度,最后显现出本来的影像;淡出是淡入的反过程,起始帧是普通的影 像,然后逐渐减少亮度,直至最后帧完全变黑;融合是前一个镜头的影 像渐渐淡出,同时后一个镜头的影像渐渐淡入的过程,如图2 。 图1 镜头切换 图2 融合 在检测镜头转抉时有两个主要问置 1 当把视频序列分成镜头时,是否可以辨别镜头转换与属于同一镜头中正 常的变化之间的区别。一般来说,一个镜头中的大的运动比较容易与镜 7 头转换混淆。这楚大秘运动色援:镜_ 失t p 物体的较诀移葫;占一+ 桢嫠豫 t l t 较火划织物体运动:摄像移0 熄运动t 例如,燃放、j :f 移动、跟踪 等等) 。 2 。是否可趺辫象凄逐渐转换。在逐淹转换审,每一赣与裁犊佼露少量鹣 靛别,不像镜头切换时会有突变。因此邂渐转换不是很容易就检测出来 髂。逐激转挟虽然弼静较少,毽憝纯稻缝常技弼米强诵窿弼中“语义” 内容的变化。西此他们的检测也怒非常熬耍的。 8 第三章前入工俸回顾 为了把视频影像序列分成镜头首先必需定义两帧_ ,;, 之间测量差异。测 爨移暖,磊 必羲满足经仅警瑟梭壤二j 二毒i 弱鹣镜头涎蠢返瓣一令大毽。毯奁蕃鸯矗 种主要的测量方法: ( 1 ) 基于像索及其统计特性的算法,( 2 ) 基于色谱曲线 斡算法,( 3 ) 基于运动的算法, ( 4 ) 基予m p e g 的算法,( 5 ) 基予轮廓的 算法。 3 。1 基于像素及其统计特性的算法 h j z h a n g 4 考虑两桢之间像素一像素对眈的麓异测爨。其测鳖是通道计数 亮度差异越过一定f 1 眼的相对瘟像素的数题:如聚数强大劐一定程度,技处理 的两帧就懿布为属于不同的镜头。这种方法对运动和亮度变化有商度的敏感。 从嬲捷扬傍域摄像枧的运动与场藏豹交换混淆。必了藏,j 、这裂t 方法露摄像雾运 动和较小亮度变化的敏感,h a m p a r a u r ,e t c 7 l 把两帧之间每对像素的灰度水平变 纯滁疆第二秧像素熬获褒承平。餐辫不能彩底解决鼹运动裁敏惑佼。 3 。2 色谱魏线算法 为了克服像素算法带来的问题,a n a g a s a k a 5 和f 4 】建议以色谱曲线为基础 的方法。饱餐j 译倍瓣顿之褥色谱蘸线弱差舜,如果箕差异怒够大,则场景变换 发生。【6 】i k s e t h i 比较了几种不周的色谱曲线的测量方法,其色谱曲线是幽亮 度方程得到的。其中r 检测取得了嫩好的特性。仅仪利用亮度信息也许会因为 强烈的亮度变化丽产生错谖捡测。魍此1 5 】遽议剃嬲颜色色谗越线。迄载是镣一 个像素由合并每一颜色元素最显著的位而成的颜色码来代表。 不幸熬楚,当不同靛镜头兵舂稽蔺熬色谱整线辩,色谱淹线的方法簸失去 了作用。这是因为色谱曲线代表的仅是全局特征丽完全忽略了亮度的空间分 布。因此其有不同的亮度空间分布却具有褶同的色谱曲线的连续的两帧就被当 作嗣镜头。如图3 所示。图( a ) 的内褰是完全不同予霪( b ) ,瞧是缀显 然,这两幅图却有相同的色谱曲线。这虽然是个简单化、特殊化的例子,但 是磁实骣豹援颓影像处理中骞可能衾逛现织炎曩冀瓣憾况。 9 5 】提出了一种解决方法就是把每一帧分成同样大小的1 6 块( 4 x 4 型) 然后 评价相对应的局域色潞曲线n q 的差异。这种方法列各块内存在的运动有较好的 容限,并且对整个的帧中亮度空问变化订较血的敏感性。 隧严 a ) ( h ) 图3 色谱曲线栩同,但内容不同 到目前为止,基于色谱曲线的方法在检测场景的突然变化方面有很好的效 果( 大于9 0 ,有的甚至可以达到9 9 2 3 【3 】) 。但不幸的是,在有融合时, 连续帧之间的差异有可能太小而导致错误的解释为在一个镜头中运动所引起的 差异。为此,【4 】提出了一个称作“双了剥照”的方法。这种方法用两个门限比 较全局色谱曲线的差异:较低的一个门限( t ) 被用来寻找可能的融合边界,而较 高的门限( t 。) 确定融合的存在。 3 3 基于运动的算法 为了区别因为在场景中由于运动而引起的差异和由于场景的转换而引起的 差异,研究人员开发了种种基于运动的算法。 b s h a h r a r a y 8 年1 用块比较算子,把一帧分成大小相等的1 2 块( 呈4 3 矩 形型) 。利用运动补偿差异值来决定场景转换。因为来自于运动的差异可以用 运动补偿来消除,余下的差异来自于其他原因如场景变换。此方法的缺陷是块 匹配仅对特殊类型的运动有效( 例如,平动) ,而镜头变换检测对块匹配不能处 理的运动( 如旋转,物体间的遮挡) 是非常敏感的,而容易把这种运动判断为镜 头转换。 1 0 述。 近年来基r 运动的算法一般足j jj :m p e g j i 缩文件,所以将在下一即1 详 3 4 基于m p e g 的算法 基于m p e g 的算法主要足考虑到两方面的问题。 ( 1 ) 可以利用在m p e g 编码时的一些特征量来进行镜头转换的检测。( 2 ) 为了减少计算量尽可能在不 完全解码的情况下进行镜头转换检测。 h j z h a i l g 【9 】就利用了m p e g 中的运动向量。如果在m p e g 中编码中所利 用的运动向量数目足够多,那么就有可以运用运动补偿从一帧估计另一帧。反 之,如果数闷少,则意味差异很大以至不能从一帧预测另一帧,那么场景转换 就发生了。更复杂的,m e n g 1 0 从m p e g 压缩视频影像中提取出运动向量的同 时,抽取出在b 帧和p 帧中的d c ( 离散余弦) 系数,然后利用自适应局部门 限设定的技术来检测镜头界限。 基于相似的空阃内容在数学上会有相似的d c t ( 离散余弦变换) 系数这一 想法。n a k a j i m a 1 1 1 设计了一种通过计算i 帧d c t 系数的相互关系,快速检测 场景变换的方法。a r m a n 1 2 设计了另一种加速检测场景转换的方法。此方法考 虑到视频影像数据空间和频率域的关系,通过排除代表性不强的块而减少了所 处理块的数日。 而s o o - - c h a n g 2 直接利用m p e g 中m b ( 宏块) 的类型来进行镜头检 测,更进一步减少了计算量。 虽然这类方法处理速度较快,但是它与m p e g 的编码质量有很大的关系并 且它仅仅适用于特定的影像格式( m p e g ) 。 3 。5 轮廓算法 这种算法的初衷是为了检测融合( 或,更一般的,渐变) ,是由z a b h i 1 6 设计。它在相邻帧之问进行空问轮廓的比较。当与i j 一帧相比,在当时帧一l l 出 现或消失的轮廓点的数目足够高时,那么就是一个场景变换。不过当物体的轮 廓或图案变的复杂时就失去了作用。 第四章视频影像镜头检测的新算法 一般= j | 乏说,视频影像的镜头检测是对相邻的两帧进行对比。如果相邻帧的 差异大于一定的门限则判断为场景转换。如在简介中所述,因为在逐渐转换 中,若相邻帧之间的差别太小,场景转换是才i 容易检测到的。但从整个的逐渐 转换的视频序列来看,就容易发现从起始帧到终l l 帧或与从起始帧到与其柑距 几幅的帧有较大的差异。所以如果利t 算法能够 己忆侮一帧的变化, :累积, 扣= 耐( 石, ) + 耐( ,以) + + 耐( ,+ ,) 当从起始帧石到某帧,的累积差异大到一定程度,既 t 时,则场景发生 变换。 4 1 算法的基本思想 在上述思路的指导下,我们构成了我们新算法的基本思想。我们引入一个 累积帧c 。对于一个影像序列一,首先起始帧z 与相邻帧 进行比较。帧正和 的 相似部分在帧c 中保存,而刁i 同的部分在帧c 中作标记。也就是说帧c 记 忆了帧z 与厶的之间的变化e 然后帧c 与接下来的帧六, ,进行比较直至不 同的部分超过了一定的门限,就意味着镜头转换的发生。流程图如图4 所示: 图4 :基本思想 1 2 4 2 算法的构成 4 2 i块匹配 实现上述思想最直接的方法足i j 像素一像素对比的方法。但如3 1 节i f 所 提到的,这种方法对运动和噪声都相当敏感。所以我们考虑用分块的方法来实 现算法的基本思想。我们把一帧分成1 6 1 6 个大小相当的块。我们对比累积帧 c 与帧,:之问相对应的块,保留相似的块并且标记不同的块。当不同的块的数 目超过一定的门限n ,就判断为镜头转换发生。此过程如图5 所示: c - 5 f 1 比较 c 与f 2 比较 ( b ) c 与f 3 比较 ( c ) 豳圜 c 与f 毗b 较 ( d ) 帧c 与帧f 酌不相同的块 口桢c 与帧f 钓相同的块 在镜头转换时 ( ) 图5 :分块实现基本算法 图5 仅仅是一个概念化的例子,实际情况要复杂的多。 4 2 2特征量 在每一块内,我们用颜色的均值作为特征量。我们之所以用这个阶统计 特征量是出于两方面的考虑。一是为了减少计算量;二是在我们的试验中已经 取得了很好的结果,因此没有必要引入更高阶的统计量特征。 我们利用r g b ( 红、绿、蓝) 颜色空问。r g b 是任何压缩格式的影像解 码后显示的颜色空间。所以本算法的实现可以不考虑视频影像的格式。 我们对于每一个块计算其r g b 空间的颜色均值。 1 3 = 鼍 ,p = ,a = p q 其中m 分别为帧中行像素和列像素的数曰;p 、q 则对应块中行像素和列 像素的数目;v 。是块内f 行_ ,列的像素值;只。为一帧中第埘行疗列块的像素均 值。所以一帧就被抽成一个1 6 x 1 6 的特征矩阵f 。特征矩阵中的每一个元素都 代表相对应块的特征。我们把累积帧c 与帧的特征矩阵f 与f ,相减就得到 了差异特征矩阵d 。 d 。=j ,蜀:一) 2 其实f 卅。是一个含3 个元素的向量,分别对应于在r 、g 、b 三个颜色轴的值。 如果在累积帧c 中的块与在帧中相对应的块相似,那么在特征矩阵e 和一 中相对应的元素值就比较相近,则对应的差异特征矩阵d 中的元素值d 。就会 很小。所以如果差异特征矩阵d 中的某一元素值d 。大于一定的门限咒,那么 在累积帧c 中的相对应的块,h ) 就被认为不同。 4 2 3 跟踪运动 运动无论是物体的运动或是摄像机的运动,在所有的视频影像序列中都是 普遍存在的,运动是视频影像压缩和处理中的一个考虑的重要因素。我们借鉴 以区域为基础的物体跟踪的方法来估计和补偿运动。 j l - l j l23456 t v| ,- 、 ( c ) 图6 :块的运动 1 4 如图6 所示,尢两棚邻帧r f ,i ,f j 彤物体从矧( a ) 的位胃运动到蚓( b ) 。 我们可以看出由于运动,在图( a ) 和图( b ) 中有些相邻块是不相似的,例如 块( 2 ,5 ) 。很显然我们刁i 能把这些块标址为i :同。如果我们这么做了,此算法将 对运动非常敏感,会引起许多锚误的镜头检测发生。我们注意到这些块仅仅是 从个位置移到了另一个位置,例如在图( a ) 中的块( 2 ,5 ) 移动到了图( b ) 中 的块( 3 ,6 ) 。这个算法是这样处理运动的。如果在累积帧c 和帧厂之间某一相对 应的块不同。我们将帧c 的这一块与帧f 中对应块的相邻块进行比较。 如图7 所示,在累积帧c 中的“网格”块与帧厂中的l 、2 、3 、4 、6 、7 、 8 、9 块相比较。在八个相邻块中,最相似的块就是与“网格”块特征量差异 d 。元素值最小的块。所以,我们通过比较差值来找出具有最相似的块,如块 3 。并且如果此最小差值小于一定的门限,那么我们就判定在帧c 中的“网 格”块移到了此块的位置,如块3 。 :h ( a ) 累积帧c ( b ) 帧f ( c ) 更新后的累积帧c 图7 与相邻块比较 为了跟踪运动,累积帧c 必须进行更新。为说明简单起见,我们仍以图7 为例。如图“网格”块移动到位置3 ,那么就把帧f 中的块3 和块。拷贝到累积 帧c 的对应块,如图( c ) 。这样就实现了跟踪运动并且还可以恢复被运动的物 体所遮挡的背景。 4 2 4运动的补偿 在相邻帧之间块的运动,块不可能总是运动到整块的位置,有可能运动到 的位置是一部分属于这块,一部分属于那块。如图8 所示,图( a ) 中在位置5 的物体向右移动;在图( b ) 中,物体移动到位置5 和位置6 之间。显然在图 1 5 ( a ) 中粥块5 瓯不同于圜( b ) t ,的块5 ,义f :l i i jj :图( b ) 【| i 的块6 。住l 楚如果 我们比较隧( a ) 秽图( c ) ,就可判定往燃( a ) 唾;的物体出位置5 移动到了位置 6 。这就需罄一种机制来进行这种运动的补偿。影像序列在时问上的连续性,其 爨邂录豹运动选聂鸯连续链。我簦l 采嚣 一秘稔为“等德”豹方法。累积犊c 中 的块似,”) 与帧_ ,:比较后,判定为不同,如果是营次判为不同,则把一个称为 “话忆矩阵”e 垂懿糨应位甏知,“) 熬元素德标为- 1 ( 关予“注酝楚阵”将在下 一节中详述) 。然后与帧,+ ,进行比较,如果块( k 玎) 仍判定为不同则把“记忆 矩阵”中的相应僚置( 小,h ) 的元素标为一? 。诸如此类。当此值达到一4 时,块 ,抬就毅宣森先绝对不嬲,块妇,群) 姆不簿与箕衾熬较稳魄较蠹到一个掰熬镜 头开始。也就是溉,在时间上等待了三帧米进行运动补偿。之所以等待三帧这 是国羯酝块之阕羡异的门戳嚣所决定静。 j 隈越淹,羯浚之蠲新容忍豹差异就 越大,运动补偿所糯等待的帧数就越少:反之就越多。 田一圈一圈 ( 矗)惭( c ) 图8 :运动的补偿 元素值代表意义 s 4不同且不再用于比较 一 一3不满,毽锯撼予磁较 0 相似 l 穆向左上 2 移囊土方 3 移向右上 4 移向左方 6 移蠢丧穷 7 穆向左下 8 移向下方 9 移蠢杏下 表2 记忆矩阵元素值的代袭意义 1 6 4 。2 。5 记坯矩黪 我们引入一个1 6 1 6 的记忆矩阵来存储比较的结果。矩阵巾的每一元素对 瘦子羧中豹每一块。元豢瓣 莛 淡了兆较弱缝聚,如表2 。妇累楣对戏块是 相似的,则对应元素的值为0 。如果块移动到相邻的位鬣,其取值是按照图7 ( b ) 孛豹经嚣取德。鲡繁糖对寂豹块l :溺( 甄没骞剿为稿骰,蠢没舂潮为移 动) ,则取值为负,按上节的规则取德。所以,一帧中不同的块的数目就是 记忆矩阵中负僖的数强。在检测镜头转换辩其实就是检测淀侣缒阵中受簸元素 的数扫。负值元蘩的数目超过了定的门限n ,则判为镜头转换发生a 4 2 6对于移入运动的处理 物体竣摄像帆的运动很可能会馒镜头中的背爨或物体移入、移出镜头。此 类运动主骠是由摄像机的运动引起的如平移、缩放等,当然物体的平移也有可 戆发生移入、移滋豹揍形。对予移窭凌头麴壤形,出上嚣节掰述熬运动跟踩秘 补偿已经较容易处理,例如移出镜头的物体其背景可以通过更新累积帧c 束恢 复。两麓体或背祭静移入翔不同,由于移入懿内容是原来犊中掰没有静,掰致 就不会判为运动,那么就会在累积帧c 标为不同而且累积帧c 也不会更新。随 着移入,累积帧c 中的不同块的数目越来越多,虢很容翁产生错误检测。 我 | 、3 淀意到,移入熬糖薅或赞景黄毙会“侵入”犊中兹“边缘块”( 处于 既第l 行、第1 6 行、第l 列、第1 6 列的6 2 块) 。在继续移入的过程中,“侵 入”“边缘块”熬部分对于“爽郏块”( 处于第2 一1 5 行,露2 1 5 列鹣块) 来说就不“陌生”了,就可以用上两节所述的运动补偿和跟踪来处理。 所以我们的策略是对移入的部分不进行比较简是完仝接受移入的部分。具 髂实瑰是这徉熬。当累积姣c 与梭厂摆纥较慰,仅仅魄较樱瓣应豹“内部 块”;而时于“边缘块”。我们抱帧厂中“边缘块”的内容拷贝到相对应累积 赣e 孛静“边缘浚”。秘蠲这秘梳潮我稻赣成功鼢解决了这个瀚蘧。由0 二我翻 分的块比较多,因此不比较边缘块是不会影像对帧之蒯差异的判断。 毒2 。7 流翟圈 此流穰图是蒸本思想流程图的“比较帧石和帧c ”和“在帧c 中保魁相同 标记不同”部分的其体实现。 1 7 图9 :块比较部分流程图 4 3 算法的修正 4 3 1 t 修正 在试验中,我们发现当帧的亮度比较暗或是有许多黑暗的背景块时,此算 法检测镜头转换的性能就会降低。如图1 0 ( a ) 和图1 0 ( b ) 是两相邻的帧,因 为亮度比较暗时,其颜色值就比较小,所以均值差就比较小,仅仅用以上的处 理并不能分辨它们。所以我们引入了一个t 因子来增强较暗的帧的对比度。当 1 8 帧中较暗块的数目超过了一定的门限t ,我们纠正像素的r o b 值如以下公式。 r = r 7 ,g = 9 7 ,b = b 7 在r g b 颜色空间中我们用的是无符号整数的八位码,像素颜色值的范围是 0 2 5 5 ( 从暗到亮) 。y 的取值是1 1 2 5 1 ,其效果是增加图像的对比度,如图 1 0 ( c ) 、1 0 ( d ) 所示。因此对应块之间的不同增加了,这样就可以检测出他 们之间镜头的转换。 图1 0 纠正前后的比较 4 3 2 提高检测淡出的性能 运动补偿虽然可以很好的处理运动,但是另一方面却使检测累积相邻帧之 间差异的性能降低。其最直接的影响就是对淡出的检测。当淡出时,一帧比一 帧暗,也就是背景的黑块越来越多。运动补偿就把这些逐渐增加的黑色背景块 误认为是运动。因此淡出就比较难判断。相反在淡入时则没有这种情形。在淡 入时,一帧比一帧亮,也就是原来的色彩块逐渐显现。在上几帧中并没有与这 些的突显的色彩块特征相似的相邻块,因此就不会受运动补偿的影响。 1 9 我们注意到在淡出邋程的最后时,总是有j l 帧到几十帧的全黑或几乎全黑 黝羧出现并且在其他类型的镜头瓣这釉愤形一般是不会发尘的。所以在检测镜 头时,同时检测有无全黑( 或几乎全黑的帧) ,若这种帧持续几帧以上,则判 梵淡接发生。 4 3 3 融合的判断 敬上舞法兹处理,对于融合誓戮缓容荔兹捻浏窭融合串戆交换点( 凝聚会 过程中的菜一帧,是以前的帧逐渐变化到这帧超过了一怒的门限r ) ,不过并 不能分辨融合与一般镜头转换酶区羽。这样的簸遴,虽然胃戬满足大部分的褫 频影像处理的需婺,但是有时候褥要区别融合与一般镜头转换戏检测出融合过 稔的长斑( 如研究导演的编辑风格、在谮义的高度研究影像,等等) 。因此在 北基础上我 | 对融会又避 亍了进一步豹处理。 图1 1 融合岛一般镜头转换的比较 如图ll 我们可以看出,融合的特征i 褥线与一般转换的特征谱线有明箍的不 罚n 在一般镜头转换酵t 在转换焱骞一令突变,獒转换竟凄藏只蠢一孛爽;嚣融 合是一个渐变的过程,其变化比较缓慢,而且转换宽度有几帧到几十帧:我们 2 0 裁裁臻这一特性来进行融合蕊判款。当在累我顿( t l 曩i 列块豹数蝤火予一定的 门限n 时,我们酋先和f j f 儿帧比较累干j 帧c l 小闻块的数i1 , 乃=(疗)一n(n1)l+tn(n-1)一n(n-一2)ixo5+ln(n-2)-n(n-3)ix025 3 其中n ( n ) 为在序列第打帧h t 漯积帧c 。| 1 4 i 同块的数目。糟很人则是突变,判 为般酶镜头切换;若茹徽小,则是一个渐变鹃过程翔为融台。然后我们就需 要寻找融念的起始点和终皮点。 融合炮个渐变的过程,其特征曲线程峰状。相邻帧之间由相似经藏异越 来越大达翔一个蓑并豹极大毽;然螽差器越来越,l 、,孬到穗酝。起始熹我稻霹 以选其“融合峰”中左极小值。由于累积效应,右极小值彳;一定可靠,所以对 予终止点我们选择当差异块小予一定门限辩的帧。 班上麟是本算法豹基零构残。 2 l 第五章系统的构成 为了实现此算法和检测算法的性能,我们的系统构成是如图1 2 所示:首 先,获取视频影像序列的数据,并记录下此视频影像中存在的镜头数目和类 型:然后把此视频影像的数据格式转换成易于处理的格式:最后实现算法并比 较结果。我们的操作系统平台是s u n - - u l t r a s p a r c 6 0 ,s o i o r i s 5 7 。我们利用了儿 套成熟的软件包构成了我们的数据预处理系统,数据处理部分是我们编程实现 的。 数据预处理 匿圈田 图1 2 系统的构成 5 1 软件包简介 我们利用了两个软件包来实现数据截取、数据转换。其中前两个过程是属 于数据的预处理i 数据处理部分是我们工作的重点,大部分的编程和调试工作 都是在此部分完成的。 5 1 1 数据麓取软件 对于视频影像数据最容易获得的、资源最丰富就是v c d 电影。v c d 电影的 数据格式是d a t 形式的文件( 属于m p e g 数据格式,但是需要转换成m p g 形式 的文件以利于下一步处理) 。为了试验的需要,往往要截取整个v c d 中的某一 段片断而且我们需要事先确定这一段片断中包含镜头转换的数目和类型以便后 来比较算法的性能。因此我们选择了w e b f l i x p r o 这一软件。其软件具有下数的 优点: 可以快速准确的切入视频影像序列中的任何位置点并且可以帧单位进行逐帧 播放,这样利于我们记录下镜头的转换点和分析镜头转换的类型。 可以从整令的v c d ( a a t ) 文传中截取部分的影像序列著转换成( m p g ) 的 文件形式,这样利于我们选择台适的视频影像片断。 姥软箨赛螽懿下: 强1 3w e b f l i xp r o 器莲 5 1 2 数据转换软件 数据转援软髂完成荛数据截袋爱夔。m p g 形式静文彳孛转换戒j p e g 形式的一 系列有序号的文件。每一个j p e g 的文件都是代淡视频影像序列中的每帧。 文绎懿穿弩藏是赣在程颓影像序列中的枣号,魏0 0 1 j p g ,x 0 0 2 , j p g 。 魏就是 用一幅幅的静态图像表示动态的视频影像。我们选择k e n v o t o r 这软件来完成 以上功能,其界面如下: 图1 4 数据转换软件的界面 5 1 3 数据处理软件 数据处理部分主要是编程实现本算法。一幅图像在数学上表示为矩阵。对 图像的处理实际上就是对矩阵的运算。本算法需要对矩阵进行频繁的运算。 m a t l a b 对矩阵有强大的功能和丰富的函数。因此我们选用m a n a b 软件包。在 m a t l a b 中直接读取j p e g 图形文件,读取后的形式是m n x3 的矩阵。m 是指 一帧中像素行的数目;是指列的数目;3 对应像素的r g b 三个值。然后对矩 阵进行操作。关于本算法软件的构成在下一节中详述。 5 2 算法软件的构成 算法软件构成结构如图1 5 所示 图1 5 算法软件构成图 其备块的功能如下 程序 功能 m a m 蕾u 始化 读j p e g 图形文件成矩阵 记录镜三l 转换点 州断镜头的类型并据此进行不同的处理 c o l o r m e a n 求各块的颜色均值 判断帧的明暗并根据判断的结果进行y 纠正 c o m p a r e b l k 比较块之间的差异 进行运动补偿 更新累积帧c d i s d e t e c t 削断足否为融合 d i s s t a r t 削断融合的起始点 g e t n a m e 把一系列j p e g 文件名读入一个变量 p o s t p r o c e s s 对镜头转换点进行处理,以利于检索 s h o t b o u n d a r y 判断镜头转换点 判为镜头转换时还原初始量 b l o c k 把一帧图像分为1 6 1 6 块 b l k 2 p x l 从对应的块找出对应的像素 表3 程序功能块的定义 5 3 视频影像镜头描述语言 在算法检测出镜头之后,我们利用视频影像镜头描述语言来组织和定义镜 头的属性。视频影像镜头描述语言是视频影像序列描述语言( v s d l ,v i d e o s e q u e n c ed e s c r i p t i o nl a n g u a g e ) 的一部分。v s d l 可以使用户在较高的抽象层 面上定义视频影像序列。 2 5 我们的视频影像镜头描述语言定义如r 第层: 影像片断:名称、长度、格式 镜头数目:数目 镜头位置:处于帧序列中的位置 第二层i 镜头名称:以在影像序列中的朐后顺序定义( 如镜头1 、镜头2 ) 镜头类型:切换、融合、淡入、淡出 镜头长度t ( 起始帧,截止帧i - ) 这样一个视频影像序列就构成了一个基于镜头有层次的结构,以利于进一 步的分类和检索。 第六章结果及讨论 我们从v c dr t t 影q ,抽出了九个m l ,e g 形式的片断。我们的试验是在s u n u l t r a s p a r c 一6 0 的系统上进行的。我们用的工具语言是m a t l a b 。我们首先是把 m p e g 的形式的视频影像文件转换成一系列j p e g 形式的图形文件( 也就是视 频影像中的一帧对应于一个j p e g 下面是测试本算法的结果。 6 1 算法的性能 我们采用两个参数来评价检测的性能,效能和精度。效能参数定义了检测 到的真正镜头转换与在影像序列中实际存在镜头的百分比。而精度是指在整个 检测到的镜头中真f 的镜头转换的百分比。 效能和精度的公式如下: r e c d ,:生一1 0 0 n ! + n 。 p r p c 括f o ”:l 1 0 0 n :+ n 。 其中,。是正确检测的镜头数目;n 。是没有检测到的镜头数目;n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论