（计算机应用技术专业论文）基于集成学习的视频镜头分割技术研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：57 大小：2.62MB 积分：0 举报 版权申诉

已阅读5页，还剩52页未读，继续免费阅读

（计算机应用技术专业论文）基于集成学习的视频镜头分割技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于集成学习的视频镜头分割技术研究摘要论文题目：基于集成学习的视频镜头分割技术研究专业：计算机应用技术硕士生：马飞腾导师：衣杨副教授摘要随着多媒体技术的发展，数字视频得到广泛应用，对这些数据量巨大而且内容丰富的视频进行查询和检索的需求也日益增强，基于内容的视频检索( c b v r ) 技术也应运而生。视频镜头分割，又叫时域视频分割，是建立c b v r 系统的第一步，具有非常重要的意义。首先，镜头是视频的基本单位，是视频抽象和更高层次视频分割的基础。其次，镜头转变的类型为识别视频的高层次语义提供依据。由于视频镜头分割技术的重要性和基础性，很多学者都在该领域上作出研究。他们有的研究了视频特征在各种镜头转变时的规律，使用各种规则检测镜头边界；有的学者则采用机器学习的方法，让学习器去掌握各种复杂规则，使之能准确地对镜头转变做出检测。与传统的使用单个学习器的机器学习方法不同，集成学习通过建立系列学习器，然后采用某种形式把这些学习器的预测结果进行集成，以预测未标记示例的类型。集成学习往往能够得到比单个学习器更好的效果。本文提出了一种基于集成学习的视频镜头分割技术州s e l 算法，将集成学习的原理应用到视频镜头分割领域。在t v s e l 算法中，首先提取视频帧的各种特征；然后使用本文提出的有偏组交叉重采样策略，建立起多个训练子集，由这些训练子集分别建立基础学习器；接着使用简单投票或加权集成等方法，把各个基础学习器的分类结果集成，行成最终分类结果：最后通过本文提出的渐变还原规则，把被分类的镜头转变视频帧还原成镜头转变。本文设计了一系列实验，调整了t v s e l 算法的多个参数，比较了t v s e l 算法的各种结果集成策略，并与多种机器学习算法作对比。实验结果表明，相对于单学习器算法，基于集成学习的t v s e l 算法具有明显的优势；由于采用了有偏组交叉重采样技术，t v s e l 算法在训练时间上比其它集成学习算法更加优胜。关键词：视频镜头分割，集成学习，有镳组交叉重采样，加权集成，渐变还原基于集成学习的视频镜头分割技术研究 t i t l e ：t e m p o r a lv i d e os e g m e n t a t i o nb a s e do ne n s e m b l el e a r n i n g m a jo r ：c o m p u t e ra p p l i c a t i o nt e c h n o l o g y n a m e ：m af e i t e n g s u p e r v i s o r ：a s s o c i a t ep r o f e s s o r y iy a n g a b s t r a c t w i t ht h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g y , d i g i t a lv i d e oi sw i d e l yu s e d 硼1 ed e m a n do fl a r g e - v o l u m ea n dc o n t e n t r i c hv i d e or e t r i e v a li sg r o w i n g , a n dt h e c o n t e n tb a s e dv i d e or e t r i e v a l ( c b v r ) t e c h n o l o g yh a se m e r g e d v i d e os h o t s e g m e n t a t i o n , a l s ok n o w na st e m p o r a lv i d e os e g m e n t a t i o n , i sa ni m p o r t a n t t e c h n o l o g y ，w h i c hi st h ef i r s ts t e pt oe s t a b l i s hc b v rs y s t e m ，f i r s to fa l l ，s h o ti st h e b a s i cu n i to fav i d e o ，a n dt h eb a s eo fv i d e oa b s t r a c t i o na n dh i g h - l e v e lv i d e o s e g m e n t a t i o n s e c o n d l y , t h et y p e so fs h o tt r a n s i t i o n s c a l l h e l pt oi d e n t i f yt h e h i g h - l e v e ls e m a n t i co fv i d e o b e c a u s eo ft h ei m p o r t a n c eo fv i d e os h o ts e g m e n t a t i o n , m a n ys c b o l a r sh a v e r e s e a r c h e di nt h i sf i e l d s o m eo ft h e ms t u d i e dt h ec h a r a c t e r i s t i c so ft l l es h o t t r a n s i t i o n s ，d e t e c t i n gs h o tb o u n d a r i e su s i n gt h e s er u l e s s o m es c h o l a r se m p l o y e d m a c h i n el e a r n i n gm e t h o d st ol e a r nt h ec o m p l e xr u l e s ，s ot h a tt h e yc a l ld e t e c ts h o t b o u n d a r i e sm o r ea c c u r a t e l y d i f f e r e n tf r o mt r a d i t i o n a lm a c h i n el e a r n i n gm e t h o du s i n gs i n g l ec l a s s i f i e r , e n s e m b l el e a m i n gm e t h o de s t a b l i s has e r i e so fc l a s s i f i e r s ，a n dt h e ni n t e g r a t et h e i r p r e d i c t i o nb yv o t i n gs t r a t e g i e s ，r e s u l t i n gi nah i g h e ra c c u r a c yt h a ns i n g l e - c l a s s i f i e r m e t h o d s t h i st h e s i sp r e s e n t sat e m p o r a lv i d e os e g m e n t a t i o nt e c h i l o l o g yb a s e d0 1 1 e n s e m b l el e a r n i n g ，t v s e la l g o r i t h m ，w h i c ha p p l i e st h ep r i n c i p l e so fe n s e m b l e l e a r n i n gt ot e m p o r a lv i d e os e g m e n t a t i o nt e c h n o l o g y f i r s t l y , t v s e lw o u l de x t r a c t v a r i o u sf e a t u r e so fv i d e of r a m e s s e c o n d l y , an u m b e ro ft r a i n i n gs u b s e tw o u l db e e s t a b l i s h e d 、析t l lb i a s e dc r o s sg r o u pr e s a m p l i n gm e t h o d , a n dt h eb a s i cc l a s s i f i e r s w o u l dl e a r nf r o mt h e s et r a i n i n gs u b s e t s t h i r d l y , t h ep r e d i c t i o n so fe a c hc l a s s i f i e r m 基于集成学习的视频镜头分割技术研究 a b s t r a c t w o u l db ei n t e g r a t e di n t oa l le n s e m b l er e s u l t ，e m p l o y i n gs i m p l ev o t i n go rw e i g h t e d e n s e m b l em e t h o d s f i n a l l y , t h ec l a s s i f i c a t i o nr e s u l to ff l a m e sw o u l db et r a n s f o r m e d i n t os h o tt r a n s i t i o n s ，w i t hs o m er e v e r t i n gr u l e s w i t has e r i e so fe x p e r i m e n t s ，p a r a m e t e r so ft v s e l a l g o r i t h mh a db e e na d j u s t e d ， e n s e m b l es t r a t e g i e sw e r ec o m p a r e d , a n dm a n ym a c h i n el e a r n i n gm e t h o d sh a db e e n c o m p a r e d 谢mt v s e la l g o r i t h m t h er e s u l t ss h o wt h a t , e m p l o y i n gm u l t ic l a s s i f i e r s ， t v s e la l g o r i t h ma c h i e v e dah i g h e ra c c u r a c yt h a no t h e rm a c h i n el e a r n i n ga l g o r i t h m s u s i n go r a yo n ec l a s s i f i e r w h a t sm o r e ，t v s e lh a do b v i o u sa d v a n t a g eo v e ro t h e r e n s e m b l el e a r n i n gm e t h o d si nt r a i n i n gt i m e ，s i n c ei ta p p l i e db i a s e dc r o s sg r o u p r e - s a m p l i n gs t r a t e g y k e yw o r d s ：t e m p o r a lv i d e os e g m e n t a t i o n , e n s e m b l el e a r n i n g ，b i a s e dc r o s s g r o u pr e - s a m p l i n g ，w e i g h t e de n s e m b l e ，g r a d u a lt r a n s i t i o nr e v e r t i n g i v 论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：玛卺腾圜期：节年s 月2 0 b 学位论文使用授权声明本人完全了解中由大学有关保留、使用学位论文的规定，即：学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版，有权将学位论文用于非赢利豳的的少量复制并允许论文进入学校图书馆、院系资料室被查阅，有权将学位论文的内容编入有关数据库进行检索，可以采用复印、缩印或其他方法保存学位论文。学位论文作者签名：玛色嚆日期2 护哆年多月2 p 日导师签名： | 矽枷豳期：2 即年多月2 扫曰基于集成学习的视频镜头分割技术研究第l 章引言第1 章引言 1 1 问题背景及研究意义近年来，随着多媒体技术的发展，特别是计算机性能和互联网技术的高速发展，数字视频( d i g i t a lv i d e o ) 得到广泛传播与应用。网络视频、电子图书馆、远程教育、数字广播等应用都需要收集海量的数字视频。对这些数据量巨大而且内容丰富的视频进行查询和检索，传统的基于关键词的检索方法显然不能满足需求。为此，基于内容的视频检索( c o n t e n tb a s e dv i d e or e t r i e v a l ，c b v r ) 技术成为近年来研究的热门方向。 c b v r 的关键技术包括视频分割( v i d e os e g m e n t a t i o n ) ，关键帧选取( k e y f r a m es e l e c t i o n ) 和特征提取( f e a t u r ee x t r a c t i o n ) 等。如图1 1 所示，视频序列首先被分割为一系列镜头，作为视频检索的基本单位；然后从每一个镜头中选择出关键帧，作为此镜头的代表；最后从镜头和关键帧中分别提取动态特征( 物体运动、摄影机操作等) 和静态特征( 颜色、纹理、形状等) ，作为该镜头的特征向量。根据查询内容与镜头特征向量的相似度，就可以检索到相关的镜头【l l 。一镜头分割一关键帧选取一数字视频 = = = = = | 视频镜头 = = = = = i关键帧动态特征提取l 静态特征提取副瓢矍颜色纹理形状图1 - 1 基于内容的视频检索技术视频镜头分割，又叫时域视频分割( t e m p o r a lv i d e os e g m e n t a t i o n ) ，是建立 c b v r 系统的第一步，具有非常重要的意义。首先，镜头是视频的基本单位，是视频抽象和更高层次视频分割( 场景、情节) 的基础。其次，镜头转变的类型为识别视频的高层次语义提供依据【2 1 。例如，叠化通常表示时间的流逝，所以叠化经常在传记、纪录片中出现，而扫换则多在新闻、体育视频中使用。基于集成学习的视频镜头分割技术研究第1 章引言 1 2 国内外研究概况及发展趋势由于视频镜头分割技术的重要性和基础性，在视频分析领域中，镜头分割是研究历史最长、成果发表最多的一个非常活跃的研究方向【3 】。k o p r i n s k a 和c a r r a t o 介绍了非压缩域和压缩域上的视频镜头分割算法，并分析各种算法的优缺点【l 】。 l i e n h a r t 比较了四种镜头分割方法，分析了它们的适用性，并对它们在不同的镜头转变类型下的性能作出比较【4 】。g a r g i 和s t r a y e r 比较了使用各种视频特征的镜头分割方法的性能和特点【5 1 。很多学者研究了视频特征在各种镜头转变时的规律，使用各种规则检测镜头边界。由于镜头渐变的复杂性，很难找到某些规则能全面刻画它的规律。为此，越来越多的学者采用机器学习的方法，让学习器去掌握各种复杂规则，使之能更准确地对镜头渐变做出检测。 y u a n 等指出当前视频镜头分割方法中的主要挑战【6 】：对镜头渐变的检测仍不能使人满意；亮度的突然变化、高速的物体运动和摄像机操作等影响造成较多的误报。从最近的研究成果【j 7 ，8 j 来看，对镜头切变的检测算法已经相当成熟，难点在于检测镜头的渐变。这是因为镜头渐变的类型多样，持续时间各异，而且与镜头内物体运动或摄像机操作所表现出的特征相似。在每年的国际影视检索评测 ( t r e c v i d ) o 尸都会对多个镜头边界检测算法做出评估。图1 2 和图1 - 3 8 】分别表显示了t r e c v i d 0 7 中对镜头切变和渐变检测的评估结果。由此可见，检测镜头切变已经可以达到9 0 以上的查全率和查准率，但对于镜头渐变而言，这些评雾7 一 1 1o 一蛳弘姥嘎一一足 t - ； o 。童一z r * ：一勃：一。9 叫臼 9 心心心心心图1 2t r e c v i d 0 7 对切变检测算法的评估结果 2 1 5 9 5 8 s 7 s 6 s 5 a!饥名仉j乱石m i - ! 玑 o o o o o 基于集成学习的视频镜头分割技术研究第1 章引言彩飞3 o曩譬- ，一髓 - o - 厶龟口。掌 2 al 敝 i 警瑚 o勺句臼勺一心心心心心心心心毽 r e c a l l 图1 - 3t r e c v i d 0 7 对渐变检测算法的评估结果价数值能达到8 0 就已经相当不错了。因此，镜头渐变检测算法的研究是目前该研究领域的难点和重点。 1 3 本文主要工作及章节安排本文将把集成学习理论应用到视频镜头分割技术中，提出一种基于集成学习的视频镜头分割( t e m p o r a l v i d e os e g m e n t a t i o nb a s e do ne n s e m b l el e a r n i n g ， t v s e l ) 算法，并提出了有偏组交叉重采样、渐变还原等策略，最后以实验证明其有效性。本章之后的章节的安排如下：在第二章中，将从视频镜头分割的两个基本步骤出发，分别总结提取视频非相似性特征和检测镜头边界的各种方法。第三章中，将介绍集成学习的理论和它的各种策略。在第四章中，将会提出一种基于集成学习的视频镜头分割算法一 t v s e l 算法，并详细介绍该算法的框架和各个步骤的细节。第五章，将设计实验测试t v s e l 算法，调整其各个参数并与其它机器学习算法作出比较。最后，第六章将总结本文的研究工作及对将来工作的展望。 1 9 8 7 6 5 4 3 2 l o o o o o o o o o o 基于集成学习的视频镜头分割技术研究第2 章视频镜头分割理论和技术第2 章视频镜头分割理论和技术本章将首先介绍镜头的定义以及镜头转变的各种类型，然后从视频镜头分割的两个基本步骤出发，分别综述提取视频非相似性特征和检测镜头转变的各种方法。 2 1 镜头及其转变镜头( s h o t ) 是指一台摄像机不间断拍摄的帧序列。视频镜头分割的关键是镜头边界检狈l j ( s h o tb o u n d a r yd e t e c t i o n , s b d ) 技术，即检测连续两个镜头间的转变。按照持续时间进行分类，镜头转变可以分为切变( a b r u p tt r a n s i t i o no rc u t ) 和渐变 ( g r a d u a lt r a n s i t i o n ) 两种基本类型。切变是指从一个镜头突然转变成另外一个镜头，两个镜头之间在时间上没有重叠，如图2 1 ( a ) 所示。如果使用剪接技术把两个镜头连接起来，使得两个镜头间的过渡持续若干帧，这种镜头转变称为渐变。渐变还可以细分为淡出( f a d eo u t ) 、淡入( f a d ei n ) 、叠化( d i s s o l v e ) 、扫换( w i p e ) 等类型，分别如图2 1 ( b ) ( c ) ( d ) ( e ) 所示。淡出时画面的亮度逐渐减弱( 或增强) ，最后变成一片黑暗( 或光亮) ；而淡入则相反，从一片黑暗( 或光亮) 开始，逐步出现须要呈现的画面；叠化是指一个镜头的画面逐渐减弱的同时，下一个镜头的画面逐渐增强；扫换是指从画面的某一部分开始，上一个镜头逐渐被下一个镜头代替。视频镜头分割可以分成两个主要步骤：首先是对视频帧的特征提取，这些特征必须能够较好地突出镜头边界与非边界的差异；然后就根据这些特征检测各种镜头转变，对视频进行镜头划分。 2 2 非相似性特征镜头内的各帧画面在时间和空间上都是连续的，一个镜头中连续帧之间通常表现出较高的相似性。如果连续帧之间的非相似性( d i s s i m i l a r i t y ) 较大，往往是由于镜头转变而引起的。因此，镜头边界检测算法通常根据帧之间的非相似性来检测镜头的转变。描述非相似性特征的方法有很多种，大致上可以分为基于像素点 5 基f 集成学目的视频镜头分割技术研究第2 章视频镜头分割理论和技术 ( a ) ( e ) 图2 - 1 镜头转变的类型：( a ) 切变；( b ) 演出：( c ) 浈入；( d ) 叠化；( e ) 扫换 ( p i x e l ) 、宏块( m i c r ob l o c k ) 、直方图( h i 时o g m m ) 、边缘( e d g e ) 等类型。在压缩域上还可以使用视频的压缩信息计算帧的非相似性。 2 , 2 1 像素点比较法这种方法通过比较连续帧中相同位置上像素点的颜色差异来衡量它们之间的非相似性。虽简单的方法是计算像素值绝对差的平均值：删+ ) ：娶呈- 圣坠m 。生n 鲨型 ( 2 - ，) 在分辨率为m x n 视频中，d ( f + 1 ) 表示第f 帧与第f + 1 帧的非相似性，尸舡，c ) 表示第f 帧中位置也n 上的像素点的颜色值。对于黑自视频，p , ( x y ，c ) 代表像素点的荻阶；对于彩色视频，如果使用r g b 颜色系统作为衡量标准，则c r , g , b ) ，坼批0 代表像素点在颜色通道c 上的颜色分量。这种计算方法对连续帧中像素点的绝对差值进行简单的累加，不能区分小范基于集成学习的视频镜头分割技术研究第2 章视频镜头分割理论和技术围内发生大变化与大范围内出现小变化这两种情况。一种改进的方法是计算变化较大的像素点占所有像素点的百分比：钟少) = j 1 c 班小( w i m ( 2 - 2 ) 【0 o t h e r w i s e d 化f + 1 ) = e 兰, e y e ld p ( i i + 1 , x , y ) 1 0 0 ( 2 3 ) m n 其中，d p ( i ，件1 芦力表示在位置( x 上的像素点是否出现较大的变化，如果该位置上的像素点的差异超过某一阈值乃则认为它出现足够大的变化。烈升1 ) 计算变化较大的像素点所占的百分比，如果它们占的比例较小，表明画面在小范围内出现较大的变化。像素点比较法的缺点是对物体运动和摄像机操作十分敏感。当一个镜头中出现物体的快速运动或摄像机操作( 如摇摄、缩放等) ，画面中的像素点也会出现较大的变化。基于像素点的非相似性计算方法会把这些情况误认为是镜头的转变，造成较高的误报率。 2 2 2 宏块比较法像素点比较法关注的是画面的全局特点，而宏块比较法关注的是画面的局部信息【1 1 。每帧画面都被划分为若干b 个宏块，每个宏块k 都会与下一帧中相对应的宏块做比较，计算它们的差异值d p ( i ，i + l ，幼，最后把所有宏块的差异值加起来： d ( i ，i + 1 ) = 1 d p ( i ，i + 1 ，七) ( 2 4 ) 计算宏块差异值可以根据宏块中像素值的平均值与对应宏块的绝对差而得到。也可以设置某一阈值，如果宏块差异值超过该阈值，则认为该宏块出现较大的变化，最后通过计算这些宏块的数目占总体的比例得到帧之间的非相似性。相对于像素点比较法，宏块比较法能够较好地区分镜头转变和物体的慢速运动。因为当镜头中物体慢速运动时，连续帧中对应宏块间的差异值也不会很大。为了迸一步减少物体运动和摄像机操作的影响，般利用计算运动补偿的方法，选择当前帧中的宏块在下一帧中的最佳匹配宏块，然后再计算它们间的差异值。但计算最佳匹配宏块需要耗费很大的计算量。p o r t e r 等提出一种基于频率的相关性计算方法，能够大大减少选择最佳匹配宏块的计算量【9 1 。 7 基于集成学习的视频镜头分割技术研究第2 章视频镜头分割理论和技术宏块比较法在一定程度上减少了非相似性计算方法对物体运动和摄像机操作的敏感性，但对于高速运动的物体或快速的镜头移动，这种方法仍会产生较高的误报率。 2 2 3 直方图比较法直方图比较法是对两帧画面中颜色的分布做比较。如果两帧画面具有相同的背景或相同的物体时，即使物体是处于运动的状态，它们之间的颜色分布也会相差不大。令第f 帧中颜色为的像素点的个数为凰仂，则连续帧之间的非相似性可以表示为： d ( i ，f + 1 ) = 2 。旧( ，) 一e + 。咧 ( 2 5 ) 其中拧为颜色的种类数。在黑白视频中，可以使每个灰阶代表一种颜色。但在彩色视频中，颜色的数目非常多，例如3x8 位的r g b 颜色系统，共有2 2 4 种颜色。为了减少计算量和颜色细微变化造成的影响，通常取每个颜色分量的前两位组成颜色编码，把颜色空间减少到2 6 。与之前两种会产生较高误报率方法不同，直方图比较法可能会把一些镜头转变漏检。这是因为有的视频在镜头转变时背景变化不大，颜色的分布也相差无几。例如在足球比赛的视频中，背景颜色都以绿色为主。为了突出在镜头切变时的非相似性，可以使用f 检验来做直方图比较： d p ( i ，i + 1 ，_ ) 骂+ 。( 歹) ( 2 6 ) d ( i ，f + 1 ) = ：l d p ( i ，i + 1 ，歹) ( 2 7 ) 这种方法虽然增加了镜头切变时的非相似性，但同时也增加了它对物体运动和摄像机操作的敏感性，带来一定的误报情况。此外，直方图比较法可以跟宏块比较法结合起来。即在相关宏块之间的进行直方图比较，最后把各个宏块的直方图差异累加起来： d p ( i ，i + 1 ，后) = 2 。i q ( ，k ) - h , + 。( 歹，七) i ( 2 8 ) d ( i ，f + 1 ) = ：= l d p ( i ，i + 1 ，七)( 2 9 ) 它结合了两种方法的优点，一方面减少了由于物体运动和摄像机操作的而引 8 基于集成学习的视频镜头分割技术研究第2 章视频镜头分割理论和技术起的错误检测，另一方面提供足够的空间变化信息，避免由于背景相似而引起的对镜头转变的漏检。 2 2 4 边缘比较法在同一个镜头中，物体在下一帧中的新边缘与上一帧中的旧边缘的位置是相当接近的。而当发生镜头转变时，新的物体边缘很少会在上一个镜头中相同的位置出现，并且旧的边缘也很少会在新镜头中相同的位置出现。边缘比较法就是基于这种思想来计算视频帧之间的非相似性。如果定义在第f 帧中的物体边缘的像素点的个数为毋，新出现边缘( 在上一帧中为非边缘而在第f 帧中为边缘) 的像素点的个数为即，消失边缘( 在上一帧中为边缘而在第f 帧中为非边缘) 的像素点的个数为五1 刚，则可以根据新出现边缘或消失旧边缘的比例来计算视频帧之间的非相似性【1 0 】： d ( i ，z + 1 ) = m a x ( x 7 q ，x ；7i c r “)( 2 一l o ) 为了增强该方法对物体运动和摄像机操作的鲁棒性，新出现的边缘应该远离上一帧中的旧边缘一定距离( 如若干个像素点) ，消失的旧边缘也必须远离下一帧中的新边缘某个距离以上。边缘比较法的缺点是需要耗费很大计算量来检测每帧画面的物体边缘，但它的使用效果与其巨大计算量并不成比例 4 1 。而且当视频中物体的边缘并不明显的时候，边缘比较法的效果也会较差。 2 2 5 压缩信息以上这些非相似性特征都是在非压缩视频中提取的，但目前绝大多数的数字视频是以压缩形式进行存贮的，须要将它们解压缩才能提取这些特征。为了避免视频解码所耗费的巨大计算量，很多基于压缩信息的视频分割方法被提出【l - l 。在压缩域上进行视频镜头分割有以下好处：首先，这种方法避免了视频解压的计算消耗；其次，由于压缩视频的低码率，提高了算法的效率；但最重要的是视频压缩技术是根据视频信息在时间和空间上的连续性进行编码的，这些压缩信息可以作为描述视频非相似性的特征，如m p e g 视频中的d c t 系数、宏块编码方式 9 基于集成学习的视频镜头分割技术研究第2 章视频镜头分割理论和技术和运动矢量等。 2 2 6 其它非相似性以上许多方法都使用基于曼哈顿距离的差异值累加的方法计算视频帧之间的非相似性。除此以外，还可以使用帧之间多个属性的欧氏距离或角度距离来表示它们的非相似性，有的学者还提出了基于信息熵的非相似性计算方法。信息熵( e n t r o p y ) 是信息论中用于度量信息量的一个概念。x i a o 等使用交叉熵 ( c r o s se n t r o p y ) 来衡量两帧视频属性( 如颜色直方图) 之间的距离【1 2 】。若连续帧中属性的概率分布分别为p = - 仞l 枕，p n ，q = g l ，q 2 ，们，则可以定义对称交叉熵： d ( p ：9 = ：。p , i n p 吼+ ：。q , i n p q f ，( 2 - 1 0 e e m e k o v 矗等使用交互信息量( m u t u a li n f o r m a t i o n ) 和联合熵( j o i n te n t r o p y ) 作为非相似性分别对镜头切变和渐变进行检测【1 3 】。视频中的颜色分成个等级，在第t 帧到什1 帧的变化过程中，如果从等级f 变成等级歹的像素点的个数为 c t ：l ( i j ) ，则这两帧之间的非相似性可以用交互信息量门口联合熵h 来表示：川= 一：。二川g 力l 。g 揣 ( 2 1 2 ) e 川= t 登。二c r 川( i , j ) l o g c , 川g 力( 2 - 1 3 ) 此外，对于高维度的非相似性表示方法，还可以使用主成份分析( p r i n c i p a l c o m p o n e n t sa n a l y s i s ，p c a ) 法和奇异值分解( s i n g u l a rv a l u ed e c o m p o s i t i o n , s v d ) 法减少非相似性特征的维度。这样既可以减少运算量，还能排除一些噪声或琐碎变化带来的影响【3 1 1 。 2 3 镜头边界检测算法抽取出视频帧的各种特征后，特别是帧之间的非相似性特征，就可以利用这些特征对各类镜头转变进行检测，确定镜头的边界。很多学者研究了这些特征在各种镜头转变时的规律，使用各种规则检测镜头边界。有的学者则利用机器学习方法去把握镜头边界与非边界的特征规律。 1 0 基于集成学习的视频镜头分割技术研究第2 章视频镜头分割理论帮技术 2 3 1 阈值法阈值法的基本思想是：当视频在某时刻t 的特征x t ) 超过某个阈值或者在某个范围内时，就认为此时发生视频镜头转变。个最简单的方法是使用全局阈值：厂o ) t ( 2 1 4 ) 这种方法在检测镜头切变时经常被使用到1 1 4 】。但是在通常的情况下，不可能找到一个合适的全局阈值使得算法对所有类型的视频和视频内所有种类的镜头转变都能适用。如果阂值设置过高，就会发生很多漏检情况；相反如果阂值设置过低，就会导致较高的误报率。因此，应该尽量避免使用全局阈值1 2 1 。为了解决阈值的适用性问题，很多自适应阈值的方法被提出，根据视频特征的局部信息或分布情况可以计算出，时刻的阂值；厂( ，) r c t ) ( 2 - 1 5 ) 一种常见的自适应阈值方法是使用视频的局部特征，被检查的当前帧前后各 w 帧组成一个滑动窗口，利用窗口内的视频特征值计算当前的动态闺值。如果被检查帧的特征值为此窗口范围内的最大值，并且该特征值与窗口内特征值的次大值( 或平均值) 的比例大于某阈值乜，则认为在此帧出现镜头切变d 5 , 1 6 1 ：厂( f ) = m a x f ( t + m ，i 【- - w ，w 】 ( 2 1 6 ) 忑鬟，川一w ，w 】歹0 ( 2 1 7 ) 即便如此由于参数a 也是一个预先定义的全局参数，因此这种方法移缺乏一定的稳定性。h a n j a l i c 等提出利用特征值的分布决定参数口：它利用高斯函数对特征值的分布建立模型撇，力，参数仅则由高斯分布的平均值和方差盯的比例来决定拉7 j 。 h a n j a l i c 提出了另一种基于概率统计的自适应阈值方法【1 4 】。它利用了帧间非相似性在不同情况下的分布和镜头长度等特征，用概率表示自适应闽值，使得平均错误率最小化：矧蚓m n 锵= 瓣u ( k ) p ( z ls ) l ；叫i j + )墨( s ) 芹( s ) 最( 1 s1) p 一7 其中s 和j 分别表示两个假设：在第七帧和第胁，帧之间发生镜头转变；在基于集成学习的视频镜头分割技术研究第2 章视频镜头分割理论和技术第k 帧和第m 帧之间的视频属于同一个镜头。z ( 屯斛，) 表示第k 帧和第斛，帧之间的非相似性，p ( z l s ) 和p 俐动分别表示当z 取某值时，发生镜头转变与否的概率，它们分别服从某种分布函数并可以通过训练得到其参数。而p k ( s ) 表示假设s 在当前状况下成立的概率，它由当前镜头长度的先验概率和视频局部特征的条件概率决定。阂值法在检测镜头切变上使用得比较多，这是因为镜头切变发生在某个时间点上，表现出十分突出的非相似性特征；而镜头渐变则发生在一个时间段内，每帧的特征都不明显，很难根据某个时刻的特征值是否超过阈值进行镜头渐变的检测。为此，z h a n g 等提出了双阈值法来判断镜头的切变和渐变f 1 8 j ： a b r u p tt r a n s i t i o n ：f ( ，) 瓦( 2 - 19 ) g r a d u a l t r a n s i t i o n ：乃厂o ) 瓦，f 【f ，乙】 ( 2 2 0 ) 这种方法需要设置两个阈值：较高的阈值瓦用于检测镜头切变，如果某时刻视频帧的特征值大于霸，则被认为此时发生切变；对于其余的视频帧，从某时刻岛开始到另一时刻乙结束的时间段内，假如其中的所有视频帧的特征值都大于某个较低的阈值乃，并且它们特征值累加的和大于死，则认为在这个时间段发生镜头渐变。 2 3 2 模型法阈值法对镜头切变的检测比较有效，因为切变是在瞬间完成的，它表现出的特征往往与没发有发生切变时有很大的差别。面是镜头渐变是个相对缓慢的过度过程，它的变化是细微的，通常无法根据某一时刻的变化特点来判断镜头渐变。但是这个过程往往是有规律可寻的，比如淡出过程是个从有到无的过程，而淡入则相反。因此，研究人员根据这些规律建立模型对不同的镜头变化做出检测。 h a m p a p u r 和s o n g 等根据镜头渐变的特点，提出了淡出、淡入和叠化时的变化模型【1 9 测。在向黑色画面淡出过程中，画面e h 亮变暗，颜色逐渐变黑，可以描述为：厶( x , y ，f ) = g ( x , y ，) a ( ，)( 2 2 1 ) 其中厶缸奶d 是淡出过程中f 时刻在( x 位置上的颜色属性；鼬奶d 是被淡出的画面在t 时刻在) 位置上的颜色属性，如果被淡出的画面是静止的，则 1 2 基于集成学习的视频镜头分割技术研究第2 章视频镜头分割理论和技术如，f ) 为定值。反是描述淡出过程中画面颜色随时间变化的函数。对于线性的淡出过程，a ( 力= 1 t t ，t 是整个淡出过程的时间。而对于淡入过程，则可以表示为：兀( x ，y ，f ) = g ( x ，y ，t ) f l ( t )( 2 2 2 ) 在线性淡入过程中，f l ( t ) = t t 。叠化的过程则可以看成是淡出和淡入过程的结合： k ( x ，夕，f ) = w 厶厶( x ，y ，f ) + o 0 ( x ，y ，)( 2 - 2 3 ) 为了检测这些变化模型，定义常量图( c o n s t a n ti m a g e ，c i ) 描述每帧画面上颜色的变化：垆织例如对于静止画面的线性淡出过程，颤，f ) 一g ( x 力，a ( o = l t t ，则 c i ( x # , t ) = - ( 1 t ) a ( t ) 。这个一个与位置( x 无关的关于时间，的函数。因此可以根据常量图曲线对镜头渐变过程进行检测。 a l a t t a r 利用画面像素值的平均值和方差对镜头的淡出和淡入变化进行检测，提出了淡出淡入过程中的两条规律【2 l 】：首先，对于像素值方差的二阶差异曲线，在淡出淡入时出现负值尖峰；另外，对于像素值平均值的一阶差异曲线，在出现负值尖峰后维持在一个相对固定的值。t r u o n g 等对这个方法进行了改进【2 2 1 。首先找出视频中所有的单色帧，作为候选淡出淡入过程的最后一帧第一帧，因为淡出淡入过程通常是以单色帧作为结束开始的。然后检测像素值方差的二阶差异曲线是否出现负值尖峰，并要求淡出淡入过程中像素值平均值差异的符号不变。镜头扫换也有其自身特点。l i 和l e e 使用扫换的独立性和完全性对其进行检测【2 3 1 。所谓独立性是指画面中的每个像素都会改变一次；完全性是指画面里所有像素点都发生改变。镜头淡出、淡入、叠化和物体运动都不具有独立性和完全性；摄像机操作时会表现出独立性，但不满足完全性；只有镜头切变和扫换具备独立性和完全性，但两者持续时间不同，可以很容易区分它们。对于各种检测规则，可以使用形式语言来描述。z h e n g 等提出使用有限状态 1 3 基于集成学习的视频镜头分割技术研究第2 章视频镜头分割理论和技术自动机( f i n i t es t a t ea u t o m a t a , f s a ) 检测持续时间较长的镜头渐变【2 4 】。该方法使用个基于运动的自适应阈值作为状态转换的判断标准。当连续三帧的特征超出阈值，则认为这是镜头渐变候选序列的开始，而当连续5 帧中有3 帧的特征低于阈值，则认为渐变结束。与这种方法相类似，l i u 等提出了一组有限状态机( f i n i t e s t a t em a c h i n e ，f s m ) 对不同的镜头变化分别做出检测【2 5 l 。基于模糊逻辑( f u z z yl o g i c ) 的模糊规则也可以被使用到镜头边界检测算法中。j a d o n 等定义了关于非相似性特征的模糊集合：可忽略的、细微的、显著的、较大的和极大的。利用非相似性特征的分布计算它们对每个模糊项的隶属度，然后根据各种模糊规则对镜头转变进行检测f 2 6 1 。一条最简单的模糊规则是：如果某时刻的非相似性是极大的，而它前后时刻的非相似性是可忽略的，则认为此时发生了镜头切变。 2 3 3 聚类法阈值法和模型法都是基于规则的方法，需要预先设计好某些合适的规则。但通常某种镜头边界检测规则只能对某类视频有效，不存在对所有类型的视频和视频内所有类型的镜头转变检测都适用的规则。另外，对于某些特殊的视频和镜头转变，很难设计出一个有效的规则对其进行检测。为此，很多基于机器学习的方法被应用到视频镜头分割领域中，利用镜头边界与非边界的数据特征，自动寻找有效的“规则来检测镜头的边界。聚类( c l 蜮e r i n g ) 是一种无监督学习( u n s u p e r v i s e dl e a r n i n g ) 方法，它根据样本的特征把它们分成若干个簇，每个簇中的样本被认为是相同的类型。 g o n s e l 等使用k 均值( k - m e a n s ) 聚类算法把视频帧分成两类【2 7 】：一类是连续帧之间非相似性较大的帧，可以认为镜头变化发生在这些帧中；另一类则是帧间非相似性较小的，没有发生镜头变化的帧。对于第一类的视频帧，如果有某些帧是相邻或者它们之间的时间少于某个阈值，则认为这些帧属于镜头渐变；而那些在时间上相对孤立的帧则被认为是镜头切变。文中作者使用颜色直方图比较法来衡量非相似性，并比较了算法在不同的颜色系统下的效果。实验表明，在y u v 颜色系统下使用基于f 检验的直方图比较法来衡量非相似性，该算法能够检测出最多准确的镜头边界。而在他们的后续研究中发现，结合直方图比较法和像素 1 4 基于集成学习的视频镜头分割技术研究第2 章视频镜头分割理论和技术点比较法作为属性的聚类方法【2 引，能够取得较高的召回率( r e c a l lr a t e ) 和精确率 ( p r e c i s i o nr a t e ) 。 l o 和w a n g 使用了模糊c 均值( f u z 巧c m e a n s ，f c m ) 聚类算法【2 9 1 和矩不变 ( m o m e n tp r e s e i i l g ) 聚类算法【3 0 1 ，以颜

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于集成学习的视频镜头分割技术研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于集成学习的视频镜头分割技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档