




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
济南大学硕士学位论文 摘要 随着视频压缩技术、计算机及网络的发展,产生了海量的视频,如何对大量视频 信息进行有效检索逐渐成为人们研究的热点。视频镜头分割作为视频检索的基础,对 其研究具有重要意义。目前常用的视频镜头分割技术大多是基于视频中相邻两帧的简 单差分法进行的,很容易受噪声干扰。通过对视频镜头切换方式的分析,采用图分割 模型的方法来进行视频镜头边界检测。由于电视广告检测对于减少和杜绝违法广告等 有重要意义,所以将镜头边界检测技术应用于视频广告检测。 镜头切换检测主要分三部分:视频图像内容的表达,构造视频流连续信号,连续 信号的分类。首先采用了h s v 颜色直方图来表示视频图像内容;然后利用图分割模型 构造视频流连续信号,采用阈值法对波谷状的区域进行提取,将其作为候选区域;最 后利用粒子群优化的神经网络集成对候选区域进行切变镜头边界和不含单色帧的渐 变镜头边界区域的提取,对于含有单色帧的渐变镜头边界区域,采用单色帧这一特征 进行判别。对1 0 3 个视频节目独立地进行测试,切变镜头边界检测获得了9 7 8 1 的 正确率,含有单色帧的渐变镜头边界检测获得了9 2 3 1 的正确率,其他渐变镜头边 界检测获得了8 8 8 9 的正确率。 在前期工作的基础上,本文将镜头分割技术应用于视频广告检测中。通过分析广 告的两个基本特点:镜头切换比较频繁和经常突显商标信息,进行了初步的检测研究。 镜头切换频率较高的初步判定为广告,否则判定为非广告。对于镜头切换频率很低的 广告,通过文本检测的方法进行广告商标信息的检测。初步建立了一个视频广告检测 系统。对三段视频节目进行了测试,获得了8 1 1 1 的总正确率。 对于镜头切换检测来说,切变检测已经取得了较好的效果,但是对其它渐变镜头 检测的效果还不是很理想。日后工作的要点将集中在渐变镜头边界的检测。 关键词:镜头分割;图分割模型;粒子群优化算法:神经网络集成;广告视频检索 i l l 济南大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fm u l t i m e d i ac o m p r e s s i o nt e c h n o l o g ya n dc o m p u t e rn e t w o r k , t h e r ea r em o r ea n dm o r em u l t i m e d i ai n f o r m a t i o n , h o wt og e tt h er i g h ti n f o r m a t i o nw ew a n t e x p e d i t i o u s l ya n dp r e c i s e l yf r o ms u c he n o r m o u sm u l t i m e d i ai n f o r m a t i o nb e c o m eah o t r e s e a r c hg r a d u a l l y s h o tb o u n d a r yd e t e c t i o na sab a s i sf o rt h ev i d e or e t r i e v a lh a sag r e a t s i g n i f i c a n c e a tp r e s e n ts h o tb o u n d a r yd e t e c t i o ni sm o s t l yb a s e do ns i m p l ed i f f e r e n c eo f t h et w oa d j a c e n tv i d e of r a m e s i ti se a s i l yd i s t u r b e db yn o i s e t h r o u g ht h ea n a l y s i so fs h o t b o u n d a r y , t h em e t h o do fg r a p hp a r t i t i o nm o d e li su s e df o rs h o tb o u n d a r yd e t e c t i o n t v a d v e r t i s e m e n tr e t r i e v a li s b e c o m i n ,g a n i m p o r t a n t i s s u et od e c r e a s et h e i l l e g a l a d v e r t i s e m e n t , s o t h e t e c h n o l o g y o fs h o t b o u n d a r y d e t e c t i o ni s a p p l i e d t ot v jt # t 7 1 4 a t t a d v e r t i s e m e n tr e t r i e v a l t h et e c h n i q u e so fs h o tb o u n d a r yd e t e c t i o nc o n s i s to ft h r e ec o r ee l e m e n t s ,t h e r e p r e s e n t a t i o no fv i s u a lc o n t e n t ,t h ee v a l u a t i o no fv i s u a lc o n t e n tc o n t i n u i t ya n dt h e c l a s s i f i c a t i o no fc o n t i n u i t yv a l u e s f i r s to fa l l ,t h eh s vc o l o rh i s t o g r a mi su s e dt or e p r e s e n t v i s u a lc o n t e n t ;t h e ng r a p hp a r t i t i o nm o d e li su s e dt oc o n s t r u c tv i d e os t r e a m i n gs i g n a l ,t h e t h r e s h o l dm e t h o di su s e dt oe x t r a c tt h et r o u g h - s h a p e dr e g i o n sa st h ec a n d i d a t e s ;f i n a l l y , t h ec u ta n dg r a d u a lt r a n s i t i o nw i t h o u tm o n o c h r o m ef r a m e sa r ee x t r a c t e db yt h en e u r a l n e t w o r k s t h eg r a d u a lt r a n s i t i o nr e g i o n s 、析吐lm o n o c h r o m ef r a m e sc o u l db ee x t r a c t e db y t h ec h a r a c t e ro ft h em o n o c h r o m ef r a m e s t h ed e t e c t i o no fc u t sh a sap r e c i s i o nr a t eo f 9 7 8 1 ,t h eg r a d u a t i o nt r a n s i t i o n 谢mm o n o c h r o m ef r a m e sh a s9 2 3 1 ,o t h e rg r a d u a t i o n t r a n s i t i o nh a s8 8 8 9 ,i na l l10 3p r o g r a m s i nt h eb a s i so fp r e l i m i n a r yw o r k , t h et e c h n o l o g yo fs h o tb o u n d a r yd e t e c t i o ni sa p p l i e dt o t va d v e r t i s e m e n tr e t r i e v a l a sw ek n o w , a d v e r t i s e m e n th a st w ob a s i cf e a t u r e s :f r e q u e n t s h o tc h a n g e sa n da p p a r e n tb r a n di n f o r m a t i o n t va d v e r t i s e m e n ti se x t r a c t e db yt h eh i g h e r f r e q u e n c yo ft h es h o tb o u n d a r y a sf o rt h o s e a d v e r t i s e m e n t s 、杭t hl o ws h o tc h a n g e f r e q u e n c i e s ,t h et e x td e t e c t i o nm e t h o di se m p l o y e dt oe x t r a c tt h eb r a n di n f o r m a t i o n a v i d e oa d v e r t i s e m e n tr e t r i e v a ls y s t e mi sd e s i g n e da n dr e a l i z e d t h ed e t e c t i o nf o rv i d e o a d v e r t i s e m e n th a sap r e c i s i o nr a t eo f81 11 i nt h r e ev i d e op r o g r a m s t h ed e t e c t i o no ft h ec u th a sab e t t e rr e s u l t ,b u tt h er e s u l to ft h eg r a d u a t i o nt r a n s i t i o ni s v 基于图分割模型的镜头切换检测和视频广告检测的研究 n o tv e r ys a t i s f a c t o r y t h em a i nf u t u r ew o r kw i l lf o c u so nt h ed e t e c t i o no ft h eg r a d u a l t r a n s i t i o nb o u n d a r y k e y w o r d s :s h o tb o u n d a r yd e t e c t i o n ;g r a p hp a r t i t i o nm o d e l ;p s oa l g o r i t h m ;n e u r a l n e t w o r k s ;v i d e oa d v e r t i s e m e n tr e t r i e v a l v l 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出 重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律责任由本人承担。 论文作者签名:立陴 e l 期:j 巫丑进 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借鉴;本人授权济南大学可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保 存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:辑导师签名: 济南大学硕士学位论文 第一章引言 1 1 视频镜头分割的重要意义 随着视频压缩技术、计算机性能及网络的发展,产生了海量的视频信息,并且人 们可以方便地接触到这些数字多媒体。视频信息是人类社会生活中必不可少的重要资 源,信息化使人类正步入一个丰富多彩的信息时代。基于内容的视频检索在最近几十 年成为了研究的热点问题【”】。对视频资源的有效获取、处理和利用,将直接影响到 社会生活中各项工作的进展和结果。 如何在浩瀚的“信息海洋 中准确地获取感兴趣的信息是人们长期思考和研究的 问题,信息组织和检索是解决问题的有效方法。随着各种科学技术的不断进步和发展。 特别是计算机、通信和多媒体技术的飞速发展,信息的表现形式日益丰富。人们每天 不但能接触到大量的文本信息,还有图形、图像、声音、视频、动画等形式表现的各 种多媒体数据,信息检索中信息的概念也因此得到了扩展。有学者将信息检索定义为 从大量的文档集中获取用户需要的相关信息,这里的文档不仅包含文本信息,也包含 各种多媒体信息。 人类接受的信息约有7 0 来自视觉,视频所携带的信息量远远大于语音和文字, 它具有确切、直观、具体、生动、高效等特点,这就决定了视频通信将成为人类最主 要的通信手段之一。在文本、图形、图像、声音、视频、动画等多媒体信息的表现形 p 式中,视频信息以其直观性、生动性备受人们青睐。视频信息由一帧帧图像数据构成。 具有数据量大且内容丰富等特点。随着人们需求的增长,多媒体技术的进步,视频信 息的数量和种类的分布还在不断迅速地增长和扩展。对视频数据进行有效地组织、表 达、管理、查询和检索已成为视频检索研究领域中的热点问题。 结构化的视频数据被证明是最有效的视频组织方式,也最利于用户的管理以及进 行基于视频内容的索引等高层语义操作。r u i 等人1 4 】提出将视频流按内容进行层次划 分,一个视频节目或电影通常是由许多场景组成,场景又由一个或几个相关的镜头组 成。一个境头由_ 个摄像机连续拍摄得到的时间上连续的若干帧组成。为访问视频内 容,需要将视频分解成基本单元镜头的集合大多数情况下,视频镜头分割是视频处 理的前提。镜头检测技术已经应用在很多实际的视频检索系统中。 镜头实际上代表了时间和空间上的一个连续事件,是组成视频的最基本的元素。 镜头检测意味着获取视频的最基本元素,将视频分成时间和空间上的最小逻辑单元, l 幕于图分割模型的镜头切换检测和视频广告检测的研究 为后续的视频抽象和高语义层次的视频分割视频修复等提供了基础。视频产品中镜 头的转换是根据视频的内容和衔接关系精心挑选的。而镜头检测能够恢复镜头转换的 位置和类型,这有助于计算机推导高层的语义信息。因此,对视频镜头检测进行研究 具有重要意义。 1 2 视频镜头分割技术难点 镜头的分割方式主要有两大类,即切变( c u tt r a n s i t i o n ) 和渐变( g r a d u a lt r a n s i t i o n ) 。 镜头的切变又称为剪切( c u t ) ,是指一个镜头直接切换成下一个镜头,中间没有时间 上的延迟。镜头渐变是两个镜头之间通过视频编辑特效连接在一起。渐变镜头又分很 多种,渐变类型较多,常见的有淡入淡出( f a d e ) 、溶解( d i s s o l v e ) 、划变( w i p e ) 等1 5 】。 要想对视频镜头分割取得较好的效果,必须要解决三个主要的难点:渐变镜头的检测、 变化的光线强度的干扰、视频中较大目标及相机运动的影响1 1 。 ( 1 ) 渐变镜头的检测 渐变镜头较切变镜头检测,仍旧是视频镜头分割中的一个难点【6 1 。在文献【7 1 中, l i e n h a r t 对渐变镜头比切变镜头难检测的原因进行了深入的分析。可以将概括为三点: 首先,渐变镜头包含了各种各样的视频编辑效果,包括消融,划变,淡入淡出等。每 种编辑效果反应到视频流的连续信号上的形状不一;其次,渐变要经过较长的一段视 频帧,可以从两三帧到几十帧;最后,渐变的视频连续信号与物体及相机运动时的视 频信号相类似,因为它们都有一个逐渐变化的过程。 ( 2 ) 变化的光线强度的干扰 大多数视频图像内容的表达方式采用颜色直方图的方式,但是颜色空间受到光 线强度的影响很大。光线强度变化经常造成误检,将光线强度发生变化处误检为切变。 ( 3 ) 视频中较大目标及相机运动的影响 因为镜头中内容的突然转变导致了镜头的切换,但是如果视频中有大目标及相 机的快速运动,也会导致与切变一样的视频信号。比较慢速的大目标及相机的快速运 动还又可能会出现与渐变镜头相类似的信号。此处比较难区分。 1 3 国内外研究现状 。检测出视频中的每一个镜头,就可以将视频以镜头为单位进行分割,还可以统计 出该段视频的镜头切换频率。镜头切换检测是视频分析的第一步也是最基本的一项内 容,能否准确、快速地检测出镜头对于视频分析和检索具有重要影响。 2 济南大学硕士学位论文 文献 8 - 9 1 对多种镜头边界检测算法进行了比较。以往检测算法的要点包括两个方 面:一是特征( f e a t u r e ) 及度量( m e t r i c ) ;- - 是针对度量的决策算法。特征用来刻画 视频流中每一帧的视觉内容特性即视频图像内容的表达,可以是颜色 r l 边缘【1 0 】或者压 缩域上的参数【1 1 】;度量用来刻画视频流中帧与帧之间的特征变化,文献旧对多种度量 进行介绍并比较了它们的性能。决策算法的任务则是根据度量采取一定策略和算法检 测出镜头边界。 关于镜头边界检测,目前已经提出了许多的算法。现有的视频镜头边界检测算 法主要分为两大类【1 3 】基于像素域的方法和基于压缩域的方法。镜头切换检测的关键问 题是如何度量相邻帧之间的差别。下面介绍几种常见的镜头切换检测方法 ( 1 ) 基于像素比较的方法【1 4 - 1 6 1 对于相邻两帧图像f ( x ,弘,) 和f ( x ,y ,t + 1 ) ,可以计算其对应位置上两个像素的灰 度差: ,d = i f ( x ,y ,t ) - f ( x ,y ,t + 1 ) l ( 1 1 ) 如果灰度差超过了某一阈值则判定该像素值发生了改变,如果改变了的像素比例 超过了某一阈值,则说明视频序列中发生了镜头切换。通过计算像素各个彩色通道的 差,也可以检测彩色视频中的镜头切换【1 7 1 。 如果存在较大范围的物体运动或镜头运动时,像素比较法容易引起误判。为此人 们提出基于块匹配的方法。 ( 2 )基于块匹配的方法 选取对应某位置为中心的某个子图像块内所有像素的灰度差,则可获得两帧相邻 图像对应块的灰度差: y f f i ”p 2x = ,2 d = i ( 墨y ,t ) - f ( x ,y ,h 1 ) l ( 1 2 ) y h ,| 2x f f i - n 1 2 如果这两帧图像中灰度差大于某个阈值的窗口数超过一定数目,则说明该视频序 列中发生了镜头切换。随着计算量的增加,该方法可以给出较好的结果。块匹配的方 法对于同一镜头中前后两帧图像整体亮度发生变化的情况,会出现误判。 ( 3 ) 基于直方图的方法 基于直方图的方法n 首先要计算图像的亮度或颜色直方图h f ( x ,y ,f ) ,k 】,其中 k = o ,1 ,k - 1 。然后,可以采用不同的方法来比较前后两帧图像直方图的统计。最 直接的方法就是计算直方图之差d : 基于图分割模型的镜头切换柃测和视频广告检测的研究 k - l d = i n e f ( x ,y ,f ) ,k l - h f ( x ,y ,f + 1 ) ,硎 k = 0 或采用欧式距离来进行,即比较直方图对应项的差再求和: k - i d = 日【厂( x ,y ,f ) ,k l - h f ( x ,y ,f + 1 ) ,明) 2 k = 0 或采用归一化的z 2 来比较彩色直方图各分量间的距离: k - i 日 ( x ,j ,) ,k l - h f ( x ,y ,f + 1 ) ,后】) 2 h f ( x ,y ,h 1 ) ,明 ( 1 3 ) ( 1 4 ) ( 1 5 ) 如果两帧图像的d 大于预先确定的某阈值,那么通常可认为发生了镜头切换。 基于直方图的方法可以有效地降低由于镜头或拍摄对象的运动对镜头切换检测 的影响,这是因为前后两帧中存在物体或镜头运动时它们的直方图一般非常相似。同 时,为了减少局部照明和目标运动的影响,可将图像划分成小块,对每个小块分别用 上式进行计算。计算后,将差值最大的一些块删去,仅考虑其余的块。但是具有不同 目标的场景有近似的灰度或颜色直方图分布时容易造成漏检。 ( 4 )基于局部特征的方法 基于局部特征的镜头切换检测方法是对图像的不同部分分别对待。最常用的方法 是考虑图像的边缘或轮廓信息。在前后两帧间有镜头切换时,一般新进入视场的边缘 会与原来的边缘不重叠且有较远的距离,而从视场里消失的原有边缘也会与新来的边 缘相距较远。这样通过分别计算连续两帧图像中进入和消失的边缘像素并比较它们之 间的距离就可以检测出镜头切换。 z a b i h 等人利用了边缘信息来进行检测【2 0 l ,主要是对两帧相邻的图像,先用高斯 滤波器对图像进行平滑,计算图像的梯度,对梯度幅度取阈值,并用c a n n y 算子提取 边缘信息。通过比较前后两帧的边缘变化个数,若个数发生了较大的变化,则可判定 发生了镜头切换。 算法的具体步骤为: ( 1 ) 边界检测及膨胀; ( 2 ) 计算边界改变:首先进行全局补偿,然后计算边界改变部分,最后计算新 出现的像素比例和消失的像素比例的边界; ( 3 ) 判断渐变的类型:若 ,则为淡入( f a d ei n ) ;若风 ,而在后半段中风 五,则认为检测到一次镜头切换。为了减少由于相机和物体 运动造成的误检,将检测到的突变再与第二个阈值正比较( 0 互 正 1 ) ,如果 墨 l - d ( i ,f + ) l 正,则对这两帧进行解码,用颜色直方图进行比较。 还可以直接对两帧各个块的d c t 系数相减求和,如果差值超过了给定的闺值z , 则认为该块发生了变化;如果发生变化的块的个数超过了另一个阈值,则认为镜头发 生了切换。 这些方法只适用于m p e g 压缩视频中的i 帧图像,因为只有i 帧没有用到时间预 测编码,能够独立解码。由于只处理i 帧,计算量大大减少,但时间分辨率也降低了, 从而导致误检。 2 、基于d c 序列的检测方法 对于m p e g 视频序列的每一帧提取d c 图像就可以得到d c 序列,用d c 序列来 检测镜头切换,可以大大较少计算量及内存空间的开销,提高检测速度。d c 图像可 以直接从d c t 系数中抽取直流系数获得,对于p 、b 帧而言,由于它们传送的是预 测或者插值后得到的剩余误差的d c t 系数,实际的d c t 系数需要通过运动补偿获得。 3 、基于宏块类型的检测算法 在m p e g 码流中,每个b 帧是用它前后的i 帧和p 帧通过运动补偿来预测和插 值的,仅仅对残差进行了编码。每个b 帧前后的向前和向后进行运动补偿的宏块个 数是同该b 帧与其前后的l 帧或p 帧的相关性成正比的。如果两帧图像间有较大的不 连续性,将会导致b 帧中子块的运动补偿方式不同。由此,根据b 帧中宏块的类型 可以检测镜头切换。 直接在m p e g 域中提取出b 帧的宏块类型后进行检测,检测速度得到了很大的 6 济南大学硕士学位论文 提高,但是该方法检测效果不稳定,有时会出现漏检和误检。 4 、运动矢量分析 在检测镜头边界尤其是渐变镜头时,如何把相机运动所引起的镜头内部的变化与 镜头切换区分开来是个难题。这需要对视频进行运动分析( 如光流场分析) ,找出相机 运动的特征,再加以区分。在m p e g 压缩域,可以通过分析运动矢量来实现。 现有的针对度量的决策算法包括全局阈值法、自适应阈值法、双阈值比较法【2 5 1 、 基于统计的决策算法。全局阈值法对整段视频序列采用一个全局阈值,这种方法最简 单直接,但鲁棒性差,对于不同类型的视频片段或同类型视频的不同时间片段需要设置 不同的阈值。自适应阈值法利用一个滑动窗口,统计该窗口内视频的局部特性,根据统 计特性设定动态阈值。以上两种方法适用于检测突变镜头,不能对渐变镜头进行准确 定位。文献【2 5 】提出的双阈值比较法能够检测出渐变镜头的起始和终止位置,但不能区 分缓变镜头边界的具体类型。 文献【1 1 2 6 1 利用单色帧进行淡入淡出镜头边界的检测,然后利用有权图模型来刻画 视频流中帧与帧之间的特征变化,构造出视频流的特征曲线,最后采用支持向量机这 个决策算法进行切变及其它渐变镜头边界的检测。当视频流中出现淡入淡出镜头切换 时,一般会出现单色帧但是出现单色帧时不一定会发生淡入淡出的镜头切换。因此会 造成误判。针对这一问题,首先构造视频流特征曲线,采用神经网络集成进行切变镜 头边界检测,然后利用特征曲线和单色帧这两个特征来共同进行淡入淡出及含有单色 帧划变的镜头边界检测。最后进行其它渐变镜头边界检测。 1 4 论文的主要内容、研究方法和章节安排 本文主要研究的是视频的各种镜头边界检测方法,并将其应用广告视频检测系 统。利用镜头切换频率及文本信息进行广告视频的检测,建立了一个广告视频检测系 统。 后面各章的主要内容及创新点如下: 第二章介绍了本文涉及的基础理论知识。 第三章介绍了基于图分割模型的视频镜头边界检测的方法。本章将视频镜头边界 检测分为三部分:视频图像内容的表达,连续信号的构造,连续信号的分类。首先, 采用了h s v 颜色直方图对视频图像内容进行表达;其次,通过图分割模型进行视频 流连续信号的构造;最后,利用粒子群优化的神经网络对视频流连续信号进行分类, 即进行切换镜头的边界检测。给出实验结果及分析。 7 基于图分割模型的镜头切换检测和视频广告检测的研究 j i i 一, , j 一 i i 皇曼鼍皇曼皇詈皇曼詈! 曼! 詈苎曼葛! 曼 第四章主要介绍视频镜头分割技术在广告视频检测系统中的应用以及所做过的 其它相关工作。 第五章是总结及展望。 8 济南大学硕士学位论文 2 1 视频基础知识 2 1 1 视频标准 第二章视频处理基础 视频流传输中最为重要的编解码标准有国际电联的h 2 6 1 和h 2 6 3 ,运动静止图 像专家组的m j p e g 和国际标准化组织运动图像专家组的m p e g 系列标准【2 7 1 。 m p e g 是运动图像专家组( m o v i n gp i c t u r ee x p e r t sg r o u p ) 的缩写,m p e g 组织 目前已提出m p e g 1 、m p e g 2 、m p e g 4 、m p e g 7 和m p e g 2 1 标准。 m p e g 4 与m p e g 1 和m p e g 2 有很大的不同。m p e g - 4 不只是具体压缩算法, 它是针对数字电视、交互式绘图应用( 影音合成内容) 、交互式多媒体( w w w 、资料 撷取与分散) 等整合及压缩技术的需求而制定的国际标准。 m p e g 4 标准同以前标准的最显著差别在于它是采用基于对象的编码概念,即在 编码时将一幅景物分成在时间和空间上相互联系的视频音频对象,然后分别进行编 码,再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的 视频和音频。 本文实验的视频来源就是m p e g - 4 标准的视频。 2 1 2 视频数据结构 视频数据可用幕、场景、镜头和帧单元进行描述,这些视频结构元素的概念如下: ( 1 ) 视频帧 帧( f r a m e ) 是一幅静态图像,是组成视频的最小逻辑单元,将时间上连续的帧 序列按等间隔连续播放,就形成了动态视频。 ( 2 ) 视频镜头 镜头( s h o t ) 是由系列帧组成的一段视频,一个摄像机的连续拍摄动作形成了 一个镜头,它描述一个事件、场面的一部分。 ( 3 ) 视频场景 场景( s c e n e ) 可能包含多个镜头,针对的是同一环境下的同一批对象,但拍摄 的角度和技法不同,它是一个有意义的故事单元,通过组织形成一个故事情节。一个 场景可以只包含一个镜头。 9 基于图分割模型的镜头切换检测和视频广告检测的研究 ( 4 ) 视频幕 幕( a c t ) 又直接称为视频节目( p r o g r a m ) ,它是一系列相关的场景组成的一大 段视频,包含一个完整的事件或故事。 2 1 3 视频压缩域相关知识 l 、m p e g 帧图像类型 在m p e g 中将图像分为3 种类型: ( 1 ) i 图像( i n t r a p i c t u r e s ,帧内图像) i 图像是利用图像自身的相关性压缩,编码不需要其他帧的图像作参考,这些帧 图像是预测图像( p ) 帧和双向预测图像( b ) 帧的参考图像,所以压缩率不高,压 缩后每个像素为l 2 b i t 。 ( 2 ) p 图像( p r e d i c t e dp i c t u r e s ,预测图像) p 图像是参考过去的帧内图像或者过去预测得到的图像用运动补偿预测技术进 行编码,这些预测图像通常作为进一步预测的参考,预测图像编码效率较高。 ( 3 ) b 图像( b i d i r e c t i o n a lp r e d i c t i o n ,差补图或双向预测图像) b 图像在预测时,既可使用前一个图像作参照,也可使用下一个图像作参照,或 同时使用前后两个图像作为参照图像( 双向预测) ,它的压缩率最高,但双向预测图 像不作为预测的参考图像。 2 、d c t 系数 每个图像分为8 * 8 的图块,对每个图块进行离散余弦变换d c t ( d i s c r e t ec o s i n e t r a n s f o r m ) 。d c t 变换后经过量化得到的交流分量系数即为d c t 系数。 3 、d c 图像 d c 图像是原图像在空间域上的微缩,它的每个像素代表原图的一个8 8 的块, 其像素值是对应块的平均值。d c 图像保留了原图的重要信息,但其大小仅为原图的 1 6 4 。 2 2 颜色空间相关知识 对于视频镜头边界检测来说,颜色包含了非常重要的视觉信息。从视觉角度来讲, 颜色可分为彩色和非彩色两大类。非彩色指黑色、白色及其两者之间深浅不同的灰色, 称为非彩色或无色系列。彩色系列或有色系列是指除了白色系列以外的各种颜色。为 了定量地描述颜色对人眼的视觉作用,可以选用亮度、色调、色饱和度这三个与视觉 1 0 济南大学硕士学位论文 特征有关的量来计算描述,这三个量称为颜色的三个基本属性。色调是由物体反射光 线中占优势的波长来决定的,不同的波长产生不同的颜色感觉,如红、橙、黄、绿、 青、蓝、紫等。色调是彩色的最重要的属性,是决定颜色本质的基本特性。颜色饱和 度是指一个颜色的鲜明程度,饱和度越高,颜色越深,如深红,深绿。在物体反射光 的组成中,白色光越少,则其色饱和度越大。在颜色中加上白色或灰色愈多,其饱和 度就愈小。亮度是指作光波作用于感受器所发生的效应,其大小是由物体反射系数来 决定,反射系数越大,物体的亮度愈大,反之,愈小。 2 2 1i - i s v 颜色空间 h s v ( h u e ,s a t u r a t i o n ,v a l u e ) 空间模型与人的视觉特性比较接近,h s v 可用一个 倒置的六棱锥来表示如图2 1 所示。 六棱锥的底面对应于v - 1 ,即最大亮度。棱锥的顶点对应于v = 0 ,为黑色。h 表 示颜色( 或色调) ,数值从0 到3 6 0 度。s 表示饱和度, 取值从o ( 在棱锥轴线处) 到1 ( 在棱锥的底边和侧面 处) 。在v = 0 处,s 可取0 和1 间的任何值。s = 0 对应 棱锥轴线,它表示灰度。当s = 0 时,此时h 的取值是 无关的。v = 1 ,s = 1 时对应纯彩色,增加白色时s 减 小,增加黑色时v 减小。从r g b 到h s v 之间的变 换是非线性、可逆变换。具体变换算法如下【2 8 】: m a x = m a x i n u m ( r , g ,b ) ; m i n = m i n i m u m ( r , g ,b ) ; v = m a x ;s = ( m a x l = 0 ) ? ( ( m a x m i n ) m a x ) :0 ; i f ( s = = o ) h 爿肘d e f i n e d ; e l s e d e l t a = m a x - m i n ; i f ( r = - - m a x ) h = ( g - b ) d e l t a ; e l s ei f ( g = - - m a x ) 青 图2 1h s v 空间的三维表示 基于图分割模型的镜头切换检测和视频广告检测的研究 h = 2 o + ( b 一0 d e l t a ; e l s ei f ( b = - - m a x ) h = 4 0 + ( r - g ) d e l t a ; h = h 牛6 0 o ; i f o a 0 0 ) h + = 3 6 0 ; ) 在上面的代码中,r 、g 和b 的值都事先归一化到 0 ,1 】内,变换后的h 取值范 0 ,3 6 0 , s 和1 ,的取值范围为【o ,1 】。 l 0 fh ( 3 4 5 ,1 5 】 i 1 fh ( 1 5 ,2 5 】 l 2 圹h ( 2 5 ,4 5 】 l 3 fh ( 4 5 ,5 5 】 l4 fh ( 5 5 ,8 0 】 i 5 fh ( 8 0 ,1 0 8 】 l 6 fh ( 1 0 8 ,1 4 0 】 日:j7 f h ( 1 4 0 , 1 6 5 】 l 8 fh ( 1 6 5 ,1 9 0 】 l9 fh ( 1 9 0 ,2 2 0 】 i1 0 fh ( 2 2 0 ,2 5 5 】 l 11 f h ( 2 5 5 ,2 7 5 】 i1 2 fh ( 2 7 5 ,2 9 0 】 i1 3 fh ( 2 9 0 ,3 1 6 】 i1 4 fh ( 3 1 6 ,3 3 0 】 l1 5 fh ( 3 3 0 ,3 4 5 】 1 0 f s ( o ,0 1 5 1 ai1 f s ( o 1 5 ,0 4 】 f 2 fs ( o 4 ,0 7 5 】 1 3i 2 s ( o 7 5 ,0 4 】 y ( o ,0 1 5 】 v ( o 1 5 ,0 4 】 v ( o 4 , 0 7 5 】 v ( o 7 5 ,1 】 1 2 ( 2 1 ) ( 2 2 ) ( 2 3 ) 扩矿矿扩 0 1 2 3 rj、l = 矿 薪甫大学硬士学位论文 2 22 颜色直方图 为了得到直方图,需要对且s 和矿量化,如公式( 2 1 ) 、( 2 2 ) 、( 2 3 ) 所示, 把h 分成1 6 份,s 和v 各分成4 份,这样总共得到2 5 6 个量化台阶。利用人眼的分 辨能力,根据色彩的不同范围进行非均匀量化1 2 ”,式中日、s 、v 取值区问均为前开 后闭。 根据光学理论,物体的颜色与光的波长和频率有关。不同的色光在真空中的波长 和频率的范围不一样,因此将色调进行不等间隔量化。结果值的0 ,1 ,2 ,1 5 分 别表示各自色调的类别。然后把量化后的打、s 和v 组合成一个一维矢量上: l = 睨g + s q + v ( 24 ) 其中g 和n 分别是s 和v 的量化级数,取口s - n = 4 ,则上式变为: l = 1 6 h + 4 s + v ( 2 5 ) 由于h 取值h o ,1 5 】,s 和v 取值y j o ,3 】,则上的取值为 o ,2 5 5 2 3 图分割模型 基于图分割模裂的镜头切换检测和视频广告检测的研究 图及其节点之间的关联性如图2 2 、图2 3 所示,图2 2 表示一个含有1 4 个节点 的图g ,图2 3 中,研j 被定义为点f ,之间欧式距离的倒数。点( 搿) 的亮度越亮, 则两点之间的关联性越强。正如例子所示,c u t ( a 声) 反映了两子图a ,b 之间的关联强 度,而a s s o c ( a ) 与a s s o c ( b ) 反映了子图a 及子图b 各自的内部节点之间的关联强度。 给一组数据集,将每一个样本作为一个节点,连接任意两个节点构造一个图。通 过定义边的权值为样本之间关联强度,数据分割问题就被转化为图分割问题。各种分 割函数被定义,最开始,最小分割函数被提出来,然而它经常会导致只偏分切点。因 此其他的分割函数被提出来,例如比例分割函数3 0 1 ,规格化的风格函数3 1 】和最小最 大分割函数【3 2 1 。从分割的观点来看,最小最大分割函数是最小化子图间的关联性,同 时最大化各子图类内的关联性。给出了一个比较好的判决。最小最大分割函数如式 ( 2 8 ) 所示。 m c u t ( a ,曰) :c u t ( a , b ) + c u t ( a , b ) ( 2 8 ) a s s o c ( a )a s s o c ( b ) 当m c u t ( a ,b ) 取得全局最小值时,将会是最好的分割。 2 4 神经网络集成 神经网络集成是用有限个神经网络对同一个问题进行学习,该集成在某个输入下 的输出由构成集成的各个体神经网络在同样输入时所得的输出共同决定【3 3 1 。组合多个 分类器输出结果的集成学习是改善分类精度的重要方法。单一神经网络方法不但分类 精度难以达到要求,而且极易陷入局部极小点,神经网络集成能克服上述缺点。因此 采用三个前馈神经网络通过投票选举法来对视频镜头边界进行检测。 2 4 1 集成学习的定义 集成学 3 4 - 3 6 是机器学习的一个重要分支,它是通过某种组合方式把一些学习器 组合起来,使得组合后的学习器能够表现出比单个学习器更好的性能。 狭义地说,集成学习是指利用多个同质的学习器来对同个问题进行学习,这里 的“同质”是指参与集成的学习器均属于同一种类型,例如所有的学习器都是神经网 络、都是支持向量机等等。 广义地说,只要是使用多个学习器来解决问题,就是集成学习。采用广义定义有 一个很大的好处,就是以往存在的很多名称上不同、但本质上很接近的分支,例如多 1 4 济南大学硕士学位论文 分类器系统和基于委员会的学习等,都统一地归属到集成学习之下进行研究,由于这 些子领域之间有很多共通性,因此把它们放到一起,不再强调各自之间的区别,反倒 会对更深入的理论、算法、应用研究带来一些好处。所以在今天来看,集成学习已经 成为了一包含内容相当多的、比较大的研究领域。 输学学 入习习 样器器 本 12 图2 4 级联集成模型 图2 5 并行集成模型 集成学习中使用的多个学习器称为个体学习器,如何将个体学习器进行集成, 主要有两种方式:( 1 ) 级联集成,也就是说将第一个学习器的输出结果作为第二个学 习器的输入,依次类推,将最后一个学习器的输出作为集成的输出;( 2 ) 并行基础集 成,在这种方式中,首先分别训练每个个体学习器,然后将这些学习器的输出结果通 过某种方式进行集成,得到最终的集成结果。这两种方式的集成模型分别如图2 4 和 图2 5 所示。 2 4 2 集成学习的实现方法 对集成学习实现方法的研究主要集中在两个方面,即如何生成集成中的个体学习 器,以及怎样将多个个体学习器的输出进行合成。下面将从这两个方面具体介绍集成 l s 基于图分割模型的镜头切换枪测和视频广告柃测的研究 学习的实现方法。 1 、个体生成法 在生成集成中的个体学习器方面,最重要的技术是装袋( b a g f i n g ) 3 7 1 和提y i - ( b o o s t i n g ) 【3 8 】。 ( 1 ) 装袋算法 装袋通过使用可重复性采样技术( b o o s t i n gs a m p l i n g ) 生成个体学习器,即各学习 器的自助训练集由从原始训练集中随机选取的样本组成,自助训练集的规模通常与原 始训练集相当,且允许重复选取。这样,原始集中的一些样本在自助训练集可能出现 多次,也可能一次都不出现。装袋算法通过重新选取训练集增加了集成学习的差异度, 从而提高了泛化能力【3 9 1 。 ( 2 ) 提升算法 提升是一个迭代的过程,用来自适应地改变训练样本的分布,它对每一个分来器 提供的样本取决于前面学习器的结果,被前面学习器错分的样本将给以较大的权值, 正确分类的样本将给以较小的权值,这样新的个体学习器将更重视对已有学习器来说 较困难的哪些样本。 目前很多不同的提升算法,这些算法的差别在于:( 1 ) 每轮提升结束时如何更新 训练样本的权值;( 2 ) 如何组合每个分类器的预测。其中,最具代表性的是a d a b o o s t 算法【3 9 1 。 2 、结论合成方法 当神经网络用于分类问题时,集成的输出通常由各网络的输出投票产生。通常采 用绝对多数投票法和相对多数投票法。 所谓绝对多数投票法是指,某分类成为最终结果当且仅当有超过半数的神经网络 输出结果为该分类。 所谓相对多数投票法是指,某分类成为最终结果当且仅当输出结果为该分类的神 经网络的数目最多。理论分析和大量的实验表明,后者优于前者。因此,在对分类器 进行集成时,目前大多采用相对多数投票法【4 0 】。 2 4 3 神经网络 神经网络( n e u r a ln e t w o r kn n ) 1 4 1 删是人工智能领域中的一个重要的分支,它是 由大量、简单的神经元连接而成,用以模拟人脑行为的复杂网络系统。神经网络是由 各种神经元按一定的拓扑结构相互连接而成的,它通过连续或间断的输入做出状态反 1 6 济南大学硕士学位论文 馈而完
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广东广州市“百万英才汇南粤”行动计划海珠区社区专职人员招聘笔试模拟试卷(含答案详解)
- 2025年成都市成华区卫健系统所属8家事业单位面向社会公开考试招聘20名工作人员考前自测高频考点模拟试题及答案详解(必刷)
- 2025年浙江衢州江山市四都镇卫生院公开招聘编外医务人员1人模拟试卷及答案详解(考点梳理)
- 2025年长春市市直事业单位公开招聘高层次人才(5号)考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025年浙江大学医学院附属第二医院招聘药剂师1人考前自测高频考点模拟试题及1套完整答案详解
- 2025吉林白山抚松县招聘高中教师9人模拟试卷及一套完整答案详解
- 2025年甘肃省兰州市榆中县中医医院春季招聘15人模拟试卷及完整答案详解1套
- 2025年绍兴市上虞区中医医院医共体公开招聘编外人员46人考前自测高频考点模拟试题及一套答案详解
- 2025吉林松原经济技术开发区管理委员会招聘事业单位(含专项招聘高校毕业生)5人模拟试卷及答案详解(夺冠系列)
- 2025安徽黄山融合传媒有限公司招聘1人笔试题库历年考点版附带答案详解
- 【幼儿园自主游戏开展现状、问题及改进建议研究6500字(论文)】
- 2025年湖南株洲市工会社会工作者招聘30人考试笔试试卷【附答案】
- 第2课《中国人首次进入自己的空间站》教学设计-统编版语文八年级上册
- 新能源销售基础知识培训课件
- 上海婚恋婚介培训课件
- 植物的身体说课课件
- 烧结工艺培训课件
- 外宾参观活动方案
- 1.4理解与感知1812序曲课件-高中音乐湘教版必修音乐鉴赏
- 23G409先张法预应力混凝土管桩
- 上海交通大学学生生存手册
评论
0/150
提交评论