




已阅读5页,还剩48页未读, 继续免费阅读
(电路与系统专业论文)web内容安全分析及算法研究——新闻逻辑单元分割理论及算法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
w e b 内容安全分析及算法研究 新闻逻辑单元分割理论及算法 摘要 今天,w e b 页面中存在的多媒体信息由于关系到社会治安和人们 的文化生活,其内容安全性越来越被人们所重视,而其中w e b 视频信 息内容安全性的分析又是最困难和最复杂的部分。由于现今许多学者 在视频检索方面做了很多的工作,若把视频检索技术用于w e b 视频的 语义提取,就可以方便的找到w e b 视频对应的语义信息,从而确定其 内容的安全性。要达到这个目地的第一步就是找到视频的最小语义单 元,即故事单元。而w e b 视频中又数新闻视频影响最大,于是本文在 参考了相关工作的基础上提出了一种多模型融合的新闻逻辑单元分 割框架。 框架大致分为三层结构,最底层是特征提取层,这一层用于提取 大量的视频、音频特征。本文在特征提取层提出了主题特征、人脸个 数和人脸位置等新的特征。中间层是镜头标注层,这一层主要用于对 每个镜头进行标注,标注的内容是每个镜头通过决策树分类之后的类 别。为了对镜头分类的结果进行校正,本文在镜头标注层提出了一个 内容相似性比较模块。最上端一层是故事单元抽取层,主要功能是利 用隐式马尔科夫找到故事单元的分界点j 本文在故事单元抽取层提出 了一个基于启发式规则的预分割模块,用于减少模型的训练量和提高 精度。 本文的试验结果是通过一个半自动的系统得到的,对不同电视台 的新闻进行测试,平均的f 1 值达到7 1 9 ,其中c c t v 一9 达到了8 1 5 。 关键词w e b 内容安全新闻故事单元分割隐式马尔科夫决策树 w e bc o n t e n ts e c u r i t ya n a l y s i sa n t ia l g o r l l 田 n e w sv i d e os t o r ys e g m e n t a t l 0 n a b s t r a c t t h i st h e s i sp r e s e n t saf r a m e w o r kf o rn e w sv i d e os t o r ys e g m e n t a t i o n t h ef r a m e w o r kc o n s i s to ft h r e el a y e r s :f e a t u r ee x t r a c t i o nl a y e r , s h o t t a g g i n gl a y e ra n ds t o r yb o u n d a r yd e t e c t i o nl a y e r a tf i r s tl a y e r , at a n d e m f e a t u r ee x t r a c t i o nm e t h o di si m p l e m e n t e di n c l u d i n g :a u d i oc l a s s i f i c a t i o n , f a c ed e t e c t i o n ,c a p t i o nd e t e c t i o n ,s c e n ec h a n g ed e t e c t i o n ,a n ds p e a k e r c h a n g ed e t e c t i o n a n ds oo n a n dt h e n a ts e c o n dl a y e r , w i t ht h e s e h i g h 1 e v e lf e a t u r e st o g e t h e rw i t ho t h e rl o w l e v e lf e a t u r e s ,t h ed e c i s i o n t r e ei se m p l o y e dt oc l a s s i f yt h es h o t si n t op r e d e f i n e dc a t e g o r i z e s f i n a l l y a tt h i r dl a v e r , h m m b a s e dt e c h n i q u ei su s e dt op e r f o r mm a x i m u m l i k e l i h o o de s t i m a t i o no ft h es t o r yb o u n d a r y t om o r ee f f i c i e n t l yr e p r e s e n t t h e p a t t e r n s o ft h e s t o r i e s ,s o m e n e wf e a t u r e s i n c l u d i n g “t o p i c f e a t u r e ”f a c en u m b e r ”a n d “f a c ep o s i t i o n ”a r ea d d e di n t ot h e f r a m e w o r k ,a n da l s oas i m i l a r i t ym e a s u r et e c h n i q u ea n dp r e s e g m e n t a t i o n t e c h n i q u e a r eu s e dt o i m p r o v e t h e p e r f o r m a n c e o ff r a m e w o r k e x p e r i m e n tr e s u l tw i t hat e s t i n gs e to fn e w sv i d e oc l i p f r o md i f i f e r e n t c h a n n e ls h o wt h a tt h es e m i a u t o m a t i cs y s t e m w h i c hi sb a s e do nt h e f r a m e w o r k c a na c h i e v e7 1 9 o fa v e r a g ef 1v a l u e ,a n d8 1 5 f 1i nt h e c a s eo fc c t v 9 k e yw o r d s w e b c o n t e n t s e c u r i t ys t o r y s e g m e n t a t i o n h m md e c i s i o n t r e e i i l 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了谢意。 申请学位论文与莹料若有不实之处,本人承担切相关责任。 本人签名:_ 翠琶鸢娃日期:二丛辜幺土卫 一 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 导师签名日期: 第1 章绪论 1 1 课题研究背景及意义 现代社会,透过网络查询资料是最便捷的知识学习方式之。过去信息的流 通,往往依赖着实质的书本,印刷成册后才会到阅读这手中。一本书的诞生必须 经历印刷、出版、销售等程序。因此其内容都经过了一道道筛选的程序,政府和 书商也担任了控制不当的信息流入市场的监管者。而今人们可以通过网络找到各 式各样、形形色色的信息。然而这些信息是不分级的,即使是色情、暴力、赌博 毒品及药物滥用等等的文字、图 片和视频,这些对社会治安和社会风气都有着负面影响的信息在网络上更是 防不胜防,尤其这些不良信息对青少年的毒害更是巨大。这就既需要有一种有效 的方法来砬监b 玺搓篮值。鼠鲍堕查耋金性进缸坌盟。 w e b 视频内容语义结构分析和视频内容检索是目前国际国内多媒体研究领 域最为活跃和快速发展的课题【1 , 2 , 3 】。计算学、网络以及广播技术的结合更加促进 了多媒体信息的高速发展,尤其是视频流媒体技术。针对网络上不良的视频信息 的问题,采用视频内容检索技术提取视频的语义信息从而判断其内容的安全性, 这就是本文研究动机。 从实际应用来说,一方面随着视频技术和视频设备的不断普及,视频资料( 如 新闻视频) 越来越多,已成为人们政治、经济、文化等日常生活不可缺少的一部 分。人们迫切需要一种如同文本检索一样的方式对视频内容进行检索。另一方面 大量的视频资料经常需要从海量的新闻视频资料库中提取等等,但长期以来一直 没有解决好新闻视频语义检索问题。从理论研究来说,视频内容语义结构分析不 仅需要对视频内容进行逻辑自然段分割,而且要通过对视频和音频语义分析溶 合,归纳出视频内容语义,从而为彗王虽墨盟垫趣丝雹莲枣基础。 本文期望通过找到w e b 中新闻视频的基本语义单元,也就是故事单元,从 而能够为下一步w e b 视频语义安全性的分析打好基础。 1 2 相关研究 1 2 1 传统隐式马尔科夫( h m m ) 模型的方法 鉴于h m m 是研究动态离散变量的有效工具之,在视频故事分割中一直扮 演着举足轻重的角色。e i c k e l e re ta 1 4 1 从颜色直方图和帧问的运动信息中提取了 始和结束以及经过编辑处理的内容六类。h u a n ge ta l 5 1 结合音频、颜色以及运动 特征把电视节目分类为新闻报道、天气预报、广告、足球赛和篮球赛。a l a t a ne ta 1 【6 旨在检测对话以及在一些娱乐节目中的过渡信息,采用音频信息,人脸检测 以及场景变换等特征,通过h m m 来确定几种类别的过渡边界。上述几种方法的 一个总体不足就是分类类别和提取的特征有限,通过一些片面的或是中间过渡的 方法来解决视频重组问题。 在c h a i s o r ne ta l l 7 】中,利用决策树的方法将新闻视频节目分为1 3 类:片花、 一个主持人、两个主持人、会议、演讲、生活报道、静态图片、体育、文本、特 殊、经济、天气预报和广告。最后采用h m m 的方法来找到新闻边界点,取得了 不错的效果。 1 2 2 基于支撑向量机( s v m ) 的方法 s v m 方法是建立在统计学习理论的v c 维理论和结构风险最小原理基础上瞵1 的。该算法将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构 造线性判别函数来实现原空间中的非线性判别函数。近年来得到了诸多研究人员 的关注。 a m i re ta 1 【9 】为适应不同新闻栏目在结构和形式上的不同【1 0 】,利用s v m 分类 器将输入的各个数据点标记为故事边界或非边界,输入到s v m 中的特征包括概 率密度以及v c 3 聚类器,a s r 和音频特征。然后结合镜头边界和声音停顿去除 重叠失真窗,结果表明该方法可以检测出大部分的新闻故事边界。 k e i i c h i r oe ta 1 1 1 1 】中也采用s v m 来确定新闻故事单元的边界,具体是将包 含故事边界的镜头表示为正,其他的镜头表示为负。另外他们还引入了三个附加 部分提高新闻故事分割的性能包括:特殊区域分割、主持人镜头分割和后向处理, 并取得了很好的效果。 1 2 3 基于聚类的方法 视频聚类是研究镜头间的关系,也就是如何把内容相近的镜头组合起来。根 据聚类目的的不同视频聚类可分为两类【1 2 】:一类是对视频进行分类,它只考虑特 征相似性。根据镜头的重复程度,视频一般可分为对话型、动作型和其他类型。 一类是把属于同一个场景的镜头进行聚类,以形成层次型的视频结构场景和 电影。这种聚类不仅要考虑镜头内容上的相似性,还要考虑其时间上的连续性。 镜头聚类主要有两种方法,一种方法是对各个镜头边界进行边缘监测,当视频内 容和音频内容同时变化的时候就认为找到了故事边界1 1 。另外一种是就是根据语 容和音频内容同时变化的时候就认为找到了故事边界1 1 。另外一种是就是根掘语 义上的内在联系聚类成为故事【1 4 - 1 7 】。在这类方法中提出了许多种镜头相似度检 测,比如关键帧之间的块匹配、关键帧之间颜色直方图的比较和平均颜色直方图 的比较等。l ie ta l ,1 1 8 】采用了一种最优模型聚类的算法【1 9 - 2 0 】将连续的镜头聚类为 故事场景。s i l v i a 2 1 】根掘检测到的对话,建筑物和相似语音信息将镜头进行了聚 类。j o h na d c o c ke ta l l 2 2 】利用镜头边界信息和a s r 脚本文件建立了一个隐式语 义空间l s s ( 1 a t e n ts e m a n t i cs p a c e ) ,把镜头标签作为单独的文档,然后从邻近的镜 头中加入单词维持一一个最小限度的标签文档,然后通过这些镜头组成的l s s 空 间计算视频的相似矩阵( 利用余弦相似计算简化的镜头向量) ,然后选出突出值 来表示故事单元边界。h e e s c he ta 1 2 3 】中假定故事边界和镜头边界是同时发生 的,然后利用文本信息和a s r 脚本信息进行聚类。另外还通过主持人检测进行 了聚类,将下一个主持人出现之前的镜头全部聚类为一个故事单元。z h a ie ta 1 2 4 1 中分为两个阶段来进行故事分割,第一阶段首先检测主持人,然后通过视觉和文 本相似度检测天气预报和体育栏目,并对故事分割进一步的细化。 1 2 4 国内外研究现状 早期的视频研究领域集中在使用视频( 可视部分) 特征对视频进行分割、分 类和归纳。近几年来,研究人员已经意识到音频特征在视频内容语义分析是非常 重要的。v e l i v e l l i 2 5 】对文献记录视频内容提出了分析模型,其试验表明仅仅使用 视频( 可视部分) 不足以传递上下文语义信息。音频一视频溶合可以得到较好的 上下文语义。利用视频时间变化梯度和音频分类信息检测视频语义内容也是当前 多媒体领域的研究问题【2 “。下面介绍一下国际上有关视频内容分析方面的研究工 作。 c m u ( 卡内基美隆大学) 多媒体研究项目i n f o r m e d i a 是一项视频综合检索 研究项目 2 7 - 2 8 】。该项目提供了内容丰富的视频测试集供学术研究和交流使用,以 此评测视频检索系统,体现了多媒体综合处理的特性。然而,该系统的s t o r y 单 元的分割大部分由手工完成。, 德国的m a n n h e i m 大学的m o c a ( 电影内容分析) 项目其内容是分析和理解 电影语义内容( 包括制成电视频道播放的电影) 。该项目其中重要的研究内容之 一是电影内容摘要问题。电影摘要分析指视频序列的中心内容组织( 类似于电影 预告片) ,给用户一种关于电影剧情、人物和电影风格( 如动画片、动作片等) 的总体介绍。电影摘要般由四个功能模块完成:视频分割:确认分割片段中所 包含的事件;选择含有事件或满足特殊要求的片段;最后重新组织片段,形成电 影内容摘要。 标题等信息,确定和抽取s t o r y 单元。通过词法链把视频新闻s t o r y 单元连接起 来,形成新闻视频的简要归纳,并且可在文本中对新闻s t o r y 单元语义信息加亮 显示等等。 新加坡国立大学的多媒体实验室c n u ( c o m p u t i n g ,n a t i o n a lu n i v e r s i t yo f s i n g a p o r e ) 提出了一种新的双层混合模型【3 0 _ 3 1 。他们综合基于视觉的特征和基于 形状的特征以及时域、语义等等多方面的特征,并利用机器学习的知识对镜头进 行分类,利用h m m 模型进行s t o r y 分割,取得了很好的效果。 目前国内从事视频内容分析研究不多,有复旦大学、清华大学【3 2 】和中科院计 算所等。然而,参加每年视频t r e c ( v i d e ot r e c ,有关v i d e o 原型系统评测和 学术交流) 国际会议,国内只有复旦大学参加。从事视频内容语义分析方面的研 究却很少报道。 1 3 研究内容概述 通过对相关研究的考察,针对新闻视频模式比较复杂的特点,我们决定采用 一种多模型混合的结构来对新闻视频的模式进行抽取。在参考了c h a i s o r n 和 c h u a 3 3 】等提出的混合模型的基础上,我们提出了如图1 所示的新闻逻辑单元分 割混合模型: r 。 p c 旧叫1 ,m mhp r e - s e n t l j s e g m e n t a t i o n “j i 千 s h o tt a g g i n g d e c i s i 。nt r e e s 卜一l a y e r 1 c z z y s 蔓o 、 一一乞 心 甲甲手中中甲甲辛 厂、 f e a t u r e e x t r a d i o n a f v i s l l a lf e a t u r e s 、l a y e r f11 、 fff1f 图1 1 图中,a c 表示音频分类,s d 表示镜头持续时长,f s 表示人脸大小,m a 表示运动强度,t c 表示是否有主题标题,c t 表示中央是否有文本,f p 表示人 脸位置,a f 表示音频底层特征,f n 表示人脸个数,s c c 表示场景变化,s p c 脸位置,a f 表示音频底层特征,f n 表示人脸个数,s c c 表示场景变化,s p c 表示说话人变化,s i m m 表示相似度比较。 模型基本上分为三层:最底层的特征提取层,中间的镜头标记层和最上端的 故事单元抽取层。其中我们在特征提取层提出了主题特征、人脸个数和人脸位置 等新的特征,在镜头标记层加入了一个基于内容的相似模块和新的镜头标记,同 时在故事单元分割层我们也加入了一个新的基于启发式规则的预分割模块。总体 上是通过在镜头层采用决策树得到镜头分类,在故事单元层采用隐式马尔科夫算 法来寻找故事单元边界。 首先我们采用将新闻视频分割为一个个镜头,对每个镜头的音频进行分类, 同时检测宏数据如人脸、说话人变换、播音员、镜头长度等,然后结合低层特征 和高层特征,通过决策树对每个镜头分类以及镜头内容相似度的考察对每个镜头 给予一个标记,在预分割模块找出几种最简单的模式之后,剩下的镜头序列通过 h m m 找出最佳的变化轨迹,从而确定出新闻自然段边界。 1 4 本文主要内容 本文的内容主要安排如下: 第一章是绪论部分。这一章主要论述了课题的研究背景及意义,国内外相关 研究和我们的主要研究方法概述。 第二章是对特征提取层的介绍。这章主要介绍了利用s v m 进行音频分类 的音频特征提取和包括直方图及人脸检测在内的视觉特征提取,同时也介绍了我 们提出的新特征。 第三章是是对镜头标记层的介绍。这一章主要介绍了基于决策树的镜头分类 算法和基于内容的相似模块。 第四章是对故事单元分割层的介绍。这一章简要介绍了基于隐式马尔科夫的 故事单元分割算法和基于启发式规则的预分割模块。 第五章是实验结果及讨论。 第六章是结论及展望。 2 1 音频特征提取 2 1 1 音频底层特征提取 第2 章特征提取 我们提取的特征包括m f c c ( m e l f r e q u e n c yc e p s t r a lc o e f f i c e n t s ) 、过零率、短 时能量、子带能量分布、带宽等。 ( 1 ) m f c c 是从f f t 快速傅立叶变换计算出来的。对数频域相关系数通过 三角带通滤波器非线性映射的频域刻度( 美尔刻度) 进行加权,然后通过余弦变 换得到m f c c 。由于m e l 频率倒谱系数具有很好的辨别力,在语音识别系统中 有很多的应用【3 4 。”,因此,在音频流我们提取m e l 频率倒谱系数,见下面公式 ( 5 1 ) : c 。= 昙耋( 。s s t ) c 。s k 睡一0 5 ) 叫k l n = ,2 ,上( z 脚 式中,k 是带通滤波器个数,是通过k 阶三角带通滤波器的m e l 权值频 谱,是对数倒频谱的顺序,我们采用的是8 阶m f c c ,亦即l = 8 。 ( 2 ) 过零率定义为时域中一帧之中过零点的个数,是最简单的衡量一个信 号的频率内容手段。它对纯说话和纯音乐具有好的识别能力【3 6 _ 3 7 1 。 z 积= 习万1 刁n 丕- 1 1 s g n l b + 1 ) 】一s g n x ( m ) l ,m = 1 ( 2 2 ) 式中,z ) 是离散语音信号 ( 3 ) 短时能量是一帧之中的总体频谱能量。具有将背景音乐中的说话鉴别 出来的功能。 s t e ;l o f 阢1 2 叫( 2 - 3 ) 式中,l f 】表示快速傅里叶变换系数,i f ( w 1 2 表示在频率甜处的能量, 是半采样率。 将频域分成几个子带就可阱得到子带能量,将子带能量和整个频带的能量相 比,得到我们的子带能量分布: d = 面1r i f ( m 胁( 2 - 4 ) d = 面1 上,t 7 i f ( 。】2 d ( 2 - 4 ) 式中,l 。、h ,分别表示子带的下界和上界。 ( 4 ) 音高的定义如下公式所示: v o l u m e = 专 协s , 式中,s ( f ) 为离散语音信号。 ( 5 ) 频谱通量s p e c t r u mf l u x 是表示在语音信号段相邻的两帧频谱的不同。 这个特征可以很好的鉴别背景声音中的说话声。 盯= 面j 最习薯蓦 - 。s ( 咄) + a ) 一o s 协_ 1 t ) + a 圩( z 6 ) 彳o ,t ) :i 妻。b b o l 一。k 。孚“j ( 2 7 ) 式中,z ) 使输入的离散语音信号,妇) 是窗函数,l 是窗长,k 是d f t 阶数,d 是一个很小的值来避免计算溢出,n 是一个音频段中的帧数目。 ( 6 ) 甯度定义见下面公式( 5 8 ) b =崆( 甜叫) 2 j 2 d 竺 1 fr 。i f ( 4 2 如 ( 2 8 ) 式中,峨为中心频率, f 1 2 表示在频率处的能量。 同时我们还提取了子带宽度和表示抗噪性能的特征n f r 以及音量动态范围 等特征。 2 1 2s v m 音频分类 自然界中声音无所不在,有富于旋律的音乐,铿锵有力的演讲说话,更有嘈 杂无序的噪音。如何将这些声音组织起来进行正确的分类并运用到我们的实践中 来,很多专家对此已进行了多方面的探讨,本文采用的是一种基于统计学习理论 的支撑向量机的算法s v m ( s u p p o r t v e c t o r m a c h i n e ) 来对音频信息进行分类的。 ( 1 ) s v m 的理论基础和优点支撑向量机s v m 是建立在统计学习理论的 v c 维理论和结构风险最小原理基础上【8 】的,根据有限的样本信息在模型的复杂 性( 即对特定训练样本的学习精度,a c c u r a c y ) 和学习能力( 即无错误地识别任 它是专门针对有限样本情况的,其目标是得到现有信息下的晟优解而不仅仅 是样本数趋于无穷大时的最优值; 算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最 优点,解决了在神经网络方法中无法避免的局部极值问题: 算法将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构造 线性判别函数来实现原空间中的非线性判别函数,特殊性质能保证机器有较好的 推广能力,同时它巧妙的解决了维数问题,其算法复杂度与样本维数无关; 在s v m 方法中,只要定义不同的内积函数,就可以实现多项式逼近、贝叶 斯分类器、径向基函数( r a d i a lb a s i cf u n c t i o n 或r b f ) 方法,多层感知器网络 等许多现有学习方法。 ( 2 ) 方法介绍s v m 是从线性可分情况下的最优分类面发展而来的,基本 思想可用图2 - 1 的二维情况说明。 图2 - 1 二维分类面 图中,实心点和空心点代表两类样本,h 为分类线,h 1 、h 2 分别为过各类 中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔 ( m a r g i n ) 。所谓最优分类线就是要求分类线不但能将两类正确分开( 训练错误 率为0 ) ,而且使分类间隔最大。分类线方程为工+ b = 0 ,我们可以对它进行 归一化,使得对线性可分的样本集x :,y : f = 1 ,h ,x r “,y + 1 , - 1 ,满足 y i ( - x 。) + 6 一1 20 , i = 1 , ,栉 ( 2 9 ) 此时分类间隔等于2 h i ,使间隔最大等价于使恻1 2 最小。满足条件( 2 9 ) 且 使去酬1 2 最小的分来面就叫最优分类面,h i 、h 2 上的训练样本点就称作支持向 量。 利用l a g r a n g e 优化方法可以把上述最优分类面问题转化为其对偶问题1 3 9 , 即在约束条件 利用l a g r a n g e 优化方法可以把上述最优分类面问题转化为其对偶问题【3 9 】 即在约束条件 荟_ y 穰- o , ( 2 - 1 0 a ) 口f 0 下对吒求解下列函数的最大值 ( 2 - l o b ) q b ) 2 蓦旷三1 。豁叩b ,) ( 2 - 1 1 ) 式中,口,为原问题中与每个约束条件( 2 9 ) 7 4 应的l a g r a n g e 乘子。这是一个 不等式约束下二次函数寻优的问题,存在唯- 解。容易证明,解中将只有一部分 ( 通常是少部分) a j 不为零,对应的样本就是支持向量。解上诉阀题后得到的 最优分类函数是 ,仁) 2s s n ( 。工) + 。) = s 印 砉a ? y 。b ,x ) + 6 + , ( z 一2 ) 式中的求和实际上只对支持向量进行。b + 是分类闽值,可以用任意一个支持 向量( 满足( 2 9 ) 中的等号) 求得,或通过两类中任意一对支持向量取中值求得。 对非线性问题,可以通过非线性变换转化为某个高维空间中的线性问题,在 变换空间求最优分类面。这种变换可以比较复杂,因此这种思路在一艘睛况下不 易实现。但是注意到,在上面对偶问题中,不论是寻优目标函数( 2 1 1 ) 还是分类 函数( 2 1 2 ) 都只涉及训练样本之间的内积函数b 。x ,) 。设有非线性映射 中:r 4 一h 将输入空间的样本映射到高维( 可能是无穷维) 的特征空间h 中。 当在特征空问h 中构造最优超平面时,训练算法仅使用空间中的点积,即 巾b 。) 中k ,) ,而没有单独的驴b 。) 出现。因此,能够找到一个函数k 使得 k b ,z ,j = 中b ,) 中仁,) ,这样,在高维空间实际上只需进行内积运算,而这种内 积运算是可以用原空间中的函数实现的,我们甚至没有必要知道变换中的形式。 根据泛函的有关理论,只要一种核函数k b 。,工,j 满足m e r c e r 条件,它就对应某 一变换空间中的内积。 因此,在最优分类面中采用适当的内积函数k k ,z ,j 就刚以实现某非线性 q ( 口) 2 静一三挚叫以k b ,) ( 2 _ 1 3 ) 而相应的分类函数也变为 厂b ) = s g n “m x ) + 6 ) ;s g n 芝a ? y j k ( x ,z ) + b ,( 2 - 1 4 ) to 。1 j 这就是支持向量机。 这一特点提供了解决算法可能导致的“维数灾难”问题的方法:在构造判别 函数时,不是对输入空间的样本作非线性变换,然后在特征空间中求解;而是先 在输入空间比较向量( 例如求点积或是某种距离) ,对结果再作非线性变换3 8 。 这样,大的工作量将在输入空间而不是在高维特征空间中完成。s v m 分类函数 形式上类似于一个神经网络,输出s 中间结点的线性组合,每个中间节点对应 个支持向量,如图2 2 所示。 图2 2s v m 分类函数 函数k 称为点积的卷积函数,根据 3 9 3 ,它可以看作在样本之间定义的一种 距离。 输出决策规则) :y2s g n 荟口ty k b tq ) + 6 ,权值q y 。,基于s 个支持 向量z 1 ,x2 ,j5 的非线性变换( 内积) k ( x x ) ,输入向量x : ( x 1 ,x2 ,x5 ) 显然,上面的方法在保证训练样本全部被正确分类,即经验风险为0 的前期 下,通过最大化分类间隔来获得最好的推广性能。如果希望在经验风险和推广性 能之间求得某种均衡,可以通过引入正的松弛因子鲁来允许错分样本的存在。这 1 0 套 能之间求得某种均衡,可以通过引入正的松弛因子茧来允许错分样本的存在。这 时约束条件( 2 9 ) 变为 y i ( 工,) + 6 】一1 + 。0 , i = 1 , ,n ( 2 1 5 ) 而在目标最小化丢例| 2 中加入惩罚项c :。舅,这样,w b i f 对偶问 题可以写成: 卿) 2 一- i b o , y , y , k b 。 s t 善y 却, 畦叩c卜k ”,n ( 2 - 1 7 ) 这就是s v m 方法的最一般表述。为了方便后面的陈述,这里我们对对偶问 题的壤优解作一些推导。 定义 b ) = a ,y 。中仁,)( 2 1 8 ) e = k ) 中仁,) 一y ,= 芝口,y k ( x i , x j ) 一y 。( 2 1 9 ) 对偶问题的l a g t a n g e 函数可以写成: l = 吉“( a ) 埘( 。) 一a 一4 a ,+ 肛:( ? 。一c ) 一卢a j yr ( 2 - 2 0 ) k k t 条件为 o l :c f :一) y 。一d 。+ p i :0 6 :;o ,6 。o ( 2 - 2 1 ) u :( 吒一c ) = 0 , v i 有此,我们可以推导出如下关系式: 若a 。= 0 贝0 6 。0 ,弘:= 0 一( 只一3 ) y 。0 若o so 。sc 贝0 6 ;= 0 ,= 0 一( f 一卢1 y 。= 0 o a := c 贝4 6 。= 0 ,p 。0 一( 只一卢) y 。0 由于k k t 条件是最优解应满足的重要条件h 们,所以目前提出的些算法几 乎都是以是否违反k k t 条件作为迭代策略的准则。 ( 3 ) s v m 用于音频分类支撑向量机是模式识别中的一种非常有效的分类 支撑向量机s v m 从给定的一系列正反实例中找到一个最优分类超平面来进 行分类旧【4 2 】,同传统的分类方法相比较,它在分类过程中将从前的不定向分类 结果变成确定的几个分类,从而降低了结构风险。音频数据非常复杂,往往是不 同的类别具有不同的重叠区域,不同的音频类别很难通过一个线性的方法来得以 区分,基于核函数的s v m 很适合于处理这种情况。 假定我们要分类一系列训练向量到两个类别中,b 。;_ y 。k ,g 。;y 。) ,这里的z , 是一个特征向量,y ,是这个向量属于的类别,在这里y , 一1 ,+ 1 j 是一个类标, 通过一个单一的超平面c o x + b = 0 ,所有的由b 确定的边界,其中那个可以使 分类间隔最大的就是最优的泛化超平面。根据这个原则,最优分类面分类器可以 用如下公式2 2 2 表示 厂b ) = s g “l 。y :+ bl ( 2 2 2 ) 式中,吼和i 是分类器的参数,向量t 是支撑向量。 在线性不可分,但非线性可分的情况下,s v m 将内部的x y 变换为足b ,y ) , 然后构建出一个单独的最优的分类超平面映射空间。一般的核函数有以下几种: 多项式: k 0 ,y ) = 仁y + 1 ) 。,( 2 - 2 3 ) 式中,d 是多项式的深度。 高斯径向基戤地y ) - 唧f _ 譬1 , 沼2 4 , 式中,d 是高斯函数的宽度。 多层感知域函数:k g ,y ) = t a n h ( k ( x y ) 一弘) , ( 2 - 2 5 ) 式中,k 和u 是刻度和偏移参数。 根据经验观察,高斯径向基函数一般要比另外两种核函数的分类效果好,我 们在用s v m 训练时采用了,高斯径向基函数这一核函数来分类。 在我们试验中将音频信息分类为五种类别:静音、纯说话、纯音乐、说话加 背景音乐、说话加背景噪音。首先我们将输入的音频数据根据能量和过零率信息 分类为静音和非静音,如果能量和过零率都低于我们预先设定的阀值则为静音, 然后在非静音片断,选取高斯径向基函数作为核函数的s v m 来进行余下四种音 频类别的分类。具体分类情形见图2 3 : 频类别的分类。具体分类情形见图2 - 3 2 2 视觉特征提取 图2 - 3s v m 音频分类 镜头是视频检索的最小单位,视频分割成镜头后,就要对各个镜头进行特征 提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频 聚类和检索的依据。 2 2 1 视觉底层特征提取 对视频底层特征的提取主要是提取了颜色特征和边缘特征等。同时还提取了 运动特征。 ( 1 ) 色彩直方图由于颜色特征具有旋转不变性和尺度不变性,因而,在 图像识别技术,颜色是使用最广泛的特征之一。而颜色特征的提取是利用颜色特 征进行图像识别的关键之一,目前,大部分系统都采用颜色比例分布作为颜色基 本特征,这就是图像领域中的直方图法。一般直方图计算如下【4 3 】。为了f 确使用 颜色,需要建立颜色空间。r g b 是使用较普遍的颜色空间,我们也采用这种r g b 颜色空间。计s u m ( p ,x i ) 为图像p 中某一特征值为x j 的像素数,n 为p 中 的总像素数,则p 的该特征的直方图为: h ( p ) = 坼。h 。h 。,h 。 。) ( 2 2 6 ) 式中,h ,;掣,f , 均为整数。 v 颜色特征提取后,如何用树枝来有效的表示图像在颜色上的相似程度,这便 是相似度量问题,我们采用特征向量的空间距离( 欧式距离) 来表示: 设协? ,a ? ,酽, 嚣l 恤 ! , j ,五;j 分别为图像q 和i 的归一一化直方图, 则一般欧式距离函数见式( 2 2 7 ) : 茎 一一一一 层琶 一 景一 斟 d i s ( q ,) : j 黔圳2 ( 2 2 7 ) ( 2 ) 边缘特征所谓边缘就是指图像局部亮度变化最显著的部分,它是检 测图像局部变化显著变化的最基本的运算。边缘是图像的一个基本特征,携带了 图像中的大量信息,边缘检测不仅能得到关于边界的有用的结构信息,而且还能 极大地减少要处理的数据,很多图像处理和识别算法都以边缘检测为重要基础。 边缘按其颜色特征可分为灰度边缘和彩色边缘。灰度图像可由图像亮度函数来描 述,灰度边缘可以定义为图像亮度函数的具有边缘特征的不连续点的集合,它描 述了灰度函数的局部突变。彩色图像可由图像色彩函数来描述,彩色边缘可以定 义为图像色彩函数的具有边缘特征的不连续点的集合,它描述了色彩函数的局部 突变。长期以来人们主要致力于灰度边缘的研究并取得了很好的效果。但彩色边 缘能比灰度图像提供更多的信息。因此,彩色边缘的检测受到越来越多的重视。 本文对边缘特征的提取主要使利用了图像亮度函数,灰度边缘定义为图像亮度函 数的具有边缘特征的不连续点的集合。 ( 3 ) 运动特征的提取运动特征反映了视频数据的时域变化,而且是用户 检索时所能给出的主要内容。由于运动特征无法从一副静止的图像中获得,所以 要对视频序列进行分析。运动分析有基于光流方程的方法、基于块的方法、象素 递归方法和贝叶斯方法等【删,但这些方法计算量都非常大。为此,t o m o m u r a 等 人提出了一种称为x 线断层的分析【4 5 】的方法。另一种可以避免耗时的光流和块 匹配的计算方法是利用m p e g 视频流中b 帧和p 帧的运动向量【4 5 。4 7 1 。z h a n g 4 6 。4 8 】 等人用计算镜头内各帧平均亮度和主要颜色的均值和方差作为镜头运动量大小 的度量,他们利用这种方法把新闻节目视频段分为主持人和新闻内容,并取得了 良好的效果。本文对将运动特征分为四类:轻微活动、中级活动、剧烈活动和静 止状态。 在低层我们还通过由镜头的开始和结束提取了镜头长度这一暂态特征。 2 2 2 视觉高层特征提取 我们提取了两类宏特征,包括人脸特征和主题特征,涉及到了人脸检测问题。 ( 1 ) 人脸特征所谓人脸检测就是在照片( 静态图像) 或视频( 动态图像) 中标 出人脸所在的位置,把人脸选取出来与数据库中已有的人脸进行比较,找出匹配 的档案来。从模型匹配的方法来看,目前的人脸定位算法可以粗略地分为两大类: 第一类是利用人脸各器官之间的几何关系的方法;第二类是利用标准人脸图像或 者其变换结果直接或者经特征提取后进行匹配的方法。第一类方法利用了明显的 先验知识,因而方法简单明了,执行速度较快,对人脸的方向和表情有一定的适 1 4 应性( 在一定的变化范围内面部特征的相对几何关系变化很小) ,但是准确率往 往不高( 漏判和误判) ,而且对预处理要求高,依赖于所有面部特征都完整地被 提取,所以对转角较大的侧脸,光照极度不均匀,部分脸被遮蔽( 跟镜,围巾等) 适应性不好。第二类方法利用了更多的图像信息,准确率高,不易受欺骗:缺 点是计算量大,而且使用的人脸模板受人脸库中已有资料的影响,可能会有通用 性不好的问题( 比如不同人种的人脸模板不能通用) 。 利用人脸各器官之间的几何关系的方法的典型例子可以参见s h i - h o n gj e n g , h o n gy u a nm a r kl i a o 等人i4 9 】的文章。而利用标准人脸图像或者其变换结果直接 或者经特征提取后进行匹配的方法的典型例子可以参见t o s h i a k ik o n d o 和h o n g y a h 5 0 的工作。 我们的人脸检测是建立在很简单的类h a a r 特征的,之所以采用这样的特征 是因为类h a a r 特征可以进行a d a 域的解码问题,而这个问题通过使用有限的训 练数据是很难达到的,同时基于类h a a r 特征的操作同基于像素的系统相比具有 更快得速度。可以通过文献【5 1 1 查阅类h a a r 函数。在我们的系统中,我们提取了 三种类h a a r 特征( 两个矩形区域中的像素总数的不同、形状大小相同水平或是 垂直相邻的区域、第三个矩形通过提取中间举行的像素总数计算出外围两个矩形 的像素总数,最后第四个矩形计算出两个对角矩形的不同) 作为底层特征,采用 级联b o o s t e d 分类器【5 2 】检测与人脸相关的特征:人脸个数、人脸大小和人脸位置。 其中矩形特征的提取可以通过中间图形来汁算,假定中间图形在位置x ,y ,那 么在塔上方和左方包含的像素数为: i i ( x ,y ) ;f b l ,y 1 ) ( 2 2 8 ) fs 而 式中,f f b ,y ) 是整个图像,i ( x ,y ) 是原始图像,利用下面的循环公式: s ( x ,y ) ;s 仁,y 一1 ) + b ,y ) ( 2 2 9 ) i i ( x ,y ) = i i ( x 一1 ,y ) + s ( x ,y ) ( 2 - 3 0 ) 式中,s k y ) 是各行的累积,这样,整个图形就可以计算出了。 对检测出的人脸,以往的工作只是统计人脸的个数,我们在这基础上还 特别针对其所在的区域和大小分为左、中、右和超大、大、中、小几种的组合, 这样可咀对人脸这个重要的特征描述更加的详尽。 ( 2 ) 主题特征主题特征是本文新挖掘的一个新特征,对我们整个系统性 能的改进有着非常重要的作用。 在进行介绍主题特征之前我们首先要对新闻视频的逻辑结构有所了解,如下 图所示: 图2 - 4 新闻视频逻辑结构 新闻视频在结构上具有一定规律性,一段新闻节目都是以一些内容提要镜头 开始,然后报道一个个故事,最后大多以天气预报结束,在播报中往往还会穿插 一些广告。通过观察我们发现在新闻视频中普遍存在着一种具有特定模式标题的 镜头如图2 5 ,这些标题一般出现在屏幕下方,具有一定轮廓和颜色,说明一段 故事的主题。我们把这种标题称为主题标题,含有这种标题的镜头我们称之为主 题镜头。 这样由于主题镜头的存在,新闻中的故事单元不仅仅是以主持人镜头 ( a n c h o r ) 作为开始和结束,主题镜头也是一种开始和结束的标志。l e , 女n 播报简 讯时( 如图2 - 4 中图片) ,就是以主持人镜头开始,后接几个分别以主题镜头开 始的新故事单元。 图2 5 主题特征提取 在这种结构中,我们把具有特定模式标题的镜头称作主题镜头f 如图2 4 中 t i t l e ) 。这些标题一般出现在屏幕下方,具有一定轮廓和颜色,说明一段故事的 主题。由于主题镜头的存在,新闻中的故事单元不仅仅是以主持人镜头( a n c h o r ) 作为开始和结束,主题镜头也是一种丌始和结束的标志。 除了上述宏特征的提取,我们还手动提取了三类宏特征,包括:场景变化( 这 个镜头与前一镜头场景是否变化) 、说话人变化( 这个镜头与前一一镜头说话人是 否变化) 和故事内容变化( 这个镜头与前一镜头故事内容是否变化,对第一个 a n c h o rp e r s o n 镜头一般标为y ) 。 第3 章镜头标记 在底层对新闻视频的特征提取之后,我们根据提取的高层特征,利用决策柯 算法对每一个镜头都给以一个标记,这个标记就是对镜头的分类。 3 1 决策树算法 决策树学习是应用最广的归纳推理算法之一。它是一种逼近离散值函数的方 法,对噪声数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年金融行业数据分析师面试模拟题及策略分析
- 2025年心理咨询师资格认证模拟题及参考答案
- 2025年电子商务师高级考试试题及解析与答案
- 2025年交通安全问答试题及答案
- 2025年轨道交通调度员(技师)职业技能鉴定考试题库及答案(浓缩50题)
- 2025注册验船师资格考试(B级船舶检验法律法规)模拟试题及答案一
- 2025年能源资源管理与可持续发展考题及答案
- 桃花源记课件深圳
- 陕西省四校联考2026届化学高一第一学期期中调研试题含解析
- 桃源消防知识培训讲座课件
- 生物化学英文版课件:Chapter 7 Carbohydrates Glycobiology
- 走进奇妙的几何世界
- 飞虎队精神将永远留在这里
- 湘教版九年级美术教学计划(三篇)
- 紧急宫颈环扎术的手术指征及术后管理-课件
- “三重一大”决策 标准化流程图 20131017
- Cpk 计算标准模板
- 信息科技课程标准新课标学习心得分享
- 环保与物业公司合作协议
- FZ/T 01057.2-2007纺织纤维鉴别试验方法 第2部分:燃烧法
- 面条制品-课件
评论
0/150
提交评论