(信号与信息处理专业论文)体育比赛音频分段和关键词检索研究.pdf_第1页
(信号与信息处理专业论文)体育比赛音频分段和关键词检索研究.pdf_第2页
(信号与信息处理专业论文)体育比赛音频分段和关键词检索研究.pdf_第3页
(信号与信息处理专业论文)体育比赛音频分段和关键词检索研究.pdf_第4页
(信号与信息处理专业论文)体育比赛音频分段和关键词检索研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(信号与信息处理专业论文)体育比赛音频分段和关键词检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

, j:!irll l l ijiirlrlllllilijillllli l i j f l y 17 9 0 2 8 2 原创性声明 本人郑晕声明:所呈交的学位论文,是木人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究作出重要贡献的个人和集体,均已在文中以明确方 式标明。木声明的法律责任由本人承担。 论文作者签名:塑鱼毯 日期:矽沪j f 歹 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:魍丝导师签名:雹翌丝日期:誓m s 、f , 一 目录 摘要i a b s t r a c t i 】i 第l 章绪论l 1 1 研究目的1 1 2 研究背景2 1 2 1 音频分段分类研究背景2 1 2 2 关键词检索研究背景3 1 3 研究任务和系统框架7 1 4 论文组织7 ,一 第2 章音频分段和分类9 2 1 系统方法讨论9 2 1 1 常用的距离度量准则9 2 1 2 常用的分类器介绍1 0 2 2 三种分段分类方法13 2 2 1 音素解码13 2 2 2b i g 距离测算和g m m 模型相结合15 2 2 3b i c 距离测算和音素解码相结合17 2 3 音频分段系统实验设计及实验结果17 2 3 1 实验设计17 2 3 2 评估标准1 8 2 3 3 实验结果1 8 第3 章关键词检索基线系统框架2 1 3 1 关键词检索基线系统框架2 l 3 1 - 1 识别模块2 1 3 1 2 索引模块2 6 3 1 3 搜索模块2 9 3 2 基线系统实验结果2 9 3 2 1 数据集及关键词表2 9 3 2 2 评价指标,3 0 3 2 3 基线实验结果3 2 第4 章关键词检索系统的改进3 3 4 1 改进的必要性3 3 4 2 声学模型的改进3 3 4 3 语言模型的改进3 6 4 4 实验结果及分析3 7 4 4 1 语言模型不变声学模型自适应3 7 4 4 2 声学模型不变语言模型自适应3 7 4 4 3 分别进行声学模型和语言模型自适j 泣3 8 4 4 4 利用混合白适应数据做声学模型和语占模型自适应3 9 4 4 5r o c 曲线4 0 第5 章结论4 3 附录a :篮球关键词列表4 5 附录b :网球关键词列表4 6 附录c :足球关键词列表4 7 参考文献4 8 致谢5 1 攻读学位期间发表的学术论文5 2 c h a p t e r2a u d i os e g m e n t a t i o na n dc l a s s i f i c a t i o n 9 :! 1 s y s t e mm e t h o do fa u d i os e g m e n t a t i o n 9 2 1 1c o m m o nd i s t a n c em e a s u r ec r i t e r i a 9 2 1 2i n t r o d u c t i o no fc o m m o nc l a s s i f i e r 10 2 2t h r e ea u d i os e g m e n t a t i o ns y s t e m 13 2 2 1m e t h o do fp h o n e m ed e c o d e r 13 2 2 2m e t h o do fc o m b i n i n gb i ca n dg m m 15 2 2 3m e t h o do fc o m b i n i n gb i ca n dp h o n e m ed e c o d e r 17 2 3e x p e r i m e n t f i ld e s i g na n dr e s u l t so fa u d i os e g m e n t a t i o n 1 7 2 3 1e x p e r i m e n t a ld e s i g n 17 2 3 2e v a l u t i o ns t a n d a r d 18 :2 1 3 3e x p e r i m e n t a lr e s u l t s 18 c h a p t e r3b a s e l i n es y s t e mo fk e y w o r d ss p o t t i n g 21 :;1f r a m e w o r ko fb a s e l i n es y s t e m 2 1 3 1 1r e c o g n i t i o nm o d u l e 2 1 3 1 2i n d e xm o d u l e 2 6 3 1 3s e a r c hm o d u l e 2 9 3 2e x p e r i m e n t a lr e s u l t so nb a s e l i n es y s t e m 。2 9 :;2 1d a t as e t sa n dk e y w o r d sl i s t 2 9 3 2 2e v a l u a t i o ns t a n d a r d 3 ( ) 3 2 3b a s e l i n ee x p e r i m e n t a lr e s u l t s 3 2 c h a p t e r4i m p r o v e m e n to fk e y w o r d ss p o t t i n gb a s e l i n es y s t e m 3 3 4 1n e c e s s i t yo fi m p r o v e m e n t 3 3 4 2i m p r o v e m e n to fa c u s t i cm o d e l 3 3 4 3i m p r o v e m e n to fl a n g u a g em o d e l 3 6 4 4 e x p e r i m e n t a lr e s u l t sa n da n a l y s i s 3 7 z i 4 1a ma d a p t a t i o nw i t hl mu n c h a n g e d 3 7 4 4 2l ma d a p t a t i o nw i t ha m u n c h a n g e d 3 7 4 4 3l ma n da m a d a p t a t i o n 3 8 4 4 4l ma n da m a d a p t a t i o nw i t hm i x e da d a p t i v ed a t a 3 9 4 4 5r o cc u r v e 4 0 c h a p t e r5c o n c l u s i o n s 4 3 a p p e n d i xa :k e y w o r d sl i s to fb a s k e t b a l l 4 5 a p p e n d i xb - k e y w o r d sl i s to ft e n n i s 4 6 a p p e n d i xc - k e y w o r d sl i s to ff o o t b a l l 4 7 r e f e r e n c e 4 8 a c k n o w l e d g e m e n t 5l p u b l i s h e dp a p e r s 5 2 东人学坝l 学位论文 摘要 近年来语音谚 别和关键列柃索技术发展愈来愈迅速,逐步走向实用 化。关键洲检索技术比连续语音谚 别具有更好的灵活性,囚而具有更广泛 的应用领域。本文研究的电视体育比赛音频的关键词检索就是这方面的一 个具体应用。由于体育比赛音频的构成比较复杂,要想提高关键词检索系 统的性能,系统的6 订端处理模块一音频分段分类显得至关重要。本文主 要研究了以下几个方而: 体育比赛的音频分段分类算法:电视体育比赛音频构成非常复杂,包 括解说员语音、音乐、欢呼声、进球声和口哨身等。针对体育比赛音频自 身的特点,本文尝试了三种音频分段分类算法。分别是:基于音素解码的 方法;基于b i c 距离测算和g m m 模型相结合的方法;基。y - b i c 距离测算 和音素解码相结合的方法。并基于这三种方法分别对足球比赛、网球比赛 和篮球比赛做分段分类试验,从实验结果上来看,无论从精度还是从召回 率上,基于b i c 距离测算和g m m 模型选择相结合的方法在提取解说员语 音的效果上要好一些。因此建议选择这种方法对体育比赛音频进行音频分 段分类。 关键词检索系统改进:在实验室关键词检索基线检索系统的基础上做 了一些改进工作。由于此基线系统是用于广播新闻语音的,显然不太适用 于体育比赛音频的关键词检索。基于此,本文对关键词检索基线系统的声 学模型和语言模型做了自适应。针对不同的体育比赛类别,本文主要做了 四个实验:一是基线声学模型保持不变,做语言模型自适应;二是基线语 言模型不变,基于m a p 做声学模型自适应;三是用各自的自适应数据对 相应类型的比赛音频做声学模型和语言模型自适应;四是用混合后的自适 应数据对比赛音频做声学模型和语言模型自适应。从试验结果来看,第三 种方法能够较好的改善关键词检索基线系统的性能。 关键词:体育比赛;音频分段;关键证l 检索;自适应 山东大学硕l :学位论文 n 山东人学硕j :学位论文 a b s t r a c t s p e e c hr e c o g n i t i o na n dk e y w o r d ss p o t t i n gi n c r e a s i n g l yd e v e l o pi nr e c e n t y e a r s c o m p a r e dw i t hc o n t i n u o u ss p e e c hr e c o g n i t i o n ,k e y w o r d s s p o t t i n g t e c h n o l o g yh a sm o r ef l e x i b i l i t ya n da p p l i c a t i o n s t h ek e y w o r d ss p o t t i n gf o r t vs p o r t sg a m e sd i s c u s s e di nt h i sp a p e ri s s u c ha na p p l i c a t i o n a sw ek n o w , t h e s p o r t sg a m e a u d i oi s v e r yc o m p l i c a t e d ,w h i c hm e a n sa g o o d p r e 。p r o c e s s i n gm o d u l e ( a u d i os e g m e n t a t i o na n dc l a s s i f i c a t i o n ) f o rk e y w o r d s s p o t t i n gs y s t e mi sv e r yi m p o r t a n t i nt h i sd i s s e r t a t i o n ,t h ek e yr e s e a r c h c o n t e n t sa r ea sf o l l o w s : s e g m e n t a t i o na n dc l a s s i f i c a t i o no ft v s p o r t sg a m ea u d i o :t h e c o m p o s i t i o no fs p o r t sg a m ea u d i oi sv e r yc o m p l i c a t e d ,i n c l u d i n ga n c h o r ,s s p e e c h ,m u s i c ,c h e e r i n ga n ds oo n h e r et h r e ea u d i os e g m e n t a t i o nm e t h o d s a r ed i s c u s s e d :p h o n e m ed e c o d e r ;t h ec o m b i n a t i o no fb i ca n dg m m ;t h e c o m b i n a t i o no fb i ca n dp h o n e m ed e c o d e r w ed oe x p e r i m e n t so nd i f f e r e n t m a t c h e sr e s p e c t i v e l yu s i n gt h i st h r e ed i f f e r e n tm e t h o d s ,a n dw e c a ns e ef r o m t h er e s u l t st h a tt h em e t h o dw h i c hc o m b i n e sb i ca n dg m m h a sah i g h e r r e c a l lr a t ea n dp r e c i s i o nt h a nt w oo t h e rm e t h o d s t h e r e f o r et h i sm e t h o di s s u g g e s t e dt ou s ef o rs p o r t sg a m ea u d i os e g m e n t a t i o n k e y w o r d ss l 亩o t t i n g :s o m ei m p r o v e m e n t sa r em a d eo no u rs p e e c hl a b s k e y w o r d ss p o t t i n gb a s e l i n es y s t e m t h eb a s e l i n es y s t e m ,w h i c hi sd e s i g n e d f o rb r o a d c a s tn e w ss p e e c h ,w o r k sp o o r l yf o rs p o r t sg a m ea u d i o t os o l v et h i s p r o b l e m ,l a n g u a g em o d e la d a p t a t i o na n d ,a c o u s t i cm o d e la d a p t a t i o n a r e a d a p t e dw i t ht h eb a s e l i n es y s t e m w em a i n l yd of o u r e x p e r i m e n t s :m a p a c o u s t i cm o d e l a d a p t a t i o n t od i f f e r e n tm a t c h e s w i t h l a n g u a g e m o d e l u n c h a n g e d ;l a n g u a g em o d e la d a p t a t i o nt od i f f e r e n tm a t c h e sw i t ha c o u s t i c m o d e lu n c h a n g e d ;l a n g u a g em o d e la n da c o u s t i cm o d e la d a p t a t i o n sw i t ht h e m i x t u r eo fa d a p t a t i o nd a t aa n db o t ht h e l a n g u a g em o d e la n dt h ea c o u s t i c m o d e la d a p t a t i o n sw i t hc o r r e s p o n d i n ga d a p t a t i o nd a t ao fe a c hm a t c ht y p e s i i i lpllr t h er e s u l ts h o w st h a tt h el a s tm e t h o dc a ni m p r o v eb a s e l i n es y s t e mb e t t e rt h a n t h eo t h e rt h r e em e t h o d s k e y w o r d s :s p o r t sg a m e ;a u d i os e g m e n t a t i o n ;k e y w o r d ss p o t t i n g ;a d a p t a t i o n i v 育 关键词榆索是当今大训汇量连续语音识别和检索在电视体育比赛音频的 一个具体应用。 1 1 研究目的 我们知道电视体育比赛的音频构成极其复杂,包含了各种不同的卢学 环境,其中有解说员语音、音乐、噪音、广告、静音、欢呼声、进球声等 等。我们希望送入关键词检索系统的是单纯的解说员语音。音频分段的作 用就是根据不刚音频类型声学特征的不同,把一段连续的体育比赛音频流 分割成语音、音乐、噪音、喝彩声、静音等等。丢弃掉广告、音乐、噪声 等无用部分,提取出来纯净的解说员语音,然后将解说员语音送入我们关 键词检索系统中进行关键词检索。 关键词检索( k e y w o r d ss p o t t i n g ,k w s ) 是一种特殊的语音识别技术 【1 】【2 1 ,目的是在说话人的连续话语中辨认和确定一些关键词。关键词是一 种重要的和语义内容相关的特征,通过对体育比赛音频进行关键词检索, 我们可以获得更多的上层语言信息。比如,通过特定关键词检索,我们可 以对体育比赛的类别进行自动判断;通过对“进球”、“好球”之类词语的 检索,可以帮助我们快速定位电视比赛的精彩场景。总之,对电视体育比 赛音频进行关键词检索研究有如下意义: ( 1 ) 为语音识别和检索的实用化发展做好了准备 语音识别和检索要想真正走向实用化,必须保证语音识别和检索系统 在实际的复杂环境下保持较高的性能。我们知道实际的音频构成一般很复 杂,可能包含音乐、噪声以及来自环境现场的各种声音。对于实验室条件 下的连续语音识别问题,我们已经取得了不错的效果,但是实际的环境要 比实验室环境复杂的多,电视体育比赛节目中包含了实际应用环境的各种 山东人学硕1 :学位论文 复杂的声学特征。研究体育比赛节目的音频识别和检索对于语音识别技术 应用的发展具有重要的意义。 ( 2 ) 可以促进大词汇量连续语音识别技术的发展 体育比赛节目音频构成很复杂,它涉及到一些问题比如千亍景噪声问题 等也是当今语音识别和检索技术急需解决的问题。对体育比赛音频的语音 识别和关键词检索研究,也能够促进整个世界范阐内的语音识别和检索技 术的发展。 ( 3 ) 为实现多媒体信息的语音检索和信息检测做好准备 随着现代信息技术的发展,尤其是多媒体技术的发展,人们生活中而 临的数据急剧增加,如何在海量的数据中进行检索,对有害信息进行过滤, 对有用信息进行利用,这是非常重要的。音频是多媒体中的种重要媒体, 语音是一种特殊类型的音频,它可以与文本相互切换,所以可以利用文本 检索进行信息检索。体育比赛音频的自动分段分类就是对不同特性的音频 进行分类。继而进行说话人识别,关键词检测和音乐检索等相关1 :作。将 这些结果与图像分析相结合,可以进一步做多媒体场景分析。 1 2 研究背景 1 2 1 音频分段分类研究背景 目前,国际上比较流行的音频分段分类算法可以归为三类,基于能量 一 的方法、基于距离测算的方法和基于模型的方法。 ( 1 ) 基于能量的方法 对于一段连续的音频流,中间总会有停顿的地方。这种停顿的信息( 也 称为静音) 基本反映了- 语义信息的变化或者说话人的变化。停顿处很可能 是两种不同音频内容的分界点。基于能量的方法通过查找音频流中的静音 片段,根据静音的长度对音频流进行分割。这种方法的优点是计算复杂度 底,但随着音频文件的不同,静音能量门限和长度门限也会随着变化,并 且如果声学环境不经过静音就直接变化( 比如人声停止后音乐立即响起) , 就不能检测出音频跳变点。 2 山东人学硕i j 学位论义 ( 2 ) 基于距离测算( m e t r i c b a s e d ) 的方法 我们知道,不同类型的音频信号在统计上二具有很大的差异,那么检测 到差异就可以得到分段点。这种方法的基本做法足首先对输入语音提取特 征,这样语音流就成为了特征流;在特征流一卜滑动两个相邻的窗,计算两 个窗数据之间的距离,根据一定的距离门限准则来判断两个相邻窗的数据 是否具有柚同的声学特征,进而找出分段点。m e t r i c b a s e d 分段算法的性 能受特征选取、距离测度选取、窗长、滑动步长以及分割准则等因素的影 响l3 1 。 ( 3 ) 基于模型的方法 这种方法实际上完成了音频分段和分类两个功能。首先定义若干个音 频类,比如纯净语音、噪音、音乐、含噪语音等等,并分别t j l l 练他们的模 型;然后对输入的音频流逐帧提取特征,再根据最大似然或最大后验准则 判别每一帧数据所属的音频类别,再经过一定得平滑处理,使相邻的属于 同一音频类别的特征段合并成一个音频段,这样特征序列就转换成了音频 类序列,而相邻音频类的分界即为分段的段边界。常见的模型有h m m 和 g m m 。 这种方法需要在分段之f j i 准备好各种音频类的语料,并分别训练好它 们的模型。 1 2 2 关键词检索研究背景 ( 1 ) 国内外研究历史 1 9 9 2 年,美国n i s t 第一次组织了文本检索会议( t e x tr e t r i e v a l c o n f e r e n c e ,t r e c ) 【4 】,大大推动了信息检索技术的发展。随着互联网的 发展,g o o g l e 等文本信息检索系统开始走迸人们的同常生活。 19 9 5 年,美国n i s t 第一次组织了关于广播新闻语音识别的国际评测。 语音识别的研究丌始逐步面向现实生活中“真实语音”。信息检索技术和 自动语音识别技术发展的同时也促进了语音文档检索研究的发展。美国 n i s t 自从1 9 9 7 年开始在t r e c 中加入语音文档检索( s d r ) 这一项目,极 大地促进了语音文档检索技术的发展。出现了许多著名的音视频检索系 山东人学顾j j 学位论文 统:英国剑桥大学的多媒体文档检索( m u l t i m e d i ad o c u m e n tr e t r i e v a l , m d r ) 1 5 j ;美国c m u 的i n f o r m e d i a 项目1 6 1 ;a t & t 的s c a n 系统1 7 1 :b b n 的 r o u g h n r e a d y i8 】:康柏公司丌发的第一款用于网上大规模音视频索引的 s p e e c h b o t 弓l 擎1 9 】。这些系统一般是先采用基于广播新闻的l v c s r 识别引擎 进行识别,然后再采用基于文本的信息检索技术对最优词串进行索引和检 - 一 索。 2 l 世纪以来,检索的对象丌始逐步从广播新闻转向自然口语化的语 音,新的问题和挑战丌始出现。主要是自然口语高识别错误率( 高达4 0 ) 下稳健检索的问题和是丌放领域下集外诃检索的问题。出现了许多新的研 究方案,比如基于多候选索引、基于子词索引、基于混淆矩阵模糊匹配等。 | i 当前,语音检索的发展势头i l 丁谓如火如荼。商业语音检索系统丌始走 向更大规模的应用。 国内大约从l9 9 7 年丌始展) l :对关键词检测的研究。2 0 0 4 年,陈一宁提 出了一个基于音节网格的关键词检测系统【1 。2 0 0 5 年,罗骏提出一种基于 音节网格的两阶段检索系统【。2 0 0 5 年,黄松芳提出了一套面向广播新闻 语音的自动标注和检索系统,该系统直接在自动语音识别得到的词混淆网 络上进行关键词检索匹配f 1 2 j 。2 0 0 7 ,高勤年提出了基于词混淆网络及置信 度的索引与检索技术,并基于音子混淆矩阵的四音子串索引及检索扩展技 术来解决集外词检索问题f 13 1 。2 0 0 5 年,国家8 6 3 计划组织了中文2 倍实时电 话语音关键词检测技术的评测。国内开始展开对电话语音的关键词检测的 研究。中科院声学所提交了一个两阶段的基于音节网格的关键词检测系统 【1 4 】。在识别阶段只进行声学层的识别产生音节网格和最优音节序列。检索 阶段,分两步:第一步在最优音节序列中利用音节混淆矩阵进行模糊匹配 快速产生关键词候选:第二步候选关键词在音节网格上进行置信度计算产 生按得分排序的检测结果。 ( 2 ) 主要的关键词检索方法 一般关键词检索分为两个阶段:关键词检出和关键词确认。关键词检 出过程是指语音信号输入到解码器中,通过解码得到候选关键词。关键词 确认是指对解码出来的这些候选关键词,利用各种方法对之重新评估,得 4 山东人学埘ii j 学位论文 到可能性最大的关键词。 常见的关键词检测方法有两种:一种是基于f i l l e r ( 垃圾模型) 的方法, 一是基于l v c s r ( 大词汇量连续语音识别) 的方法。 基于f i l l e r 的方法是国际上用的比较多的一个方法1 15 1 1 1 们。这种方法需 要对待识别的关键词和f i l l e r 分别训练模型。检索在关键词模型和f i l l e r 模型并联的网络上进行1 1 7 】f l8 1 。一段语音信号过来,可能被识别成关键词, 也有可能识别成f i l l e r 。根据置信度计算得分,如果某个天键词上的得分 比较高,说明是包含该关键词的语音,如果f i l l e r 得分比较高,说明是包 含其他关键词或f i l l e r 的语音。基于f i l l e r 的搜索结构如图卜1 。 图卜1 基于f i l l e r 搜索的系统结构 搜索过程大致分为两部分。第一部分实际上是一个连续语音搜索的过 程。输入是语音特征,在由关键词表和f i l l e r 组成的搜索空间上进行搜索。 搜索过程实际上是对所有的关键词和f i l l e r 进行连续语音识别的过程。输 出为多个关键词候选结果组成的n b e s t 识别结果列表或者识别结果网格。 第二部分是在多个候选结果上的一个确认过程,根据多种知识源计算关键 词候选结果的置信度,根据置信度得分最终确认关键词。 基于l v c s r 的关键词检索系统分为识别和检索两个阶段,如图卜2 所 示。在识别阶段,l v c s r 系统对输入语音进行全部解码,并将识别结果以 出 山东人学硕i :学位论文 文本方式存储,在得到文本的识别结果后,每个字( 或者词) 都有其对应 的时间信息。然后根据关键词列表中的关键词,在识别文本结果上利用文 本检索技术进行检索匹配,从而获得关键词在语音文件中的出现位置。 火键词列表 图1 2 基丁l v s c r 的关键词检索系统 表卜l 给出了西种关键渊榆索系统的比较。 表卜1 两种关键词检测系统的比较 输出 基t l v c s r 系统的检索基丁f i i l e r 的检索 搜索空i 日j汉语的全部汉字天键阋列表和填充f i l l e r 语言模型是 否 解码器只需解码一。次 必键阏表改变需重新解码 检索速度慢快 网格要求较高无 应j j朗读式语音特定任务域 基于f i l l e r 的关键浏检索,优点是计算量比较小、检索速度快。这种方 法需要事先知道待搜索的关键词。一旦关键词改变,系统必须重新识别, 不适合快速检索的场合。而且不能有效运用语言模型的知识,容易造成误 警。一般来说,这种方法比较适用于特定任务域的关键词检索系统。 基于l v c s r 系统的关键词检索,这种方法的优点是解码仅仅需要一 次,关键词检索却可以进行多次,检测率也比较高,而且可以充分利用语 言模型的知识,误警率比较低。缺点是计算量大,速度比较慢,并且会出 现集外词( o o v ) 问题。另外,这种系统的关键词检出率受解码率的识别 率影响很大,而自然语音由于说话风格的特点以及环境噪声的影响,识别 率往往很低。因此,这种方法比较适合于朗读式语音数据,例如广播新闻 语音等等。 6 山东人学硕i :学位论文 1 3 研究任务和系统框架 针对体育比赛节日音频,本文主要做两方面的研究工作。一是对输入 的体育比赛音频进行音频分段,二是对分段出来的语音进行关键词检索。 系统的大体框架如图卜3 : 关键词列表 的关键词 图卜3 关键词检索系统框架 我们知道体育比赛的音频构成非常复杂,包括语音、音乐、喝彩声、 静音、广告、噪音等等。我们希望输入关键词检索系统的是时间上比较短 且声学特征单一的语音片段。这就需要对音频流进行分段。音频分段实现 了音频流中不同音频类别的自动切分,同时也提取出了节目解说员的语 音。为后续的关键词榆索做好了准备。本文主要讨论了三种分段分类方法: 基于音素解码的分段方法,基于b i c 距离测算和g m m 模型相结合的方法, 基于b i c 距离测算和音素解码相结合的方法。并对三种方法分别做实验评 估了他们的性能。 将分段提取出来的解说员语音输入关键词检索系统,对事先给定的关 键词列表中的词语,实现在音频流中对词语的自动检索。本文所做的工作 包括以下几个部分:一是对体育比赛音频进行音频分段分类,二是通过声 学模型和语言模型自适应手法改进关键词检索基线系统的性能。 , 1 4 论文组织 本文的组织结构安排如下: 第一章概述了音频分段和关键词检索的研究背景和意义。 第二章采用三种音频分段方法对体育比赛音频进行分段分类,给出 并分析实验结果。 7 山东大学硕一i j 学位论文 8 果。 第三章介绍了关键词检索基线系统,给出并分析关键词检索实验结 第四章加入语言模型和声学模型自适应,对关键词检索基线系统做 改进,给出并分析实验结果。 第五章为整篇论文的总结,指出了存在的问题和需下一步的工作。 山东人学硕i :学位论文 2 1 系统方法讨论 第2 章音频分段和分类 1 1 1 简单介绍了常见的音频分段分类方法,包括基于能量的方法、 基于距离测算的方法和基于模型的方法。基于距离测算的方法面临的是距 离度量的选择问题,基于模型的方法面临的是分类器的选择问题,不同的 研究对象选择的距离度量和分类器也不同。下面对本文中用到的距离度量 准则和分类器进行了简单介绍。 2 1 1 常用的距离度量准则 距离度量是为了衡量样本之间的距离,主要应用于模式识别。下面给 出本文中用到的距离度量准则。 设x ,y ,z 分别为音频段x ,少,z 的特征矢量,其中音频段z 为x 和y 段 的合并段,刀,z y ,刀:分别为x ,y ,z 的长度,疗:= ,2 ,+ 玎,。p 代表均值矢量, x2 芝x 一。代表协方差矩阵。= 上 i x 芝i :l ( x i - - p x ) ( x t 一“。) ,d ii = l 为特征参 1 数的维数。 贝叶斯信息准则( b a y e s i a ni n f o r m a t i o nc r i t e r i o n ,b i c ) 风假设:如果两个音频段x ,y 之间没有音频跳变点,则x ,y 服从统一 的分布,可以合并成一个片段z :即 z n ( f :,:) ( 2 1 ) q 假设:如果两个音频段x ,y 2 _ 间存在音频跳变点,则x ,y 服从不同 的分布: x n ( p 。,。) ;y n ( p y ,y ) ( 2 2 ) 其中( ,) 表示以p 为均值,为方差的正态分布。 9 山东人学硕i j 学位论文 假设m = m 。,m 2 ,m r 是模型的集合,模型m ,的参数数目是k ,则b i c j :l 定义如下: b i c ( m j ) :l 。g ( x ,m ,) 一i 1 舣,l 。g ,7 , ( 2 3 ) 其中l ( x ,m ,) 为模型m j 和数据x 的最大似然值( m a x i m u ml i k e l i h o o d , , m l ) ,损失权重为旯。 b i c i z e 离定义如下: , d 胱= b 1 c ( h i ) 一b i c ( h o ) ( 2 4 ) 把( 2 一1 ) 、 ( 2 2 ) 、( 2 3 ) 代入到( 2 4 ) 中,得到 d 肌( x ,y ) = r 一2 ( 2 - 5 ) 、 其中 r = 刀:l o g :l 一打,l o gl ,i 一刀yl o gl yi 。 ( 2 6 ) p = 丢( d + l ( d ( d + 1 ) ) ) l 哪: ( 2 、; 如果d 眦( 二,y ) 0 ,意味着h i 成立,否则矾成立。 ! 巴氏距离( b h a t t a c h a r y y a ,b h a ) 、 批炉弘1 ,m ) r ( 跏- i ( 旷+ 兰l 毫裂沿8 ) i 2 1 2 常用的分类器介绍 分类的方法有很多,比如贝叶斯决策、神经网络、支持向量机( s v m ) 等等。g m m 分类算法在音频分类中取得了不错的效果。这里主要介绍本 文用到的高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 和h m m ( h i d d e n m a r k o vm o d e l ) 。g m m 分类和h m m 分类方法在音频处理、语音识别、说 话人识别和语种识别等众多模式识别领域应用比较成功。本文第二章的音 频分类模块就用到了g m m 分类方法。 高斯混合模型 如果将每个数据样本看作高维空间的一点,而同一类别的数据样本点 都是由一个服从高维高斯分布的密度函数所产生。通过最大似然估计 山东人学硕f j 学位论文 数据样本点的分布。此时便需要数个高斯模型的加权平均术表示, 式就成为高斯混合模型。 m 阶的高斯混合模型可表示为: m p ( xl 兄) = w , p xt 4 , e ,】 i = l 苴中 、l p 【xl ,】= 乏五赤e x p 一三( x h ) 7 i 1 ( x 一,) ) 这种方 ( 2 9 ) ( 2 10 ) 其中x 为d 维观察矢量,m 是高斯混合数,p xl ,】是均值矢量为鸬、协 方差矩阵为,的单高斯分柿函数,w ,足第i 个单高斯分布的权重,善w , 整个高斯混合模型就呵以由各均值矢量、协方差矩阵及混合分量的权 值来描述,因此将得到一个g m m 模型参数九表示为如下三元式: 五= w f ,。) ,扛1 2 ,m ( 2 11 ) 协方差矩阵,可p a1 1 满矩阵,但用满矩阵套用公式运算量将是非常 大的。在实现中可以将其简化成对角矩阵,给运算带来很大的方便。 引入高斯混合模型有两个重要原因:( 1 ) 高斯密度函数的线性叠加 能够对任意形状的分布进行近似;( 2 ) 每个密度分布可以表示出基本声 学类,例如元音、鼻音和摩擦音。 训练g m m 模型,即估计g m m 模型的参数,常用的方法是最大似然的 估计方法乜。最大似然估计的目的是在给定训练矢量集的情况下寻找合适 的模型参数,使g m m 模型的似然函数值最大。期望最大化( e x p e c t a t i o n m a x i m i n a t i o n ,e m ) 算法是较常用的g m m 训练算法心引。训练的目的是根 据已知t 个特征矢量x t ,t = 1 ,2 一t ,来确定g m m 参数旯。 怎样根据g m m 分类器进行分类呢? g m m 分类是根据最大后验概率准 则进行分类。设s 类对应的g m m 模型分别为 ,么,以,目标是根据给定的 观察序列,找到使之有最大后验概率的模型对应的类以,也即: 山东人学硕i ? 学位论文 = a r g m a x p r ( 2 kix ) :a 唱m a x 坐掣 l 敛血i s 五s 3 p ( x j ( 2 一l2 ) 假设各个类等概率出现,也即p r ( ) = 1 s ,上式简化为: s = a r gm a xp ( xi 也) ( 2 13 ) 如果使用对数得分来分类,就是计算 = a r g m a x l o g p ( 一l ) ( 2 14 ) l s s ,一i 隐马尔科夫模型 隐含马尔科夫模型( h m m ) 是目前语音识别中常见的模型。每一个 基本的建模单元用一个h m m 表示,每一个h m m 模型由一组按一定的转移 概率相互跳转的状念组成。系统以一定的初始概率从某个初始状念丌始, 每一时刻( 语音的每一帧) ,h m m 模型会按照状态转移概率跳转到其它 状态或者停留在当前状态。每一个状态都以一定的概率产生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论