(信号与信息处理专业论文)基于混淆网络的汉语语音检索技术研究.pdf_第1页
(信号与信息处理专业论文)基于混淆网络的汉语语音检索技术研究.pdf_第2页
(信号与信息处理专业论文)基于混淆网络的汉语语音检索技术研究.pdf_第3页
(信号与信息处理专业论文)基于混淆网络的汉语语音检索技术研究.pdf_第4页
(信号与信息处理专业论文)基于混淆网络的汉语语音检索技术研究.pdf_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

v 上 竹 c l a s s i f i e di n d e x : u d c : ad is s e r t a ti o nf o rt h ed e g r e eo fd e n g r e s e a r c ho nm a n d a r i n s p e e c h r e t r i e v a lt e c h n i q u eb a s e do nc o n f u s i o n n e t w o r k c a n d i d a t e :h u a n gx i a n g s o n g s u p e r v i s o r :p r o f e s s o rz h a oc h u n h u i a c a d e m i cd e g r e ea p p li e df o r :d o c t o ro fe n g i n e e r i n g s p e c i a l t y :s i g n a la n di n f o r m a t i o np r o c e s s i n g d a t eo fs u b m i s s i o n :a p r i l ,2 0 1 0 d a t eo fo r a le x a m i n a t i o n :j u n e ,2 0 1 0 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y ,_ 6 - 一 i 一 嶂j 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下, 由作者本人独立完成的。有关观点、方法、数据和文献的引用 已在文中指出,并与参考文献相对应。除文中已注明引用的内 容外,本论文不包含任何其他个人或集体已经公开发表的作品 成果。对本文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本人完全意识到本声明的法律结果由本人承 担。 作者( 签字) :玩币仁 日期:矽f d 年石月n e l 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生 在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈 尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印 件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关 数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇 编本学位论文,可以公布论文的全部内容。同时本人保证毕业后 结合学位论文研究课题再撰写的论文一律注明作者第一署名单位 为哈尔滨工程大学。,涉密学位论文待解密后适用本声明。 本论文( 叼在授予学位后即可口在授予学位1 2 个月后 口解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :舌巾和导师( 签字) :洲 日期: 加阳年6 月p 日y ,年莎月吵日 t 1 峰 , , 0 6 t 随着互联网和多媒体技术的快速发展,每天都会涌现海量的音频文件, 如何对这些语音文档进行有效地检索和分类成为信息处理领域中的一个热点 问题。目前语音检索技术的研究主要是基于统计模式识别的基础理论,对连 续语音信号的处理从声学层和语言层两个方面进行考虑。网格技术作为一种 新兴的信息检索技术,其结构恰好能够描述这两方面的内容。它是以文本的 形式把检索过程中得到的多个候选结果保留下来,特别适合用于与任务无关 的语音文档检索中。对网格进行剪枝后得到的混淆网络,在结构上更为紧凑, 能够提高识别的准确率。因此把网格作为一个语音检索系统的输入是非常有 前景的,基于网格和混淆网络的语音检索技术正受到越来越多的重视。 网格的建立和查询搜索阶段的索引策略构成了语音检索技术中两个重要 的组成部分。本论文首先针对语音信号检索中混淆网络的生成、检索过程中 的搜索策略以及置信度的计算等方面的问题进行了研究。之后重点讨论了如 何在混淆网络中进一步丰富声学层面以及语言学层面的信息,提出了在声学 模型中附加声调信息模型和在语言模型中附加韵律信息模型的方法。论文所 做工作主要集中在以下几个方面: 首先,由于在低信噪比环境下,连续语音信号分割效果不理想,因此提 出了一种基于投票选择机制的连续语音信号分割方法。该方法对几种不同的 分割结果进行投票选择,以提高语音分割的准确率。实验结果表明,该方法 在低信噪比条件下对语音信号的分割结果更接近人工标注的分割结果。 其次,针对基于网格结构的语音检索技术,提出了基于枢纽路径的混淆 网络生成方法,在不降低检索性能的前提下,使网格结构更为紧凑,缩减了 索引尺寸,并且使附加信息更加丰富。同时针对搜索策略提出了改进的d m l s 方法,在检索过程中用最小编辑距离来补偿音节识别器中的插入、删除、替 代等错误。另外,针对语音检索中置信度的计算问题,提出了以互信息量作 为置信度的方法,并结合后验概率得到了一个全新的置信度。最后通过仿真 实验,验证了所提出方法的有效性。 再次,为了使混淆网络中的信息更加全面,从而提高语音检索系统的整 体性能,提出将声调模型融合到混淆网络中。并且用声调核子代替全音节进 行声调特征的提取,在此基础上建立了基于声调核子的m s d h m m 声调模 哈尔滨工程大学博士学位论文 型。将该模型与混淆网络中原有声学模型结合,在语言模型不变的情况下进 行了语音检索实验。得到的仿真结果证明了声调特征在语音检索中作为辅助 信息的有效性。 最后,提出在混淆网络中附加韵律学特征信息,来提高语音检索的性能。 先针对韵律事件的检测问题进行了研究,分别利用声学特征、词汇特征和句 法特征进行韵律事件的检测。将建立起来的韵律模型融合到现有混淆网络的 声学模型和语言模型中。进行的语音检索仿真实验表明,附加韵律事件特征 有助于提高语音检索的性能。 综上所述,本论文研究了基于混淆网络的连续汉语语音的检索问题,主 要针对混淆网络的生成和检索阶段的搜索策略进行了改进。提出了基于枢纽 路径的混淆网络生成算法和基于改进d m l s 的检索方法。另外,分别针对混 淆网络中的声学模型和语言模型,采取附加特征信息的方法来提高语音检索 的性能。在声学模型中结合了声调方面的信息,在语言模型中结合了韵律学 方面的信息。得到的实验结果表明,本文中所提出的方法均能够得到较好的 效果,对语音文档检索有性能上的改善和提高。 关键词:语音检索;混淆网络;网格;声调识别;韵律检测 t 口 w i t ht h e r a p i di m p r o v e m e n t o fi n t e m e ta n dm u l t i m e d i at e c h n o l o g y , o v e r w h e l m i n ga u d i o d o c u m e n t se m e r g ee v e r y d a y t h e r e f o r ei nt h ef i e l do f i n f o r m a t i o np r o c e s s i n g ,i th a sb e e nah o t s p o th o wt os e a r c ha n dc l a s s i f yt h e s e s p e e c hd o c u m e n t se f f e c t i v e l y a tp r e s e n t ,t h er e s e a r c ho ns p e e c hr e t r i e v a lh a s b e e nm o s t l yb a s e do ns t a t i s t i c a lp a t t e r nr e c o g n i t i o nt h e o r y , i nw h i c hs p e e c hs i g n a l i sc o n s i d e r df r o mt w oa s p e c t s :a c o u s t i cl e v e la n dl a n g u a g el e v e l a sar i s i n g t e c h n o l o g y , l a t t i c et ot h em o m e n t i sc a p a b l eo fd e s c r i b i n gt h e s et w ot h i n g s t h e l a t t i c er e s e r v e ss e v e r a lc a n d i d a t er e s u l t si nt h es e a r c h e ss t a g ei nt h ef o r mo f t r a n s c r i p t ,s o i t e s p e c i a l l ya d a p t st o t h et a s ko fs p e e c hd o c u m e n tr e t r i e v a l c o n f u s i o nn e t w o r kw h i c hi so b t a i n e db yl a t t i c ep r u n i n g ,i sm o r ec o m p a c ti n s t r u c t u r ea n dc a ni m p r o v et h ec o r r e c tr e c o g n i t i o nr a t e h e n c ei t sv e r yp r o m i s i n g t h a tal a t t i c ei su s e da st h ei n p u t so fas p e e c hr e t r i e v a ls y s t e m t e c h n o l o g yo f s p e e c hr e t r i e v a lb a s e do nl a t t i c ea n dc o n f u s i o nn e t w o r kh a sb e e np a i dm o r ea n d m o r ea t t e n t i o n l a t t i c eb u i l d i n ga n di n d e x i n gs t r a t e g yi nt h ep r o c e s so fq u e r ys e a r c h i n ga r e t w os i g n i f i c a n tc o m p o s i t i o no ft h et e c h n o l o g yo fs p e e c hr e t r i e v a l t h et h e s i s f i r s t l ys t u d i e dt h eg e n e r a t i o no f ac o n f u s i o nn e t w o r k ,t h es e a r c h i n gs t r a t e g yi nt h e p r o c e s so fi n d e x i n ga n dt h ec a l c u l a t i o no f c o n f i d e n c em e a s u r ei nas p e e c hs i g n a l r e t r i e v a ls y s t e m w h e r e a f l e rw ep u te m p h a s i so nd i s c u s s i n gh o wt oe n r i c ht h e i n f o r m a t i o na b o u ta c o u s t i ca n dl a n g u a g el e v e lf e a u r e s t h ea p p r o a c h e sw e r e p r o p o s e dt h a t t o n ei n f o r m a t i o nm o d e lw a sa p p e n d e dt oa c o u s t i cm o d e la n d p r o s o d y i n f o r m a t i o nm o d e lw a sa p p e n d e dt ol a n g u a g em o d e l t h em a i n c o n t r i b u t i o n si nt h et h e s i sw e r es h o w ni nt h ef o l l o w i n ga s p e c t s : f i r s t l y , a st h es e g m e n t a t i o nr e s u l t so fc o n t i n u o u ss p e e c hw a sd i s s a t i s f a c t o r y i nt h ec a s eo fl o ws n r ,a na p p r o a c hb a s e d0 1 1c a n d i d a t es e l e c t i o nw a sp r o p o s e d f o rc o n t i n u o u ss p e e c hs i g n a ls e g m e n t a t i o n t h em e t h o du s e dac a n d i d a t es e l e c t i o n f o rs e v r a ls e g m e n t a t i o no b t a i n e db yd i f f e r e n tm e t h o d s ,i no r d e rt oi n c r e a s et h e c o r r e c tr a t e o u re x p e r i m e n t ss h o w e dt h a tt h er e s u l t so fo u rp r o p o s e dm e t h o d 哈尔滨1 :程大学博士学位论文 w e r em o r ec l o s et om a n u a ls e g m e n t a t i o n s s e c o n d l y ,a i m i n ga tt h et e c h n o l o g yo fs p e e c hr e t r i e v a lb a s e do nl a t t i c e s t r u c t u r e ,a na l g o r i t h mb a s e do np r i v o tw a sp r o p o s e df o rt h eg e n e r a t i o no fa c o n f u s i o nn e t w o r k w i t hn od i s t i n c td e c r e a s eo fi n d e x i n g p e r f o r m a n c e ,t h e s t r u c t u r eo fl a t t i c ew a sm o r ec o m p a c t t h es i z eo fi n d e x i n gw a sc u ts h o r ta n dt h e a d d i t i o n a li n f o r m a t i o nw a sm o r ea b u n d a n t a tt h es a m et i m e ,a i m i n ga tt h e s e a r c h i n gs t r a t e g y ,a ni m p r o v e dd m l sm e t h o dw a sp r o p o s e dt oc o m p e n s a t et h e e r r o r so fi n s e r t i n g ,d e l e t i n ga n ds u b s t i t u t i n ge r r o r su s i n gm i n i m u me d i td i s t a n c ei n as y l l a b l er e c o g n i t i o nm a c h i n ei nt h es t a g eo fi n d e x i n g f u r t h e r m o r e ,f o rt h e c a l c u l a t i o no fc o n f i d e n c em e a s u r ei nas p e e c hr e t r i e v a ls y s t e m ,a n o t h e rm e t h o d w a sp r o p o s e du s i n gm u t u a li n f o r m a t i o no ft w on e i g h b o u r i n gs y l l a b l e sa st h e c o n f i d e n c em e a s u r e a n dw eg o tan o v e lc o n f i d e n c em e a s u r eb yc o m b i n i n g m u t u a li n f o r m a t i o no fc o n t e x ts y l l a b l e sw i t hp o s t e r i o rp r o b a b i l i t yo fas y l l a b l e t h e v a l i d i t y o fo u r p o p o s e da p p r o a c h e sw a sp r o v e dt h r o u g hs i m u l a t i o n e x p e r i m e n t s t h i r d l y ,i no r d e rt oa t t a i nm o r ec o m p r e h e n s i v ei n f o r m a t i o ni nt h ec o n f u s i o n n e t w o r k ,t o n em o d e lw a sb u i l tt om e r g ei n t oac o n f u s i o nn e t w o r kt oi m p r o v et h e w h o l ep e r f o r m a n c eo fas p e e c hr e t r i e v a ls y s t e m f u r t h e r m o r e ,t o n en u c l e u sw a s u s e dt oe x t r a c tt o n ef e a t u r e si n s t e a do faw h o l e s y l l a b l e ,o nt h eb a s i so fw h i c hw e c o n s t r u c t e dam u l t i s p a c ep r o b a b i l i t yd i s t r i b u t i o nh m mt o n em o d e lb a s e do nt o n e n u c l e u s t oo b t a i nt h eu l t i m a t ea c o u s t i cm o d e lo fac o n f u s i o nn e t w o r k ,t h eb u i l t t o n em o d e lw a sc o m b i n e dw i t ho r i g i n a la c o u s t i cm o d e li nac o n f u s i o nn e t w o r k c o n s t r u c t u r e s p e e c h r e t r i e v a l e x p e r i m e n t sw e r ei m p l e m e n t e dw i t ho r i g i n a l l a n g u a g em o d e lu n c h a n g e a b l e t h er e s u l t so fo u re x p e r i m e n tp r o v e dt h a tt o n e f e a t u r e sw e r ee f f e c t i v ea p p e n d e xi n f o r m a t i o ni nas p e e c hr e t r i e v a ls y s t e m f i n a l l y ,t oi m p r o v et h ep e r f o r m a n c eo fas p e e c hr e t r i e v a ls y s t e m ,w e a t t e m p t e dt oa p p e n dp r o s o d yi n f o r m a t i o ni nac o n f u s i o nn e t w o r k f i r s to fa l lw e s t u d i e dt h ep r o b l e mo fp r o s o d ye v e n td e t e c t i o nw i t ha c o u s t i cf e a t u r e s ,l e x i c a l f e a t u r e sa n ds y n t a xf e a t u r e ss e p a r a t e l y t h eb u i l tp r o s o d ym o d e lw a sc o n f u s e dt o o r i g i n a la c o u s t i cm o d e la n dl a n g u a g em o d e li nc o n f u s i o nn e t w o r k n es p e e c h i n d e x i n ge x p e r i m e n t si n d i c a t e dt h a tp r o s o d i cf e a t u r e sd i dh e l pt oi m p r o v et h e p e r f o r m a c eo fas p e e c hr e t r i e v a ls y s t e m , , 一 g e n e r a t i o no fc o n f u s i o nn e t w o r k ,a n dt h ei m p r o v e dd m l sm e t h o dw a sp r o p o s e d f o r t h es e a r c h e ss t a g e a d d i t i o n a l l y ,a p p e n d e n ti n f o r m a t i o nw a se x p l o i t e dt o o p t i m i z eo u rs p e e c hr e t r i e v a ls y s t e m a i m i n ga ta c o u s t i cm o d e la n dl a n g u a g e m o d e l w ec o m b i n e dt o n ef e a t u r e si n f o r m a t i o nw i t ho r i g i n a la c o u s t i cm o d e la n d c o m b i n e dp r o s o d i cf e a t u r e si n f o r m a t i o nw i t h o r i g i n a ll a n g u a g em o d e l t h e e x p e r i m e n tr e s u l t s i n d i c a t e dt h a to u rp r o p o s e da p p r o a c h e sc o u l da t t a i ng o o d r e s u l t sa n dd i di m p r o v et h ep e r f o r m a n c eo fa s p e e c hs i g n a lr e t r i e v a ls y s t e m k e yw o r d s :s p e e c hr e t r i e v a l ;c o n f u s i o nn e t w o r k ;l a t t i c e ;t o n er e c o g n i t i o n ; p r o s o d yd e t e c t i o n , 一 一 r 一 第1 章绪论1 1 1 课题的背景和意义1 1 2 语音检索技术概述一2 1 2 1 语音检索系统的组成4 1 2 2 语音检索中的搜索策略5 1 2 3 置信度的计算7 1 2 4 语音检索中的性能评价指标9 1 3 语音检索技术的发展及国内外研究现状1 0 1 3 1 语音识别的发展及研究现状1 0 1 3 2 关键词识别的发展及研究现状1 2 1 3 3 语音检索技术的发展和应用1 3 1 4 网格技术的发展和研究现状1 5 1 5 本文主要研究内容1 6 第2 章语料库和基准系统的建立1 8 2 1 语料库的建立1 8 2 1 1 现有语料库的介绍1 8 2 1 2 本文所用语料库1 9 2 2 基准系统中预处理方法的研究1 9 2 2 1 基于倒谱距离的语音分割方法2 0 2 2 2 基于分形维数的语音分割方法2 1 2 2 3 基于h m m 的语音分割方法2 2 2 2 4 基于投票选择机制的语音分割方法2 2 2 2 5 实验结果比较及分析:2 4 2 3 基准系统的建立和性能2 9 2 3 1 声学模型一2 9 2 3 2 语言模型3 0 2 3 3 基准系统的性能。3 1 2 4 本章小结3 1 哈尔滨工程大学博十学位论文 宣昌宣i ;i i i ;宣;暑暑置暑暑宣宣皇置葺宣i i i i ;i ;i i i i 昌;i i i 宣宣;暑暑暑i 置i i ;宣i 暑置宣暑皇置暑暑i 昌宣萱薯昌暑暑暑暑暑暑皇宣暑暑宣宣暑葺 第3 章基于动态匹配网格的语音检索方法3 3 3 1 弓l 言3 3 3 2 网格的建立3 4 3 2 1 网格的定义3 4 3 2 2 网格的转换3 7 3 2 3 基于枢纽路径的混淆网络生成。3 7 3 3 语音检索中的搜索策略4 1 3 3 1 索引的建立4 1 3 3 2 动态匹配网格检索方法4 1 3 4 语音检索中置信度的计算4 3 3 4 1 基于后验概率的置信度4 3 3 4 2 基于互信息的置信度4 4 r 3 4 3 关于置信度计算的实验结果讨论4 5 3 5 实验仿真结果和分析4 8 3 6 本章小结4 9 第4 章基于核子声调模型的语音检索方法5 1 4 1 弓l 言5 1 4 2m s d h m m 声调模型5 3 4 2 1 多空间概率分布5 3 4 2 2 基于m s d h m m 的声调模型建立5 5 4 3 基于核子的声调模型5 7 4 3 1 声调核子韵提取5 8 4 3 2 利用核子建模的声调识别实验6 4 4 4 核子声调模型与混淆网络的结合6 8 4 5 实验结果分析与讨论6 9 4 6 本章小结7 4 一 第5 章基于音节韵律模型的语音检索方法7 5 5 1 引言7 5 5 2 韵律事件检测7 6 5 2 1 韵律学特征的选取7 7 5 2 2 基于声学特征的韵律事件检测7 8 5 2 3 基于词汇特征的韵律事件检测7 9 网络的汉语语音检索技术研究 的韵律事件检测。8 0 律事件检测8 1 析8 3 5 3 韵律模型与混淆网络的结合8 6 5 3 1 声学韵律模型8 6 5 3 2 韵律模型的自适应8 9 5 4 实验结果及分析9 5 5 5 本章小结。9 8 结论:。9 9 参考文献。1 0 2 攻读博士学位期间发表的论文和取得的科研成果1 1 5 致谢1 1 6 个人简历1 1 7 一 1 1 课题的背景和意义 众所周知,当今时代是信息化的时代。随着多媒体技术、互联网技术和 信息存储技术的迅速发展,多媒体信息的数据量正在急剧增加【1 1 。然而目前 却缺乏行之有效的多媒体检索技术,虽然在计算机和互联网中存在着海量的 多媒体资源,但是人们却不能充分利用这些资源。因此,如何在海量的数据 中准确快速地挑选出有价值的信息,对于充分利用时刻都在积累的信息资源 具有十分重要的意义。音频媒体是多媒体家族中的一种重要、常见的媒体。 随着日常生活中音频数据和多媒体数据的重要性日益提高,如何能有效的检 索、搜索这些媒体就显得十分必要了。在这种情况下,单单用文本信息检索 已然不能满足应用需求了,这样一来,基于媒体内容的检索技术应运而生。 目前传统的、已经发展得非常成熟的信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 技术大多是基于文本检索方式的【2 叫。例如为人们所熟知的g o o g l e y a h o o 和 b a i d u 等搜索引擎就是采用这种技术。一开始我们也用文本检索技术对多媒 体信息进行检索。具体方法是,首先对多媒体文档进行人工标注,继而生成 该文档标注文本,例如文件名、作者、版本等信息;之后用文本检索技术对 多媒体信息进行检索。这种通过文本检索对多媒体信息进行检索的方法有着 无法改进的缺点。首先,多媒体信息数量是庞大的,并且不断的、快速的增 长,人工标注方式将直接导致高成本,更重要的是该方法根本无法对海量的 多媒体数据进行准确、及时的标注;其次,一些多媒体信息的重要特征,如 语音信号的语速、语调、语气等,用文本法很难做出清晰、准确的表达。因 此,找到灵活、准确、有效的多媒体检索方法,继而最大程度地利用多媒体 信息的,是一项紧迫而且重要的研究工作。 人类之间进行信息、观点、思想和感情等交流的最自然、最直接、最方 便和最快捷的方式就是通过语言而进行的交互方式。人类之间通过语言进行 交流的信息达到百分之七十以上1 5 蚓。而在残疾、手忙、黑暗等特殊的情况下, 语音交流方式发挥的作用是不可替代的。因此本文中将重点讨论在多媒体信 哈尔滨工程大学博十学位论文 息检索中对汉语语音的检索问题。 语音检索方法先利用语音处理技术对语音进行内容上的分析与分类,然 后在此基础上进行语音检索,根据所要检索语音的内容,在语音资源中搜索 与查询请求相关的语音段。语音检索的实现方式主要有下面几种: ( 1 ) 基于大词汇语音识别技术的语音检索 在此项技术中此语音通过自动语音识另b j ( a u t o m a t i cs p e e c hr e c o g n i t i o n , a s r ) 技术被转换为文本,继而采用文本检索方法进行语音检索。 ( 2 ) 基于子词单元的语音检索 当语音识别系统处理对主题没有限制的大范围语音资料时,尤其当一部 分专业词汇( 如地点、人名、技术名词等) 不在系统词库中时,则该系统识别 性能会变得很差。如果利用子i 百7 ( s u b w o r d ) 索引单元,当执行检索时,用户 的检索首先被拆分成子词单元,将这些被拆分后的单元特征与库中预置的特 征进行匹配,这样会取得不错的识别结果。 ( 3 ) 基于识别关键词的语音检索 关键词识别是指在无约束的语音中自动检测、识别词或短语。通过该技 术,识别并标记出长段录音中用户感兴趣的事件,则这些标记就可以用于检 索。如通过捕捉天气预报播报中“下雨 的词语可以标记下雨的内容。 语音检索技术可作为语音搜索引擎中的关键技术,通过该技术用户可以 快速、准确的获取所需要的信息资源。语音检索技术不仅可以实现语音点播, 还可以对互联网上的音频、视频文件中的语音信息进行实时检索,以达到有 效审查和监控的目的。此外还可以应用于市场调研、网络信息管理、信息安 全等许多领域。语音检索技术在语音信息分类技术、统计技术的研究中也会 起到非常重要的作用i 酬。如在广播、电视、网络中的新闻播报,学术会议上 的报告录音,数字音频图书馆等内容中包含着数量惊人的语音信息,使用此 项技术可以有效地分类信息、统计信息、检索信息,从而更好地利用这些信 息资源1 7 - 9 1 。由此看来,语音检索技术势必有着广泛的应用前景。 1 2 语音检索技术概述 随着计算机技术和多媒体技术的飞速发展,人们记录、保存的语音数据 正在成倍增加。如果采用基于语义内容的快速语音检索,就可以更有效率地 2 人们处理语音信号的过程与计算机检索语音的过程基本上来说是一致 的。语音识别的困难是由语音信号的多变性、动态性、瞬时性和连续性造成 的。目前基于统计模式识别的基本理论是语音识别技术的主流【n l ,也就是将 语音的产生过程分为语言层和声学层两个部分。 语音检索与连续语音识另i j ( c s r ,c o n t i n u o u ss p e e c hr e c o g n i t i o n ) 有着十分 紧密的关系。它们之间有相似的地方,但在更多方面存在着很大的区别。相 似之处在于,语音检索的目的是要把给定词从连续且没有限制的自然语音中 识别出来,可以说它是连续语音识别技术中的一种;但语音检索并不需要把 整段语音中的所有语音都识别出来,所以可以这样说,语音检索是连续语音 识别技术中的一个分支。而不同之处则由以下几个方面体现【5 】: 1 、模型训练问题:连续语音识别模型往往要求用不同发音人进行大量的 数据训练;而语音检索由于其实时性与不确定性的限制,不可能进行对待识 别人的模型训练。 2 、词表问题:连续语音识别一般会要求任何一个待识别词都必须归属于 一个有限词表中;相反语音检索的词表通常是开放的,系统输入语音流允许 包含任何词。 3 、词法和语法问题:连续语音识别规定用一个状态有限的词法或语法网 络限制输入语音序列;相反语音检索没有这方面的要求。 4 、发音态度问题:在连续语音识别系统中,与机器交流这一前提在一般 情况下会告知使用者,使用者的态度也通常是合作的,并且希望机器能识别 他们所说的话;而语音检索系统有时会应用于监听领域,由于这方面的限制 说话人有时是不能察觉到的,因此认真程度得不到保证。 5 、环境问题:连续语音识别系统由于用户配合,往往在实验室等条件比 较好的环境中应用;而语音检索系统由于其解决问题不同,其环境则可能存 在大量噪声。 由于存在上述诸多差别,语音检索与连续语音识别经常被当做两个完全 迥异的问题来处理。连续语音识别系统的错误用百分之几来衡量;而语音检 索系统由于存在着许多不确定性,所以该系统的错误率( 误警和漏识) 一般来 说用百分之十几甚至百分之几十来衡量,这之间的差距显然是巨大的。 3 哈尔滨t 程大学博士学位论文 1 2 1 语音检索系统的组成 语音检索系统由于其研究任务的特殊性,所以该系统的组成与连续语音 识别有着一些区别。汉语语音检索系统的一般结构如图1 1 所示。 图1 1 语音检索系统的典型结构图 f i g 1 1t y p i c a ls t r u c t u r eg r a p ho f a s p e e c hr e t r i e v a ls y s t e m 由图1 1 中可以看出,语音检索系统中需要解决语音信号特征参数的提 取、模式的划分以及时间对准等几个基本问题。 1 、语音特征提取。 特征提取的目的是把各种干扰成分滤除掉,并且将随时间变化的、表现 语音内容的特征序列从语音波形中提取出来。语音信号在处理之前其数据量 是非常大的,因此必须把语音信号中的相关部分精简掉,这样语音信号就可 以有效地通过较少的数据体现出来。首先系统把语音信号映射到特征空间中, 并在此空间中生成特征矢量序列,继而对该序列进行训练和检测。依照此方 法我们可以去掉语音信号中的冗余,使语音信号中的语义信息集中映射到特 征空间,这样原本很难区分的模式样本变得线性可分t t s l 。目前倒谱参数是 大部分系统所使用的主要特征,较常见的有线性预测倒谱系数( l p c c ) 、m e l 频率倒谱系数( m f c c ) 等【1 2 l 。 2 、模式划分问题。 模式划分的目的是选择并建立参考模板。如果想让机器明白我们说的话, 就要先让机器认识它们,这就像我们学习语言一样。最直接的方法就是让机 器记录我们说的每一句话的语音波形,但语音信号即便经过特征抽取后仍然 保有很大的数据量,由于存储空间的限制这样显然是不现实的。如果利用人 类的发声机理,而只用少数几个参数来描述语音信号,这样就能大大减少存 4 1 章绪论 后的语音信号进行建模来有效地表征语义 常应用的模式划分方法。隐马尔可夫模型 ( h i d d e nm a r k o vm o d e l ,h m m ) 尤其是连续隐马尔可夫模型( c o n t i n u o u sh i d d e n m a r k o vm o d e l ,c h m m ) 是声学模型的典型代表【1 4 1 ,并在此领域中起着重要 的作用。人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,删和支持向量机( s u p p o a v e c t o rm a c h i n e ,s v m ) 是分类模型的代表。因为分类模型并非时序模型,因此 分类模型经常被作为声学模型的后续处理手段甚至是补充。当前大多数关键 词检测系统提高系统性能的方案经常将声学模型和分类模型混合建模。 3 、时间对准问题。 在进行语音检索时,即使是同一个人,说同一个词,但在不同场景、情 绪状态、声带状况等条件下也会产生不同的识别结果。这样就使得时间轴上 每次存储的语音不能一一对应,因此不能用计算其之间欧氏距离的方法得到 其相似度( 或失真测度) 。在进行语音识别时,计算待识别语音与参考模型之 间的失真测度,同样也会遇到此类问题。原因有两点:首先不可能保证说话 人的说话速度在训练和识别阶段完全一致,其次参考模型一般情况下还是存 在时间变量,因此其仍然是一个与时间紧密相关的模型或序列。 语音检索系统若以特征模板作为参考模板,解决此类问题主要采用动态 时间规整的方法:若采用隐马尔可夫模型,解决此类问题主要采用帧同步 v i t e r b i 算法或相关算法。目前许多人在使用h m m 模型时,在理论或应用上 对v i t e r b i 算法作出了不少的改进1 1 5 d 7 j 。帧同步v i t e r b i 算法在以词或音节作为 基元的语音检索系统中,作为主流技术得到了广泛的应用,后面会具体讨论 该算法的详细流程。 1 2 2 语音检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论