




已阅读5页,还剩58页未读, 继续免费阅读
(信息与通信工程专业论文)贝叶斯网络在语音鲁棒性识别中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 语音识别是通过识别过程把语音信号转变为相应文本或命令的一种技术。经过多年的 发展,语音识别在实验室已经取得了很大的成功。在实际应用中,由于环境的改变导致训 练和测试环境不匹配,使得系统的识别性能显著下降。语音识别要走向实用化,就必须克 服这种的不匹配造成的影响,因此语音鲁棒性识别技术有着非常重要的意义。 特征补偿是一种常用的鲁棒性识别技术。本文主要以贝叶斯网络为工具,通过贝叶斯 网络灵活的建模能力和有效的学习算法v b e m 算法,对语音特征进行补偿。 本文分别对语音的能量特征和美尔频率倒谱系数特征做了补偿。 对能量的补偿本文采用了两种方法。第一种是用m m s e 估计的r a s t a - p l p 能量替代谱 能量,通过这种办法可使识别系统在信噪比1 0 d b 的白噪声环境下的识别正确率比不采用任 何能量补偿的系统提高2 8 2 。第二种方法是通过贝叶斯网络的学习算法迭代估计语音的 谱能量,这种方法对谱能量的做了很好的估计,识别系统在信噪比1 0 d b 的白噪声环境下识 别正确率比不做能量补偿的系统提高4 2 1 。 本文在对美尔频率倒谱系数特征的补偿中以a l g o n q u i n 框架为基础,通过贝叶斯网络融 合能量参数后对美尔频率倒谱系数进行估计,使得系统在信噪比1 0 d b 的白噪声环境下识别 正确率在a l g o n q u i n 框架的基础上提高了2 2 4 。 关键词:连续语音识别;贝叶斯网络;特征补偿;v b e m 算法;能量;美尔频率倒谱系数 第1 页 a b s t r a c t a u t o m a t i cs p e e c hr e c o g n i t i o n ( a s rf o rs h o r t ) i sah i g h t e c h n i q u ew h i c hc a l lt r a n s f o r m s p e e c hs i g n a lt oc o r r e s p o n d i n gt e x t so rc o m m a n d s i nt h ep a s tf e wy e a r s ,a s rh a sa c h i e v e da g r e a ts u c c e s si nl a b o r a t o r y h o w e v e r ,i np r a c t i c a la p p l i c a t i o n ,t h er e c o g n i t i o ne n v i r o n m e n ti s q u i t ed i f f e r e n tf r o mt h et r a i n i n go n e ,w h i c hi sc a l l e dm i s m a t c h b e c a u s eo ft h em i s m a t c h ,t h e r e c o g n i t i o ns y s t e md e t e r i o r a t e ss e r i o u s l y i no r d e rt om a k et h er e c o g n i t i o ns y s t e mp r a c t i c a l , r e s e a r c h e r sh a v et ot r yt h e i rb e s tt om i n i s ht h ei m p a c tw h i c ht h em i s m a t c hm a k e so nr e c o g n i t i o n s y s t e m ac o m l n o nt e c h n i q u ef o rr o b u s ts p e e c hr e c o g n i t i o ni sf e a t u r ec o m p e n s a t i o n t h i st h e s i s c o m p e n s a t e ss p e e c hf e a t u r e sb a s e do nb a y e s i a nn e tt h e o r y , w h i c hi sf l e x i b l ei nm o d e l i n ga n dh a s as i m p l eb u te f f e c t i v el e a r n i n ga l g o r i t h m - - v b e m t h ef e a t u r e st h a ta r ec o m p e n s a t e di n t h i st h e s i sa r ee n e r g ya n dm e l - f r e q u e n c ye e p s t r u m c o e f f i c i e n t s t w om e t h o d sa r eu s e dt oc o m p e n s a t ee n e r g yf e a t u r e 1 1 1 ef i r s tc h o o s e s r a s t a - p l pe n e r g yw h i c hi se s t i m a t e du s i n gm m s ei n s t e a do fs p e c t r u me n e r g ya se n e r g y f e a t u r e i n1 0 d bs n rw h i t en o i s ee n v i r o n m e n t ,w h e nc o m p a r e dt os y s t e m sw i t hn oe n e r g y c o m p e n s a t i o nm o d u l e s ,t h i sm e t h o di m p r o v e ss p e e c hr e c o g n i t i o ns y s t e ma c c u r a c yb y2 8 2 t h es e c o n dc o m p e n s a t e st h es p e c t r u me n e r g yw i t ht h el e a r n i n ga l g o r i t h mo fb a y e s i a nn e t ,a n d m a k e sae x c e l l e n te s t i m a t i o no fs p e c t r u me n e r g y n l es p e e c hr e c o g n i t i o ns y s t e ma c c u r a c yi s i m p r o v e db v4 2 1 i n1 0 d bs n r w h i t en o i s ee n v i r o n m e n t 1 1 圮m e t h o df o rc o m p e n s a t i n gm e l f r e q u e n c ye e p s t r u mc o e f f i c i e n t si sb a s e do na l g o n q u i n f r a m e w o r k 1 1 1 i sm e t h o df u s e se n e r g yf e a t u r eu s i n gb a y e s i a nn e tt h e o r y ,t h e n ,i n10 d bs n r w h i t en o i s ee n v i r o n m e n t , t h es p e e c hr e c o g n i t i o ns y s t e ma c c u r a c yi si m p r o v e db y2 2 4 w h e n c o m p a r e dw i t ha l g o n q u i n k e y w o r d :a u t o m a t i cs p e e c hr e c o g n i t i o n ;b a y e s i a nn e t ;f e a t u r ec o m p e n s a t i o n ;v b e ma l g o r i t h m ; e n e r g y ;m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s 第1 i 页 信息丁程大学硕士学位论文 表目录 表 表 表 表 表 表 无特征补偿模块的识别正确率1 3 r a s t a p l p 能量的识别结果。2 4 用贝叶斯网络做能量估计迭代步骤3 l 贝叶斯网络估计的谱能量识别结果3 2 a l g o n q u i n b o o s t 的迭代步骤4 8 a l g o n q u i n - b o o s t 和a l g o n q u i n 识别结果对比表5 0 第v 页 信息工程大学硕士学位论文 图目录 图l连续语音识别模型4 图2语音波形图5 图3语音谱能量畸变示意图6 图4m f c c 计算过程示意图7 图5m f c c 畸变示意图7 图6r a s t a - p i p 参数计算流程图8 图7r a s t a p l p 参数畸变示意图。8 图8从左向右的h m m 模型9 图9 加入了特征补偿的语音识别系统1 3 图1 0 图模型示意图1 5 图1 1e m 算法的下限理解1 9 图1 2v b e m 算法的下限理解2 1 图1 3r a s t a p l p 能量和谱能量对比图2 3 图1 4r a s t a - p l p 能量拟和效果图2 5 图1 5 能量预测贝叶斯网络。2 6 图16 谱能量估计效果图3 2 图1 7 引入辅助特征示意图。3 4 图1 8a l g o n q u i n 框架的贝叶斯网络3 7 图1 9a l g o n q u i n 拟和效果图3 8 图2 0a l g o n q u i n 框架融合辅助特征示意图1 3 9 图2 1a l g o n q u i n 框架融合辅助特征示意图2 4 9 图2 2a l g o n q u i n b o o s t 的拟合效果图5 0 图2 3a l g o n q u i n b o o s t 随语音l o g m e l 混元数变化的识别正确率变化曲线5 1 图2 4a l g o n q u i n b o o s t 随语音迭代次数变化的识别正确率变化曲线5 1 第v l 页 独创性声明 所提交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中标注和致谢的相关内容外,论文中不包含其他个人或集体已经公开的研究成 果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文题目:迅吐勘圜终在语啬鲁挂性遮剔虫的廛屈 学位论文作者签名: 乏量五冀 日期:p 。缉月e t 学位论文版权使用授权书 本人完全了解信息工程大学有关保留、使用学位论文的规定。本人授权信息工程大学 可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允许论文被查阅和借 阅:可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 涉密学位论文在解密后适用本授权书。) 学位论文题目:贝吐逝圆垡垄语置鲁挂娃迟型虫曲廑眉 学位论文作者签名:互兰笾日期:z 护衫年月2 6 日 作者指导教师签名:兰丝鱼毖日期:砌缉多月彩日 信息j = 程大学硕七学位论文 第一章绪论 语音识别是通过识别过程把语音信号转变为相应文本或命令的一种技术。作为一个 专门的研究领域,语音识别是- - f 交叉学科,它与声学、语音学、语言学、人工智能、 数字信号处理理论、信息理论、模式识别理论、最优化理论、计算机科学等多学科紧密 相连。语音识别经过四十多年的发展已经显示出巨大的前景,高性能的语音识别系统 相继问世埘。 语音识别的应用前景是无限的。语音信息处理技术是实现人机交互最自然、最方便、 最有效的方式之一。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。另 外,随着因特网的爆炸性扩张,电子商务迅速发展,语音识别技术将为网上会议、商业 管理、医药卫生、教育培训等各个领域带来极大的便利。1 。很多专家都认为语音识别技 术是2 1 世纪头十年信息技术领域十大重要的科技发展技术之一。 1 1 语音识别的回顾和问题 语音识别起始于5 0 年代,1 9 5 2 年贝尔研究所d a v i s 等人研究成功了世界上第一个 能识别1 0 个英文数字发音的实验系统“1 。1 9 6 2 年日本的s a k a i 等人用硬件实现了一个音 节识别系统。1 。这个时期语音识别采用的都是模板匹配技术,提取的特征多是一些时域 特征。6 0 年代末和7 0 年代初语音识别最重要的发展是语音信号线形预测编码技术 ( l i n e a rp r e d i c t i o nc o d i n g ,简称l p c ) 和动态时间规整技术( d y n a m i ct i m ew a r p i n g , 简称d t w ) “”,它们有效地解决了语音的特征提取和语音段不等长匹配等问题。 8 0 年代语音识别研究的重点是连续语音识别。语音识别算法也从模板匹配技术转向 基于统计模型的技术旧。隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,简称h m m ) 就是其中的 一个典型,它能更好的描述语音信号的时变性和平稳性4 。h m m 研究使大词汇量连续 语音识别统的开发成为可能。1 9 8 8 年,美国c m u 大学用v q h m m 方法实现了9 9 7 词 的非特定人连续语音识别体统s p h i n x “”,这是世界上第一个高性能的非特定人,大词 汇量的连续语音识别系统。此后h m m 成为连续语音识别系统的主流模型,同时统计语 言模型也开始取代基于规则语言模型的方法。 随着神经网络的兴起,一些研究组织也将神经网络用于连续语音识别“。在这些研 究中,大部分采用基于反向传播法( b a c k p r o p a g a t i o na l g o d t h m ,简称b p 算法) 的多层 感知网络。人工神经网络具有区分复杂的分类边界的能力,它十分有助于模式划分。 在国际上,由于中国的国际地位与日俱增,汉语语音识别也越来越被重视“4 。i b m , m i c r o s o f t 等公司相继投入到汉语语音识别的开发中。i b m 公司于1 9 9 6 年正式推出 中文听写机系统( v i a v o i c e ) ,该系统对新闻语音识别有较高的精度,是那时比较有代 表性的汉语连续语音识别系统。m i c r o s o f t 公司在它的新一代操作系统w i n d o w s 第1 页 信息t 程大学硕十学位论文 x p 和最新的办公软件o f f i c e2 0 0 3 中都集成了汉语语音识别功能。 我国也将语音识别系统的研制纳入“8 6 3 ”计划,由清华大学电子工程系、中科院 声学所、自动化所及北京大学等单位研究开发,已经取得了一些高水平的科研成果,如 中科院的自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统“。 随着语音识别技术逐步走向成熟,语音识别系统从实验室走向市场。实际环境中往 往带有各种噪声,现有的语音识别系统在噪声环境中识别性能会严重下降。在2 0 0 3 年美 国d a r p a 资助的最新语音识别评测中,英语电话会话的识别正确率最差的为2 2 1 ,汉 语电话会话识别的识别正确率最差的为4 2 7 。所以系统的噪声鲁棒性成为迫切需要解 决的问题。 识别系统词正确率下降的原因是在噪声环境下语音特征发生了畸变,导致识别系统 的训练环境与识别环境不匹配。怎样减少畸变带来的影响,提高系统的鲁棒性就成为当 前在语音识别领域的研究热点。 为提高噪声环境下语音识别系统的性能,需要探索新的原理和方法,其热点包括: 在已有的语音识别原理和方法基础上挖潜,如前端语音信号的语音增强技术的研 究; 鲁棒性语音特征的提取o ”; 寻找新的语音识别模型,新的语音识别算法的研究等等“”。 1 2 贝叶斯网络与语音识别 贝叶斯网络是图模型的一种。图模型是近年发展起来的一种以图的方式表示变量之 间概率依赖关系的新理论,现有的许多模式识别技术和建模方法可以看作是图模型的一 个实例“砌,但是由于其推理学习算法的复杂性,它的应用受到了很大限制。 近年来由于在贝叶斯网络统计推理、学习算法等方面的研究进展,贝叶斯网络日益 得到了关注。相对于贝叶斯网络这一新兴理论在其它领域的应用( 如医疗专家系统、工 业控制、经济预测、数据挖掘等) ,目前国际上对贝叶斯网络在语音识别领域的研究还 十分有限。g z w e i g 等通过将h m m 表示成一种贝叶斯网络,实现了英语孤立词识别, 展示了h m m 完全可以在贝叶斯网络框架内得以模拟“”。瑞士感知人工智能实验室 ( i d i a p ) 的s t e p h e n s o n 等人在动态贝叶斯网络结构中加入一层隐含变量层,以表示基音 频率的影响,实现了基音特征和美尔滤波倒谱系数特征融合的动态贝叶斯网络语音模 型,提高了噪声环境下的语音识别能力“。 1 3 本论文研究主题和论文安排 研究主题 本文以基于h m m 模型的连续语音识别系统为基线系统,采用特征补偿技术对 第2 页 信息工程大学硕士学位论文 噪声环境下畸变的特征进行补偿,减小畸变带来的训练与识别环境不匹配对识别系 统的影响。本文采用的方法多基于贝叶斯网络,利用贝叶斯网络灵活的建模方法和 有效的学习算法,在噪声环境下有效地估计语音的特征,从而完成特征补偿。 论文工作安捧 第二章主要介绍连续语音系统,包括参数提取、模型训练以及鲁棒性识别的一 般方法,并给出了一个基本的实验平台; 第三章介绍贝叶斯网络,重点介绍贝叶斯网络的推理学习算法_ v b e m : 第四章讲述怎样用贝叶斯网络中有效的估计语音的重要特征一能量参数; 第五章讲述怎样利用贝叶斯网络融合多流特征,用于估计语音的另一个重要特 征一美尔频率倒谱系数。 最后是结论与下步工作展望。 第3 页 信息工程大学硕士学位论文 第二章噪声环境下的连续语音识别系统 连续语音识别系统是一个典型的模式识别系统。它的系统组成如图1 所示,包括话 音录入,特征提取、搜索解码和音字转换等步骤,其中声学模型和语言模型在识别之前 训练完成。 甩1 连续语音识别模型 2 1 语音识别的整体模型 连续语音识别系统假设语音是由一系列编码的符号组成的。输入的语音信号首先被 转换成一组语音特征矢量,通常用0 = 0 1 0 2 0 t 表示。语音识别器的作用是将输入的语 音特征矢量映射为潜在的文字序列。语音识别的整体模型是把可利用的语音学和语言学 知识用一个统一的模型来表示,建立搜索尽可能正确识别结果的理论框架。设一句语音 由字串w = w 2 组成。用a = a _ l a 2 a t 、三= 地、p = 昆仍n 、s = 焉屯分 别表示这个字串的一个语音串、词串、词性串、和词义串,并以蜀、昂、s 、唧 表示相应的这个字串可构成的语音串、词串、词性串、和词义串和字串集合。连续语音 识别系统的任务就是在给定特征矢量的情况下,寻找最大可能的字串w = “址“。通 常识别系统识别出的是音节串,所以汉语的识别系统通常还包括一个音字转换的过程。 以字为识别基础的识别系统可用式( 1 ) 表示“”。 w = a r g m a x ( e ( a w l p s o ) ) ( 1 ) 式( 1 ) 指出语音识别系统是在已知特征0 的条件下,选择各种可以利用的信息使联合 后验概率最大的结果。利用的知识越多,系统的不确定性就越小,识别的正确率就越高。 由贝叶斯定理可得: 删觥0 ) = 型箜怒丝盟 ( 2 ) 考虑到已知语音串的情况下语音特征完全可知,所以 p ( o a w l p s ) = p ( o ,爿) ( 3 ) 根据乘法定理和语言学知识: 第4 页 信息工程大学硕士学位论文 p ( a w l p s ) = p ( s | l p 、p l p | q e i t | r ) e ( w | a ) e c a ) 、。 所以式( 1 ) 可以进一步展开,p ( d ) 在搜索过程中为公共项,可以省去: 矽2 a r g 聪s ( p ( a w l p s 0 ) ) = a r g 。! b 曙。【l o g ( s 工p ) + l o g ( p 工) + l o g ( l w ) ( 5 ) + l o g ( w a ) + l o g ( a ) + l o g ( o a ) 式( 5 ) 是汉语连续语音识别的整体模型。i o g ( a w l p s ) 、i o g ( s l p ) 、l o g ( p l ) 、 l o g ( l w ) 、l o g ( w a ) 、l o g ( a ) 、l o g ( o a ) 在不同的a 、w 、l 、p 、s 、0 组合下 取不同的值,它们分别构成了汉语语音连续语音识别系统的语言模型、语义模型、词性 模型、词模型、音字转换模型、拼音串语言模型和声学模型。整体模型中每一部分在整 体模型中的所占比例可以根据实际情况进行调整和选择,由于实现的复杂性,一般的语 音识别系统对语义、词性、以及词的信息忽略,或者在识别系统的后处理中进行。式( 5 ) 中最优字串w 的搜索一般采用帧同步的v i t e r b i 搜索啪1 。 2 2 常用语音特征及其鲁棒性 话音经话筒转换成电信号,经过预滤波和采样后,由a d 变换器编码存入计算机的 内存或文件后进行后续处理。下图是采集到的语音的波形图。 ! e 堕竺型点 _ 卜呻咿睁卜叫 一,i ,、! ! 。- 。j 萍j 自【 说明;话音内容为。上海的工人师傅克服困难”发音段与不发音段的之间的语音认为是净青 带噪语音的信噪比为i o d b 。嘹声为自噪声采样频率为1 6 k ,采用1 6 比特线性量化 语音信号提取特征之前要做一定的预处理,包括预加重、加窗。预加重用于补偿高 频跌落。语音信号是瞬时稳态的信号,因此通常采用加窗将语音信号分帧,形成加窗语 音,窗与窗之间一般有一定的重叠,在语音信号处理中常用汉明窗。 经过上面介绍的处理过程,语音信号可分为以帧为单位的短时信号,将每个短时语 第5 页 信息工程大学硕士学位论文 音帧看成平稳随机信号,然后可以对每一帧进行语音特征参数的提取。 在语音识别中常用的参数有短时能量参数、m f c c 参数、r a s t a p l p 参数。 2 2 1 短时能量参数 短时能量是一帧语音的重要特征,它的计算公式如下。”: e j :y p ( t o 、 智( 6 ) p ( w i ) = r e i 佟( w 。n + l m j 佟( w i n 其中层7 称为谱能量,p 化j 为能量谱,s 化,为离散频谱,为离散频谱的点数。由帕 斯瓦尔( p a s w a l ) 定理,谱能量还可表示为 nk e 7 = p ( q ) = t 2。 j = li - l l7 j 其中蕾为样点,实际中常用能量的对数作为参数。 短时能量在区分清浊音时有很重要的用处,一般连续语音识别系统在特征参数中都 含有能量参数。语音的谱能量对噪声的鲁棒性较差,下图是分别在干净和噪声环境下提 取的语音的谱能量,可见语音的谱能量在净音段畸变很大。鉴于语音短时能量参数对识 别的重要性,本文提出了两种方法对它做了补偿。 图3 语音潜能重畸变示意图( 语膏文件是圈2 所示的语音) 2 2 2 美尔频率倒谱系数 美尔频率倒谱系数( m e l - f r e q u e n e yc e p s t r u mc o e f f i c i e n t s 简称m f c c ) 是语音识别 中最常用的特征参数。人类对声音频率感知不遵循线性关系,而是遵循美尔( m e l ) 频 率。式( 8 ) 是美尔刻度与频率的关系式啪: z = 2 5 9 5 1 0 9 l o ( 1 + f 7 0 0 ) ( 8 ) 第6 页 能量幅度 其中7 k 为美尔刻度,厂( h z ) 为频率。m f c c 参数的计算过程如图4 所示 如果五表示第k 个滤波器的输出能量,k = l 2 ,k f ,则美尔频率倒谱c 0 ( 珂) 在美 巴d ( h ) = l o g ( 瓦) c o s ( 甩( 七一0 5 ) 去) , n = 0 12 ,p 1( 9 ) c 0 ( 0 ) ,既m f c c 参数的第0 维,可以看成语音能量的一种表示,实践证明用谱能 量代替这种能量的表示在识别时有更好的性能,所以c 0 ( 0 ) 一般在识别时舍去,而用谱 暮 o n 系 数 幅 度 可以看出语音m f c c 参数的畸变较大。m f c c 参数在干净环境下的性能最好1 , 现有的特征补偿算法很多都是针对m f c c 参数的,本文用特征融合的方式在对m f c c 参数的补偿方面做了一些尝试。 2 2 3r a s t a p l p 参数 h e r m a n s k y 在p l p 参数1 的基础上提出了r a s t a - p l p 参数1 。p l p 参数能较好的 反映语音的内容信息,但在噪声环境下p l p 参数畸变很大。r a s t a p l p 参数的提取足 在p l p 参数提取过程中插入了p a s t a 处理,其框图如图6 。 其中非线性压缩、线性带通滤波和非线性扩展三部分统称为r a s t a 处理。非线性 第7 页 信息工程大学硕士学位论文 压缩和非线性扩展的方法有两种,l - r a s t a 和j - r a s t a ,若采用l - r a s t a 则 非线性压缩:y = l o g ( x ) ,非线性扩展:量未! ! 掣 若采用j - r a s t a 则 非线性压缩:y :l o g ( 7 + j 射,非线性扩展:量圭e x p ,( y ) 其中j ,和x 分别表示非线性压缩( 扩展) 的输入和输出( 输出和输入) ,j 是一个正数常 量,般取1 0 _ 9 1 0 。之间的数。 线性带通滤波的滤波器为: h 0 户d j ,2 + z 4 z - 3 _ ? 2 一z - 4 0 0 ) 经过p a s t a 处理后的p l p 参数可以抑制能量谱中的突变部分如咳声和缓慢变化的 噪音以及信道带来的影响,这样得到的参数增强了参数的鲁棒性而没有损失很多语音的 内容信息,本文称之为r a s t a p l p 参数。 语 音 信 号 暇6r a s t a p l p 参数计算流程图 圈7r a s t a - p l p 参数畸变示意图( 语音文件是图2 所示的语音取第1 1 5 帧) 第8 页 信息工程大学硕士学位论文 2 3 模型训练 模型训练分为声学模型训练和语言模型训练两个部分。 2 3 1 声学模型训练 声学模型l o g ( o a ) 是连续语音识别系统的底层模型,也是连续语音识别系统中最 关键的一部分。声学模型的训练首先要选择模型识别单元集合u = u 。u 2 ,oo - 【,m ) ,识别 的基元u i = l ,2 ,m 可以是词、字或半音节或者音素等等。”,u 的大小对语音训练数 据量大小、语音识别正确率、以及灵活性和鲁棒性有一定的影响。 基于汉语发音的基本单位是音节,音节建模是汉语语音识别声学建模可行的一种建 模方法。汉语有1 2 5 4 个带调音节( 仅考虑四个音调) ,约有4 1 2 个无调音节,数量相对 较少。音素建模是英语语音识别的主要方法,但目前在汉语语音识别中也被越来越多地采 用。 选好了识别单元后,对每个识别单元要建立模型。主流的识别系统一般选择h m m 模型“1 ,并且一般选择从左至q 右的h m m 模型,如图8 所示。 h m m 的基本思想是用双重随机过程来描述一个模式,是m a r k o v 链,这是基本 随机过程,它描述模式内部状态序列;另一随机过程描述状态和观测值之间的关系。一 个h m m 可以记为a = p r ,a ,口) 。 状态蜀 棍元吖 观测矢量坼 翻8 从左向右的h m m 模型 其中筇初始状态概率,石= 魄i i = 1 , 2 n ) 巧= p ( s o = i ) ; a 状态转移概率分布,a = a u 1 f ,j s n ) = p ( 毋= j l 薯_ l = i ) ; 占特征序列观测概率分布,b = p ,( ) 1 1 s 薯e x 6 ,( 薯) = p ( 葺l = ) 。 其中i = 1 2 n 为状态可能的取值x 为观测矢量的取值。 根据输出观测特征的不同,h m m 可分为离散h m m ,半连续h m m 和连续h m m 【6 】。 考虑到语音特征的连续性,语音识别系统一般选用连续h m m ,6 ,( x ) 用高斯混合模型 第9 页 信息工程大学硕士学位论文 ( g a i l s s i a nm i x t u r em o d e l ,简称g m m ) 来表示,即每个b a x ) 由m 个服从正态分布的概 率密度函数加权得到,每个正态分布称为状态墨= j 的一个混元,其表达式为: 旦 i ( ) = p ( ti q = ,) = p ( t = m i s ) p ( 墨l s ,m = 聊) ( 1 1 ) m f f i ! p ( i s ,m = 埘) = n ( x l ;瑶,磺) h m m 模型的训练一般采用多步训练的方法。”: 采用分段k 均值算法对系统的各个模型参数进行初始的估计: 采用e m 算法对初始的模型参数进行再估值,可以得到较精确的模型参数: 嵌套的强化训练:根据训练语句将子模型构成复合模型嵌入训练系统中,用大 量数据进行细化训练,可以得到精确的模型参数。 2 3 2 语言模型训练 语言模型i o g ( a w l p s ) 可以提供字和词之间的上下文信息和语义信息。在语音识别 系统中常用的语言模型是n 元文法语言模型。n 元文法统计语言模型主要是根据已知前 n 1 个词,预测第n 个词的发生概率。考虑计算复杂性,一般采用n = 2 。3 通常称为二 元文法( b i g r a m ) 、三元文法( t r i g r a r n ) 语言模型。n 元文法的条件概率可以通过对语 料进行统计,用频数来近似估计得到。 汉语中词的平均长度大约为1 5 字,当词汇量为5 0 0 0 0 时,即使被割三元词对一。一: 只出现一次,也需要5 0 0 0 0 3 x 1 5 = 1 8 7 5 x 1 0 “字的语料,而现在人民日报全年的汉 字也不过2 1 0 7 。由于能够得到的语料总是有限的,在统计中,绝大数词对一 + 出现 的次数可能是零,但这样的词对在实际使用中有可能会遇到,即所谓的零概率问题。因 此在训练数据不够的情况下,不能使用简单的频数计算方法来估计n 元文法条件概率, 必须采取一定的近似估计算法。常用的方法有后退法( b a c k i n go f f ) 、删除插值法,以及 折扣法( d i s c o u n t i n g ) 等。 训练得到声学模型l o g ( o a ) 和语言模型i o g ( a w l p s ) 后,就可对输入的语音提取特 征序列做帧同步的v i t e r b i 搜索进行识别了。 2 4 识别性能测试 对识别系统性能的测试一般是在一个测试数据集上统计识别结果的识别正确率 ( a c c u r a c y ) 或识别错误率( w b r de r r o rr a t e ,w e r ) 。下面先定义3 种错误1 : 替换错误( s u b s t i t u t i o n ) :字被识别成其他字,用s 表示替换错误的个数。 删除错误( d e l e t i o n ) :语音段被识别成非语音段,用d 表示删除错误的个数。 插入错误( i n s e r t i o n ) :非语音段被识别成语音段,用,表示插入错误的个数。 则识别正确率的定义为: 第l o 页 信息工程大学硕士学付论文 识别正确率:坐二鱼三旦! x 1 0 0 ( 1 2 ) v 其中,为识别数据中的总词数。 也可以用识别错误率测试性能,定义为: 识别错误率:羔:;等1 0 0 :l 一识别正确率( 1 3 ) v 2 5 噪声环境下的语音识别 噪声分为信道噪声和加性噪声。带噪语音在时域的产生模型可用下式表示: y = x + r t ( 1 4 ) 其中+ 表示卷积,h 和 分别是信道噪声和加性噪声,y 和x 分别是带噪语音信号和 干净语音信号。 本文中主要考虑平稳加性噪声,即y = x + n ,并且假设噪声是时不变的。加性噪声 又可分为白噪声和有色噪声,若噪声的频谱布满整个频带,则称之为白噪声,反之若噪 声频谱能量只集中在一定的频率附近,则称之为有色噪声。不同加性噪声在不同环境下 有不同的信噪比,对语音信号产生的影响也不一样。 识别系统词正确率下降的原因是噪声使得提取的语音特征发生了畸变,如图3 、5 、 7 所示,这种畸变引起了训练环境和测试环境的不匹配。 噪声鲁棒性语音识别方法的目的是消除噪声引起的训练环境和测试环境之间的不 匹配。令s 是个识别单元的模型,e 为一种环境,q 。o ) 为s 在环境e 中的得分。定义变 换厂是从环境口到环境的得分的映射,那么噪声鲁棒性语音识别的任务可用式( 1 5 ) 来 表示,即寻找合适的变换函数,使得在某种准则下环境错误e r r 最小啪1 ,以减d , o i l 练和 测试环境之间的不匹配,从而提高识别系统在测试环境中的识别正确率。 m i n ( e r r ) r 1 、 e r r = l l q 口( s ) - f ( q 。o ) ) l i ” 变换函数,的变换过程可以从训练环境向测试环境变换,也可以向相反的方向变 换,这样变换可以分为两类: 观测数据变换:在识别之前,将观测数据从测试环境变换n i j i l 练环境。 模型参数变换:模型参数从训练环境变换到测试环境,对测试环境的观测数据进 行识别。 于是减d n 练环境与测试环境的不匹配的方法可以分为3 种: 鲁棒性特征提取 寻找新的参数,这种参数在噪声环境下受到的畸变较小。这种方法是与噪声无 关的,可以在噪声情况与干净情况使用相同的系统配置,如r a s t a p l p 参数就是 第1 1 页 信息工稃大学硕士学位论文 针对这个目的提出一种的鲁棒性特征。 特征补偿 消除测试数据或特征中的噪声,然后使用干净语音模型进行识别。如参数映射 等。 模型补偿 将语音模型从训练环境变换到测试环境,使模型与测试数据相匹配。如h m m 分解,h m m 自适应等。 2 6 实验平台概述 本文实验用的语料库为“8 6 3 连续语音识别语音数据库”。该库是由中科院声学所、 社科院语音所、中国科技大学等单位在国家“8 6 3 ”智能计算机项目的推动下设计并录制 的,该库是目前国内汉语语音识别研究中广为使用的一个语音库,以下简称8 6 3 库。 8 6 3 库录制的内容是连续发音的短句,包括2 5 7 3 个不同句子,多来自于报纸中的新 闻内容,例如: “上海的工人师傅克服困难”; “约恩克在距球门约二十多米远处突然射门”; 8 6 3 库中有1 6 6 名不同的说话人( 8 3 男,8 3 女) ,每个人仅录带i 1 5 6 0 个句子中的一部分 ( 约6 0 0 7 0 0 个句子) 。所有的录音样本共计9 6 ,7 4 5 条,包含1 ,1 7 6 ,1 6 5 个音节,覆盖1 0 5 8 个 有调音节( 对应4 0 1 个无调音节) 。8 6 3 库的说话人在性别、年龄、语速分布等方面有一定 的广泛性和代表性,是用于训练语音模型的主要语音库。 本文只对8 6 3 库的男性说话人的语音做了训练识别。训练集选取了7 0 个男性说话入 的语音。而测试集随机选择了1 0 个男性说话人的2 0 0 句语音。 本文选取的噪声来f l a u r o r a 幸。1 。选择其中的自噪声、c a r 噪声、s u b w a y 噪声作为 测试噪声。各种噪声数据用于以不同信噪比叠加在干净语音数据上产生带噪语音数据。 本文采用的连续语音基本实验平台实现框图如图l 所示,采用的语音模型为从左到 右的t t m m 模型,对h m m 模型参数的采用2 3 1 中的步骤训练。 本文中语言模型采用二元文法,并采用折扣法来解决零概率问题。 本文基本实验选取的特征为: 基本参数为第2 1 3 维m f c c 和能量。识别时的特征为基本参数+ 基本参数一阶差 分十基本参数二阶差分,共3 9 维; 以上的方案对各种噪声在信噪比2 0 ,1 5 ,1 0 ,5 ,0 d b 下的识别正确率如表1 所示, 可以看到随着信噪比的减小,识别系统的性能急剧恶化。 为了提高语音识别系统在噪声环境下的识别正确率,本文在特征提取后加入特征补 偿模块,将补偿后的特征输入到识别模块,在噪声环境下提高系统的识别正确率。 第1 2 页 信息工程大学硕士学位论文 舢霉堕产麓莽 卅峥一觚般h 型偿f = i 圈9 加入了特征补偿的语音识别系统 表1 无特征补偿模块的识别正确率 到识别模块 噪声类型白噪声c a r 噪声 s u b w a y 噪声 信噪比 2 0 d b7 3 2 l 8 0 1 3 7 9 6 5 1 5 d b6 5 3 3 7 1 0 4 7 0 2 2 1 0 d b3 6 6 1 4 2 0 9 4 0 3 0 5 d b2 8 4 5 2 0 0 4 3 4 3 1 0 d b1 2 1 3 9 3 2 1 5 3 0 干净 9 1 1 2 2 7 小结 本章主要讲述了连续语音识别的整体模型,介绍了常用的特征参数,指出它们在噪 声环境下会发生相当大的畸变。本章还对噪声环境下提高识别正确率的一般方法作了介 绍,最后给出了基本实验平台的设置。 第1 3 页 信息1 = 程大学硕七学位论文 第三章贝叶斯网络与语音识别 图模型是一种以图的方式表示变量之间的概率关系的模型o ,图中的节点可以认为 是变量,而边则表示变量之间的概率联系。概率图模型是一个相对较大的范畴,从边的 属性来看,可以分成两类模型:无向图模型,也被称作马尔科夫网络( m a r k o v n c l w o r k ) : 有向图模型,也被称作贝叶斯网络( b a y e s i a n n e t ) ,生成模型( g e n e r a t i v e m o d e l ) 。 3 1 图模型和贝叶斯网络 在统计模式识别中,识别的任务就是在得到观测数据y 后在一组模式码,m :,中 选择后验概率最大的模式,即: 肌= m a x p ( mi y ) - 1 2 j p ( mj ,) :地掣 1 6 p l y ) 分子中第二项p ( y i 卅f ) 称之为模式m 的边缘相似度或者证据,它是统计模式识别中最重 要的表达式之一,可通过式( 1 7 ) 计算。 p ( y i 强) = i d o p ( o i 碍忉( y i 口,)( 1 7 ) 其中0 是模型的参数。p ( y i 巩) 的求解是个模型化的过程,可以采用多种办法。图模 型的贝叶斯网络建模就是一种。 图模型有两个要素:网络结构,包括节点集和节点之间的边,每个节点代表一个变量, 表示对于过程、事件、状态等实体的某特性的描述,边则表示变量间的概率依赖关系; 反映变量之间关联性的局部条件概率分布集,这些概率分布表示变量之间的关联强度。图 1 0 为一个简单的图模型结构。 图模型中节点分为可观测的和隐含的两种。一个可观测节点的值是已知的或者它的 值是可计算的,一个隐含节点的值是未知的。语音识别中常用的隐马尔科夫模型就是一 种包含了隐含节点的图模型。在图模型表示中,相对可观测节点,隐含节点用阴影表示。 如在图l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议书:离婚后子女抚养及财产分配协议
- 离婚协议书:离婚程序及个人隐私与财产保护协议
- 振兴专干考试题目及答案解析
- 复杂离婚协议书范本:离婚后子女教育资助协议
- 离婚协议制作与婚姻财产分割及子女抚养权协议
- 建筑垃圾综合利用与减排方案
- 离婚时夫妻共同车辆及财产分割协议范本
- 校园安全教育与管理协会
- 离婚协议书(附带子女抚养权变更及监护责任)
- 矿山信息化建设矿长及IT顾问专项聘用协议
- 黑布林阅读初一10《霍莉的新朋友》英文版
- 中国华罗庚学校数学课本八年级
- 政治校本课程
- 特劳特《定位》PPT通用课件
- GB/T 1732-1993漆膜耐冲击测定法
- 二十四节气演讲稿
- GA/T 2000.7-2014公安信息代码第7部分:实有人口管理类别代码
- 2023年安徽国贸集团控股有限公司招聘笔试模拟试题及答案解析
- 初中作文指导-景物描写(课件)
- 植物灰分的测定
- 实验室资质认证评审准则最新版本课件
评论
0/150
提交评论