硕士论文-噪声环境下汉语连续语音识别技术研究.pdf

上传人：努*** IP属地：江西上传时间：2020-01-12 格式：PDF 页数：61 大小：2.71MB 积分：0 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

硕士论文-噪声环境下汉语连续语音识别技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

西北大学硕士学位论文噪声环境下汉语连续语音识别技术研究姓名王艳申请学位级别硕士专业计算机软件与理论指导教师冯宏伟 20100621 摘要语音识别已经有了半个多世纪的研究历史取得了很大的进展当前的语音识别系统在纯净语音环境中已经获得了非常高的识别精度但在现实应用中无处不在的噪声使得系统的识别性能大幅度降低抗噪声问题是语音识别系统实用化的关键问题之一本文主要研究加性噪声环境下的汉语连续语音识别技术首先介绍了语音识别的基本原理语音识别系统的组成及其关键技术随后介绍了噪声的分类和各种抗噪声技术在此基础上本文的主要工作有 1 在个人电脑平台上实现了一个中等词汇量非特定人的汉语连续语音识别系统系统采用带调音节作为识别基元 M e l 频标倒谱系数作为特征参数隐马尔可夫模型作为识别模型并对其进行实验分析系统的性能 2 在汉语连续语音识别中准确检测出音节的始点和终点是很重要的一步现有的汉语连续语音端点检测方法在纯净语音环境下检测准确率很高但在噪声环境下准确率大幅度降低本文根据汉语连续语音的特点以及噪声的特性提出了基于元音检测的汉语连续语音端点检测方法有效提高了噪声环境下端点检测的准确率 3 语音识别系统处理的对象是特征参数特征参数的抗噪性能对系统的抗噪性能影响很大本文在分析传统M e l 频标倒谱系数提取过程的基础上结合小波包分析和滤波器加权分析提出了一种新的特征参数提取方法实验结果表明改进后的特征参数比传统M e l 频标倒谱系数具有更高的识别率和更好的抗噪性能关键词汉语连续语音识别端点检测特征提取隐马尔可夫模型抗噪 A b s t r a c t S p e e c hr e c o g n i t i o nh a sb e e nr e s e a r c h e df o rm o r et h a nh a l fac e n t u r y a n dg r e a tp r o g r e s s h a sb e e nm a d e T h o u g hc u r r e n ts p e e c hr e c o g n i t i o ns y s t e mh a sb e e na c h i e v e dv e r yh i g h r e c o g n i t i o na c c u r a c yi nt h ec l e a ns p e e c he n v i r o n m e n t t h eu b i q u i t o u sn o i s es i g n i f i c a n t l y r e d u c e st h ep e r f o r m a n c eo ft h es y s t e m T h e r e f o r e A n t i n o i s yt e c h n o l o g yi sav e r yc r u c i a l p r o b l e mf o rs p e e c hr e c o g n i t i o ni nt h ea p p l i c a t i o n T h em a i ns t u d yo ft h i sp a p e ri st h ek e yt e c h n o l o g i e so fC h i n e s ec o n t i n u o u ss p e e c h r e c o g n i t i o n F i r s t l yt h ep a p e ri n t r o d u c e st h ep r i n c i p l eo fs p e e c hr e c o g n i t i o n t h ec o m p o s i t i o n a n dk e yt e c h n o l o g i e so fs p e e c hr e c o g n i t i o ns y s t e m a n dS Oo n A n dt h e ni ti n t r o d u c e st h e c l a s s i f i c a t i o no fn o i s ea n dv a r i o u sa n t i n o i s yt e c h n o l o g i e s O nt h eb a s i s t h em a i nw o r ko ft h i s p a p e ri sa sf o l l o w s 1 Am e d i u m v o c a b u l a r y a n d s p e a k e r i n d e p e n d e n t C h i n e s ec o n t i n u o u s s p e e c h r e c o g n i t i o ns y s t e mi sa c h i e v e do nap e r s o n a lc o m p u t e r T h i ss y s t e mc h o o s e st h es y l l a b l ea s r e c o g n i t i o nu n i t t h eM F C C 鹤f e a t u r ep a r a m e t e r s a n dt h eH i d d e nM a r k o vM o d e la s r e c o g n i t i o nm o d e l A n dt h e nw em a k ee x p e r i m e n t so nt h es y s t e mt oa n a l y z et h ep e r f o r m a n c e o ft h ew h o l es y s t e m 2 H o wt oa c c u r a t e l yd e t e c tt h es t a r ta n dt h ee n dp o i n to fs y l l a b l ei sav e r yi m p o r t a n ts t e p i nC h i n e s ec o n t i n u o u ss p e e c hr e c o g n i t i o n T h ee x i s t i n gC h i n e s ec o n t i n u o u ss p e e c he n d p o i n t d e t e c t i o nm e t h o dC a no b t a i nv e r yh i g ha c c u r a c yi nc l e a ns p e e c he n v i r o n m e n t w h i l et h e a c c u r a c yw i l lb es i g n i f i c a n t l yr e d u c e di nn o i s ye n v i r o n m e n t A c c o r d i n gt ot h ef e a t u r eo f C h i n e s ec o n t i n u o u ss p e e c ha n dn o i s e a ni m p r o v e dm e t h o db a s e do nv o w e li sp r o p o s e di nt h i s p a p e r w h i c hC a ne f f e c t i v e l yi m p r o v et h ee n d p o i n td e t e c t i o na c c u r a c yi nn o i s ye n v i r o n m e n t 3 W h a tt h es p e e c hr e c o g n i t i o ns y s t e mp r o c e s s e sa r ef e a t u r ep a r a m e t e r sw h o s ea n t i n o i s y p e r f o r m a n c eC a nh e l pi m p r o v et h es y s t e m Sp e r f o r m a n c e B a s e do na n a l y z i n gt h et r a d i t i o n a l M e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t se x t r a c t i o n w a v e l e tp a c k e ta n dw e i g h t e df i l t e r an e w m e t h o do ff e a t u r ee x t r a c t i o ni sp r o p o s e d T h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ei m p r o v e d f e a t u r ep a r a m e t e r sC a na c h i e v eh i g h e rr e c o g n i t i o nr a t ea n db e t t e ra n t i n o i s yp e r f o r m a n c et h a n t h et r a d i t i o n a lf e a t u r ep a r a m e t e r s K e yw o r d s C h i n e s ec o n t i n u o u ss p e e c hr e c o g n i t i o n e n d p o i n td e t e c t i o n f e a t u r e e x t r a c t i o n H i d d e nM a r k o vM o d e l H M M a n t i n o i s e 西北大学学位论文知识产权声明书本人完全了解西北大学关于收集保存使用学位论文的规定学校有权保留并向国家有关部门或机构送交论文的复印件和电子版本人允许论文被查阅和借阅本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索可以采用影印缩印或扫描等复制手段保存和汇编本学位论文同时授权中国科学技术信息研究所等机构将本学位论文收录到中国学位论文全文数据库或其它相关数据库保密论文待解密后适用本声明学位论文作者签名聋氅2 指导教师签名 0 如一年厂月上J 日圳年乡月列日西北大学学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果据我所知除了文中特别加以标注和致谢的地方外本论文不包含其他人已经发表或撰写过的研究成果也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意学位论文作者签名王籼曲 o 年占月叫日西北大学硕士学位论文第一章绪论 1 1 语音识别简介 1 1 1 语音识别技术概述自从1 9 4 6 年第一台计算机E N I A C 在美国宾夕法尼亚大学诞生以来计算机的发展已经经历了电子管计算机晶体管计算机中小集成电路计算机和大规模超大规模集成电路计算机四个阶段最初的计算机只是用来做一些简单的科学计算随着科学技术的飞速发展计算机的功能已经变得非常强大应用领域遍及人类社会的各个行业各个方面计算机虽然功能强大但传统的人机交互方式屏幕键盘和鼠标等已经不能满足人类应用的需求专家学者们正致力于智能计算机的研究希望计算机能够具有人类的智能人机交互能够像人与人之间的交流一样便捷 1 1 作为智能计算机研究的重要方向和人机语音通信的关键技术语音识别从诞生初期就被赋予厚望受到科学界的广泛关注语音识别就是让计算机通过识别和理解将人类的语音信号转变为相应的文本或命令的技术其根本目的是让计算机具备人类的听觉功能能接受人类的语音并理解人类的意图 2 3 1 语音识别是 f 7 涉及很广的交叉学科与模式识别信号处理通信语音语言学生理学心理学及人工智能等诸多学科有着紧密的联系语音识别的分类方式很多按照不同的角度有不同的分类方法 4 根据识别对象的不同可以分为孤立词识别连接词识别和连续语音识别孤立词识别以孤立音素孤立字孤立词为识别对象说话者每次只说一个字词或者一条命令作为待识别语音连接词识别以连续数字指令等为识别对象一般指由数字连接而成的数字串识别或由少数指令构成的连接指令的识别连续语音识别以日常生活中人类的流畅说话方式即连续语音为识别对象所识别的是包含完整语法语义规则的一句话或者一组句子并将其转化为相应的文本或者指令根据系统可识别词汇量的大小可以分为小词汇量几十个中等词汇量几百个和大词汇量一千个以上语音识别每个语音识别系统都有一个词汇表系统只能识别词汇表中所包含的词条内容词汇量的大小对语音识别系统的实现影响很大一般说来词汇量越大系统复杂度越大实现就越困难根据使用者的限定范围不同可以分为特定人 s p e a k e r d e p e n d e n t 语音识别和非特定人 s p e a k e r i n d e p e n d e n t 语音识别特定人语音识别系统只能识别某一个人或特定第一章绪论数目人的语音每个使用者在使用前都需要对系统进行训练系统为每一个人设定一个专门的模板库在识别时系统会根据使用者的不同选择不同的模板库进行识别非特定人语音识别可以识别任何人的语音系统经过训练后使用者无需重新训练模板库可以直接使用系统进行语音识别非特定人语音识别系统的通用性强应用范围广但系统实现难度较大且不容易得到高的识别率此外根据识别方法的不同可以分为模板匹配法随机模型法和概率语法分析法语音识别根据使用方式的不同还可以将语音识别分为实时型语音识别和离线型语音识别两种 1 1 2 国内外语音识别技术研究与发展人们对语音识别技术的研究最早可以追溯到二十世纪五十年代 A T TB e l l 实验室开发了第个可识别十个英文数字的特定人语音识别系统 A n d r yS y s t e m 随后R C A 研究所和M I TL i n c o l n 实验室分别开发了可识别十个音节的特定人语音识别系统和可以识别十个元音的非特定人语音识别系统这一时期相关的理论及技术水平较低主要根据频谱的差异来区分不同的语音识别效果并不是太好到了二十世纪六十年代随着计算机软硬件设施的不断改善及语音识别理论技术水平的不断提高语音识别技术有了实质性的进展这一时期的主要成果是动态规划技术 D y n a m i cP r o g r a m m i n g D P 和线性预测分析技术 L i n e a rP r e d i c t i o n L P 的提出动态规划技术较好地解决了待测语音与系统模板时长不等带来的失配问题线性预测分析技术则解决了语音信号产生模型的问题提供了一种性能较好的语音特征参数对语音识别的发展具有深远的影响二十世纪七十年代自然语言理解的研究和微电子技术的快速发展使得语音识别研究取得了突破性进展线性规划技术得到进一步发展动态时间规整技术 D y n a m i cT i m e W a r p i n g D T W 也日趋成熟并成功研发出基于线性预测倒谱系数和动态时间规整技术的特定人孤立词语音识别系统同时矢量量化 V e c t o rQ u a n t i z a t i o n V Q 和隐马尔可夫模型 H i d d e nM a r k o vM o d e l H M M 也成功应用于语音识别领域这一切都预示着语音识别的新时代即将到来进入二十世纪八十年代连续语音识别成为重点研究对象出现了大量的连续语音识别技术传统的模板匹配模型不适合连续语音识别识别模型开始从模板匹配模型转向基于统计技术的模型语言模型从规则描述转向统计描述相继出现了许多成功的连 2 西北大学硕士学位论文接词连续语音识别系统隐马尔可夫模型在语音识别中得到了广泛应用人工神经网络 A r t i f i c i a lN e u r a lN e t w o r k s 朋州也被引入到语音识别领域最具有里程碑意义的是美国C M U 大学利用支持矢量积和隐马尔可夫模型开发的可以识别9 9 7 个词的非特定人大词汇量连续语音识别系统九十年代以后语音识别技术更加成熟在细化模型设计参数提取和优化及系统自适应等方面均取得了关键性的进展随着科技的发展多媒体技术的普及语音识别开始由实验室走向实用化比较有代表性的产品有m M 公司的V i aV o i c e 语音录入系统微软公司的W h i s p e r 系统等 5 J 我国的语音识别研究起始于五十年代后期 1 9 5 8 年中科院声学所利用频谱分析的方法实现了对汉语十个元音的识别 1 9 8 7 年国家8 6 3 智能计算机主题专家组为语音识别立项国内些科研机构和高校相继投入到语音识别研究之中如中科院声学所自动化所北京大学清华大学等著名高校也设立了专门的语音识别研究实验室经过几十年的研究我国的语音识别研究水平已经基本上与国际同步并且在汉语语音识别方面具有独特的优势对汉语语音识别的研究已经达到了世界领先水平 4 1 1 2 噪声环境下连续语音识别的意义 1 2 1 连续语音识别的意义连续语音识别的最终目的就是让计算机能够听懂人类的语言使人类可以通过语音对话与计算机进行交互近年来连续语音识别成为语音识别研究的难点与热点相关技术也逐步成熟连续语音识别系统将是未来语音识别产品的主流连续语音识别应用前景非常广泛它的发展成熟及实用化将推动许多诸如计算机办公自动化信息通信智能机器人等产业飞速发展近年来连续语音识别的应用领域主要有语音录入系统声控系统数据库检索外文翻译语音通信计算机辅助教学自动身份确认等领域基本上覆盖了人类社会的各个方面各个领域1 6 1 2 2 抗噪技术在语音识别中的意义目前纯净语音环境下的语音识别技术已经较为成熟连续语音识别系统对纯净语音的识别已经取得非常高的识别精度现有的语音识别系统一般都是在实验室中利用高质量麦克风采集语音对系统进行训练得到模板识别也是在安静环境下进行因此系统识别率很高如I B M 公司的V i a V o i c e 系统在纯净语音环境下系统的识别率可达9 5 但在现实生活当中噪声无处不在语音极易受到噪声的干扰使得待识别语音特征矢 3 第一章绪论量与训练模板失配系统识别性能大幅度降低 7 1 抗噪问题是连续语音识别能够真正达到实用化的关键所在抗噪技术研究的目标就是降低噪声对系统的影响消除由噪声引起的识别环境与训练环境差异过大导致的失配使识别系统在外界噪声干扰的情况下仍然能够取得高识别率尽可能接近实验室环境下的性能语音识别中失配语音模型可表示如下 8 y f p f l 啊 f k 妇o 刀 o 宰扫湘o 玎 o 1 1 在式 1 1 中 n I t 表示背景噪声 k 妇 f 表示麦克风脉冲响应刀 f 与 f 分别表示工作背景噪声响应信道脉冲响应 n 3 t 表示接收端的背景噪声表示卷积若只是考虑加性噪声的影响噪声的分类在第三章有详细介绍式 1 1 可以简化为 y f s 乃刀 1 2 1 3 本文主要工作及创新本文的工作主要是设计并实现了一个汉语连续语音识别系统并通过实验研究系统的抗噪性能针对其中存在的问题进行改进本文选取带调音节作为识别基元利用M e l 频标倒谱系数和隐马尔可夫模型实现了一个中等词汇量非特定人的汉语连续语音识别系统通过实验研究不同信噪比下系统的识别率端点检测的准确性对系统的识别性能影响很大传统的端点检测技术在非连续的纯净语音中检测准确度很高但在含噪型的连续语音中检测准确率大幅度降低针对这一问题本文在考虑噪声和汉语连续语音特性的基础上提出了基于元音检测的汉语连续语音端点检测方法有效提高了噪声环境下连续语音的端点检测准确度传统的 M e l 频标倒谱系数在提取过程中存在着不足针对这一问题本文提出了基于小波包分析和滤波器加权的提取改进方法有效地提高了特征参数的抗噪性能 1 4 本文章节安排本文具体章节内容安排如下第一章绪论首先介绍了语音识别的基本知识和国内外语音识别技术的研究与发展然后介绍了噪声对语音识别的影响和抗噪连续语音识别研究意义第二章语音识别系统构成首先介绍了语音识别的基本原理和语音识别系统的组 4 西北大学硕士学位论文成然后简要介绍了语音识别系统的各个组成部分及相关技术第三章语音抗噪技术简介首先介绍了噪声的分类噪声对连续语音识别的影响然后介绍了目前常用的各种语音识别抗噪技术并分析对比了各种抗噪技术的优缺点第四章噪声环境下端点检测技术研究首先介绍了传统的端点检测技术并分析传统方法中存在的问题和不足之处结合噪声的特性和汉语连续语音的特点提出了一种基于元音检测的汉语连续语音端点检测方法实验结果表明基于元音检测的端点检测方法可以有效提高噪声环境下汉语连续语音端点检测的准确率第五章噪声环境下特征提取方法研究首先介绍了传统M e l 频标倒谱系数的提取过程以及存在的问题然后提出了一种基于小波包分析和滤波器组加权分析的M e l 频标倒谱系数提取改进方法实验结果表明改进后的方法所提取的参数比传统的M e l 频标倒谱系数在识别率及抗噪性能方面都有较大提高第六章实验及结果分析首先介绍了本文所实现系统的软硬件环境语音库的建立声学模型及语言模型等然后用本文第四五章提出的方法对系统进行改进并进行实验对改进后的系统与原有系统进行对比分析验证本文提出方法的有效性最后总结与展望首先总结了本文所做的工作以及取得的成果分析了存在的问题以及需要改进的地方然后对汉语连续语音识别的发展进行展望明确了下一步的研究方向西北大学硕士学位论文第二章语音识别系统构成 2 1 语音识别基本原理语音识别本质上属于模式识别的范畴虽然按照不同的标准语音识别系统有不同的分类且每一类识别系统的具体实现技术都有所不同但所有系统的基本原理和主要组成部分都是相同的语音识别系统一般都包括语音信号预处理特征参数提取语音样本模型训练模式匹配及后处理 4 2 1 等几个部分语音识别系统的基本结构图如图2 1 所示图2 1 语音识别基本结构图预处理过程主要包括滤波采样和量化预加重加窗分帧端点检测等主要实现对输入语音信号的数字化转变提升信号中的有用信息消除噪声影响并检测出输入语音信号中语音段落的起点和终点特征提取是语音识别中非常重要的一步其主要目的是提取出语音中能够反映语音本质特征的声学参数如短时能量平均过零率共振峰等特征参数提取本质上是对语音信号的降维用维数较低的特征参数来代替语音信号特征参数的选取非常重要对语音识别系统的性能影响很大特征参数除了要能很好地反映语音信号的本质特征外还要计算简便最好有高效的计算方法以保证语音识别系统的实时实现语音样本模型训练阶段的目的是通过训练生成系统的模式库在训练阶段系统对训练语音进行分析处理提取出识别基元的特征参数并按照一定的方法生成模板存入系统模式库中系统训练对语音识别系统非常重要对于基于统计模式的语音识别系统只要训练足够充分系统就可以达到很高的识别性能模式匹配是整个语音识别系统的核心它是根据定规则如距离测度及先验知识如词法规则语法规则语义规则等来计算输入语音的特征参数与系统模式库中模板之间的相似度选择出相似度最高的模板序列作为识别结果然后将输入语音序列转化为对应的文本序列 9 1 7 第二章语音识别系统构成 2 2 语音预处理 2 2 1 预滤波与数字化在语音信号进行采样和量化之前需要首先进行防混叠滤波和防工频干扰滤波滤波的目的有两个第一滤除输入的语音信号各频率分量中频率超过六 2 的所有分量其中六为采样频率将信号带宽限制于某个范围内以防止混叠干扰第二抑制5 0 H z 的电源干扰防混叠滤波与防工频干扰滤波可以在一个集成块中实现语音信号是随时间变化而不断变化的一维模拟信号而计算机可以处理的信号必须在时域和频域上都是离散的数字信号因此必须将预滤波后的语音信号通过A D 变换器变换为时间和幅度都离散的数字信号从模拟信号到数字信号的转化需要经过采样量化两个阶段来完成采样只能将信号在时域上离散但是幅度上仍然连续而量化可以使信号波形的幅度值离散化砌语音信号的A D 转换过程如图2 2 所示圈一圈日国日匝卫模扫售号采样量化数字信号图2 2A D 转换过程示意图 2 2 2 预加重对语音信号进行预加重处理是为了提升语音信号的高频部分在人类的发声过程中语音会受声门激励和口鼻辐射的影响语音的高频端 8 0 0 H z 以上将以6 d B 倍频幅度跌落通过预加重处理可以使语音信号的频谱变得平坦便于对频谱及声道参数的分析预加重处理可以在采样和滤波之前进行也可以在采样之后进行前一种方式的预加重处理不仅能够压缩语音信号的动态范围还能够有效地提高信噪比后一种方式主要是利用6 d B 倍频程的预加重数字滤波器来提升高频部分 1 1 一阶数字滤波器可表示为 H z 1 一胆 2 1 在式 2 1 中为预加重系数取值一般在0 9 0 9 7 之间本文系统中取值为 0 9 4 7 5 2 2 3 加窗分帧语音信号是一种非平稳的时变信号是由人类的发声器官振动引发的人类发声器官的物理运动比声音振动速度要缓慢的多因此在一个短时范围内 1 0 m s 3 0 m s 可以认为语音信号是稳定的即语音信号具有短时平稳性对语音信号的分析及处理都西北大学硕士学位论文是建立在 c 短时基础之 L t t o 一般将语音信号分割为若干个短时片段用来保证在每个短时段内语音信号可以近似看作是具有稳定特性的平稳信号每个短时语音信号段称为一帧为了避免帧间的变化度过大相邻两帧之间需要有部分重叠称之为帧移帧移与帧长的比值一般在 l 2 之间如果每帧有个采样点且帧移为M 个采样点则第f 个样本与输入的语音信号的关系为 1 0 X 刀 X M O 一1 刀 2 2 在式 2 2 中 f 取值为0 一l 分帧可以通过对语音信号加窗处理来实现加窗指用一个有限长度的窗函数在语音信号上滑动将语音信号分为短时平稳段常用的窗函数主要有矩形窗汉明窗和汉宁窗等其定义分别如下其中N 为帧长矩形窗川凝州1 仁3 汉明窗一t O5 廿4 0 w n 4 6 c s 2 删嘞 o 刀一1 2 4 I v 其它 2 4 汉宁窗 w 加撰髦譬 s 2 酬 1 眍胚 1 2 5 以功2 o 巍 2 5 语音信号短时分析与窗函数有着非常密切的联系对语音信号的时域分析来讲窗函数的形状是非常重要的窗函数的选择要遵循以下原则 1 主瓣宽度主瓣越窄频率分辨率越高 2 旁瓣幅度旁瓣越低衰减越快频率泄露越少而幅度分辨率也就越高对比三种窗函数矩形窗虽然主瓣窄但是旁瓣太高会发生泄露现象汉宁窗虽然主瓣比矩形窗宽但是旁瓣较低衰减较快因此泄露现象比矩形窗小的多汉明窗由汉宁窗和矩形窗拼接而成形状介于二者之间具有平滑的低通特性 1 2 1 2 2 4 端点检测端点检测的目的是从语音信号中检测出特定语音段落的起始点和终止点语音信号所包含的信息非常大其中夹杂着许多的无声段及短时噪声等冗余信息大量的冗余信第二章语音识别系统构成息不仅降低了语音的质量也使得语音信号的存储与处理变得非常复杂因此在对语音信号进行处理之前通常先采用端点检测技术检测出语音信号中的特定语音段落排除噪声段和无声段从而减少语音信号的存储开销降低信号处理难度常用的端点检测方法有如下几种 1 3 1 基于短时能量的端点检测方法短时能量反映了语音振幅或能量随时间缓慢变化的规律语音信号的短时能量定义如下 E s 聊 w 拧一m 2 2 6 在式 2 6 中 s m 为语音信号 w n 一研为对应的窗函数在信噪比较高的情况下语音段的能量远大于噪声段的能量因此只要计算出输入语音信号每一帧的能量就可以检测出语音段与噪声段区分有声与无声但在现实生活中噪声种类繁多无处不在很难保证输入语音始终保持很高的信噪比同时语音中的弱摩擦音和鼻音能量较小很容易被噪声覆盖因此在实际应用之中仅靠语音信号的短时能量很难准确检测出语音的端点 2 基于短时能量和短时平均过零率的检测方法也称为双门限比较法双门限端点检测法是在短时能量检测法的基础上加上短时平均过零率综合利用两种参数来实现可靠的端点检测语音信号的幅度是随着时间的变化而不断变化的相邻两个采样值的符号发生变化称为过零单位时间内语音信号过零的次数称为过零率短时平均过零率定义如下乙寺 I s g n L x m s g n x 所一1 l 2 7 在式 2 7 中 s g n 是符号函数定义如下 s g n x n L 蕊兰亿8 基于短时能量和短时平均过零率的端点检测方法如图2 3 所示语音中总会包含能量较大的浊音因此设置一个短时能量的高门限瓦当语音信号的能量值大于高门限瓦时就认为语音信号处于语音段根据此高门限可以粗略检测出语音段的起始点彳和终止点B 语音在起始段与终止段的能量较小因此需要设置一个短时能量的低门限乃来检测语音段更精确的起止点得到起始点C 和终止点D 对于语音中的清音其能量很小无法用能量来检测但清音段的过零率明显高于噪声段和无声段因此设置过零率 l O 西北大学硕士学位论文门限来检测清音得到最终的语音起始点E 和终止点F 图2 3 双门限法端点检测由此可将整个语音分为四段静音段过渡段语音段和结束在静音段如果短时能量超过了能量低门限或者短时过零率超过了过零率门限则可能为语音的开始标记起点进入过渡段在过渡段中如果能量与过零率都回落N f l 限值以下则此段不是语音段重新进入静音状态如果能量超过了高门限则可以确定进入了语音段在语音段中如果能量降到能量低门限以下或者过零率降到了过零率门限以下且持续了一定时间则认为语音段结束能量值降低到能量低门限以下或过零率降低冱0 过零率门限以下的时刻即为结束点对于检测出的语音段如果语音段时长小于语音最短时长则认为该段是由突发噪声引起的噪声段 2 3 语音特征提取特征参数提取就是从语音信号中提取最能够代表语音本质的特征同时尽量去除那些对语音识别来说无关的冗余信息如背景噪声等提高系统的识别率特征提取本质上是对语音信号的降维用较少的维数代表语音便于语音识别系统存储和处理因此特征参数的选择对语音识别系统的性能影响很大一般来说理想的语音特征参数应符合以下条件第一特征参数要能有效地代表语音信号信息不同语音信号的特征参数之间要有良好的区分性第二各阶参数之间应具有良好的独立性即互不相关且在保持识别率较高的情况下特征参数的维数应尽可能少第三特征参数应计算简单以保证识别系统的实时性语音信号的特征参数主要有时域参数和频域参数两种时域特征参数包括短时能第二章语音识别系统构成量短时平均过零率共振峰和基音周期等频域特征参数包括线性预测系数 L i n e a r P r e d i c t i o nC o e f f i c i e n t L P C 线性预测倒谱系数 L i n e a rP r e d i c t i o nC e p s t r u mC o e f f i c i e n t L P C C 短时频谱和M e l 频标倒谱系数 M e lF r e q u e n c yC e p s t r u mC o e f f i c i e n t M F C C 等目前常用的特征参数有线性预测系数 L P C 线性预测倒谱系数 L P C C 和 M e l 频标倒谱系数 M F C C 1 4 1 2 3 1 线性预测倒谱系数线性预测 L i n e a rP r e d i c t i o n L P 分析是语音信号分析中最有效的方法之一被广泛地应用于语音信号处理的各个方面线性预测的主要思想是语音信号的采样点之间具有相关性因此可以用过去的样点值来预测当前或者以后的样点值线性预测系数 L i n e a rP r e d i c t i o nC o e f f i c i e n t L P C 是一种基于语音合成的特征参数是通过模拟人的发声器官来提取语音的特征人类语音的产生过程可以用声管模型来模拟语音信号的声管模型如图2 4 所示全极点线性预测模型可以对声管模型进行很好的描述语音信号的激励源是由肺部气流的冲击引起的声带进行周期振动则产生浊音否则产生清音浊音信号是由一个周期的脉冲序列激励一个线性系统所产生的输出日 z G z y z 尺 z 而清音信号是由白噪声序列激励一个线性系统所产生的输出 H z 由声道响应y z 与辐射模型R z 相级联而成日 z y z R z 每段声管对应于一个L P C 模型的极点一般情况下选择1 2 到1 6 个极点就可以清晰地描述语音信号的特征弋 L 人弋广 J 蠢腻墨声道梗塑辐射梗星图2 4 语音信号的声管模型语音信号当前的采样值可以用它前面若干个采样值的线性组合来逼近预测误差值等于真实采样值与预测值之差根据预测误差均方值最小的原则就可以唯一确定一组预测系数 1 1 5 1 1 2 西北大学硕士学位论文线性预测系数的计算过程如下对于一个线性预测系统来说采样点1 1 的输出值s n 可用前p 个样本值的线性组合来近似表示 1 5 s 圭吼s Q 一七 G 刀 2 9 k l 其中吼为常数 G u n 是归一化冲击响应与其增益系数的乘积假定系统输出的估计i n 为则估计误差e n 可表示为歹力兰叩撑一七 2 1 0 P P 刀 s 疗一 s 刀一 a k s n k 2 1 1 k i 定义起点为n 的短时语音信号和误差信号 S n 聊 s n 柳 e n 研 e n 聊则误差平方和可表示为 E P m k 历一 P 即一朋一七 l r z 朋 nIk l l 式 2 1 3 对各阶L P C 系数求导数并令其等于零则可以得到 2 1 2 2 1 3 P m i s m 玩 m i s 玎 m k 2 1 4 埘七 l埘根据相关函数的定义可以得到纸 f o 丸q n i 七 k 1 2 P 2 1 5 k l 式 2 1 5 表示由P 个方程构成的方程组未知数为P 个求解式 2 1 5 就可以得到系统的线性预测系数求解该式的方法很多主要有自相关法协方差法和格型法自相关法如莱文逊杜宾 L e v i n s o n D u r b i n 递推算法和舒尔 S c h u r 递推算法等协方差法如乔里斯基 C h o l e s k e y 分解法等格型法如伯格 B u r g 法等 1 0 1 在语音识别系统中很少直接使用线性预测系数而是使用由线性预测系数推导出的另一种系数线性预测倒谱系数 L i n e a rP r e d i c t i o nC e p s t r u mC o e f f i c i e n t L P C C 3 第二章语音识别系统构成倒谱属于同态信号处理方式包含了语音信号谱的包络信息对于语音信号来讲倒谱参数比其它参数包含了更多的信息标准的倒谱系数计算流程需要进行傅里叶变换对数操作和相位校正等运算比较复杂在实际计算中可以利用序列x 刀及其复倒谱系数c n 的递推关系来简化计算序列x 行与其复倒谱系数c 刀的递推公式为I l l f0 刀 0 2 1 6 Ix L u J 岔宝刀 x 0 利用上面的递推公式可以得到线性预测系数和线性预测倒谱系数的直接递推关系如式 2 1 7 所示 c o l o g G 2 c 席口喜去二口一等聊 p 2 7 铲薯知柑在式 2 1 7 中 C o 是直流分量在语音识别中通常不用 C 卅是倒谱系数 a 是线性预测系数 P 是线性预测系数的阶数 m 为倒谱系数的阶数在计算线性预测倒谱系数过程中如果阶数不超过线性预测系数的阶数P 时用第二个式子进行计算如果阶数大于P 时则用第三个式子进行计算倒谱系数一般取8 3 2 阶就可以较好地表征声道特征线性预测倒谱系数运算量较小利用倒谱可以很好的提高特征参数的稳定性并且较为彻底地去除语音产生中的激励信息线性预测倒谱系数对元音有较好的描述能力但是对辅音描述能力较差同时参数的抗噪性不好 1 5 1 2 3 2M e l 频标倒谱系数 M e l 频标倒谱系数 M e lF r e q u e n c yC e p s t r u mC o e f f i c i e n t M F C C 是将人耳听觉感知特性与语音的产生相结合的一种特征参数对噪声的鲁棒性优于线性预测倒谱系数更适合语音识别是目前应用较为广泛的语音特征参数之一人耳对不同频率的语音具有不同的感知能力在l k H z 以下感知能力与频率成线性关系而在l k H z 以上感知能力与频率成对数关系为了模拟这种人耳的感知特性人们提出了M e l 频标的概念 M e l 频标和线性频率的转换关系如式 2 1 8 所示 1 4 西j 匕大学硕士学位论文 2 5 9 5 1 0 9 l o 1 赢 2 1 8 在式 2 1 8 d 尸 f 为声学频率乙为M e l 频标单位分别为赫兹 H z 和美尔 M e l M e l 频标倒谱系数充分考虑了入耳的听觉特性模拟了人类听觉系统的非线性特点与线性预测倒谱系数相比 M e l 频标倒谱系数具有如下优点 1 6 1 第一语音信号大多集中在低频部分而高频部分容易受到外界噪声的干扰与基于线性频标的线性预测倒谱系数相比 M e l 频标倒谱系数将线性频标转换为M e l 频率坐标强调语音的低频部分有利于语音信号的识别有效地降低了噪声的干扰第二 M e l 频标倒谱系数没有任何假设前提在任何情况下都可以使用而线性预测倒谱系数预先假设所处理的信号为自回归 a u t o r e g r e s s i v e A R 信号这对于动态特性较强的辅音来说假设并不严格成立当噪声存在时自回归信号会变成自回归移动平均 a u t o r e g r e s s i v em o v i n g a v e r a g e A R M A 信号这会使线性预测分析的结果产生较大的误差因此 M e l 频标倒谱系数比线性预测倒谱系数具有更好的抗噪能力 2 4 识别模型研究人员根据不同的识别要求建立了多种语音识别模型所有的模型必须经过训练或学习之后才能够进行语音识别语音识别过程就是根据模式匹配原则按照一定的相似性度量法则使输入语音的特征矢量与模式库中的某一个模板获得最佳匹配的过程下面简要介绍几种常用的语音识别模型 2 4 1 动态时间规整动态时间规整 D y n a m i cT i m eW a r p i n g D T W 是一种将时间规整和距离测度有机结合在一起的非线性规整技术由于语音信号具有极大的随机性即便是同一个说话人在不同时刻对同一句话所发出的音语音的持续时间也不可能完全相同因此必须首先进行时间规整 1 刀假设系统某个参考模板为口l 口口m9 J 9 a M 输入语音信号特征矢量为 6 l 6 吒 6 且M N 时间规整函数可表示为坍 w 刀它的作用就是将输入语音特征矢量的时间轴刀非线性地映射到参考模板的时间轴朋上且该规整函数满足下式 D r a i n d n 以力 2 1 9 1 5 第二章语音识别系统构成在式 2 1 9 q h d 聆以刀表示第九帧输入语音特征矢量与第埘帧参考模板之间的距离 D 是相对于最优时间规整下特征矢量与参考模板的距离测度动态时间规整是一种典型的最优化算法利用满足特定条件的时间规整函数w 刀来描述两个矢量的时间对应关系求解使两个矢量匹配距离最小时的规整函数动态时间规整确保了两个特征矢量之间最大声学相似和最小时差失真特性是最早用于解决模式匹配问题的方法其不足之处在于计算量大对端点检测准确度依赖大不能够充分利用语音信号的时序动态信息特性等动态时间规整常用于孤立词或小词汇量语音识别系统中 2 4 2 人工神经网络二十世纪8 0 年代人工神经网络 A r t i f i c i a lN e u r a lN e t w o r k s A N N 技术被成功应用于语音识别研究中人工神经网络是由大量简单的处理单元并行连接组成的通过模拟人类神经元活动原理具有与人类相似的自学习联想对比推理和概括等能力一般说来基于人工神经网络的语音识别系统主要由神经元训练算法和网络结构三部分组成人工神经网络良好的分类能力和输入输出映射能力对语音识别具有很大的吸引力 1 8 1 目前神经网络技术还未成熟但在语音信号处理的某些方面已经初显威力通过模拟人类的脑组织结构及思维过程来探索人类的听觉神经机理进而改善语音识别系统的性能是当前语音识别的一个重要研究方向由于基于人工神经网络的语音训练识别算法实现较为复杂且识别率并不一定比基于统计模型的语音识别系统高因此目前对于人工神经网络的研究还只是处于实验室阶段目前应用于汉语语音识别系统的人工神经网络种类繁多其中前馈网络的反方向传播 B a c kP r o p a g a t i o n B P 算法应用最为广泛在此不再详述 2 5 隐马尔可夫模型隐马尔可夫模型 H

人人文库> 全部分类> 应用文书 > 项目管理

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

硕士论文-噪声环境下汉语连续语音识别技术研究.pdf

文档简介

温馨提示

最新文档

评论

硕士论文-噪声环境下汉语连续语音识别技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档