小词汇量语音识别系统的设计

上传人：活*** IP属地：宁夏上传时间：2021-10-25 格式：DOC 页数：32 大小：1.13MB 积分：15 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、小词汇量语音识别系统的设计学生：詹晶晶指导教师：沈晓波淮南师范学院电气信息工程系摘要：随着语音识别理论研究的深入和数字信号处理软、硬件技术的发展，语音识别技术应用的研究越来越受到人们的关注。人类与计算机进行交流时，最直接和方便的方式就是语言交流，语音识别成功完成人机交互新领域。虽然大字表非特定人连续语音识别技术仍有诸多难点尚未解决，基特定人小字表孤立词语音识别技术(lpc和dtw算法)已相对成熟。本文中首先对浯音识别技术研究与应用的历史和现状做了简单的介绍，并指出了该论文的研究意义所在。论文中对语音识别系统中涉及到的基本概念及原理进行了简单的分析，之后分别针对语音识别系统中预处理阶段的端点检

2、测算法、语音信号的特征提取算法以及模式匹配和模型训练算法进行了深入的理论研究。采用“双门限”法实现语音端点检测，在实验室环境下取得了较为理想的检测效果；系统地研究了语音识别系统各种主要特征参数的提取方法，特别分析和研究了线性预测分析系数(lpc)的提取方法和美尔频率倒谱系数(mfcc)的提取方法；针对模式匹配和模型训练问题，本文采用了基于连续概率密度隐马尔可夫模型(hmm)的语音识别模型。实验证明，在信噪比较低的实验室环境下，该模型取得了良好的识别结果。关键词：语音识别；端点检测；特征提取the design of system of small-vocabulary and speech r

3、ecognitionstudent: zhanjingjingdirector teacher:shenxiaoboelectrical & information engineering department of huainan normal university abstract with the development of speech recognition technique and the software and hardware for digital signal processing in recent years，the research of speech reco

4、gnition and control system have been more and more attendedcommunicating through speech with computer is the most comfort way,so the speech recognition become all important research field of modem computer technologyalthough there still exist many problems which need to be overcome such as the techn

5、ique of large-vocabulary,speaker-independent，continuous speech recognition，the technique(lpc and dtw)for small-vocabulary，speaker-dependent，isolated-word speech recognition has come to the age of maturityin the paper, i first present a simple introduction of the history and the current status of the

6、 research and application of speech recognition technique，and point out the signification about our workfirst we analyse some basic concept and theory about speech recognition systemthen according to the algorithms of the endpoint detection for pretreatment，feature extraction of speech recognition，p

7、attern matching and model training，we have a deep study on themusing the “double threshold” law we can complete the end-point detection of the pronunciation，and obtain the more ideal examination effect under the laboratory environmentdiscuss the methods of extracting the different main characteristi

8、c parameters of speech recognition systematically,especially analyze lpc and mfcc parameters of the characteristic parameters，aiming the pattern matching and the model training question，this article propose the speech recognition model based on the hmmthe experiment proved that under the signal to n

9、oise ratio lower laboratory environment，this model has obtained the good recognition result.key words：speech recognition；end-point detection；feature extraction 1绪论语言是人类交换信息最方便、最常用的一种方式，在高度发达的信息社会中，那个数字化的方法进行的、存储、识别、合成和增强等是正规数字化通信网中最重要、最基本饿组成部分之一。语音信号是一门新兴的边缘学科，它是语音学与数字信号处理两个学科相结合的产物。它和认知科学、心理学、语言学、

10、计算机科学、模式识别和人工智能等学科有着紧密的联系。与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。而语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近年来，语音识别技术取得显著进步，开始从实验室走向市场，人们预计未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。计算机的高速发展既对语音识别技术提出了越来越高的要求(如用语音输入替代键盘输入以实现直接的人机对话)，同时也为语音识别技术的进步提供了效

11、率不断提高的软、硬件实现手段。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能满足特定的场合。语音识别系统的性能大致取决于以下4类因素：1识别词汇表的大小和语音的复杂性；2语音信号的质量：3单个说话人还是多个说话人；4硬件平台。语音作为当前通讯系统中最自然的通信媒介，随着计算机和语音处理技术的发展，不同语种之间的语音语音翻译也将成为语音研究的热点。近年来，随着世界科技的蓬勃发展，诸如人工神经网络、模糊理论和小波信号处理等技术在语音处理技术的研究当中得到了广泛的应用，进而促进了语音识别技术的进步。1.1语音识别技术的历史与现状1.1.1语音识别的发

12、展历史语音识别的研究工作可以追溯到20世纪50年代at&t贝尔实验室的audry系统，它是第一个可以识别十个英文数字的语音识别系统。但是直到60年代末70年代初期，语音识别才作为一个重要的课题展开工作，并且逐步取得实质性的进展。一方面是因为计算机产业的迅速发展提出了使用要求，同时又提供了实现复杂算法的软、硬件平台；另一方面是因为数字信号处理的理论和算法在这一时期取得了飞跃性的发展，如快速傅里业变换、倒谱计算、线性预测算法、数字滤波器等。其中比较著名的是语音信号线性预测编码(lpc)技术的提出，以及将动态规划的概念用于解决孤立词识别时说话速度不均匀的难题，提出了著名的动态时间规整算法，简记为dt

13、w(dynamic time warping)。这有效地解决了语音信号的特征提取和不等长匹配问题。当词汇量较少以及各个词条不易于混淆时，dtw算法取得了很大的成功，从而自60年代末期开始引起了语音识别的研究热潮。早期的语音识别系统大多是按照简单的模板匹配原理工作的特定人、小词汇量、孤立词识别系统。随着应用领域的扩大，小词汇量、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难；第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音现象；第三，非特定人识别时，不同的人说相同的

14、话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其他干扰，因此原有的模板匹配方法已不再适用。60年代初，日本的东京无线电实验室、京都大学和lrec实验室都制作了能够进行语音识别的专用硬件，在语音识别领域进行了开拓性的工作。同时在世界范围内，也进行了对今后语音识别研究和发展有着深远意义的研究工作。rac实验室为解决语音时间尺度的非均匀性问题，以便能可靠的检测到语音的起始点和终止点，提出了一组基本的时间归一化方法，有效地减少了识别结果的可变性。前苏联的vintsyuk提出了使用动态1规划的方法，对一组语音在时间

15、上对准，包含了动态时间轴归整的思想。carnegie mellon大学的reddy通过对音素的动态跟踪，对连续语音识别方法做了开创性的工作。60年代中期以后，计算机产业的迅速发展给语音识别提供了实现复杂算法的软、硬件环境，并提出了使用要求。同时，数字信号处理理论和算法也取得了飞跃发展，产生了快速傅里叶变换、倒谱计算、数字滤波器等算法和理论，大大促进了语音识别技术的发展并使语音识别的研究从模拟技术转到数字技术。70年代，语音识别领域取得突破，语音识别技术在理论和实践方面都有了很大的发展，语音识别的两大基本技术特征提取和模板匹配技术取得了长足的进步。在理论上，lpc技术得到进一步发展，动态时间规正

16、技术(dtw)基本成熟，特别是提出了矢量量化(vq)和隐马尔可夫模型(hmm)理论。在实践上，实现了基于线性预测倒谱和dtw技术的特定人孤立词识别系统。这一时期的特征提取技术主要有三个方法：频谱分析、线性预测分析和倒谱分析。fff技术用于特征提取，使频谱的实时分析成为可能：找到了相应的距离测度准则，线性预测编码技术作为一种有效的特征提取技术而被广泛采用：随着数字信号处理技术的发展，倒谱分析等同态处理方法在特征提取方面发挥重大的作用2。这一时期也开始出现了一些连续语音识别系统。1971至1975年，美国国防部推出arpa五年计划，目标是1000词的连续语音识别。在参与此计划的单位中，卡内基一梅隆

17、大学的1000词、连续语音、安静环境条件下的语音识别系统hearsayharpy效果较好。80年代，语音识别研究进一步走向深入，逐渐从特定人、小词汇表、孤立词识别向非特定人、大词汇表、连续语音识别转移，出现了以隐马尔可夫模型为建模的语音识别方法。这一时期较好的系统还有日本电气公司sakoe等开发的连接词语音识别系统，它采用双层动态时间规正技术，将识别率提高到99。英国的bridle和brown利用全字模板和帧同步算法设计的连接词识别硬件系统；ibm公司开发的30000词的语音打字系统tangora等3。进入90年代，随着多媒体时代的来临迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、

18、日本、韩国以及ibm，apple，at&t,ntr等著名公司都为语音识别系统的实用化开发研究投以巨资。而且小波理论得到迅速发展，出现了各种基于小波理论的算法，也有研究者尝试把小波分析技术应用于特征提取，但目前性能不太理想，有待迸一步研究。随后神经网络的研究也取得了很大的进步，出现了许多以神经网络为建模方式的语音识别算法。人工神经元网络在语音识别中的应用是现在研究的又一热点。ann本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是hmm模型不具备的，但ann又不具有hmm模型的动态时间归正性能。随着计算机的运算能力和内存的迅速增长以及

19、硬件价格的大幅度下降，人们也越来越重视语音识别模块和芯片的研究与开发。面对各种用户、各种使用环境，人们也在研究更具适应性和抗噪性的识别系统。1.1.2语音识别的分类语音识别大致可分为如下几类：1讲话者识别。这又可以分为讲话者辨认和讲话者确认两种。前者是判定某一待识别的声音是由n个讲话者中的哪一位的语音。其输出有n个可能的结果，这属于闭集识别的范畴。判别的方法是从n个讲话者参考模板中选出与输入语音有最大似然的那一个模板。虽然，其结果的正确与否是与n有关的。随着讲话人数的增加，正确率将迅速下降。后一种讲话者确认，是判定某一待识别的声音“是或不是”某一特定的讲话者的语音。其输出只有两种结果(是该特定

20、讲话者，或者不是该讲话者)。虽然这种判决比前一种简单些，然而，对语言的可变性(如样本的训练时间、次数以及感冒变了声音等)必须要加以注意。如果从话音文本来分，讲话者识别又可分为：与文本有关和与文本无关两种。前者要求讲话者讲的文本式预先指定的、固定的；而后者则要求文本式自由的。2语言识别。这可以有下面四种分类：1、从识别的基元或识别的单位来分。按人们开始研究的先后次序有：孤立词识别、音素识别、音节识别、连词(即孤立旬)识别、连续语言识别与理解等。理解是在识别了语音之后，再根据语言学知识来推断语言的内容。不过理解常与识别有交叉，或者存在着层次之间的反馈和含义上的交叉。2、从识别的词汇量来分有：小词汇

21、量(10-50)、中词汇量(50-200)、大词汇量(200个以上)等孤立词识别。此外，还有某特定用途的中词汇量连接词识别和无限词汇连续语音的识别等，一般识别的词汇量愈多，所用基元应愈小、愈少才是可行的。3、从讲话语音的来源来分。有单个特定讲话者、多讲话者和与讲话者无关三种。这主要是从语言库的训练与建立的方法来区分的。但讲话者是，一般不必使用聚类技术；但在讲话者大词汇量4情况时，也要用该讲者的多次语音进行聚类。多讲话者识别则必定要多个讲话者的语言样本进行聚类，才能建立有效的语言库。而且，还要求聚类之前，应先去除讲话者的个性特征；而仅利用对讲话者不敏感的共性特征。不过，相对于讲话者无关情况来说，

22、这是系统中每个识别基元常只用一个模板。对于与讲话者无关的情况，比前两种要复杂些。建立这种系统的语言库，要求考虑训练模板的人数、年龄、性别等因素。训练时要使用各种加权信息的聚类技术，通常每个识别基元要建立几个甚至十几个模板。4、从识别方法来分。有目前发展情况可以分为三种：模板匹配法、随机模型法和概率语法分析法；这也可说有三种战略。虽然，这三种方法都建立在统计模式识别的最大似然决策贝叶斯判决的基础上，它们都要涉及一些共同的内容。如：识别的参数都是连续的特征或离散的符号，该矢量或该符号都是有限的(如lpc空间等，都是有限状态空间)，技术上都是采用局部最优的动态规划技术等，但是这三者还有很大的差异。现

23、简单介绍如下：a、模板匹配法。它是使用不变的测度(如距离测度)来对似然函数进行参量估计于判决，不变的测度是指：对语音信息的各种变化，具有顽健性(robustness)，但是，可以使用局部加权技术，使测度更符合或更接近于最佳。b、随机模型法。它是使用隐马尔柯夫链的信号模型化技术，对似然函数进行参量估计于判决。这里，考虑了语音频谱的内在变化(如：讲话速度，不同讲话者特性等)之外，还可考虑它们的相关(记忆性)。因此，这个方法能比较精确的使用语言的结构知识。c、概率语法分析法。这是一种考虑形式语法约束(尤其句子以上连续语言识别情况)时，对似然函数进行参量估计与判决的方法。这里形式语法可以是非参数形式，

24、也可以是参数形式；或者是二者的结合。因此，这个方法可将a或b方法结合使用进来。组成连续词以上的识别系统。除了统计模式识别方法外，还有句法模式识别方法，也可用于语言识别中。近年来，有人提出将模糊数学用于语言识别与理解：还有人提出从仿生学的观点，应该用语言的主观感知机理来进行语言的识别与理解；以及用人工神经网络5来进行语言识别6。1.1.3语音识别的困难与对策尽管各种语音识别产品层出不穷，但与语音识别的最终目标还有一定的距离，且目前研究工作进展缓慢，主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现，但其普遍适用性都值得商榷。具体来讲，困难主要表现在：语音识别系统的适应性差，主要体现在对环

25、境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降；另外一个问题是对用户的错误输入不能正确响应，使用不方便。高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音交高、语速变慢、音调及共振峰变化等等，这就是所谓lombard效应，必须寻找新的信号分析处理方法。虽然语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚；其次，把这方面的现有成果用于语音识

26、别，还有一个艰难的过程。因此，语音识别系统要从实验室演示系统转化到商品还需要解决许多具体问题，如识别速度、拒识问题以及关键词(句)检测技术，即从连续语音中去除诸如“啊”、“唉”等语音，获得真正待识别的语音部分等等。为了解决这些问题，研究人员提出了各种各样的方法，如自适应训练，基于最大互信息准则(mmi)7和最小区别信息准则(mdi)的区别训练和“矫正”训练；应用人耳对语音信号的处理特点，分析提取特征参数，应用人工神经元网络等，所有这些努力都取得了一定成绩。不过，如果要使语音识别系统性能有大的提高，就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识，只用其中一种是不行的。1.2语音

27、识别系统的研究目的和意义语音识别是以语音为研究对象，使计算机能够从人的语音信号中提取出最有用的信息，从而确定语音信号的语言含义的过程。它是模式识别的一个分支，同生理学、心理学、语言学、计算机科学以及数字信号处理、信息论等诸多学科紧密相连。语音识别具有广阔的应用前景。目前，语音识别已经在听写机、电话查询系统、家电控制等诸多领域得到了充分的应用。虽然语音识别系统在实验室环境下能够拥有比较高的识别率，但在语音识别技术从各个不同的突破口进行应用和产业化过程中，有几个问题逐渐显现出来，成为研究的重点。首先是方言或口音会降低语音识别率，对于汉语来说尤显突出。其次是背景噪声，人多的公共场所巨大的噪音对于语音

28、识别的影响自不用说，即使是实验室环境下，敲击键盘、甚至挪动麦克风都会成为背景噪声。它将破坏原始语音的频谱，或者把原始语音部分或全部掩盖掉，造成识别率的下降。在实际应用中，噪音是无法避免的。研究将要解决的问题就是如何把原始语音从背景噪声中分离出来，这将会使识别系统具有很强的适应性。第三个就是“口语”问题，语音识别技术的最终目的是要让用户在“人机对话”的时候，能够像进行“人人对话”一样自然。而一旦用户以跟人交谈的方式来进行语音输入时，口语的语法不规范和语序不正常的特点会给语义的分析和理解带来很大的困难。另外一点就是人的肢体语言和面部表情等因素。人们在讲话时习惯用眼神、手势、面部表情等动作协助表达自

29、己的思想。由于这种体态语言的含义与个人习惯、文化背景、宗教信仰以及生存环境等因素有关，因此其信息提取是非常困难的。近十年来，语音识别的产品也逐渐多起来，例如motorola的语音拨号电话、ibm的语音听写机等。但是，现有的语音识别系统都存在一个共同的问题，即性能的稳定性。不同的用户、不同的信道、不同的背景噪音环境等都对识别性能有很大的影响。最近10多年来抗噪音识别方法形成了高潮，被ei收录的文章就有1000多篇。因此，提高语音识别系统的鲁棒性，是目前及今后语音识别研究的一个重点。相信经过研究者的不断努力，在攻克语音识别中的主要难题后，语音识别技术将对人类的生活方式产生深远的影响。1.3本论文所

30、要完成的主要工作虽然语音识别理论和算法研究已经发展到一定的成熟程度，但是我们必须对人的发声器官和发生机理进行研究，建立数字模型，在此基础上应用目前比较成熟的语音识别模型hmm实现孤立词识别，体会语音识别的整体流程。本文所作的研究工作主要可以概括为以下几个方面：1、语音信号基本理论研究部分介绍语音信号的发声机理和听觉特性，在次基础上学习建立较精确的语音信号模型。2、介绍语音识别系统中涉及到的基本概念及原理，分析一般的语音识别系统的结构及所用到的各种理论技术，包括语音识别单元的选取、特征参数的提取、模式匹配8等。3、针对语音信号特征参数求解算法的复杂性以及本实验的需要，研究特征参数的提取过程。一种

31、是线性预测系数(lpc)的求解，另一种是线性预测倒谱参数(lpcc)的求解，还有一种是mel频率倒谱系数（mfcc）。分析在采取不同的特征参数的情况下，对语音识别系统最后的识别率的不同影响。4、分析利用统计的方法来进行语音识别最常用的一个模型hmm模型。该模型中涉及到的三个基本问题，分别用三种算法来进行解决。建立了一个特定人、孤立词、小词汇量的语音识别系统。2语音信号基本理论研究为了用数字信号处理的方法对语音信号进行处理，首先需要简历语音信号产生的数字模型，因此，我们必须在对人的发声器官和发声机理进行研究的基础上，才能建立精确的模型。作为接受语音信息的人耳听觉系统，其听觉机理也是非常复杂的。听

32、觉模型的精确建立对于语音识别和理解是非常重要的。2.1语音信号基本理论2.1.1语音的发声学机理人类的语音是由人的发声器官在大脑控制下的生理运动产生的。人的发声器官由3部分组成：肺和气管产生气源；喉和声带组成声门；有咽啌、口腔、鼻腔组成声道，参见图2.1所示的发声器官机理模型。空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，这就形成了语音。在声门（声带）以左，称为“声门子系统”，它负责产生激励振动；右边是“声道系统”和“辐射系统”。当发不同性质的语音时，激励和声道的情况是不同的，他们对应的模型也是不同的。发浊音的情况，空气流经过声带时，如果声带是崩紧的，则声带将产生张弛振动，即声带将

33、周期性地启开和闭合。声带启开时，空气流从声门喷射出来，形成一个脉冲，声带闭合时相应于脉冲序列的间隙期。因此，这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波，这便是浊音语音。这个准周期脉冲的周期即为基音周期。基音频率是由声带张开闭合的周期所决定的：男性的基音频率一般为50250hz；女性基音频率为100500hz。发清音的情况，空气流经过声带时，如果声带是完全舒展开来的，则肺部发出的空气流将不受影响地通过声门。空气流通过声门后，会遇到两种不同情况。一种情况是，如果声道的某个部位发生收缩形成了一个狭窄的通道，当空气流到达此处时被迫以高速冲过收缩区，并在附近

34、产生出空气湍流，这种湍流空气通过声道后便形成所谓摩擦音或清音。发爆破音的情况，如果声道的某个部位完全闭合在一起，当空气流到达时便在此处建立起空气压力，闭合点突然开启便会让气压快速释放，经过声道后便形成所谓爆破音。2.1.2语音的听觉机理听觉是接受声音并将其转换成神经脉冲的过程。大脑受到听觉神经脉冲的刺激感知为确定的含义是一个非常复杂的过程。外耳由耳廓(耳翼)、外耳道和耳鼓（鼓膜）组成。中耳组成：包括三块听小骨：锤骨，砧骨和镫骨。作用：阻抗匹配和限幅。外耳和中耳的综合作用相当于一个介于500hz到6khz之间的平滑的带通滤波器，可以用有限冲激响应(fir-finite impulse respo

35、nse)滤波器来模拟。内耳是一个充满液体的骨质结构，由前庭、圆形窗、卵形窗及耳蜗组成。当声音经外耳传入中耳时，镫骨的运动引起耳蜗内流体压强的变化，从而引起行波沿基底膜的传播。图2是流体波的简单表示。在耳蜗的底部基底膜的硬度很高，流体波传播的很快。随着波的传播，膜的硬度变得越来越小，波的传播也逐渐变缓。不同频率的声音产生不同的行波，而峰值出现在基底膜的不同位置上。图2而卧内流体波的简单表示图3基底膜上六个不同点的频率响应2.2语音信号模型2.2.1语音信号的激励模型在研究了发声器官的语音产生过程以及语音信号的声学特征后，便可以建立一个离散时域的语音信号产生模型，如图4所示。这个语音产生的离散时

36、域模型主要包括三个部分：激励源、声道模型和辐射模型。激励源分为浊音和清音两个分支，按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。在浊音的情况下，激励信号由一个周期脉冲发生器产生。所产生的序列是一个周期为n0的冲激序列，即每隔n0点便有一个样值为1，而其它样值皆为0的信号。周期n0取决于基音频率f0和语音信号的采样频率fs，n0=fs /f0，其中f0和fs，皆以hz计量。当fs=8khz，f0的变化范围为50450hz时，n0的变化范围是18-160。为了使浊音的激励信号具有声门气流脉冲的实际波形，还需要使上述的冲激序列通过一个声门脉冲模型滤波器，其z域传输函数为g(z)。对声门

37、波形的频谱分析表明，其幅度频谱按每倍频程12db的速度递减。如果令c(z)=1(1-g1z-1)(1-g2z-1)，其中g1和g2都很接近于1，那么由其形成的浊音激励信号频谱很接近于声门气流脉冲的频谱9。乘系数av的作用是调节浊音信号的幅度或能量。在清音的情况下，激励信号由一个随机噪声发生器产生。可设定其平均值为0，其自关函数是一个单位冲激函数。这表明它的任何两个不同样点都不相关且其均方差值为1。此外还假定它的幅度具有正态概率分布(高斯分布)。乘系数au的作用是调节清语音信号的幅度10或能量。2.2.2声道模型声道模型v(z)给出了离散时域的声道传输函数。关于声道部分的数学模型，目前有两种观点

38、：(1)把声道视为由多个不同截面积的管子串联而成的系统，按此观点推导出“声管模型”。(2)把声道视为一个谐振腔，按此推导出“共振峰模型”11。由于我们后面介绍的语音识别系统采用的是声管模型，共振峰模型就不详细介绍了。采用声管模型进行研究时，运用流体力学的方法可以导出，在大多数情况下它是一个全极点函数。这样v(z)可以表示为：v(z)=a0=1,ai为实数这里，把截面积连续变化的声管近似为p段短声管的串联，每段短声管的截面积是不变的。p称为这个全极点滤波器的阶。显然，p值取得越大，模型的传输函数与声道实际传输函数的吻合程度就越高。但是，对大多数实际应用而言，p值取8-12就足够了。若p取偶数，v

39、(z)一般有p2对共轭极点，rkexpjwk，k=lp2。各个wk值分别与语音的各个共振峰相对应。辐射模型r(z)用于表征口唇的辐射效应，也包括圆形的头部的绕射效应等。可以表示为 r(z)=(1-rz-1)，r1 (22)在这个模型中，除了g(z)和r(z)保持不变外，f0、av、au、浊音腈音开关的位置以及声道模型中的参数a1ap都是随时间而变化的，由于发声器官的惯性使这些参数的变化速度受到限制。对于声道参数12，在1030ms的时间间隔内可以认为它们保持不变，因此语音的短时分析帧长一般取为20ms左右。对于激励源参数，大部分情况下这一结论也是正确的。但有些音的变化速度特别快，例如塞音或塞擦

40、音的爆破段，20ms的时间间隔就过长，这时取5ms的时间间隔更为恰当。3语音信号识别的预处理3.1语音识别系统主要结构一个语音识别系统的基本结构如图5所示。主要包括前端处理部分、起止点检测部分、特征提取部分、模板存贮部分及识别判决部分。前端处理部分特征提取部分模板存储起止点检验部分识别判决部分（包括动态时间匹配）拾音话筒各训练语音（学习时）待识别语音（识别时）数字信号识别时识别时图5语音识别系统的结构语音识别首先是要根据识别系统的类型，选择一种合适的识别算法，再依据识别算法的要求，利用有关的语音信号处理方法提取相应的特征参数，在这以后，分两个阶段进行语音识别：第一个阶段是学习和训练，给出一组

41、训练数据，这些训练数据常常都是经过精心选择的针对本识别系统应用的数据，再结合识别系统参数的初始值，对系统参数进行调整13，使该系统更适合所提供的训练数据的识别，以提高系统的识别率，最后将这些经过训练的参数以标准方式存储起来，形成识别库，或叫做模板；第二个阶段就是识别。将需要识别的语音信号的特征参数与训练过程中产生的模板做对比，在允许的误差范围内，测得与该语音信号距离最近的模板，输出该模板的识别结果。系统中包括预处理、特征提取、参考模型、模式匹配和后处理五大部分14。预处理包括增益控制、预滤波、ad转换、预加重、加窗等操作。在分析处理之前必须把要分析的部分从语音信号中找出来，这就是端点检测，它也

42、是语音识别中讨论的热点问题之一；特征参数提取指求取表示语音信号特征的参数，例如短时幅度、能量、过零率、自相关函数、lpc系数等：每个参考模式对应系统词汇表中每个识别单元的特征参数；模式匹配指度量待识别词的特征构成的测试模式与系统所存储的每个参考模式之间的距离。3.2前端处理在对语音信号进行数字处理之前，首先要将模拟语音信号s(t) 离散化为s(n). 实际中获得数字语音15的途径一般有两种，正式的和非正式的。正式的是指大公司或语音研究机构发布的被大家认可的语音数据库，非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。语音信号的频率范围通常是3003400hz，一般

43、情况下取采样率为8khz即可。本文中的数字语音处理对象为语音数据文件，是已经数字化了的语音。有了语音数据文件后，对语音的预处理包括：预加重、加窗分帧16等。3.2.1语音信号的预加重处理预加重目的：为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。可通过一阶fir高通数字滤波器来实现：由于语音信号的平均功率谱受声门激励和口鼻辐射17影响，高频端大约在800hz以上跌落明显，所以求语音信号频谱时，频率越高相应的成分越小，高频部分的频谱比低频部分的难求，为此要在预处理中进行预加重处理。预加重的目的是提到高频部分，使信号的频谱变得平坦。预加重部分用提升高频特性的数字滤波器实现

44、，它一般是一阶数字滤波器：h(z)=1-设n时刻的语音采样值为x(n) ，经过预加重处理后的结果为y(n)=x(n)-x(n)高通滤波器的幅频特性和相频特性如下图6高通滤波器的幅频特性和相频特性预加重前和预加重后的一段语音信号时域波形图7预加重前和预加重后时域波形预加重前和预加重后的一段语音信号频谱图8预加重前和预加重后频谱3.2.2语音信号的加窗处理由于发音器官的惯性运动，可以认为在一小段时间里（一般为10ms30ms）语音信号近似不变，即语音信号具有短时平稳性18。这样，可以把语音信号分为一些短段（称为分析帧）来进行处理。语音信号的分帧实现方法：采用可移动的有限长度窗口进行加权的

45、方法来实现的。一般每秒的帧数约为33100帧。分帧一般采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移19，帧移与帧长的比值一般取为01/2。图9给出了帧移与帧长示意图。图9加窗常用的两种方法：矩形窗，窗函数如下：w(n)= 汉明(hamming)窗，窗函数如下 w(n)=矩形窗及其频谱如下图10矩形窗频谱汉明窗及其频谱如下图11汉明窗频谱加窗方法示意图：图12加窗窗长的选择：一般选取100200。原因如下：当窗较宽时，平滑作用大，能量变化不大，故反映不出能量的变化。当窗较窄时，没有平滑作用，反映了能量的快变细节，而看不出包络的变化。语音

46、信号的分帧处理，实际上就是对各帧进行某种变换或运算。设这种变换或运算用t 表示，x(n)为输入语音信号，w(n)为窗序列，h(n)是与w(n)有关的滤波器，则各帧经处理后的输出可以表示为:qn= 3.3端点检测在语音识别系统中，如果能有效而准确地确定语音信号端点，不仅能使处理时间减到最小，还能排除无声段的噪声干扰，提高识别率20。所以语音信号的端点检测显著影响着语音识别的训练过程以及系统的识别性能，因此有关这方面的研究就显得格外重要。特别对于孤立词的语音识别，语音的端点检测的作用更为突出。3.3.1短时平均能量定义n时刻某语音信号的短时平均能量en为en=当窗函数为矩形窗时，有en=若令 h(

47、n)=w则短时平均能量可以写成：en=en特点：en反映语音信号的幅度或能量随时间缓慢变化的规律。窗的长短对于能否由短时能量反映语音信号的幅度变化，起着决定性影响。如果窗选得很长，en不能反映语音信号幅度变化。窗选得太窄，en将不够平滑。通常，当取样频率为10khz时，选择窗宽度n=100200是比较合适的。不同矩形窗长n时的短时能量函数图13能量函数3.3.2短时平均过零率短时平均过零率是语音信号时域分析中最简单的一种特征。顾名思义，它是指每帧内信号通过零值的次数。对于连续语音信号，可以考察其时域波形通过时间轴的情况。如果是正弦信号，它的平均过零率就是信号的频率除以两倍的采样频率，而采

48、样频率是固定的，因此过零率在一定程度上反映频率的信息。因为语音信号不是简单的正弦序列，所以平均过零率的表示方法就不那么确切。然而短时平均过零率仍然可以在一定程度上反映其频谱性质，可以通过短时平均过零率获得谱特性的一种粗略估计。短时平均过零率的公式为：z短时平均过零的计算过程如图14所示。可以看出，首先对语音信号序列x(n)进行成对处理，检查是否有过零现象，若有符号变化，则表示有一次过零现象，然后进在阶差分计算，取绝对值，最后进行低通滤波。短时平均过零率可以用于语音信号分析。在发浊音时，声带振动，因而声门激励是频率为基频的声压波，它在经过声道时产生共振。反之，在发清音时，声带不振动，声道的某部分

49、受到阻塞产生类白噪声的激励，该激励通过声道后能量集中在比浊音时更高的频率范围内。因此，浊音时能量集中在低频段，而清音的能量集中在高频段。由于短时平均过零率可以在一定程度上反映频率的高低，因此在浊音时一般具有较低的过零率，而在清音时具有较高的过零率，这就可以利用短时平均过零率来判断清音和浊音。另外，可以将短时平均过零率和短时能量结合起来判断语音起止点的位置，即进行端点检测。本文就是用这种将两者结合的方法来进行端点检测的。4语音信号特征提取和模式识别在完成分帧和起止点检测后，就可以得到语音信号的时域采样帧序列了。显然如果以帧序列直接进行匹配运算无论从计算量还是计算效果来看都是不理想的。特征值提取将

50、这些采样信号帧转换为能更好地表述该短时段语音信号特性并且数据量较小的特征帧。在提取出来语音信号的特征参数后训练时就可以作为声音模板存贮起来，而识别时就用取出的特征参数与所有的声音模板一一进行匹配，也就是进行判决。4.1特征提取的实现4.1.1lpc概述及线性预测的分析线性预测编码分析与语音产生的无损声管模型相吻合，它提供了一组简洁的语音信号模型参数，这组参数较精确地表征了语音信号的频谱幅度，而分析它们的计算量相对来说却并不大。应用这组模型参数可以降低编码语音信号时的数码率，将lpc参数形成模板存储，在语音识别中也可以提高识别率和减少计算时间。此外，这种参数可以用来实现有效的语音合成。三十多年来

51、的研究和应用表明，线性预测编码技术己是一项非常成熟的技术，也是目前最有效的一种语音分析技术。假若一个随机过程用一个p阶的全极点系统受翻噪声激励产生的输出来模拟，设这个系统的传递函数为：h(z)= (4-1)其中g为常数(在不考虑鼻音和某些摩擦音时g取1)，s(z)和u(z)分别为输出信号s（n)和输入信号u(n)的z变换，那么s(n)和u(n)的关系可以表示为差分方程：s(n)= (4-2)式中与ak有关的部分可以理解为用信号的前p个样本来预测当前样本，即定义 (4-3) 由于预测系数ak在预测过程中可以看成常数，所以它是一种线性预测器，这种线性预测最早用于语音编码，称为lpc(liner p

52、redictive coding)。如果s (n)精确地符合式(4-1)和(4-2)所描述的模型假定，那么用式(4-3)所示的线性预测器预测信号s(n)的预测误差为：e(n)=gu(n)。但是，实际信号未必精确地符合这个假定，因此实际的预测误差应为：e(n)=s(n)-（4-4）要使预测器尽可能精确地描述信号s(n)，应使预测误差e(n)在某一短时段的总能量尽可能地小，并在此准则下求出最佳预测系数(ak)。为此，定义短时平均预测误差能量e（4-5）其中sn (m)是在抽样点n附近选择的一个语音段。使式(4-5)中的en达到最小值的 ak 必定满足en/ai=0(i=1，2，p)，于是可以得到一

53、个线性方程组（4-6）其中，（4-7）如果先用一个n点的短时窗(如hamming窗)截取信号，然后求自相关，那么式(4-7)也可以写成：（4-8）其中，r(k)=称为语音短时自相关函数。p为预测器阶数。同时考虑到r(k)是偶函数，于是方程(46)可以写为：（4-9）解方程(4-9)可以得到ai (i=l，2，p)，即为所求的p阶lpc系数。(4-9)这里要简单讨论一下模型阶数p的确定问题：可以证明，随着预测器模型阶数p的增加，式(4-3)所预测得到的信号对原信号的误差en也就随之下降。但当p增加到了一定程度的时候，en将不再下降或下降甚微。有关研究表明，当p12时，虽仍有下降担幅度己极小。综合

54、上述现象，可以判断语音信号的lpc阶数应选择在8到12之间。选择p=12可以对绝大多数语音信号的声道模型取得足够近似的逼近。p值选得过大虽然可以略微改善逼近效果，但也带来一些负作用，一方面加大了计算量，另一方面有可能增添一些不必耍的细节，侧如在用声道模型进行共振峰分析时反而使效果变坏。4.1.2lpcc语音的倒谱分析21线性预测分析法求得的是一个全极点的系统函数，形式上也是一个递归滤波器。在全极点语音产生模型假定下，这个滤波器被称为声道滤波器。也存在多种不同的参数表达方法。这些参数一般可看作是由线性预测系数ai推演出来的，但它们各有不同的物理意义和特性。下面要介绍的就是由lpc推演出来的lpc

55、c特征参数。信号的倒谱又叫做倒频谱。设信号通过一个特征系统d变换到倒谱域，则d定义为： (4-10) (4-11) (4-12)类似的可以定义其逆特征系统。c(n)称为x(n)的倒谱。由倒谱的定义可以得到，特征系统d可以将离散序列从时域中的卷积运算转换为倒谱域中的加运算。将这种特性应用于语音信号，可以得到一些重要结果。我们知道，语音信号s(n)可以视作由声源激励e(n)和声道系统函数v(n)卷积得到：s(n)=e(n)*v(n) (4-13)通过特征系统d后，三者的倒谱信号分别为、和，则为、两者之和：=+ （4-14）语音信号的倒谱有两个重要性质【19】(1)语音信号的倒谱低维部分对应语音信号

56、的声道分量，且以的趋势衰减，在=10khz时，在以外的值就已经非常小，故用维数不多的倒谱分量便足以表征语音的声道分量。(2)倒谱的高维部分对应于语音信号的音源激励分量语音特征实际上都受声道频率响应和激励信号源两者的影响，而激励信号源带有一定的随机性，导致语音一致性降低，影响识别率。而倒谱特征将信号做适当的同念滤波分离两者，因此其识别性能比较稳定。4.1.3特征参数mfcc的提取mel频率倒谱系数【17】【18】（mel frequency cepstrum coefficient，mfcc)的特点是先将频谱转化为基于mel频率的非线性频谱，然后转换到倒谱域上。由于充分模拟了人的听觉特性，而且没

57、有任何前提假设，mfcc参数具有识别性能高和抗噪能力强等特点。mfcc的提出基于下列两点事实，首先，人类对单个音调的感知强度近似的正比于该音调频率的对数。mel频率表达了这种语音频率与“感知频率”的对应关系。在mel频率域内，人对音调的感知度为线性关系。举例来说，如果两段语音的mel频率相差两倍，则人耳听起来两者的音调也相差两倍，mel频率与线性频率的转换公式为：（4-15）4.1.4lpcc和mfcc的比较lpcc和mfcc是目前语音识别系统中应用最广泛的两种语音特征，下面将两者从性能和复杂度22等方面进行综合比较。1、运算量：lpcc优于mfcc。设用durbin递推公式计算p阶lpc系数，并将其转化为p阶lpcc系数，共需约次乘法运算；而同样求p阶mfcc系数，设fft长度为n，滤波器组个数为20个，需要乘法运算。一般lpcc和mfcc系数阶数都在20以下，mfcc的运算量要远远大于lpcc。2、识别率：mfcc优于lpcc。lpcc基于语音信号是ar模型的假设，但对于念特性较强的辅音，这个假设并不严格成立，因此lpcc对辅音的描述能力较差。而mfcc并没有这样的假设，因此在识别效果上，mfcc要强于lpcc。3、抗噪性能：mfcc优于lpcc。语音的信息大多集中在低频部分，而高频部分易受环境噪声干扰。mfcc参

人人文库> 全部分类> 行业资料 > 农林牧渔

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

小词汇量语音识别系统的设计

文档简介

温馨提示

最新文档

评论

小词汇量语音识别系统的设计

文档简介

温馨提示

最新文档

评论

相关文档