




已阅读5页,还剩52页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南大学硕士学位论文基于语音的机器人控制应用研究姓名:续芳申请学位级别:硕士专业:计算机应用技术指导教师:王宇俊20100501皇曼曼曼曼量皇量曼曼曼曼曼曼!曼曼曼置皇曼曼曼量曼皇曼曼!曼曼曼曼曼曼曼皇曼曼曼!鼍曼笪曼曼曼曼曼曼曼曼曼曼!曼曼曼皇皇曼曼曼量曼曼曼!曼,(),;,哪,抖,姐,:,独创性声明学位论文题目:基王适童鲍扭墨厶控剑应宙珏究:本人提交的学位论文是在导师指导下进行的研究工作及取得的研究成果。论文中引用他人已经发表或出版过的研究成果,文中已加了特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同仁在文中作了明确说明并表示衷心感谢学位论文作者:专轰签字日期:矽。年月脂日学位论文版权使用授权书本学位论文作者完全了解西南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权西南大学研究生院(筹)可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书,本论文:口不保密,口保密期限至年月止)。学位论文作者签名:导师签名:签字日期:年月日签字日期:守秒伊。年月日第一章绪论第一章绪论研究背景和意义机器人()是自动执行工作的机器装置,它可以执行植入的编排好的程序,也可以接受我们发给它的命令,也可以利用人工智能技术给它制定原则纲领行动【。在某些领域机器人能取代或协助人类更好地工作,目前制造业、建筑业,深海火山探险中都可以见到机器人的身影。著名机器人专家恩格尔伯格于年成立了一家命名为的机器人公司,并在年推出了世界上最早的一台工业机器人。工业机器人在工业生产上获得了很大的成功,工业机器人的需求同渐增长【】。然而年,恩格尔伯格却将公司卖给了西屋公司,和他的同事创建了公司,它是一家研制服务机器人的公司。随着人工智能、计算机软硬件技术的发展,我们要求机器人具有一定的智能,智能机器人成为这一领域研究的热点,在未来战士等电影中所描述的机器人可以和我们人类进行自由交谈,还具有思考、学习能力。其实,要想机器人真正地走进人们的日常生活,为我们的生活带来更多方便和乐趣,一个高性能的语音识别系统就显得必不可少。语言也是我们所使用的最惯常、高效、方便快捷的信息交流方式。机器人语音识别技术就是机器人对人所发出的语音指令、语句进行识别理解,来执行人所发出的命令,或分析理解说话的内容,给出正确的回答。广义的语音识别技术【】具体包括:语音识别(识别说话内容)、语种识别(识别说话语言种类)、说话人识别(识别说话人的身份)、语音评分(评价发音的标准程度)。语音识别技术涉及到语言学、工程、心理学和计算机技术等领域的专业知识,它是多学科交叉的边缘学科【】。实现人机之间畅通无阻的语音交流是人类一直不懈追求的梦想,语音识别技术是实现这一梦想的关键性技术。语音识别技术的发展现状语音识别技术在我们生活中已经应用非常广泛,也给我们同常生活带来了很大的方便。目前,它在机器人领域研究中也是一个热点问题。语音识别的研究工作开展已有多年。世纪年代初,实验室实现了一个语音识别系统系统【】。它能识别十个英文数字也是世界上最早的语音识别系统。年代,计算机技术的应用对语音识别的发展起了很大的作用。这时期产生很多重要研究成果,提出了动态规划()和线性预测分析技术(),其中后者使语音信号产生模型问题得到了较好的解决,对语音识别技术的后续研究工作产生了深远的影响(。年代,语音识别技术取得了进一步的突破,技术和动态时间归整技术()两南人硕十学何论文在理论上基本成熟,另外提出了矢量量化()和隐马尔可夫模型()技术【。基于线性预测倒谱和技术实现了特定人孤立词的语音识别系统。年代,主要成果是模型和人工神经元网络()技术成功应用于语音识别【,】。实验室的等科学家建立了一套模型的实验工具,使艰涩的纯数学模型工程化,走向应用【。也为更多研究技术人员了解和认识提供了更方便的途径。基于和模型建立的语音识别系统具有更好的性能。进入年代,多媒体时代已经来临,语音识别系统的实用需求更加迫切。美国、日本、韩国等一些发达国家,以及、等著名公司投以巨资进行语音识别系统的开发【】。我国语音识别研究工作起步比较晚,开始于世纪年代。关注国际研究动态,国家也把大词汇量语音识别的研究列入“”计划【】。中科院声学所、自动化所及北京大学等单位纷纷加入研究行列,并取得了一系列的科研成果。如中科院自动化所开发的非特定人、连续语音听写系统、汉语语音人机对话系统,性能相当好,识别准确率或系统响应率可达以上【。国外也非常重视汉语语音识别的市场,在汉语语音识别方面也投入了一定的力量。目前具有代表性的语音识别方法主要有模式匹配法、统计概率模型方法和人工神经网络方法。模式匹配法的代表是动态规:它(,简称)方法,也叫动态时间规整方法【】。统计概率模型方法的代表是隐马尔科夫模型方法。人工神经网络方法是一种类似人类的独特学习处理方法【】。目前应用的主要有:基于反向传播()算法的多层感知机()经网、基于提出的仿生人类大脑皮层信息特征区形成的生理过程的特征映射()神经网络等。而具有良好的动态时变性能和结构时延神经网络()和良好的动态时间关联特性的循环神经网络(是研究热点,。此外,还有学者利用它们各自的优点,把几种方法组合成混合型的模式识别系统。目前在语音识别、语音控制的应用研究中存在的问题是【、语音信息具有很大的时变性,语音模式对不同的讲话者甚至对同一个讲话者都是不同的。、断点监测,单词之间的停顿很模糊,使得全单词模型匹配准确率不高。、非特定人语音识别问题,它是机器人走向实用化的一个重要环节,也是突破语音识别的关键技术之一。、实时性,机器人的大多应用场合要求实时性。、语音的模糊性,汉语中有很多多音字,它们发音时一样的,识别它们必须根据上下文的发音和相关的词法、句法规则。语音识别系统的分类及性日匕丁曰标语音识别技术是一项相对比较复杂的技术,它涉及多方面的知识。系统划分也有很多方式。根据说话人的说话方式可分为孤立词语音识别系统和连续语音识别系统。根据第一章绪论对说话人的依赖程度可分为特定人语音识别系统和非特定人语音识别系统【引。根据词汇量的大小可分为小词汇量、中等词汇量、大词汇量和无限词汇量语音识别系统】。针对语音识别系统在不同的应用场合的不同系统要求,评价系统性能的指标也有很多。词汇表:每个语音识别系统都会有一个词汇表【。汉语的语音是以音节为基础的,词条越多发音相同或相似的可能性就加大,这就增加了识别的难度,识别的错误率也随着增加。另外词条数过多,识别的耗时越多对应系统响应速度就会降低。录音方式【】:识别语音根据录音方式分为孤立词语音、连接词语音和连续语音【。孤立词的语音识别是对独立一个词条进行识别。连接词语音识别一般特指识别由个数字连接而成的多位数字。连续语音识别是对人的自然方式说出的语音进行识别。识别对象【】:根据识别对象分为特定人识别系统和非特定人识别系统。现行的语音识别系统大多针对非特定人设计,特定人识别系统在一些场合也有使用。识别后处理:系统对识别得到的文本信息进行处理,也就是去掉冗余信息提取有用信息,通常通过关键字来提取有用信息】。有时还需要对信息进行语义信息分析,这些都能提高系统的识别性能。鲁棒性【】:也就是系统对实用环境的适应性,在语音的变化性和噪声干扰等外界环境的因素下系统依然能达到较好的识别性能。本文的主要工作目前,各种娱乐型机器人、示教、服务型的机器人正在走进我们的日常生活。随着语音识别技术的发展和成熟,为机器人开发一个语音控制系统,来方便有效地控制我们的机器人,论文的主要工作是从特定人和非特定人两个方面研究机器人的语音控制。课题工作如下:、在特定人的语音控制技术研究中,对经典的动态时间规整的语音识别算法进行了深入的研究,并对动态时问规整算法采用限制搜索宽度和放松端点限制来进行改进,实验结果表明改进后的算法达到了更好的语音识别效果。、在非特定人的语音控制方面,采用现行最流行的隐马尔可夫模型的语音识别技术。由于语音模型很大程度地决定了语音识别的性能,而在基于隐马尔可夫模型的非特定人的语音识别中,模型参数决定了语言模型的优劣,于是文章结合了平滑模型参数技术和模型参数重估计的方法对模型参数进行优化,同时通过实验验证了采用改进模型参数后的语音模型能取得更好的识别效果。、对机器人的动作进行调试设计。采用了无线蓝牙技术实现了计算机和机器人之间通讯,使机器人脱离了个人计算机平台的束缚。采用抖和混合编程实现了对机器人特定人的语音控制,结合和软件包编程实现了对机器人非两南大学硕十学何论文特定人的语音控制,测试结果表明两者都达到了对机器人很好的控制效果。论文的组织结构论文结构安排如下:第一章,绪论。介绍了选题的研究背景和意义,总结了语音识别技术的国内外研究现状,语音识别系统的分类及性能,指出论文的主要工作,介绍全文结构安排。第二章,语音识别的理论基础。介绍了语音信号的产生及数字模型,在简化的数字模型基础上讨论了语音信号的处理技术,包括语音信号的预处理、端点检测技术和特征参数的提取,简单说明了特定人和非特定人的语音识别技术。第三章,基于的特定人语音识别技术。主要介绍了采用进行语音识别的原理。详细的分析了算法了过程,然后在此基础上提出了改进的方法,最后通过实验对比分析了改进算法的优劣。第四章,基于的非特定人语音识别技术。语音本章首先介绍了马尔可夫链的概念,在此基础上引出了的概念,然后对的多方面进行了详细介绍。探讨了在语音识别中的应用并对语音训练过程进行了改进,介绍了语音处理工具包,最后通过实验验证了改进的训练过程方法的可行性。第五章,机器人语音控制系统的设计。首先对实验的硬件平台机器人进行介绍,详细地说明了机器人的动作设计过程。介绍了机器人和计算机之间无线蓝牙通讯技术的原理和实现方法,使用和混合编程实现特定人的机器人语音空控制。使用和软件包编程实现了非特定人的机器人语音控制。第六章,总结与展望。总结现有工作,指出了目前工作的不足。第二章语音识别的理论基础第二章语音识别的理论基础语音信号是携带语音信息的声波。将其进行声电转化得到电信号,进行声光转化得到光信号。在研究和处理语音信号之前,我们必须了解一些语音信号的基本知识,并在此基础上建议一个语音产生模型,然后对语音信号进行处理。本章主要介绍一些语音信号处理的基础知识。语音的产生及数字模型语音最基本的组成单位是音素,音素通过语音的规则排列在一起就组成了语音。拼音是汉语语音的基础,包括个元音和个辅音一起组成个声母和个韵母【引。语音信号的产生分为几个阶段(,:首先头脑中产生要表达的语言信息;然后大脑会将这些语音信息转换成语音编码,这些信息包含有音素、韵律、响度、升降调等,我们的汉语拼音可以看成是这些信息的编码。最后大脑控制肌肉运动引起声带振动,并在声道中完成指定的声音序列的发声。发音是一个很复杂的过程,发声部位必须协调控制,这些部位包括:唇、腭、舌头以及控制气流进入鼻腔的软腭【】。这是语音信号的产生过程。语音信号产生后,语音信息会传递到听者,这时语音感知过程就开始了。人耳的基底膜会对语音信号进行频谱分析,产生的频谱信号由神经传感器转换成听觉神经的触动信号,触动信号传入大脑,大脑更高层的中枢将其还原成语言编码,并产生具有语义的信息。在语音信号的处理过程中,建立一个描述语音特征的数字模型是十分重要的。在了解了语音产生过程的基础便可以建立一个离散时域的语音信号产生模型。当然,要建立一个精确的语音产生模型很困难。因为语音的产生是一个复杂的生理、心理过程,而且和发声时声道的形状、声激励等因素相关。这里只是给出一个相对简单的模型,通常把模拟语音信号通过数字技术处理来建立语音信号的数字模型,也就是利用数字信号处理技术来模拟实现我们的发音器官。这就要求数字模型能够产生和我们的发音器官产生的声波相联系的信号序列。它是一种线性系统模型,只要选定一组参数后,就可以输出我们需要的具有相关语音性质的信号序列。而这些参数和语音产生过程是相关的。语音产生时,激励和声道都是随时间而变化的,而语音信号随时间的变化比较缓慢。在大多数语音信号处理中,可认为激励与声道的面积函数在的时间范围内是近似不变的【。当发清音时,激励为随机噪声;发浊音时,激励为准周期脉冲【。根据语音信号在短时间内的平稳性,在短时间内可以采用下面的模型束模拟语音的实际产生过程,语音信号的产生模型如图所示。两南大学硕十学位论文、激励模型从图中可以看出,激励源一般分为浊音和清音,浊音和清音是通过清浊音开关所处的位置来产生【。浊音是通过周期脉冲器产生的。它的产生频率等于基音频率。为了使浊音的激励信号具有声门脉冲的实际波形,需要加放一个声门脉冲模型滤波器()。激励信号通过()产生形成声门波形,对它进行频谱分析表明其幅度频谱按每倍频程的逐渐递减。如果()百了而,其中蜀和都近似等于这时形成的浊音激励信号频谱很接近于声门脉冲的频谱【】。可以调节信号的幅度。清音的激励信号是通过随机噪声器产生。在假定平均值为的情况下自相关函数是一个单位冲击函数,这表明了两个不同样点之间是不相关的并且它们的均方差为【】。另外我们还假定它的幅度是成正态分布的。彳。用来调节信号的幅度。激励简单的分为清音和浊音是不严格的,在实际语音中两种激励的重叠也不能得到很好的表示。我们可以把激励源经过适当的网络来获取良好的激励信号。激励模型在实际应用已经广泛使用,也由此发展了一些改良算法。、声道模型在声道模型中可以将声道近似为一个变截面声管来处理,它是在多种理想假设的条件下,采用流体力学的方法推导出的。声道模型矿()给出了离散时域的声道传输函数,可以表示如下【】:():二()甲其中,口;是实数。在这罩我们把声道近似的看成是由个很短的声管组成的,在的取值很大的情况下我们就可以认为短声管的截面积是不变的,这时模型的传输函数基本上可以近似地等于我们的实际声道的传输函数。但是考虑模型的复杂度问题,我们在应用中一般在将的取值范围选为。、辐射模型我们的声音通过声道后由和唇发出来。辐射模型()和嘴型相关,一般可表第二章语音识别的理论基础示如下【:尺()(一。),()经过以上分析,语音信号数学模型可以通过激励模型、声道模型和辐射模型三个模型的串联而成。在整个模型中()和()保持不变,其他的模型参数如基音频率等都是随时间而不断变化的。此外模型将语音信号产生源分为噪声激励和周期脉冲激励在大多数是正确的,但和实际也有一定的偏差,我们可以通过将二者按比例叠加来优化,但是这样又增加了模型的复杂度。模型在传输函数方面也有一定得缺陷。根据上述讨论,我们可以将离散时域语音信号(甩)经过变换用一个统一的公式()来表示:()()()()浊音时,()是一周期脉冲序列的变换【】,日()()()()浊音时,()是一个随机噪声的变换【,。,()()()语音信号处理基础语音信号的预处理语音信号的预处理大致包括信号的采样与量化、预加重处理、加窗几个过程【。在采样和量化阶段,主要是将语音模拟信号转换成数字形式,根据信号的振幅值编码并保存为语音文件,在预加重阶段,主要是将语音中的高频部分加强以便于对语音信号的频谱进行统一的分析。在加窗阶段,依据语音信号的短时平稳特性使用加窗函数将其切分成语音帧。下面将结合语音处理工具来详细介绍这几个阶段的过程。、采样与量化我们的声波和录音所得到的信号都是连续信号,在数学上我们可以将其表示成时间变量的连续函数,用()表示。为了对信号进行数字处理,对模拟信号。()按周期采样便得到了数字信号序列(刀)。()。为了使采样得到的数字信号能够表征我们的模拟信号,采样过程必须满足采样定理的要求。也就是采样频率应为原始频率的两倍以上,人的发音范围在到,则我们将采样频率设为。在环境中通过函数(,)进行语音信号的采集。有时候需要进行批量的的训练和识别处理,可以通过的“录音机”程序预选录制成格式文件然后使用()函读入【】。如图所示为录制的数字的训练语音的信号波形图,第幅图为完整的语音波形,后面两幅分别为语音的起始部分和结束部分的放大波形图。(,语昔情号渡彤嘶一(啪脚语音起始处放大波形圈一一网、。“川川一一:!“玛墨瑚,伸:,铷啪,语音结束址放太波形图一盎厂百备十图语音髓的信号波彩图利用语音信号的短时平稳特性可以将语音信号切分成若干个根小的时间段(约),我们称作为“帧”,它是语音信号处理的最小单位,帧与帧的非重叠部分称为帧移,而将语音信号分成若干帧的过程称为分帧,。可以将帧长设置比较小的方法来更清楚地描绘语音信号的时变特征,但是这样会增加计算量。分帧较大能减少计算量但是相邻帧之间的变化变得不清晰,容易丢失信导特征。在环境中的分帧最常用的方法是使用函数(,),其中为语音信号,为帧长,为帧移。在本系统中帧长取,帧移取。、预加重处理预加重的目的是消除低频干扰,尤其是或的工频干扰。由于唇端辐射引起的能量损耗使得语音信号的能量在高频部分明显小于低频和中频部分,。这不适合统一分析,因此需要增强语音信号的高频部分。能量损耗具有一定的规律。信号的频率每提高两倍,其功率谱(月()的幅度约下降”。所以预加重也采用音频的一阶数字预加重滤波器来增强高频部分。函数为【:()一“()为预加重滤波器的系数,取值在,在这里取。经过预加重的语音信号,高频部分与中频部分()的幅度相当。在中预加重滤波器可出语句叫【,一)实现。、加窗。厂(。印区(。)日吾第章语音识;的理论基础为了保持语音信号的短时平稳性,利用窗函数来减少由截断处理导致的效应【。用的最多的三种为矩形窗、汉明窗(锄)和汉宁窗()。其窗函数如下,式中的为窗长,一般等于帧长。常用的窗函数有三种【】:()矩形窗函数缈(刀):竺专以一)()(刀)姜他()汉明窗函数()()如州。()(刀)“()()汉宁窗函数“批文训肛譬岔肛()对加窗得到的语音帧进行时域或频域分析,并用相应的特征参数(向量)来描述,语音信号的特征则由各帧语音的特征参数组成的参数序列来描述。在中要实现加窗即将分帧后的语音信号乘上窗函数,如加汉明窗即为()。语音信号的端点检测语音信号的端点是检测出语音信号的起点和终点,好的端点检测对语音识别系统的识别性能有很大的提高。尤其在孤立词识别系统中,它能有效的提高模式匹配的精度和速度。还能排除无声段和噪声段的干扰。端点检测的难点在于静音或噪音使得语音的端点比较模糊。在高信噪比的情况下,背景噪声的能量很低,利用信号的能量特征就可以较准确的判断有效语音的起终点。在实际应用中,信号的信噪比普遍较低。这时我们需要通过其他的检测方法甚至综合几种检测方法来检测出语音信号的起始点。下面介绍基于双门限端点的检测算法,它是一种简单有效的端点检测方法(。算法是利用语音信号的特征参数短时能量和短时过零率来判断语音的清音、噪音来完成端点检测的。短时能量和短时过零率的定义如下:短时能量;的定义:易如)()其中,()表示原样本序列()在时刻起,由长度为的窗:()所切取的短时语音段。有时用语音信号的对数短时平均能量雌()。局。()(,)()短时过零率的定义】:乞()一加)(一)其中,(月)也表示原样本序列()在时刻起,由长度为的宙矿(月)所切取的短时语音段,”昭()是一个符号函数,。曙(。):?。恤职门限端点检测通过两级检测,即短时能量检测和短时过零率检测。检测过程需要设定个门限,和、,分别为短时能量和短时过零率的高门限和限:整个语音端点检测分为四部分:静音段、过度段、语音段、结束段。静音段中如果能量或过零率有一个超过了其低门限,则认为进入了过度段。在过度段中,由于参数数值较小,还不能确定是否真的进入语音段,只有两个参数的其中一个超越了高门限爿被认为是进入语音段。当参数降至低门限则认为进入结束。需要注意的是有两种可能会引起端点检测的误判:一是短时噪音引起的误判这时需要引入最小语音长度门限进行噪声判定,当语音段时间小于一定数值则认定为是噪声,重新回到静音段,这里将最小语音长度设为;二是语音中宁与字的时间空隙引起的误判,这时需要设定最大静音长度门限来降低识别的错误率,如粜识别单字,则不需要设置此门限。奇幅音信号批忖舢细时过零率昌。柏一】时能量章击。盐狮图语音的端点检测结果门限设定的好坏将直接影响端点检测的结果。门限值的设置没有固定方法,需要根据经验和特定环境进行调整。常见的方法有最大值乘上某个比率、中位值乘卜某个比率、第二章语膏识别的珲论基础最小值乘上某个常数、前三帧平均值乘上某个常数等。我们对、的取值分别为:()宰,()宰,()幸】);()木),】);()木,()木,()木】);()木),;图是数字的训练语音的端点检测结果,红线之问的部分为检测出的语音有声段。语音信号的特征提取经过上一小节对介绍的语音信号预处理之后,我们可以对语音信号进行特征参数的提取了,能表征说话人个性的参数有很多,如短时能量、短时平均幅度、短时过零率、短时基音周期、基音频率、线性预测系数()、线性预测倒谱系数()特征、线谱对特征、短时频谱倒谱特征、美尔倒谱系数()等等【。常用”(,线性预测倒谱系数)和】(美尔倒谱系数)这两种,是在倒谱域中的表示。(,线性预测系数模拟人发音器官的声管模型,是一种基于语音合成的参数模型。在语音识别中很少直接使用参数,而是采用由系数推出的。该特征是基于语音信号为自回归信号的假设,通过线性预测分析得到的倒谱系数。的优点是计算量小,易于实现,对元音有较好的描述能力,缺点是对辅音描述能力较差。而利用了听觉原理和倒谱解相关特性,更利于信息的识别,屏蔽噪声的干扰。而且参数没有任何假设前提,在各种情况下均可使用。大量研究表明,采用系数比参数能更好地提高系统的识别性能。声道频率特性在很大程度上表征了说话人的个性特征,语音信号是声道频率特性和激励信号二者共同作用的结果。表示为:(,)()木(玎)(术表示卷积)()我们需将两者分开处理,方法就是同态滤波。滤波过程是先将卷积处理化为乘积,然后作对数处理,得到可分离的相加成分,就形成至,谱()()()。由于()描述的是说话者的声道分量,所以是非常有效的说话人个性特征参数。频率和线性频率的转换关系式是【】:,厶广,(去)()系数是按帧计算的,首先要通过快速傅罩叶变换得到该帧信号的功率谱例,两南人学硕十学侮论文转换为频率下的功率谱。这需要在计算之先在语音的频谱范围内设置若干个带通滤波器:。(玎),;玎,。()为滤波器的个数,通常取,与临界带的个数一样;为一帧语音信号的点数,为了计算的方便,通常取。滤波器在频域上为简单的三角形,其中一,频率励在频率轴上是均匀分布的。如图所示为尺度滤波器组,包含个滤波器,语音信号帧长取为个点,语音信号的采样频率为。图尺度滤波器组在环境中计算系数的函数为(,声),声为采样频率,为语音信号。语音识别技术语音识别技术也成为自动语音识别,它是将语音格式的数据通过计算机处理来获取语音的内容。和说话人身份确认不同,说话人身份确认只需要识别或确认发出语音的说话人而不需要知道具体的词汇内容。语音识别技术可以根据不同的应用需要来分类,从词汇量的大小可以分为小词汇量、中等词汇量和大词汇量的语音识别,从录音方式上可以分为孤立词、连接词和连续语音识别,从说话对象上可以分为特定人和非特定人的语音识别。本文的课题工作主要是研究对机器人的语音命令进行识别研究,词汇量比较小,语音命令属于孤立词的语音识别,主要是从特定人和非特定人两个方面埘机器人的语音控制、题进行研究。特定人的语音识别技术在特定人语音识别中最为简单有效的方法是采用(,动第二章语音识别的理论基础态时间规整)算法,它基于动态规划的思想很好地解决了发音长短不一的模板匹配问题,也是语音识别中出现最早且最经典的一种算法【】。一个完整的特定人语音识别系统通常包括特征提取、模式匹配、参考模式库等三个基本单元,其基本结构【如图所示。一压丑侣识别结果图语音识别系统原理框图语音识别的过程也就是一个模式匹配的过程,它分为训练阶段和识别阶段。在训练阶段,主要是将输入的语音进行预处理、特征提取后保存在模板库里面。在识别阶段,将输入的测试语音同样进行预处理、特征提取,然后和模板库里面的模板比较来进行识别。非特定人的语音识别技术目前,主流的非特定人语音识别技术是以隐马尔科夫模型(,简称)为基础的。它是在八十年代由等人对进行深入研究之后并提出应用于非特定人的语音识别。成功地应用于非特定人的语音识别中,一方面它可以通过状态转移和状态驻留来很好地描述声音的变化,这很好地解决了语音发音长短不一的问题,另一方面它作为语音信号处理的一种统计模型,通过概函数计算语音参数对模型的输出概率,搜索最佳状态序列来找到识别结果。模型很好的表达了语音的模型,是目前处理非特定人语音识别的最佳方法。采用模型进行语音识别的语音识别系统如图所示。数字靶识别图模型的语音识别系统图两南人硕十学何论文本章小结本章讨论了详细的讨论了语音识别系统的信号处理技术,包括语音信号产生的数字模型、信号的预处理、端点检测方法和特征提取等方面的知识,介绍了特定人和非特定人的语音识别技术,这为后面语音识别技术的研究和应用打下了基础。第章摹丁的特定人语音识别技术研究第三章基于的特定人语音识别技术研究(,动态时间规整)是语音识别中一个非常经典的算法。它的理论比较成熟,主要用在构建小词汇量的特定人识别系统。算法简单有效,采用动态规划技术(,简称)将一个复杂的全局最优化问题分解成多个局部最优化问题进行决策,因此在某些特定的场合获得了广泛的应用。的关键问题模板匹配方法是基于的语音识别技术中的关键问题。因为语音信号具有很大的时变性,同一语音的两次不同存在很大差异,而且两次发音的音节通常也不是线性的对应关系。在进行语音识别时,模板匹配实际上就是将测试模板和模板库参考模板进行比较的过程。假设测试模板有帧矢量(),(),(),(胛)表示第,帧语音的特征矢量,参考模板(特征矢量的时间序列)有帧矢量(),(),沏),(加,沏)表示第帧的语音特征矢量。(丁(),足()表示测试模板中第。帧特征与参考模板中第。帧特征之间的距离,通常采用欧几里德距离表示【,。直接匹配是假定测试模板和参考模板长度相等。线性时间规整技术是假定说话速度按不同说话单元的发音长度等比例分布。但是,我们实际的语音发音情况都不是很好的符合这两种情况,语音长度不等的问题采用非线性的时间规整技术能得到更好的解决。如图所示为三种匹配模式对同一词两次发音的匹配距离(两条曲线间的阴影面积),显然。参考模式星算法分析待测模式图三种匹配模式对比非线性匹配。(力两南人学硕十学位论文是种非线性规整技术,它把距离测度计算和时间规整技术结合起来,动态时间规整技术也就是寻找到一个规整函数聊(甩),将测试矢量的时间轴甩非线性地映射到参考模板的时问轴上,并使该函数满足【】:(疗),(一)()中(,。)。式中【(耽()是第帧测试矢量()和第帧模板矢量(,)之间的距离测度。是处于最优时间规整情况下两矢量的距离。通过不断地计算两矢量的距离来搜索最优的匹配路径,规整函数是在两矢量匹配时累积距离最小的情况下得到的,这样就保证了匹配模板之间的最大声学相似性。算法的核心就是动态规划思想,通过局部最佳化处理来搜索一条最优路径,使得两个特征矢量之间的累积距离在这条路径上最小,从而避免因时长不同而引入的误差。在算法中,参考模板与测试模板需采用相同类型的特征矢量、相同的帧移、相同的帧长和相同的窗函数。另外需要对动态时间规整函数进行一定的限制,来免动态路径的搜索问题失去实际意义,如果不加限制,公式计算得到的有可能是两个完全不同的模式匹配产生的,这将大大降低系统的识别性能,甚至使模式比较失去意义。通常对规整函数需加如下约束条件:、边界限制:在比较的语音进行了精确的端点检测情况下,规整发生在起点帧和终点帧之间,用规整函数表示就是:()、()()、单调性限制:由于语音的时序性,规整函数需要保证匹配路径不能破坏语音信号各部分的时间顺序。即规整函数的单调性限制表示为:()()()、连续性限制:有些特殊的音素在某些情况下可能对正确的识别起到很大的作用,某个音素往往就是区分不同的发声单元的依据,为了避免这些重要的语音信息丢失,我们规定规整函数不允许跳过任何一点。即:似屯)一似)、算法的原理图如图,把参考模板的各帧在纵轴上标出,把测试模板的各个帧号在一个二维直角坐标系中的横轴上标出,通过帧号的坐标画出一些纵横线就形成了一个网格,每一个交叉点用来表示测试模式中某一帧与训练模式中某一帧的交汇。第三章荩丁的特定人语音识别技术研究图算法原理算法分两步进行,一是计算两个模式各帧之间的距离,即求出帧匹配距离矩阵,二是在帧匹配距离矩阵中找出一条最佳路径。从点(,)出发(令(,)搜索,反复递推,直到(加就可以得到最优路径,而且加就是最佳匹配路径所对应的匹配距离。在进行语音识别时,应将测试模板与所有参考模板进行匹配,得到的最小匹配距离(,所对应语音即为识别结果。算法的改进算法虽然简单有效,但是动态规划过程中需要存储较大的矩阵,直接计算将会占据较大的空间,计算量也比较大【。由图的局部路径约束可知算法所动态搜索的空间其实并不是整个矩形网格,而是局限于对角线附近的带状区域,如图所示,许多点实际上是达不到的。因此,对算法进行一些改进以减少存储空间和降低计算量,我们可以限制它的搜索宽度来减少一些计算量。以图中的局部约束路径为例,待测模板轴上每前进一帧,对于点(。,。)只需要用到前一列(。一,)、(。,。一)和(。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论