特定人孤立词语音识别的研究毕业论文_第1页
特定人孤立词语音识别的研究毕业论文_第2页
特定人孤立词语音识别的研究毕业论文_第3页
特定人孤立词语音识别的研究毕业论文_第4页
特定人孤立词语音识别的研究毕业论文_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本科学生毕业论文(设计)题目(中 文):特定人孤立词语音识别的研究(英 文):Research Of Speaker-dependent Isolated-word Speech recognition姓 名学 号院 (系)专业、年级指导教师毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的

2、说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 湖南科技学院本科毕业论文(设计)诚信声明本人郑重声明:所呈交的本科毕业论文(设计),是本人在指导老师的指导下,独立进行研究工作所取得的成果,成果不存在知识产权争议,除文中已经注明引用的内容外,本

3、论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 本科毕业论文(设计)作者签名: 二八 年 月 日30 毕业论文(设计)任务书课题名称:特定人孤立词语音识别的研究学生姓名:系 别:物理与电子工程系专 业:电子信息工程指导教师:湖南科技学院本科毕业论文(设计)任务书1、主题词、关键词: 语音识别、孤立词、特定人、DTW 2、毕业论文(设计)内容要求:对语音识别的概念、分类、发展过程及发展趋势要有所介绍;设计一个基于特定人的语音识别系统,给出实现方案。对特定人语音识别系统中牵涉到的有关识别

4、算法要进行编程,并在MATLAB6.5环境下进行仿真调试,给出具体仿真结果。3、文献查阅指引:1 赵力语音信号处理第一版,北京:机械工业出版社.2 陈立万基于语音识别系统中DTW算法改进技术研究微计算机信息,2006,2(2).3 何强,何英MATLAB扩展编程第一版,北京:清华大学出版社.4 李潇,王大堃基于MATLAB的孤立字语音识别试验平台四川理工学院学报(自然科学版),19(3).4、毕业论文(设计)进度安排:12007.12月-1月 论文资料收集和整理,完成开题报告。22008.2月-3月 查找资料,给出系统实现方案,对算法进行编程和调试并完成毕业论文初稿。32008.3月-4月 完

5、成毕业论文修改并定稿。42008年5月 准备答辩。教研室意见: 负责人签名: 注:本任务书一式三份,由指导教师填写,经教研室审批后一份下达给学生,一份交指导教师,一份留系里存档。湖南科技学院本科毕业论文(设计)开题报告书论文(设计)题目特定人孤立词语音识别的研究作 者 姓 名周 刚所属系、专业、年级 物理与电子工程系 电子信息工程专业 2004年级指导教师姓名、职称杨 熙预计字数10000开题日期2008.1.15选题的根据:1)说明本选题的理论、实际意义2)综述国内外有关本选题的研究动态和自己的见解一个完整特定人孤立词语音识别系统通常包括语音的输入、语音的预处理(预加重、加窗分帧、端点检测等

6、)、特征提取、训练与识别等几个环节。语音识别的过程可以被看作模式匹配的过程。本文介绍的DTW是采用一种最优化的算法动态规整法,通过将待识别语音信号的时间轴进行不均匀地扭曲和弯曲,使其特征与模板特征对齐,并在两者之间不断地进行两个矢量距离最小的匹配路径计算,从而获得两个矢量匹配时累积距离最小的规整函数。这是一个将时间规整和距离测度有机结合在一起的非线性规整技术,保证了待识别特征与模板特征之间最大的声学相似特性和最小的时差失真。DTW解决了发音长短不一的模板匹配问题,是语音识别中出现较早,较为经典的一种算法。语音识别研究从二十世纪50年代开始到现在已经历半个多世纪的蓬勃发展,在这期间获得了巨大的进

7、展。但语音识别ASR(Automatic Speech Recognition)系统的实用化研究仍是近十年语音识别研究的一个主要方向。语音识别系统包含的知识面非常广,对其进行研究对自己各方面知识的应用能力会有很大的提高。并且语音识别作为一门正火热发展的技术,其发展前景相当可观,对其进行深入了解,研究是非常必要的。主要内容:(1)语音识别的概念、分类、发展过程及发展趋势;(2)语音识别系统的实现方案与语音识别中需要的语音信号处理理论;(3)传统DTW算法及改进后的快速DTW算法的实现与比较;(4)在Matlab6.5环境下进行特定人语音识别的仿真。研究方法:(1)阅读文献,进行理论分析;(2)把

8、整个识别过程分成几个子过程,逐步分析;(3)对整个系统程序的测试采用分模块调试,然后进行整体调试;完成期限和采取的主要措施:完成期限:2007年12月 到2008年5月 主要措施:严格遵照湖南科技学院毕业论文(设计)工作管理办法的指示精神,结合个人的实际情况,我完成这项设计所采取的主要措施有两条:一是密切联系。联系本组设计成员及毕业设计指导师,寻求有关毕业设计信息,确定设计课题方向与设计内容;二是虚心学习。利用课余时间到图书馆和网络上查阅资料,并虚心向老师请教和同学进行学习交流,保障毕业设计的顺利完成。主要参考资料:1 钟林,刘加,刘润生多层前向感知机汉语孤立数码语音识别J电路与系统学报,5(

9、2)。2 何强,何英MATLAB扩展编程M第一版,北京:清华大学出版社.3 徐文盛,戴蓓倩,方绍武,陆伟特定人汉语数码语音抗噪识别方法J电路与系统学报, 5(2).4 陈立万基于语音识别系统中DTW 算法改进技术研究J.微计算机信息(嵌入式与SOC),2006,22(2).5 李潇,王大堃基于MATLAB 的孤立字语音识别试验平台J四川理工学院学报(自然科学版),2006,19(3).6 黄文梅,杨勇,熊桂林,成晓明系统仿真分析与设计Matlab语音工程应用M长沙:国防科技大学出版社.7 林波,吕明基于DTW改进算法的孤立词识别系统的仿真与分析J信息技术,2006年第4期.指导教师意见: 指导

10、教师签名: 教研室意见:签 名: 年 月 日开 题 报 告 会 纪 要时间2008年1月15日地点第三教学楼317与会人员姓 名职务(职称)姓 名职务(职称)姓 名职务(职称)李春树副教授杨熙助教李艳芳副教授周玲助教廖朝阳讲师谭永宏讲师卢卯旺教授会议记录摘要:会议主持人:记 录 人:年 月 日指导小组意见负责人签名: 年 月 日系部 意 见负责人签名:年月日注:此表由学生本人填写,一式三份,一份留系里存档,指导老师和本人各保存一份湖南科技学院毕业论文(设计)中期检查表毕业论文(设计)题 目特定人孤立词语音识别的研究学生姓名周 刚学 号2004010099系 别物理与电子工程专 业电子信息工程指

11、导教师杨 熙检查日期2008.3.26指导教师检查情况记载及修改意见:已经完成的工作:1、完成了语音的采集。2、初步完成特定人语音识别系统中的端点检测、特征提取、传统DTW算法和改进型DTW算法的比较和编程。3、进行资料的整理。4、论文大部分内容已经完成。 下一步的工作: 1、对整个系统在MATLAB下进行仿真测试。2、同时继续论文的写作工作。3、参考文献要按照学校的规范写,要在正文出现的位置标出。4、仔细修改摘要。5、进一步优化程序,提高识别速度。 签名: 签名: 注:此表用于指导教师在学生毕业论文(设计)初稿完成后对学生执行任务书情况进行中期检查时用,由指导教师填写。湖南科技学院毕业设计(

12、论文)指导过程记录表毕业论文(设计)题目特定人孤立词语音识别的研究学生姓名周刚学号2004010099专业班级电信0401指导教师杨熙职称助教系(教研室)电子科学与技术指导过程记录指导内容记录(一)建议毕业设计的选题方向,并提供一些参考课题及如何查阅资料。学 生 签 名: 200 年 月 日 指导教师签名: 200 年 月 日指导内容记录(二)确定毕业设计题目,给出毕业论文设计要求,指导开题报告,并推荐一些参考文献、书籍和网站。学 生 签 名: 200 年 月 日 指导教师签名: 200 年 月 日指导内容记录(三)特定人语音识别系统所需的语音处理理论知识及核心算法DTW算法。学 生 签 名:

13、 200 年 月 日 指导教师签名: 200 年 月 日指导内容记录(四)语音样本的采集,样本语音库和测试语音库的建立。学 生 签 名: 200 年 月 日 指导教师签名: 200 年 月 日指导过程记录指导内容记录(五)对采集到的样本进行处理,端点检测算法的选择和特征参数的选择。学 生 签 名: 200 年 月 日 指导教师签名: 200 年 月 日指导内容记录(六)传统型DTW算法和快速DTW算法的编程实现。学 生 签 名: 200 年 月 日 指导教师签名: 200 年 月 日指导内容记录(七)在MATLAB下对程序进行编译和调试,对DTW算法和快速DTW算法进行比较。学 生 签 名:

14、200 年 月 日 指导教师签名: 200 年 月 日指导内容记录(八)修改论文初稿,摘要的修改,章节的调节,对仿真结果要分析,图表的标注和引用的参考文献要规范。学 生 签 名: 200 年 月 日 指导教师签名: 200 年 月 日答辩小组组长意见组长(签名): 200 年 月 日注:本表与毕业论文一起装订存档。湖南科技学院本科毕业论文(设计)评审表论文题目特定人孤立词语音识别的研究作者姓名周 刚所属系、专业、年级物理与电子工程 系 电子信息工程 专业 2004年级指导教师姓名、职称杨 熙字 数10000定稿日期2008.5.10中文摘要论文中首先介绍了孤立词语音识别系统的基本理论,分析了孤

15、立词语音识别的基本工作过程。接着介绍了常用的孤立词语音识别算法:DTW(Dynamic Time Warping,动态时间弯折)以及改进的DTW,对两种算法进行了比较,根据比较结果,采用比较高效的改进型DTW,以提高识别效率。提出了基于动态噪声的四状态端点检测算法,给出了详细的算法流程图以及具体参数的设置。用MATLAB6.5仿真了在有噪声和无噪声的情况下,利用这些算法对孤立词的端点检测效果,实验结果表明,些算法具有抗噪声能力。关键词(3-5个)语音识别,孤立词,特定人,DTW英文摘要The thesis first introduces the elementary theory of is

16、olated word speech recognition system and analyses the basic work process of isolated word speech recognition.Then it introduces two kinds of isolated word speech recognition algorithms in common use,Dynamic Time Warping(DTW) and advanced DTW,carrying on the comparison to the both.According to the c

17、omparison results and considering this systems characteristic,it adopts advanced DTW at present to improve recognition rate.In this paper,it proposes a four-state endpoint detection algorithm based on dynamic noise and gives the detailed algorithm flow chart as well as the concrete parameters establ

18、ishment.It also gives the isolated-word endpoint detection effect using the algorithm in noise and non-noise situation with the MATLAB6.5 software simulation.The experimental results indicate that this algorithm has the anti-noise ability.关键词(3-5个)speech recognition;isolated word;speaker-dependent;D

19、TW指导教师评定成绩评审基元评审要素评审内涵满分指导教师实评分选题质量25%目的明确符合要求选题符合专业培养目标,体现学科、专业特点和教学计划的基本要求,达到毕业论文(设计)综合训练的目的。10理论意义或实际价值符合本学科的理论发展,有一定的学术意义;对经济建设和社会发展的应用性研究中的某个理论或方法问题进行研究,具有一定的实际价值。10选题恰当题目规模适当,难易度适中;有一定的科学性。5能力水平40%查阅文献资料能力能独立查阅相关文献资料,归纳总结本论文所涉及的有关研究状况及成果。10综合运用知识能力能运用所学专业知识阐述问题;能对查阅的资料进行整理和运用;能对其科学论点进行论证。10研究方

20、案的设计能力整体思路清晰;研究方案合理可行。5研究方法和手段的运用能力能运用本学科常规研究方法及相关研究手段(如计算机、实验仪器设备等)进行实验、实践并加工处理、总结信息。10外文应用能力能阅读、翻译一定量的本专业外文资料、外文摘要和外文参考书目(特殊专业除外)体现一定的外语水平。5论文质量35%文题相符较好地完成论文选题的目的要求。5写作水平论点鲜明;论据充分;条理清晰;语言流畅。15写作规范符合学术论文的基本要求。用语、格式、图表、数据、量和单位、各种资料引用规范化、符合标准。10论文篇幅10000字左右。5实评总分 成绩等级 指导教师评审意见: 指导教师签名: 说明:评定成绩分为优秀、良

21、好、中等、及格、不及格五个等级,实评总分90100分记为优秀,8089分记为良好,7079分记为中等,6069分记为及格,60分以下记为不及格。评阅教师评定成绩评审基元评审要素评审内涵满分评阅教师实评分选题质量25%目的明确符合要求选题符合专业培养目标,体现学科、专业特点和教学计划的基本要求,达到毕业论文(设计)综合训练的目的。10理论意义或实际价值符合本学科的理论发展,有一定的学术意义;对经济建设和社会发展的应用性研究中的某个理论或方法问题进行研究,具有一定的实际价值。10选题恰当题目规模适当,难易度适中;有一定的科学性。5能力水平40%查阅文献资料能力能独立查阅相关文献资料,归纳总结本论文

22、所涉及的有关研究状况及成果。10综合运用知识能力能运用所学专业知识阐述问题;能对查阅的资料进行整理和运用;能对其科学论点进行论证。10研究方案的设计能力整体思路清晰;研究方案合理可行。5研究方法和手段的运用能力能运用本学科常规研究方法及相关研究手段(如计算机、实验仪器设备等)进行实验、实践并加工处理、总结信息。10外文应用能力能阅读、翻译一定量的本专业外文资料、外文摘要和外文参考书目(特殊专业除外)体现一定的外语水平。5论文质量35%文题相符较好地完成论文选题的目的要求。5写作水平论点鲜明;论据充分;条理清晰;语言流畅。15写作规范符合学术论文的基本要求。用语、格式、图表、数据、量和单位、各种

23、资料引用规范化、符合标准。10论文篇幅10000字左右。5实评总分 成绩等级 评阅教师评审意见: 评阅教师签名: 说明:评定成绩分为优秀、良好、中等、及格、不及格五个等级,实评总分90100分记为优秀,8089分记为良好,7079分记为中等,6069分记为及格,60分以下记为不及格。湖南科技学院本科毕业论文(设计)答辩记录表论文题目特定人孤立词语音识别的研究作者姓名周 刚所属系、专业、年级物理与电子工程系 电子信息工程专业 2004年级指导教师姓名、职称杨 熙答 辩 会 纪 要时间2008年5月15日地点第三教学楼317答辩小组成员姓 名职务(职称)姓 名职务(职称)姓 名职务(职称)李春树副

24、教授杨熙助教李艳芳副教授周玲助教廖朝阳讲师谭永宏讲师卢卯旺教授答辩中提出的主要问题及回答的简要情况记录:1、 论文中改进的DTW算法较传统DTW算法有何优点?答:由论文中图6可看出,改进的DTW算法更进一步约束了搜索范围,从而减少了数据计算量,加快识别速度并提高了计算准确度,在仿真结果中能清楚的看出其改进效果。2、 论文中用到的端点检测算法为何能抗噪声?答:论文中的端点检测算法设定了高低短时能量、高低过零率、最大静音时间、最小语音长度六个门限值,其中短时能量是用于抗噪声设计的,由于语音序列的前10帧一般都为噪声,而端点检测算法中的高低能量门限是以前10帧的平均能量值作为参考依据,这样我们的算法

25、就是基于动态背景噪声的。一般要根据实际情况选取,本系统取前10帧平均能量值的3倍和1.5倍分别作为高低能量门限。3、 论文中只提到了对单个字的识别,能否实现对多字词的识别?答:DTW能实现对多字词的识别,但本文中的四端点检测法是针对单字词设计的,不过根据本文中四端点检测法的方法进行扩展,便能轻易实现对多字词的识别。会议主持人:记 录 人:年 月 日答辩小组意见评语:评定等级: 负责人(签名): 年 月 日系学位委员会意见评语:论文(设计)最终评定等级:负责人(签名): 系部(公章) 年月 日校学位委员会意见评语:评定等级: 负责人(签名): 年月 日目 录绪 论11 语音识别系统基本理论31.

26、1 语音识别系统的组成31.2 预处理31.3 特征参数的提取41.3.1 MFCC参数计算流程51.3.2 差分倒谱参数52 Dynamic Time Warping算法72.1 DTW算法原理72.2 改进的DTW算法83 系统的软件设计与仿真123.1 语音预处理123.2 改进的端点检测算法及仿真123.2.1 改进的端点检测算法123.2.2 端点检测算法子程序流程图143.2.3 端点检测仿真153.3 特征参数提取子程序及仿真163.4 DTW算法仿真163.5 语音识别仿真18结 论19参 考 文 献20附录A 部分程序21致 谢28插图索引图1 一般语音识别系统框图3图2 用

27、能量和过零率进行端点检测4图3 线性频率上 fm 和 f 关系5图4 动态时间弯曲(DTW)算法求最小失真7图5 DTW算法搜索路径8图6 匹配路径约束示意图9图7 对角线附近的带状区域图10图8 放宽端点后的区域限制11图9 预加重后的语音效果12图10 四状态转移的端点检测13图11 “停止”的短时能量和过零率13图12 基于四状态转移的端点检测流程图14图13 无噪声环境下的端点检测15图14 有噪声环境下的端点检测15图15 24维特征参数部分值16图16 数字16在MATLAB环境下的识别结果显示18附表索引表1 实验一在传统DTW算法下的失真测度16表2 实验一在改进DTW算法下的

28、失真测度17表3 实验二在传统DTW算法下的失真测度17表4 实验二在改进DTW算法下的失真测度17表5 实验一传统DTW算法和改进DTW算法的用时比较18表6 实验二传统DTW算法和改进DTW算法的用时比较18特定人孤立词语音识别的研究摘 要语音是人类进行交流的手段,因此,使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。近年来,语音识别技术被广泛应用于工业控制、消费类产品及移动通信中,是高科技应用领域的研究热点。本文就是在这种情况下对特定人孤立词语音识别系统做了一些探讨。论文中首先介绍了孤立词语音识别系统的基本理论,分析了孤立词语音识别的

29、基本工作过程。接着介绍了常用的孤立词语音识别算法:DTW(Dynamic Time Warping,动态时间弯折)以及改进的DTW,对两种算法进行了比较,根据比较结果,采用比较高效的改进型DTW,以提高识别效率。提出了基于动态噪声的四状态端点检测算法,给出了详细的算法流程图以及具体参数的设置。用MATLAB6.5仿真了在有噪声和无噪声的情况下,利用这些算法对孤立词的端点检测效果,实验结果表明,些算法具有抗噪声能力。【关键词】语音识别孤立词特定人DTWResearch Of Speaker-dependent Isolated-word Speech RecognitionAbstractSpe

30、ech is the means that human being carries on communication.Therefore,using speech as a human-computer interaction approach is the most natural way for the user.At the same time,equipment miniaturization also demands omitting the keyboard to economize volume.In recent years,the speech recognition tec

31、hnology has been widely applied to industrial control,consuming product and mobile communication.It is a hot research spot in high technology application field.This thesis makes some discussions on speaker-independent isolated word speech recognition system in this case.The thesis first introduces t

32、he elementary theory of isolated word speech recognition system and analyses the basic work process of isolated word speech recognition.Then it introduces two kinds of isolated word speech recognition algorithms in common use,Dynamic Time Warping(DTW) and advanced DTW,carrying on the comparison to t

33、he both.According to the comparison results and considering this systems characteristic,it adopts advanced DTW at present to improve recognition rate.In this paper,it proposes a four-state endpoint detection algorithm based on dynamic noise and gives the detailed algorithm flow chart as well as the

34、concrete parameters establishment.It also gives the isolated-word endpoint detection effect using the algorithm in noise and non-noise situation with the MATLAB6.5 software simulation.The experimental results indicate that this algorithm has the anti-noise ability.【Key words】speech recognition isola

35、ted word speaker-dependent DTW绪 论语音识别(Speech Recognition)是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学、人工智能、数理统计等众多学科紧密相连。语音识别经过四十多年的发展,已经显示出巨大的应用前景1。随着计算机技术、模式识别和信号处理技术以及声学技术等的发展,使得语音识别技术取得显著进步,开始从实验室走向市场。近二三十年来,语音识别技术在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等领域有着广泛应

36、用。当今,语音识别产品在人机交互应用中,已经占到了越来越大的比例。其主要应用在语音命令、应用于电信增值业务、数据库检索等方面。语音识别系统从不同角度、不同的应用范围等都会有不同的分类。一般语音识别系统按不同的角度有下面几种分类:1按说话人的讲话方式可以分为孤立词(Isolated Word)识别连续语音(Continuous Speech)识别。孤立词识别是指说话人每次只说一个词或短语,每个词或短语在词汇表中都算作一个孤立词条。因此,可以用来实现简单的家用电器控制。连续语音识别是指对说话人以日常自然的方式发音,通常特指用于语音录入的听写机。2按识别对象的类型可以分为特定人(Speaker De

37、pendent)语音识别和非特定人(Speaker Independent)语音识别。特定人是指定只针对一个用户的语音识别,比较简单,能得到较高的识别率,但使用前必须由特定人的用户输入大量的发音数据对其进行训练。非特定人则可用于不同的用户,这种识别系统的通用性好,应用面广,但难度也较大,不容易得到高的识别率,它的实用化将会有很高的经济价值和深远的社会意义。3按识别的词汇量可以分为小词汇、中词汇和大词汇量语音识别。一般来讲,120个词汇属于小词汇量语音识别系统、201000个词汇属于中词汇量语音识别系统、大于1000个词汇属于大词汇量语音识别系统。语音识别研究从二十世纪50年代开始到现在已经历半

38、个多世纪的蓬勃发展,在这期间获得了巨大的进展。这里仅仅按照一些重要方法的出现和发展为线索进行简要回顾。50年代,AT& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统Audry系统。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。70年代,在模式识别思想、动态规划方法、线性预测思想等基础研究的成功应用的支撑下,孤立词发音和孤立语句发音的识别成为了可行的有用技术。80年代,的最大特点是从基于模板的方法向统计模型方法的转变,特别是转向研究隐马尔柯夫模型HMM的理论、方法和实现问题。90年代,语音

39、识别研究的重点转向自然语言的识别处理,任务转移到航空旅行信息的索取。同时,语音识别技术不断应用于电话网络,增强话务员服务和自动化。2000年以来,人机语音交互成为研究的焦点。研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译5。语音识别技术经过全球半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。在这样的水平基础上,语音识别技术开始尝试从实验室演示系统走向实用化商品。但语音识别技术要进入成熟的商业运用还有一段艰难的路程,还必须在很多方面取得突破性进展。主要包括高可靠性;增加词汇量;应用拓

40、展;降低成本减小体积四个方面。语音识别ASR(Automatic Speech Recognition)系统的实用化研究是近十年语音识别研究的一个主要方向。近年来,消费类电子产品对低成本、高稳健性的语音识别片上系统的需要快速增加,语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。本文主要是针对普通控制命令词,小词汇量的特定人孤立词语音识别的研究。全文共分章,具体的研究内容如下:第章:介绍了语音识别系统的实现方案,给出了孤立词识别中需要的语音信号处理理论,如预加重、端点检测和特征参数提取等。第章:介绍了基于动态规划(DP)思想的DTW算法,并在此算法的基础上,讨论了快速DTW算法的实现。最

41、后给出了两者的对比仿真。第章:针对本文采集的语音样本,对预处理后的语音提出了基于动态噪声有四状态端点检测法。阐述了系统的软件设计过程,对各部分给出了相应的软件流程图,并且对具体算法进行了MATLAB仿真论证。1 语音识别系统基本理论1.1 语音识别系统的组成语音识别系统的典型实现方案如框图1所示。预处理特征提取输入语音测度估计识别判决参考模板识别结果模板库识别训练图1 一般语音识别系统框图一个完整特定人孤立词语音识别系统通常包括语音的输入、语音的预处理(预加重、加窗分帧、端点检测等)、特征提取、训练与识别等几个环节,基本构成如图1所示。语音识别的过程可以被看作模式匹配的过程,模式匹配是指根据一

42、定的准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程。 模式匹配中需要用到的参考模板通过模板训练获得。 在训练阶段,用户将词汇表中的每个词依次说一遍作为模板保存为模板库。 在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板并与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。同时,还可以在一些先验知识的帮助下,提高识别的准确率3。1.2 预处理由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,所以在语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重(Pre-emphasi

43、s)处理。预加重通过滤波提升高频分量并消除50Hz或60Hz的工频干扰,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。通常用一阶FIR数字滤波器来实现,系统函数为:H(z)= 1 a z 1 (a 接近于1) (1-1)进行预加重数字滤波处理后,接下来就要进行加窗分帧处理。分帧采用可移动的有限窗口进行加权的方法实现,即用窗函数(n)来乘X(n),从而形成加窗语音信号X(n)=X(n)* (n)。在语音信号处理中,常用的窗函数是矩形窗和汉明窗。本文中,8kHz采样,帧长为256,帧移为80的汉明窗。端点检测的目的是从包含语音的一般信号中

44、确定出语音的起点以及终点, 有效的端点检测不仅能使处理时间最小, 而且能排除无声段的噪声干扰, 从而使识别系统具有良好的识别性能, 端点检测的成功与否甚至在某种程度上直接决定了整个语音识别系统的成败。在实际应用中,通常是利用过零率来检测清音,用短时能量来检测浊音,两者配合实现可靠的端点检测。用得比较多的是经典的双门限端点检测算法。如图2所示。幅值amp2amp10N0N1N2n过零率ZCR00N0N1N2n图2 用能量和过零率进行端点检测输入的语音信号X(l),加窗分帧处理后得到的第n帧的语音信号为Xn(m),则:Xn(m)= (m)X(n+m) m=0 (N-1) (1-2)其中,n=0,1

45、T,2T,并且N为帧长,T为帧移。第n帧语音信号Xn(m)的短时能量En为:En = |Xn(m)|N -1m=0 (1-3)这里定义短时能量即短时幅值,它的主要作用:区分浊音和清音,因为浊音的短时能量比清音大得多。区分声母与韵母的边界,无声和有声的分界,连字的分界等。作为一种超音段信息,用于语音识别中。一帧信号中波形穿越零电平的次数,称为过零率。定义Xn(m)的短时过零率Zn为:Zn = |sgn Xn(m)-sgnXn(m-1)|N -1m=012 (1-4)上式中,sgn 是符号函数。考虑到开始以后总会出现能量较大的浊音,设一个较高的门限amp1用以确定语音已开始,再取一比amp1稍低的

46、门限amp2,用以确定语音的起始点N1,和结束点N2,由于语音起始段往往存在着能量很弱的清辅音(如s、f等),只用能量去判断,很难把它们和无声区分开,但发现它们的过零率明显高于无声段,因此可以用过零率来精确起点。第四将仔细介绍端点检测算法。1.3 特征参数的提取特征参数提取的目的是抽取语音特征,以使在语音识别时类内距离尽量小,类间距离尽量大。语音特征参数提取是语音识别的关键问题,特征参数的好坏对于语音识别精度和识别时间有很大影响。常用的参数有线性预测的倒谱系数(LPCC)和Mel频率的倒谱系数(MFCC)。全极点线性预测模型(LPC)是基于发音模型建立的,并假设语音信号为自回归信号,利用线性预

47、测分析获得倒谱参数。因此,LPCC系数也是基于合成的参数,没有充分利用人耳的听觉特性,对辅音的描述能力较差,抗噪声性能较差。实际上,人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。由于充分模拟了人的听觉特性,而且没有任何前提假设,因此MFCC参数具有很好的识别性能和抗噪能力。研究表明, Mel频率的倒谱参数所含的信息量比其它参数多,能较好的表现语音信号,并且比较充分利用人耳特殊感知特性,性能优于LPCC参数。因此,本文中用到的Voicebox工具箱中的mfcc.m函数就是采用采用MFCC参数。1.3.1 MFCC参数计算流程MFCC参数计算的要点

48、是将线性功率谱S ( n)转换成为mel频率下的功率谱, 这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器:Hm ( n) ,m = 0 Y 1,n = 0 H /2 1Y为滤波器个数,H为一帧语音信号的点数。每个滤波器具有三角形特性,其中心频率为fm,它们在 Mel 频率轴上是均匀分布的。在线性频率上,当 m 较小时,相邻的 fm 间隔很小,随着 m 的增加相邻的 fm 间隔逐渐拉开。另外在频率较低的区域,fm 和 f 之间有一段是线性的。如图3所示:m图3 线性频率上 fm 和 f 关系MFCC参数的计算是以“bark”为频率基准的,Mel频率与线性频率的转换关系为:f mel = 2595 log10 (1+ )f700 (1-5)其中,线性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论