孤立词语音识别技术研究_第1页
孤立词语音识别技术研究_第2页
孤立词语音识别技术研究_第3页
孤立词语音识别技术研究_第4页
孤立词语音识别技术研究_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕业论文(设计)题 目: 孤立词语音识别技术研究学生姓名:学 号: 2012011257所在学院: 机械与电子工程学院专业班级: 电子信息科学与技术 1202 班届 别: 2016 届指导教师: 方杰皖西学院本科毕业设计(论文)创作诚信承诺书1.本人郑重承诺:所提交的毕业设计(论文),题目孤立词语音识别技术研究 是本人在指导教师指导下独立完成的,没有弄虚作假,没有抄袭、剽窃别人的内容; 2.毕业设计(论文)所使用的相关资料、数据、观点等均真实可靠,文中所有引用的他人观点、材料、数据、图表均已标注说明来源; 3. 毕业设计(论文)中无抄袭、剽窃或不正当引用他人学术观点、思想和学术成果,伪造、篡改数据的情况; 4.本人已被告知并清楚:学校对毕业设计(论文)中的抄袭、剽窃、弄虚作假等违反学术规范的行为将严肃处理,并可能导致毕业设计(论文)成绩不合格,无法正常毕业、取消学士学位资格或注销并追回已发放的毕业证书、学士学位证书等严重后果; 5.若在省教育厅、学校组织的毕业设计(论文)检查、评比中,被发现有抄袭、剽窃、弄虚作假等违反学术规范的行为,本人愿意接受学校按有关规定给予的处理,并承担相应责任。 学生(签名): 日期: 年 月 日目 录引言 .21 语音识别系统的基础 .21.1 语音识别的基本原理 .21.2 语音识别系统的实现 .31.3 语音信号的预处理 .41.3.1 采样 .41.3.2 预加重处理 .41.3.3 分帧 .41.3.4 加窗处理 .51.3.5 端点检测 .61.4 语音识别的特征提取 .71.5 语音识别的模式匹配 .101.5.1 模式匹配的几种方法 .101.5.2 隐马尔可夫模型(HMM) .111.5.3 动态规划算法(DTW) .132 语音信号的软件仿真 .162.1 系统总体设计方案 .162.2 设计内容 .172.2.1 语音库的建立 .172.2.2 使用 MATLAB 处理语音信号 .172.2.3 端点检测法的软件实现 .172.2.4 特征参数提取的软件实现 .193 MATLAB 语音测试 .20参考文献: .23皖西学院 2016 届毕业设计(论文)1孤立词语音识别技术研究学生:蒋召召(指导老师:方杰)(皖西学院机械与电子工程学院)摘要:语音识别是一种人机交互技术,它能通过机器识别和理解将语音信号转换为相应的命令或文本,以此实现人与计算机的“沟通”。孤立词语音识别系统主要应用于自动控制,如机器人操纵、通信设备控制、智能玩具操纵等。本文在基于 MATLAB 的基础上以隐马尔科夫模型为主要原理对孤立词语音命令识别系统进行了研究和实现。隐马尔科夫模型具有较高的识别准确度,在实现上也比较简单方便。通过最后的识别结果,证明这种该模型对语音识别技术的发展研究具有良好效果,最终实现了一个小词汇量的孤立词识别系统。关键词:语音识别;孤立词;隐马尔可夫模型;动态时间规整技术;MATLAB;GUIStudy of Isolated Word Speech Recognition Technology Student: Jiang Zhao Zhao(Faculty Adviser:Fang Jie)(College of mechanical and Electronic Engineering, West Anhui University)Abstract: Speech recognition is the technology of human-computer interaction. It is to make the machine through the understanding and recognition of the process of the speech signal into the corresponding text or command technology, then realize the communication between human and computer. The isolated word speech recognition system is mainly used in automatic control, such as robot manipulation, communication equipment, smart toys and so on. This paper focus on the research and implement of isolated command word recognition with HMM based on MATLAB. Through the simulation results, it is proved that this algorithm has good effect for the development of speech recognition technology, ultimately it designed a small vocabulary isolated word recognition system.Keywords: Speech Recognition; Isolated Word; HMM; DTW; MATLAB; GUI孤立词语音识别技术研究2引言语音是人类进行交流的手段,因此,使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。近年来,语音识别技术被广泛应用于工业控制、消费类产品及移动通信中,是高科技应用领域的研究热点。语音识别技术的创立是以上一个世纪 Bell 实验室研发的能识别一到十字母的实验为旗帜,近年来该技术发展也比较迅速。本文就是在这种情况下对特定人孤立词语音识别系统做了一些探讨。论文中首先介绍了孤立词语音识别系统的基本理论,分析了孤立词语音识别的基本工作过程。接着对语音识别中的关键技术加以介绍。在语音识别的实现方法上本文对 DTW(动态时间规整算法)和 HMM(隐马尔科夫模型)两种方法进行了比较,最终选定隐马尔科夫模型来实现语音命令的识别。最后阐述了系统的软件设计过程,对各部分给出了相应的软件流程图,并且对具体算法进行了 MATLAB 仿真论证。1 语音识别系统的基础1.1 语音识别的基本原理对于语音识别技术根据任务的差异人们可以有不一样的处理方式,可是相关的模型和结构基本类似。语音识别系统主要包括语音信号的分析和预处理过程、特征提取、语音模板库的训练、模式匹配等几个部分。每个部分都很重要,因为它们会对语音识别的精确度高低产生重要的影响。比如说预处理部分中的端点检测的好坏在整个过程中就比较重要。而对于语音识别的方法,后续内容将会重点研究。下图是识别的基本理论框图:图 1 语音识别系统的原理图皖西学院 2016 届毕业设计(论文)31.2 语音识别系统的实现语音识别的实现是一个比较复杂的过程,这是因为它牵扯到许多的知识点。这些知识点包括对信号的处理,一些算法的实现,还有一些语音识别的匹配方法。下面我们讲一下语音实现的具体过程。首先我们要获取一个语音库,其次是要对这些语音信号进行训练和处理,这些过程会在后面的章节中详细论述。通过训练将每一个词的模型保存建立为模版库。识别过程中,说话者声音也会经过一样的通道取得参数,保存建立为测试的模版。并在先前存储的参考模板库中匹配保存,然后把匹配率最大的参考模版作为最终的识别成果。从下图我们可以看到实现的具体步骤。图 2 语音识别的基本实现过程孤立词语音识别技术研究41.3 语音信号的预处理对于待输入的语音信号机器是不能直接对其分析和理解,那么我们就要将待测的信号先数字化。一般而言,语音信号的预处理模块一般包括采样、预加重、分帧、加窗、端点检测等。信号的加窗分帧是在处理时必不可少的也是经常要用到的。总的来说,它就是把相关信号分段处理。端点检测是为排除噪声和无声频段的干扰,找出我们需要处理的有声语音部分。模拟信号 采样 量化 数字信号图 3 语音信号的数字化处理1.3.1 采样采样主要是在时间域上将模拟信号进行等间隔抽样。作时域离散化处理。抽取样值间隔的大小直接影响语音信号的失真情况,抽取间隔过大可能造成语音信号信息的丢失,抽取间隔过小的情况下可能会发生信号波形的混叠情况产生干扰。那么如何进行合理的处理才能避免信息的丢失又能获取较好的采样,根据采样定理 :当采样频率 才可以很好的保留信号的大量信息。而max2fs且能够很好的完成频率抽取。此外,一般情况下电话语音信号的抽样频率为 8赫兹左右。但是在语音信号的处理过程中。为了实现较高精确度的语音识别或者较高质量的语音合成,信号的抽样频率 f 也会提高 2 到 4 倍。另外,如果我们对语音信号的带宽不明确的话,我们需要在 A/D 变换之前做一些必要的处理。1.3.2 预加重处理预加重是我们处理信号时常常会使用的一种信号处理方式,其作用在不同的信息处理中有不同的作用,在这里我们主要是为了放大信号中的高频分量 1。这种信号处理有一种经常使用的处理函数,通常情况下,预加重一般是使用一阶的数字滤波器 :H( Z)=1- , 值接近于 1。 -1z1.3.3 分帧不同人的发声有很大区别,而且由语调语气的变化可知语音信号是一种整体非平稳信号,它的许多与语音信号相关的特征参量都会随时间发生变化。语皖西学院 2016 届毕业设计(论文)5音信号属于整体非稳定的一类信号,可是研究人员发现在极短的时间里它是较为稳定。所以,在实际的语音信号处理过程中会把它分成很小的称之为帧的时间段。帧移与帧长有一定的关系,通常情况下两者之比在 1/3 到 1/2 的区间 2。此外,分帧的大小也会直接影响到语音信号信息情况,根据信号处理的需求可以确定不同的帧长,一般取帧长取 20ms。1.3.4 加窗处理加窗的目的是使信号的主瓣带宽更加尖锐,旁瓣更窄,加窗常常应用的函数是矩形窗、海明窗以及汉宁窗,根据不同的需要我们可以选择不一样的类型。形式分别为:(1)矩形窗(Rectangular Window)(1)1(01)()=nNRn其 他(2)海明窗(Hamming Window)(2)20.54.6cos()(01)1()=nNNRn其 他(3)汉宁窗(Hann Window)(3)20.5.cos()(01)1()=nNNRn其 他其中 N 是窗口的长度。下图是三种窗函数的相关波形图。图 4 三种窗的时域和频域波形图孤立词语音识别技术研究6海明窗和汉宁窗都属于广义升余弦函数,经过对两者频率特性的研究发现,矩形窗的谱旁瓣比海明窗和汉宁窗都要高,可能会使其频谱泄露,高频成分不易保存;汉宁窗也有其自身的局限性,比如说频谱衰减太快;因为海明窗的低通特性好和旁瓣低而被较多的运用。虽然上面三种窗函数存在一些异同点。但是为了很好的处理信号我们需要选择一种比较好的方式。综合而言在本文的研究中,要选用的函数是海明窗。图 5 Hamming 及频谱特性1.3.5 端点检测对于语音信号而言其包括有声、静音以及噪声等比较复杂的成分。我们需要将不一样的时分段分开来获取必要的部分。端点检测就是通过一定的方法定位到某些词汇的起止点以及排除无声部分的干扰。端点检测是语音识别中不可忽略的一部分,好的端点检测技术不仅能提高识别的准确度,而且它在是在孤立词语音识别中能将计算量较大的非实时系统加以简化。端点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论