




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本科毕业设计(论文)毕业设计说明书语音信号的提取与识别 基于 DTW 模型的语音识别作 者 : 薛宏伟学 号:01062B112学院 (系 ): 电子工程专 业 : 通信工程指导教师: 评 阅 人: 20xx 年 6 月白国花 硕士本科毕业设计(论文)毕业设计(论文)任务书学 院(系): 电子工程系专 业 : 通信工程学 生 姓 名:学 号:设计 (论文 )题目 : 语音信号的提取与识别起 迄 日 期 : 20xx 年 3 月 15 日 20xx 年 6 月 13 日设计 (论文 )地点 :指 导 教 师 :专 业 负 责 人 :发任务书日期: 20xx 年 3 月 15 日本科毕业设计(论文)毕 业 设 计(论 文)任 务 书1毕业设计(论文)课题的任务和要求:1. 了解声音信号的特征参数,及现阶段研究处理方法。以现阶段信号处理领域比较活跃的语音信号为具体研究对象,进行相关知识的了解与学习。2. 学会在语音信号处理中使用 MATLAB 软件工具。3. 针对基本的个别个体的特定声音进行语音识别研究。4. 根据研究情况利用 MATLAB 语言进行相关算法的实现。2毕业设计(论文)课题的具体工作内容(包括原始数据、技术要求、工作要求等):1. 查阅相关资料,利用已学的相关知识进行消化和理解。2. 了解语音信号的特征及提取方法,并对现阶段的语音处理情况有所了解。3. 研究学习一种基本的语音识别处理方法。4. 学习相关信号处理软件。5. 对软件的学习达到能对一种基本的算法进行软件的编程实现。6. 并对相关程序进行调试运行实验。7. 完成毕业设计论文。本科毕业设计(论文)毕 业 设 计(论 文)任 务 书3对毕业设计(论文)课题成果的要求包括毕业设计(论文) 、图纸、实物样品等:1. 利用所学知识对具体的语音信号的特征及处理方法进行学习研究,达到对专业知识的融会贯通。2. 利用所学的处理软件,对信号进行一定的处理,并有相关例子的图形表示。3. 按要求完成毕业论文。 4毕业设计(论文)课题工作进度计划:起 迄 日 期 工 作 内 容20xx 年3 月 15 日 4 月 1 日4 月 1 日 5 月 30 日6 月 1 日 6 月 22 日查阅相关资料,并对专业知识进行学习。按要求进行论文的准备工作。论文答辩所在专业审查意见:负责人: 年 月 日学院(系)意见:院(系)领导: 年 月 日本科毕业设计(论文)语音信号的提取与识别摘要语音识别(Speech Recognition)是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。本课题通过采用 DTW(Dynamic time warping, 动态时间伸缩)算法,对孤立词的识别进行了初步探讨和研究,实现了在MATLAB 软件环境下对特定人特定语音的识别,并针对 DTW 的主要特点及不足做出了总结。DTW 算法基于动态规划(DP)的思想,解决了孤立词发音长短不一的模板匹配问题。文中还针对动态规划的不足提出了改进。关键词:语音识别,DTW,MATLAB,动态规划本科毕业设计(论文)Abstract: Voice-identification is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. In this paper, DTW arithmetic is adapted to study and research the implement the identification of single-word, and Speech recognition for single-word is realized by using MATLAB. In the end, this paper gets a conclusion on the feature and the shortage of DTW.DTW arithmetic based on the method of DP has solved the problem that the voice has different time during the template matching. This paper also put forward some advises about DP. Key words: Voice-Identification,DTW,MATLAB ,DP本科毕业设计(论文)目 录1 引言 .11.1 概述 .11.2 语音识别的发展历史 .11.3 语音识别技术的现状及发展趋势 .21.4 语音识别技术进入商用 .42 语音识别基础 .52.1 语音信号生成的数学模型 .52.2 语音信号的端点检测 .62.2.1 语音信号的分帧 .82.2.2 短时能量的计算 .82.2.3 过零率计算 .102.3 语音信号的特性分析 .132.4 语音识别系统的分类方式及依据 .142.5 语音识别系统的基本构成 .153 语音识别技术详述 .163.1 语音识别单元的选取 .163.2 特征参数提取技术 .163.3 模式匹配及模型训练技术 .194 MATLAB 简介 .215 核心算法阐述 .215.1 DTW 算法原理 .215.2 DTW 算法实现 .245.2.1 算法简介 .245.2.2 程序运行流程 .245.3 运行结果 .255.4 算法改进 .276 总结 .276.1 课题总结 .27本科毕业设计(论文)6.2 实际困难 .286.3 展望 .28附录 源程序代码 .30参考文献 .33致谢 .34目 录本科毕业设计(论文)1 引言 .11.1 概述 .11.2 语音识别的发展历史 .11.3 语音识别技术的现状及发展趋势 .21.4 语音识别技术进入商用 .42 语音识别基础 .52.1 语音信号生成的数学模型 .52.2 语音信号的端点检测 .62.2.1 语音信号的分帧 .82.2.2 短时能量的计算 .82.2.3 过零率计算 .102.3 语音信号的特性分析 .132.4 语音识别系统的分类方式及依据 .142.5 语音识别系统的基本构成 .153 语音识别技术详述 .163.1 语音识别单元的选取 .163.2 特征参数提取技术 .163.3 模式匹配及模型训练技术 .194 MATLAB 简介 .215 核心算法阐述 .215.1 DTW 算法原理 .215.2 DTW 算法实现 .245.2.1 算法简介 .245.2.2 程序运行流程 .245.3 运行结果 .255.4 算法改进 .276 总结 .276.1 课题总结 .276.2 实际困难 .286.3 展望 .28附录 源程序代码 .30参考文献 .33致谢 .34本科毕业设计(论文)1 引言1.1 概述语言是人类特有的功能,声音是人类最常用的工具。通过语音传递信息是人类最重要、最有效、最常用和最方便的信息交换形式。语言信号是人类进行思想疏通和情感交流的最主要途径 1。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,它以语音分析技术为理论基础, 结合计算机模式识别技术、语音生理学和语言学知识而形成,正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一性 2。在本课题中,将针对DTW算法,讨论如何实现对个别个体的特定声音进行语音识别的问题。1.2 语音识别的发展历史语音识别的研究工作大约开始于 50 年代,当时 AT&TBell 实验室实现了第一个可识别十个英文数字的语音识别系统Audry 系统。60 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP )和线性预测分析技术(LP) ,其中,后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。70 年代,语音识别领域取得了突破。在理论上,LP 技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和 DTW 技术的特定人孤立语音识别系统。80 年代,语音识别研究进一步走向深入。其显著特征是 HMM 模型和人工神经元 网络(ANN )在语音识别中的成功应。HMM 模型的广泛应用应归功于 AT&TBell 实验室科学家们的努力,他们把原本艰涩的 HMM 纯数学模型工程化,从而为更多研究者了解和认识,ANN 和 HMM 模型建立的语音识别系统,性能相当。本科毕业设计(论文)进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、ATTNTT 等著名公司都为语音识别系统的实用化开发研究投以巨资。我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院自动化所、声学所及北京大学等单位研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。目前语音识别研究的方向是生理学和自然语言处理与语音识别技术的结合,因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。科学技术推动了社会发展,满足人们的需求,社会需求也反过来推动科学技术发展。多媒体时代的来临,迫切要求解决自动语音识别的难题,必然推动语音识别理论和应用研究的进展。二十一世纪语音识别技术将会在理论上和应用上都取得突破性进展 我们将体会到语音识别带来的种种便利 3。1.3 语音识别技术的现状及发展趋势1、就算法模型方面而言,需要有进一步的突破。目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。此外,随着硬件资源的不断发展,一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。可以相信,半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。2、就自适应方面而言,语音识别技术也有待进一步改进。目前,象IBM的ViaVoice和Asiaworks的 SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进行训练。因此,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征,那可能比提高本科毕业设计(论文)一二个百分点识别率更重要。事实上,ViaVoice的应用前景也因为这一点打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。3、就强健性方面而言,语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机能听懂你的话,来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音技术的应用范围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(NoiseCancellation) 麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点呢?这的确是一个艰巨的任务。此外,带宽问题也可能影响语音的有效传送,在速率低于1000比特/秒的极低比特率下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输语音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的语音识别,就必须处理声音信号的特殊特征,如因为带宽而延迟或减损等。语音识别技术要进一步应用,就必须在强健性方面有大的突破。4、多语言混合识别以及无限词汇识别方面:简单地说,目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文转为英文,或者法文、俄文,计算机就会不知如何反应,而给出一堆不知所云的句子;或者用户偶尔使用了某个专门领域的专业术语,如“信噪比”等,可能也会得到奇怪的反应。这一方面是由于模型的局限,另一方面也受限于硬件资源。随着两方面的技术的进步,将来的语音和声学模型可能会做到将多种语言混合纳入,用户因此就可以不必在语种之间来回切换。此外,对于声学模型的进一步改进,以及以语义学为基础的语言模型的改进,也能帮助用户尽可能少或不受词汇的影响,从而可实行无限词汇识别。5、多语种交流系统的应用:最终,语音识别是要进一步拓展我们的交流空间,让我们能更加自由地面对这个世界。可以想见,如果语音识别技术在上述几个方面确实取得了突破性进展,那么多语种交流系统的出现就是顺理成章的事情,这将是语音识技术、机器翻译技术以及语音合成技术的完美结合,而如果硬件技术的发展能将这些算法进而固化到更为细小的芯片,比如手持移动设备上,那么个人就可以带着这种设备周游世界而无需担心任何交流的困难,你说出你想表达的意思,手持设备同时识别并将它翻译成对方的语言,然后合成并发送出去;同时接听对方的语言,识别并翻译成已方的语言,合成后朗读给你听,所有这一切几乎都是同时进行的,只是机器充当着主角 4。本科毕业设计(论文)任何技术的进步都是为了更进一步拓展我们人类的生存和交流空间,以使我们获得更大的自由,就服务于人类而言,这一点显然也是语音识别技术的发展方向,而为了达成这一点,它还需要在上述几个方面取得突破性进展,要实现这一点,Intel架构平台的性能进步也是一个关键的因素,最终,多语种自由交流系统将带给我们全新的生活空间。1.4 语音识别技术进入商用语音技术开辟了一个巨大的应用市场,目前的语音技术应用的程度如何呢?1、技术成熟:在技术方面,英语的语音技术比汉语的语音技术的商用程度更广,实用程度更好。在汉语的语音技术方面,国内的语音合成技术比较成熟,已经达到了商用的标准; 在语音识别方面,已经有一些产品开始投入商用。2、厂家众多:在语音识别方面,有国外的 IBM、Philips、Nuance 等公司;国内的有香港的 InfoTalk、捷通等。3、促进网络的融合:语音技术的发展,带动了网络的融合过程。目前,世界上的两大通信网络是电信网和计算机网,电信网是以语音信号为处理对象,计算机网则是以数据信号为其处理内容。语音技术为两干个网络的结合,奠定了技术基础。4、语音接入通过 PSTN:目前,人们进行信息交流的主要方式还是通过电话网。用户可以通过拨打一个电话号码,接入到信息访问中心。语音技术商机无限:1、金融采用了语音技术后,通过电话,不用人工的预,就可以进行账户余额查询,完成账户间的转账等工作。不仅提高了工作的效率,也改善了服务商的形象。2、证券用户通过电话可以查询当前的股市情况,不用再按电话上的按键,而是直接说出自己关心的股票的名称,计算机就通过语音合成技术,将结果播报出来。3、电信和寻呼:采用语音技术,在电信业务中将产生很多的应用。例如在“114”电话黄页中,目前还要有大量的人工服务; 而如果采用语音技术,就可以不用人工服务,让计算机自动接听用户的需要,然后回放查询的电话号码。寻呼目前还是通过寻呼小姐记下用户要寻呼的目标号码,然后将内容输入到寻呼系统进行发射; 采用语音技术后,可以让计算机自动地进行整个操作过程。4、旅游:用户可以通过电话,自动查询那些感兴趣的景点的语音介绍材料,相当于本科毕业设计(论文)请了一个电话导游。当出现问题时,也可以通过电话,进行各种求助。5、娱乐:语音技术在娱乐方面,也可以激发出许多的新应用。例如,在通过电话进行电视 MTV 点播时,可以避免重复地按电话上的按键,而是直接说出是哪个歌手的哪首歌,电视台就通过接收语音输入,播放相应的曲目 5。2 语音识别基础 2.1 语音信号生成的数学模型所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示.。建立了语音信号的数学模型,才能够用计算机来定量地对语音信号进行模拟和处理。所以语音信号生成的数学模型是语音信号处理的基础。建立数学模型的基本原则是要使这种关系不仅具有最大的精确度,而且还要最简单。理想的模型是线性的和时不变的。从人的发音器官的机理来看,发不同性质的声音时,声道的情况是不同的。另外,声门和声道的相互耦合,还形成语音信号的非线性特性。因此,语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号的特性是不随着时间变化的平稳随机过程。这样在这些短时间内表示语音信号时,可以采用线性时不变模型5。语音生成系统可以分成三个部分,在声门(声带)以下,称为“声门子系统” ,它负责产生激励振动,是“激励系统” ;从声门到嘴唇的呼气通道是声道,是“声道系统” ;语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统” 。语音信号可视为声门激励信号和声道冲击响应的卷积。对语音信号进行解卷,可将语音信号的声门激励信息及声道响应信息区分开来,从而求得声道共振特征和基音周期,用于语音识别等中。语音信号的倒谱分析就是求取语音倒谱特征参数的过程,相关内容将在后面具体介绍 6。2.2 语音信号的端点检测在分析处理之前必须把要分析的语音信号部分从输入信号中找出来,即端点检测。端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良本科毕业设计(论文)好的识别性能。有学者用一个多话者的数字识别系统做了如下一个实验。首先对所有记录的语音用手工找出准确的端点,得到它们的识别率;然后逐帧(帧长为 15ms)加大端点检测的误差,在每次加大误差的同时得到它们的识别率。结果表明在端点检测准确时识别率为93%的系统,当端点检测的误差在+60ms(4 帧)时,识别率降低了 3%;在+90ms(6 帧)时,降低了 10%;而当误差在进一步加大时,识别率急剧下降。这说明端点检测的成功与否甚至在某种程度上直接决定了整个语音识别系统的成败。在设计一个成功的端点检测模块时,会遇到下列一些实际困难: 信号取样时,由于电平的变化,难于设置对各次试验都适用的阀值。 在发音时,人的咂嘴声或其他某些杂音会使语音波形产生一个很小的尖峰,并可能超过所设计的门限值。此外,人呼吸时的气流也会产生电平较高的噪声。 取样数据中,有时存在突发性干扰,使短时参数变得很大,持续很短时间后又恢复为寂静特性。应该将其计入寂静段中。 弱摩擦音时或终点处是鼻音时,语音的特性与噪声极为接近,其中鼻韵往往还拖得很长。 如果输入信号中有 50Hz 工频干扰或者 A/D 变换点的工作点偏移时,用短时过零率区分无声和清音就变的不可靠。一种解决方法是算出每一帧的直流分量予以减除,但是这无疑加大了运算量,不利于端点检测算法的实时执行;另一种解决方法是采用一个修正短时参数,它是一帧语音波形穿越某个非零电平的次数,可以恰当地设置参数为一个接近于零的值,使得过零率对于清音仍具有很高的值,而对于无声段值却很低。但事实上,由于无声段以及各种清音的电平分布情况变化很大,在有些情况下,二者的幅度甚至可以相比拟,这给这个参数的选取带来了极大的困难。由上可见,一个优秀的端点检测算法应该能满足: 门限值应该可以对背景噪声的变化有一定的适应。 将短时冲击噪声和人的咂嘴等瞬间超过门限值的信号纳入无声段而不是有声段。 对于爆破音的寂静段,应将其纳入语音的范围而不是无声段。 应该尽可能避免在检测中丢失鼻韵和弱摩擦音等与噪声特性相似、短时参数较少的语音。 应该避免使用过零率作为判决标准而带来的负面影响。在做本课题时,端点检测方法是将语音信号的短时能量与过零率相结合加以判断的。但这种端点检测算法如果运用不好,将会发生漏检或虚检的情况。本科毕业设计(论文)语音信号大致可以分为浊音和清音两部分,在语音激活期的开始往往是电平较低的清音,当背景噪声较大时,清音电平与噪声电平相差无几。采用传统的语音端点检测方法很容易造成语音激活的漏检。而语音信号的清音段,对于语音的质量起着非常重要的作用。另一方面,较大的干扰信号,又有可能被当成是语音信号,造成语音激活的虚检。如可能出现弱摩擦音和鼻韵被切除、误将爆破音的寂静段或字与字的间隔认为是语音的结束、误将冲击噪声判决为语音等情况,因而实际运用中,如果处理的不好,则效果欠佳。为了克服传统端点检测算法的缺点,已有很多改进方法被提出来 7。例如,可以考虑采用基于相关性的语音端点检测算法。这种方法依据的理论是:语音信号具有相关性,而背景噪声则无相关性。因而利用相关性的不同,可以检测出语音,尤其是可以将清音从噪声中检测出来 8。为此,可以定义一种有效的相关函数,并且通过实验可以找到判别门限设定方法以及防止漏检和虚检的方法。以下将对语音信号的分帧,短时能量,过零率三方面进行探讨和实现。2.2.1 语音信号的分帧对语音信号进行分帧,本课题采用了 voice box 工具箱中的函数 enframe。其函数主要功能是将待端点检测的声音文件进行分帧,进行语音信号的采样,以便计算短时能量和过零率,为端点检测做基本的准备,在进行分帧时,根据实际的要求定义帧的属性,比如帧长和帧移。在使用这个函数时,非常方便,只要将其加入到 MATLAB 的搜索路径,就可以直接使用该函数了。2.2.2 短时能量的计算图 2.1 是数字“0”的波形图,可以看到,在 7500 之前的部分信号幅度很低,明显属于静音,而在 7500 以后,信号幅度开始增强,并呈现出比较明显的周期性。在波形下半部分可以观察到有规律的尖峰,两个尖峰之间的距离就是所谓的基音周期,实际上也就是说话人的声带振动的周期,声带每开启和闭合一次的时间为一个振动周期。它的倒数称为基音频率 9。通常基音频率范围随发音人的性别、年龄而定。老年男性偏低,小孩和青年女性偏高。基音频率决定了声音频率的高低,频率大则音调高,频率小则音调低 9。本科毕业设计(论文)图 2.1 数字“0”的语音波形由图 2.1 可以很直观地想到,可以用信号的幅度作为特征,区分静音和语音。只要设定一个门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下就认为语音结束。实际上,一般是用短时能量的概念来描述语音信号幅度的。设语音波形时域信号为 、加窗分帧处理后得到的第 n 帧语音信号为 ,则)(lx )(mxn满足下式:)(mxn(式 2.1)1)(Nmonxw(式 2.2)其 他 值01)(其中,n=0,1,T,2T,并且 N 为帧长,T 为帧移长度。设第 n 帧语音信号 的短时能量用 表示,则其计算公式如下:)(mxnnE(式 2.3)210E是一个度量语音信号幅度值变化的函数。n短时能量的主要用途有:1、可以区分浊音段与清音段,因为浊音时 值比清音时大nE的多。2、可以用来区分声母与韵母的分界,无声和有声的分界,连字(指字之间无间隙)的分界等。3、作为一种超音段信息,用于语音识别中。实际程序中,对于输入的语音信号 X(N),其中 N 为采样点,首先进行帧的操作,将语音信号分成每 2030 毫秒一段,相邻两帧起始点之间的间隔为 10 毫秒,也就是说两帧之间有 1020 毫秒的交叠。由于采样频率的差异,帧长和帧移所对应的实际采样点数也是不同的。对于 8KHZ 采样频率,30 毫秒的帧长对应 240 点,记为 N,而 10 毫秒的帧移对应 80点,记为 M。本科毕业设计(论文)对于第 i 帧,第 n 个样本,它与原始语音信号的关系为:xi(n)=x(i-1)M+n第 i 帧语音信号的短时能量可以用下面几种算法得到:e(i)=|xi(n)|e(i)=xn(n)e(i)=logxn(n)三种定义的短时能量分别用下面三行 MATLAB 命令实现:amp1 = sum(abs(y),2);amp2 = sum(y.*y,2);amp3 = sum(log(y.*y+eps),2);其中 amp3 中之所以加上小的浮点数 eps,是为了防止 log 运算中可能出现的溢出。三种能量的输出要由语音信号的分帧函数 enframe 决定,当分帧的帧长和帧移比较大的时候,那么输出的短时能量值就比较大,当语音信号的分帧的帧长和帧移比较小的时候,那么输出的短时能量值就比较小。2.2.3 过零率计算将语音信号分帧后计算每帧的短时能量,再设定一个门限,就可以实现一个简单的端点检测算法。但是这样的算法是很不可靠的,因为人的语音分清音和浊音两种,浊音为声带振动发出,对应的语音信号有幅度高,周期性明显的特点,而清音则不会有声带的振动,只是靠空气在口腔中的摩擦,冲击或爆破而发声,其短时能量一般比较小,如声母“s”,“ c”等的幅度很低,往往会基于能量的算法漏过去。图 2.2 显示的是数字“7”的波形,可见声母“q”的范围约为 6500-7500,其幅度明显比后面的幅度低,而比前面的静音部分高。声母“s”和“c”的幅度往往更低,以至于有时用肉眼都难以与静音部分相辨别,因此基于能量的算法对这些清音信号几乎无能为力 10。本科毕业设计(论文)图 2.2 数字“7”的波形对于图 2.2 的静音段声母开始段,可以发现静音和声母的区分点大致在 6550 左右。尽管此时不能用短时能量可靠地区分,但是可以发现在静音段信号的波形变化相对比较缓慢,而在清音段,由于口腔空气摩擦的效果,所造成的波形在幅度上的变化比较剧烈,通常可以用一帧信号中波形穿越零电平的次数来描述这种变化的剧烈程度,称为过零率。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数 10。定义语音信号 的短时过零率 为:)(mxnnZ(式 2.4))1(sg)(s210 mxxnnNn式中, 是符号函数,即:sg(式 2.5))0(1nx实际应用中,为了避免静音段的随机噪声产生过高的过零率,通常都先设定一个门限,当前后两个采样的符号不同,而且差值大于该门限的时候,就将过零率的数值加 1。在 MATLAB 中,用以下核心代码实现过零率:zcr=zeros(size(y,1),1);delta=0.02;for i=1:size(y,1)x = y(i,:);本科毕业设计(论文)for j = 1:length(x)-1if x(j) *x(j+1)deltazcr(i) = zcr(i)+1;endendend其核心思想是:判断相邻两帧的符号是否小于零,并且两帧的差值是否大于设定的一个门限值 delta,如果满足以上两个条件,那么过零率加 1。其中设置了门限delta=0.02,这是个经验值,可以进行细微的调整。为了进一步探讨过零率对语音信号的判断作用,分别对数字“7”和“5”进行过零率输出图形进行比较,图 2.3 为数字“7”的过零率图形,图 2.4 为数字“5”的过零率图形:图 2.3 数字“7”的过零率图 2.4 数字“5”的过零率本科毕业设计(论文)从图可以看到,数字“7”语音信号部分的幅度比较低,但是其过零率的数值却很高,峰值将近 50,而在后面的韵母部分过零率则比较低,在 20 左右。而数字“5”语音信号部分一开始的幅度就比较高,而过零率也比较高,随着幅度的升高,过零率也升高。由此可见,过零率能够敏感得表示清音。在实际应用中,通常是利用过零率来检测清音,用短时能量来检测浊音,两者配合实现可靠的端点检测。2.3 语音信号的特性分析语音信号的特性主要是指它的声学特性、语音信号的时域波形和频域特性以及语音信号的统计特性等。语音信号属于短时平稳信号,一般认为在 1030ms 内语音信号特性基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025江西吉安市永新县面向社会招聘城市社区专职网格员37人考前自测高频考点模拟试题及答案详解(有一套)
- 2025年湖南长沙市开福区公开招聘教师140人模拟试卷及1套参考答案详解
- 2025广东郁南县兴华产业投资有限公司、郁南县兴瑞产业投资有限公司招聘员工6人考前自测高频考点模拟试题及一套参考答案详解
- 2025湖北恩施州鹤峰县国有资本投资运营有限公司下属公司招聘职业经理人1人考前自测高频考点模拟试题及完整答案详解
- 2025广东湛江法院劳动合同制司法辅助人员招聘9人模拟试卷及答案详解(历年真题)
- 2025广东大塘街招聘辅助人员1人模拟试卷及答案详解(名师系列)
- 2025阿勒泰市消防救援大队招聘编制外政府专职消防员(21人)模拟试卷及一套参考答案详解
- 2025年济宁高新区事业单位公开招聘工作人员(教育类)(47人)考前自测高频考点模拟试题及答案详解(全优)
- 2025贵州安顺市实验学校阅山校区选调教师41人考前自测高频考点模拟试题附答案详解(完整版)
- 2025年甘肃省特种设备检验检测研究院聘用人员招聘考前自测高频考点模拟试题及答案详解(全优)
- GJB3243A-2021电子元器件表面安装要求
- 人教版小学英语单词表(完整版)
- 自家停车位申请按照充电桩四方协议书
- 生产组织供应能力说明
- 足金点钻工艺培训
- JJG 162-2019饮用冷水水表
- 山西省煤矿安全生产管理人员培训考试题库(浓缩500题)
- 空调负荷计算-空调负荷的计算(空调工程)
- 计算机视觉之图像分类课件
- 输电线路工程安全风险识别、评估、预控措施
- 大学英语三级词汇表(新版)
评论
0/150
提交评论