基于MATLAB语音信号检测分析及处理说明书_第1页
基于MATLAB语音信号检测分析及处理说明书_第2页
基于MATLAB语音信号检测分析及处理说明书_第3页
基于MATLAB语音信号检测分析及处理说明书_第4页
基于MATLAB语音信号检测分析及处理说明书_第5页
已阅读5页,还剩26页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于MATLAB的语音信号检测分析及处理1第一章绪论洗手MATLAB是矩阵实验室(MATRIXLABORATORY)的简称,吃饭是美国MATHWORKS公司出品的商业数学软件,吃饭用于算法开发、BEEF数据可视化、BEEF数据分析以及数值计算的高级技术计算语言和交互式环境,吃饭主要包括MATLAB和SIMULINK两大部分。洗手洗手11MATLAB简介洗手MATLAB是英文MATRIXLABORATORY(矩阵实验室)的缩写。洗手早期的MATLAB是用FORTRAN语言编写的,吃饭尽管功能十分简单,吃饭但作为免费软件,吃饭还是吸引了大批使用者。洗手经过几年的校际流传,吃饭在JOHNLITTLE。洗手CLEVEMOLER和STEVEBANGER合作,吃饭于1984年成立MATHWORKS公司,吃饭并正式推出MATLAB第一版版。洗手从这时起,吃饭MATLAB的核心采用C语言编写,吃饭功能越来越强大,吃饭除原有的数值计算功能外,吃饭还新增了图形处理功能。洗手洗手MATHWORKS公司于1992年推出了具有划时代意义的40版;BEEF1994年推出了42版扩充了40版的功能,吃饭尤其在图形界面设计方面提供了新方法;BEEF1997年春50版问世,吃饭50版支持了更多的数据结构,吃饭使其成为一种更方便、BEEF更完善的编程语言;BEEF1999年初推出的MATLAB53版在很多方面又进一步改进了MATLAB语言的功能,吃饭随之推出的全新版本的最优化工具箱和SIMULINK30达到了很高水平;BEEF2000年10月,吃饭MATLAB60版问世,吃饭在操作页面上有了很大改观,吃饭为用户的使用提供了很大方便,吃饭在计算机性能方面,吃饭速度变的更快,吃饭性能也更好,吃饭在图形界面设计上更趋合理,吃饭与C语言接口及转换的兼容性更强,吃饭与之配套的SIMULINK40版的新功能也特别引人注目;BEEF2001年6月推出的MATLAB61版及SIMULINK41版,吃饭功能已经十分强大;BEEF2002年6月推出的MATLAB65版及SIMULINK50版,吃饭在计算方法、BEEF图形功能、BEEF用户界面设计、BEEF编程手段和工具等方面都有了重大改进;BEEF2004年,吃饭MATHWORKS公司推出了最新的MATLAB70版,吃饭其中集成了最新的MATLAB7编译器、BEEFSIMUMLINK60仿真软件以及很多工具箱。洗手这一版本增加了很多新的功能和特性,吃饭内容相当丰富。洗手洗手MATLAB主要面对科学计算、BEEF可视化以及交互式程序设计的高科技计算环境。洗手它将数值分析、BEEF矩阵计算、BEEF科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中,吃饭为科学研究、BEEF工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,吃饭代表了当基于MATLAB的语音信号检测分析及处理2今国际科学计算软件的先进水平。洗手洗手MATLAB的优势1工作平台编程环境十分友好(2)编程语言简单易用(3)数据的计算处理能力十分强大(4)图像处理能力强大(5)模块集合工具箱应用广泛(6)程序的接口和发布平台很实用(7)可以开发用户界面。洗手洗手MATLAB语言的特点MATLAB语言被称为第四代计算机语言,吃饭其利用丰富的函数资源,吃饭使程序员从繁琐的程序代码中解放出来,吃饭其最突出的特点就是简洁。洗手MATLAB用更直观的、BEEF符合人们思维习惯的代码,吃饭代替了C和FORTRAN语言的冗长代码,吃饭给用户带来最直观、BEEF最简洁的程序开发环境,吃饭下面简单介绍一下MATLAB的主要特点。洗手洗手语言简洁紧凑,吃饭使用方便,吃饭库函数十分丰富。洗手MATLAB程序书写的形式自由,吃饭利用丰富的库函数避开了繁琐的子程序编程任务,吃饭由于库函数都是由本领域的专家编写,吃饭所以不必担心函数的可靠性。洗手洗手高效方便的矩阵和数组运算,吃饭MATLAB语言不需要定义数组的维数,吃饭并给出了矩阵函数、BEEF特殊矩阵函数、BEEF特殊矩阵专门的库函数,吃饭使得在求解信号处理、BEEF建模、BEEF系统识别、BEEF优化和控制等领域的问题时,吃饭显得大为简洁、BEEF方便、BEEF高效,吃饭这是其他高级语言所不能的。洗手洗手MATLAB既具有结构化的控制语句,吃饭又具有面向对象编程的特性。洗手洗手MATLAB语法限制不严格,吃饭程序设计自由度大,吃饭通过建立M后缀名文件的形式,吃饭与用户已经编好的FORTRAN、BEEFC语言成语混合编程,吃饭方便地调用有关的FORTRAN、BEEFC语言的子程序。洗手可移植性很好,吃饭基本上不做修改就可以在各种型号的计算机和操作系统上面运行。洗手洗手MATLAB的图形功能强大。洗手在C和FORTRAN语言里,吃饭绘图都很不容易,吃饭但在MATLAB里,吃饭数据的可视化非常简单。洗手此外,吃饭MATLAB还具有较强的编辑图形界面的能力。洗手洗手MATLAB拥有功能强大的工具箱,吃饭主要用来扩充其符号计算功能、BEEF图示建模仿真功能、BEEF文字处理功能以及与硬件实施交互功能。洗手洗手源程序的开放性强。洗手除内部函数以外,吃饭所有MATLAB的核心文件和工具箱文件都是可读可改变的源文件,吃饭用户可通过对源文件的修改以及加入自己的文件构成新的工具箱。洗手洗手基于MATLAB的语音信号检测分析及处理3MATLAB软件自1984年推向市场以来,吃饭历经十几年的发展和竞争,吃饭现已成为国际公认的最优秀的科技应用软件。洗手它功能强大、BEEF界面友好、BEEF语言自然、BEEF开放性强,吃饭很快成为应用学科计算机辅助分析、BEEF设计、BEEF仿真、BEEF教学乃至科技文字吹不可缺少的基础软件。洗手洗手12语音概述洗手121语音简介洗手语音,吃饭即语言的声音,吃饭是语言符号系统的载体。洗手它由人的发音器官发出,吃饭负载着一定的语言意义,吃饭语言依靠语音实现它的社会功能。洗手语音是人们交流思想和进行社会活动的最基本手段,因此我们要对语音信号进行处理分析,吃饭优化人类通信交流。洗手语音信号处理包括语音通信、BEEF语音增强、BEEF语音合成、BEEF语音识别和说话人识别等方面。洗手语音信号的好坏、BEEF语音识别率的高低,吃饭都取决于语音信号处理的好坏。洗手因此,吃饭语音信号处理是一项非常有意义的研究课程,吃饭而语音端点检测是语音语音信号处理中非常重要的一步。洗手洗手语音端点检测是语音分析、BEEF合成和识别中的一个重要环节,吃饭目的是从包含语音的一段信号中找出语音的起始点及结束点,吃饭从而只存储和处理有效语音信号。洗手有效的端点检测不仅可以减少数据的存和处理时间,吃饭而且能排除无声段的噪声干扰。洗手端点检测的困难在于无声段或者语音段前后人为呼吸等产生的杂音、BEEF语音开始处的弱摩擦音或弱爆破音以及终点处的鼻音,吃饭这些使得语音的端点比较模糊,吃饭需要综合利用语音的各种信号特征,吃饭从而确保定位的精确性,吃饭避免包含噪音信号和丢失语音信号。洗手近年来出现了很多种端点检测的方法如短时能量、BEEF短时过零率、BEEF传统的双门限法、BEEF倒谱特征的检测方法、BEEF谱熵的检测方法法、BEEF分形法等。洗手尽管语音端点检测技术在安静的环境中已经达到了令人鼓舞的准确率,吃饭但是在实际应用时由于声的引入和环境的改变通常会使系统性能显著下降。洗手研究表明,吃饭即使在安静的环境中,吃饭语音识别系统一半以上的识别错误来自端点检测器。洗手因此,吃饭作为语音识别系统的第一步,吃饭端点检测的关键性不容忽视,吃饭尤其是噪声环境下语音的端点检测,吃饭实验室的研究结果与复杂的实用环境下的语音端点检测仍存在一定的差距,吃饭它的准确性很大程度上直接影响着后续的工作能否有效进行,吃饭如何准确地检测出带噪语音的端点至今仍是一个难题。洗手洗手洗手基于MATLAB的语音信号检测分析及处理4122研究背景及意义洗手语音是语言的声学表现形式,吃饭语言是人类特有的功能,吃饭声音是人类常用的信息交流工具,吃饭通过声音传递信息是人类最重要、BEEF最有效、BEEF最准确、BEEF最方便、BEEF最自然的信息交换的方式。洗手语音信号处理是一门涉及面很广的交叉科学,吃饭包含计算机科学、BEEF语音学、BEEF语言学、BEEF声学、BEEF生理学、BEEF心理学和数学等诸多领域的内容。洗手随着现代科学的蓬勃发展,吃饭人类社会越来越显示出信息社会的特点,吃饭犹如衣、BEEF食、BEEF住、BEEF行对于人类是必要的一样,吃饭通信和信息交换也成为了人类社会存在的必要条件,吃饭不但在人与人之间,吃饭而且在人与机器之间每时每刻都需要进行大量的信息交换。洗手让计算机听懂人类的语言,吃饭是人类自计算机诞生以来梦寐以求的想法。洗手洗手语音技术的应用己经成为一个具有竞争性的高新技术产业,吃饭它正在直接与办公、BEEF交通、BEEF金融、BEEF公安、BEEF商业、BEEF旅游等行业的语音咨询与管理,吃饭工业生产部门的语声控制,吃饭电话、BEEF电信系统的自动拨号、BEEF辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,吃饭并且有望成为下一代操作系统和应用程序的用户界面。洗手语音处理内容涉及到计算机科学、BEEF模式识别、BEEF信号处理、BEEF生理学、BEEF语音学、BEEF心理学等学科,吃饭还涉及到信号和信息处理系统、BEEF通信和电子系统等具体应用领域。洗手语音信号处理与信息科学中最活跃的前沿科学密切联系,吃饭并且共同发展。洗手例如,吃饭神经网络理论、BEEF模糊集理论、BEEF小波理论是当前热门的研究领域,吃饭这些领域的研究常常把语音处理任务作为一个应用实例,吃饭而语音处理研究者也从这些领域的研究进展中找到突破口,吃饭使语音处理技术研究取得进展。洗手洗手经过几十年的努力,吃饭语音信号处理在语音识别、BEEF语音增强、BEEF语音编码、BEEF说话人识别、BEEF说话人情感识别、BEEF语音合成等方面取得了巨大的进步,吃饭然而,吃饭一旦这些技术应用在实际环境中,吃饭由于环境噪声、BEEF信道等方面的影响,吃饭性能急剧下降,吃饭因为在实际环境中没有完全纯净的语音信号,吃饭一般都会伴有噪声或其它干扰。洗手。洗手语音检测的任务就是判断待处理信号是语音还是非语音,吃饭从输入信号中找到语音部分的起止点。洗手语音检测是语音识别、BEEF语音增强以及语音编码等中的一个重要环节。洗手有效的语音检测技术不仅能减少系统的处理时间、BEEF提高系统的处理实时性,吃饭而且能排除无声段的噪声干扰,吃饭从而使后续工作的性能得以较大提高。洗手洗手基于MATLAB的语音信号检测分析及处理5洗手洗手第二章语音信号处理洗手21语音信号特点洗手语音信号是随时间变化的一维信号,吃饭由一连串的音组成,吃饭各个音的排列有一定的规则。洗手语音具有声学特征的物理性质,吃饭声音质量与它的频率范围有关,吃饭语音信号的频率一般是在200HZ3500HZ范围内,吃饭随着带宽的增加,吃饭信号的自然度将逐步得到改善。洗手语音信号本身的冗余度是较大的,吃饭少数辅音清晰度下降并不明显影响语句的可懂度,吃饭比如通常的模拟电话带宽只有3KHZ4KHZ。洗手洗手语音信号的特性是随时间变化的,吃饭所以是一种典型的非稳态信号。洗手但是,吃饭从另一方面来看,吃饭由于语音的形成过程与发音器官的运动密切相关,吃饭这种物理运动比起声音振动速度来讲要缓慢得多,吃饭因此,吃饭语音信号常常可假定为短时平稳的。洗手研究表明,吃饭在5MS40MS的范围内,吃饭语音信号的频谱特性和一些物理特征参数基本保持不变。洗手这样,吃饭我们就可以将平稳过程的处理方法和理论引入到语音信号的短时处理中。洗手因此,吃饭“短时分析技术”贯穿于语音分析的全过程。洗手洗手语音信号的基本组成单位是音素。洗手音素可分成“浊音”和“清音”两大类。洗手如果将不存在语音而只有背景噪声的情况称为“无声”。洗手那么音素可以分成“无声”、BEEF“浊音”、BEEF“清音”三类。洗手一个音节由元音和辅音构成。洗手元音在音节中占主要部分。洗手所有元音都是浊音。洗手在汉语普通话中,吃饭每个音节都是由“辅音一元音”构成的。洗手在信号处理中,吃饭语音按其激励形式的不同可分为2类BEEF(1)浊音当气流通过声门时,吃饭如果声带的张力刚好使声带发生张弛振荡式的振荡,吃饭产生一股准周期的气流,吃饭这一气流激励声道就产生了浊音。洗手这种语音信号是1种激励信号,吃饭它是由规则的全程激励产生的,吃饭其时域波形具有准周期性,吃饭语音频率集中在比较低的频率范围内,吃饭短时能量较高,吃饭由于语音信号中的高频成分有高的过零率而低频有低的过零率,吃饭因此浊音的过零率低。洗手通常,吃饭浊音信号可以由周期激励通过线性滤波器合成。洗手(2)清音当气流通过声门时,吃饭如果声带不振动,吃饭而在某处收缩,吃饭迫使气流高速通过这一收缩部分而产生湍流,吃饭就得到清音。洗手清音是由不规则的激励产生的,吃饭发清音时声带不振动,吃饭其时域波形不具有周期性,吃饭自相关函数没有很强的自相关周期峰,吃饭其语音频率集中在较高的范围内,吃饭短时基于MATLAB的语音信号检测分析及处理6能量较低,吃饭因而过零率较高。洗手通常,吃饭清音信号可由白噪声通过线性滤波器合成。洗手洗手洗手211语音信号的“短时谱”洗手对于非平稳信号,吃饭它是非周期的,吃饭频谱随时间连续变化,吃饭因此由傅里叶变换得到的频谱无法获知其在各个时刻的频谱特性。洗手如果利用加窗的方法从语音流中取出其中一个短段,吃饭再进行傅里叶变换,吃饭就可以得到该语音的短时谱。洗手洗手212基音周期洗手浊音信号的周期称为基音周期,吃饭它是声带振动频率的倒数,吃饭基音周期的估计称为基音检测。洗手基音检测是语音处理中的一项重要技术,吃饭它在有调语音辨意、BEEF低速率语音编码、BEEF说话人识别等方面起着非常关键的作用。洗手但在实现过程中,吃饭由于声门激励波形不是一个完全的周期脉冲串,吃饭再加上声道影响去除不易、BEEF基音周期定位困难、BEEF背景噪声影响强烈等一系列因素,吃饭基音检测面临着很大的困难。洗手现在已有很多性能优越的基音检测算法,吃饭自相关基因检测算法就是一种基于语音时域分析理论较好的算法,吃饭在这里基于声音文件比较稳定的基础上,吃饭使用观察法获取基音周期。洗手洗手22语音信号预处理洗手为了消除因为人类发声器官本身和因一些采集语音信号的设备等所引起的混叠、BEEF高次谐波失真现象,吃饭在对语音信号进行分析和处理之前,吃饭必须对其进行预处理。洗手语音信号的预处理应尽可能地保证处理后得到的信号更均匀、BEEF平滑,吃饭且能提高语音的质量。洗手洗手221预加重洗手在进行语音信号数字处理时,吃饭为了获取一段语音信号的时域波形,吃饭首先要将语音信号转换成电信号,吃饭再用A/D转换器将其变换为离散的数字化采样信号。洗手己经数字化的语音信号将依次进入一个数据区。洗手由于语音信号的平均功率受声门激励和口鼻辐射影响,吃饭高频端大约在800HZ以上按6DB/倍频程跌落,吃饭即6DB/OCT2倍频或20DB/DEC10倍频,吃饭所以求语音信号频谱时,吃饭频率越高相应的成分越小,吃饭高频部分的频谱比低频部分的难求,吃饭为此要在预处理中进行预加重基于MATLAB的语音信号检测分析及处理7处理。洗手目的是提升高频部分,吃饭使信号变得平坦,吃饭保持在低频到高频的整个频带中,吃饭能用同样的信噪比求频谱,吃饭而且预加重零点与辐射零点将抵消声门波的影响,吃饭使语音信号中只包含声道部分,吃饭以便于频谱分析或声道参数分析。洗手图21表明了语音预处理的过程洗手采样量化预加重加窗分帧算法处理语音洗手图21语音信号的预处理洗手预加重一般是在语音信号数字化之后,吃饭用具有6DB/倍频程的提升高频特性的预加重数字滤波器来实现,吃饭它一般是一阶的数字滤波器BEEF洗手(21)洗手1ZH式中的取值接近于1。洗手洗手有时要恢复原信号,吃饭需要从做过预加重的信号频谱来求实际的频谱时,吃饭要对测量值进行去加重处理,吃饭即加上6DB/倍频程的下降的频率特性来还原成原来的特性。洗手洗手222加窗分帧洗手语音信号检测首先要进行分帧处理,吃饭然后依次判断每一帧是否为语音的端点。洗手如果采用较小的窗长,吃饭则计算量增加,吃饭语音识别的速度会降低。洗手我们可以在语音静音段时,吃饭采用较长的窗;BEEF在语音和静音的过渡段时采用较小的窗,吃饭可以确切判断语音的起始点;BEEF一旦确定语音的起点,吃饭就改用常规窗长。洗手洗手在进行了预加重后,吃饭接下来就要对语音信号进行加窗分帧处理。洗手将语音信号划分为许多短时的语音段,吃饭每个短时的语音段称为一个分析帧。洗手另外,吃饭由于不同语音信号的基音周期不同,吃饭为了兼顾男声和女声的最高和最低基音频率,吃饭且能准确地描述语音能量自身的实际变化规律,吃饭通常将窗宽选为10MS20MS。洗手洗手基于MATLAB的语音信号检测分析及处理8洗手图22帧长和帧移洗手如图22所示分帧一般采用交叠分段的方法,吃饭这是为了使帧与帧之间能平滑过渡,吃饭保持其连续性。洗手前一帧和后一帧的交叠部分称为帧移,吃饭帧移与帧长的比值一般取为005之间。洗手分帧是用可移动的有限窗口长度进行加权实现的,吃饭即用窗函数乘以语音信号SN,吃饭从而形成加窗的语音信号洗手N(22)洗手NS由于窗函数一般取为SN中间大两头小的光滑函数,吃饭这样的冲激响应所对应的滤波器具有低通特性,吃饭其带宽和频率取决于窗函数的选取。洗手用得最多的三种窗函数是矩形窗、BEEF汉明窗HAMMING和汉宁窗HANNING,吃饭它们的定义如下洗手矩形窗BEEF洗手(23)洗手其他,011NNN汉明窗BEEF洗手(24)洗手546COS2/1,010,NNN其他汉宁窗BEEF洗手(25)洗手其他,010,/2COS15NNN式中N为窗长,吃饭窗函数的选取形状和长度对于短时分析参数的特性影响很大,吃饭为此应该选择合适的窗口,吃饭使其短时参数能更好地反映语音信号的特性变化。洗手以上这些窗函数的幅度频率响应都具有低通特性,吃饭它们的主瓣宽度和旁瓣高度如表11所示。洗手洗手基于MATLAB的语音信号检测分析及处理9表111S长的各种窗的主瓣宽度和旁瓣高度矩形汉明汉宁主瓣宽度081HZ119HZ187HZ旁瓣宽度13DB43DB32DB从表中可知BEEF矩形窗的主瓣宽度最小,吃饭但其旁瓣高度最高;BEEF汉明窗的主瓣最宽,吃饭而旁瓣高度最低。洗手矩形窗的旁瓣太高,吃饭会产生严重的泄漏现象。洗手汉明窗旁瓣最低,吃饭可以有效地克服泄漏现象,吃饭具有更平滑的低通特性,吃饭因此,吃饭一般在语音信号预处理中,吃饭都选用汉明窗来进行语音分帧处理。洗手洗手洗手23语音信号分析洗手语音信号处理包括语音识别、BEEF语音合成、BEEF语音编码、BEEF说话人识别等方面,吃饭但是其前提和基础是对语音信号进行分析。洗手只有将语音信号分析成表示其本质特性的参数,吃饭才有可能利用这些参数进行高效的语音通信,吃饭以及建立用于识别的模板或知识库。洗手而且,吃饭语音识别率的高低,吃饭语音合成的音质好坏,吃饭都取决于对语音信号分析的准确性和精度。洗手洗手231短时时域分析洗手语音信号本身就是时域信号,吃饭因此,吃饭时域分析方法是应用最为广泛的一种方法,吃饭这种方法直接利用语音信号的时域波形。洗手时域分析通常用于最基本的参数分析以及用于语音的分割、BEEF预处理等。洗手语音信号的时域参数有短时能量、BEEF短时平均幅度、BEEF短时过零率、BEEF短时自相关函数等,吃饭这些是语音信号中一组最基本的短时参数,吃饭在各种语音信号数字处理技术中都有重要应用。洗手洗手进行语音信号分析时,吃饭最先接触到且最直观的就是它的时域波形。洗手时域分析通常用于最基本的参数分析,吃饭语音的分割、BEEF预处理和大分类。洗手这种分析方法的特点是表示语音信号比较直观、BEEF物理意义明确;BEEF实现起来比较简单、BEEF运算量少;BEEF可得到语音的一些重要参数;BEEF可采用示波器等通用设备进行观测。洗手取样之后要对信号进行量化,吃饭而量化过程不可避免地会产生量化误差,吃饭即量化后的信号值与原信号之间的差值。洗手洗手洗手232频域分析洗手基于MATLAB的语音信号检测分析及处理10语音信号频域分析,吃饭主要是对一些频域的参数进行分析,吃饭常用的一些频域参数有频谱、BEEF功率谱、BEEF倒谱等等,吃饭最常用的频域分析方法有傅立叶变换法、BEEF线性预测法等。洗手洗手1、BEEF傅立叶变换法洗手傅里叶频谱变换是语音信号频域分析中广泛使用的方法,吃饭是分析线性系统和平稳信号稳态特性强有力的手段,吃饭对分帧加窗后的语音信号,吃饭进行傅里叶变换和逆傅里叶变换,吃饭可以相应的得到频谱,吃饭功率谱,吃饭倒谱距离,吃饭嫡等特征。洗手由于语音信号的特性是随着时间缓慢变化,吃饭所以采用短时傅里叶变换,吃饭相应的求得特征为短时频域特征,吃饭这里的窗函数都使用汉明窗。洗手洗手(1)短时频谱和短时功率谱洗手设信号经过傅里叶变换后在频域记为,吃饭则与的关MXNJWNEXJWNEMXN系见公式16。洗手洗手(26)洗手JWMNMNJWNEXEX10语音的频谱为的幅度,吃饭则有洗手JN(27)洗手JWJWNEP语音的短时功率谱的是幅度的平方,吃饭所以短时功率谱的计算方法为洗手(28)洗手2JWNJWNXG(2)倒谱距离洗手语音信号的倒谱分析是通过同态处理来实现的。洗手同态信号处理也称为同态滤波,吃饭就是将非线性问题转化为线性问题的处理方法。洗手由于语音信号可视为声门激励信号和声道冲击响应的卷积,吃饭可以对语音信号进行解卷。洗手倒谱能很好表示语音的特征,吃饭在强噪声环境下,吃饭可通过倒谱系数求得倒谱距离,吃饭使用倒谱距离来作为端点检测的特征。洗手信号的倒谱也可以定义为信号的能量谱密度函数S叻的对数的傅里叶级数展开式的系数,吃饭洗手(29)洗手JNWNECSLOG即为倒谱系数,吃饭通过倒谱系数求得倒谱距离几为洗手NCCEPD基于MATLAB的语音信号检测分析及处理11(210)(3)熵洗手PNCEPNCCND1202013429熵用表示是物质的复杂程度的一种反映。洗手熵代表的信息量,吃饭的概率HHX分布越模糊,吃饭越难判断,吃饭洗手则的熵为(211)洗手XINIPLOG12、BEEF线性预测法洗手线性预测分析的基本思想是BEEF由于语音样点之间存在相关性,吃饭所以可以用过去的样点值来预测现在或未来的样点值,吃饭即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。洗手通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。洗手而这组预测系数就反映了语音信号的特征,吃饭可以作为语音信号特征参数用与语音识别、BEEF语音合成等。洗手洗手将线性预测应用与语音信号处理,吃饭不仅是因为它的预测功能,吃饭而且更重要的是因为它能提供一个非常好的声道模型及模型参数估计方法。洗手线性预测的基本原理和语音信号数字模型密切相关。洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手基于MATLAB的语音信号检测分析及处理12第三章语音信号检测洗手31清音浊音检测洗手311信号采集洗手该设计以本人的声音为分析样本。洗手。洗手可得出声音的采样频率为11025HZ,吃饭且声音是单通道的。洗手利用SOUND函数,吃饭可清晰地听到读音为BEEF“电子信息”的音频信号。洗手采集数据并画出波形图如下所示,吃饭FS为采样频率,吃饭X为采样数据,吃饭接下来对采样数据作傅里叶变换YFFTX并画出频谱图如图1所示,吃饭程序如下BEEF洗手FS11025BEEF抽样频率洗手XWAVREADYINWAVBEEF洗手SOUNDX1,11025BEEF读取语音信号“电子信息”洗手FIGURE1洗手SUBPLOT211洗手PLOTX做原始语音信号的时域图形洗手TITLE原始语音信号波形BEEF洗手XLABEL样点数BEEFX轴的名字是“样点数”洗手YLABEL幅值BEEFY轴名字是“幅值”洗手GRIDONBEEF洗手N128BEEF洗手N0N1BEEF洗手YFFTXBEEF对X进行傅里叶变换洗手MAGABSYBEEF求幅值洗手F0LENGTHY1FS/LENGTHYBEEF进行对应的频率转换洗手FIGURE1洗手SUBPLOT212洗手PLOTF,MAGBEEF做原始语音信号的频谱图洗手XLABEL频率HZBEEF洗手YLABEL幅值BEEF洗手TITLE原始信号频谱图BEEF洗手GRIDONBEEF洗手基于MATLAB的语音信号检测分析及处理13洗手洗手图1原始语音信号波形及频谱图洗手由频谱图可清楚地看到样本声音主要以低频为主。洗手人的语音信号频率一般集中在200KHZ到45KHZ之间,吃饭从声音频谱的包络来看,吃饭样本声音的能量集中在0111025HZ以内,吃饭04以外的高频部分很少。洗手所以信号宽度近似取为11KHZ,吃饭由采样定理可得。洗手洗手HZFOS20512洗手312短时能量和短时平均幅度洗手能量是语音的一个重要特性,吃饭由于语音信号的能量随时间变化,吃饭清音和浊音之间的能量差别相当显著,吃饭清音的能量较小,吃饭浊音的能量较大。洗手因此对语音的短时能量进行分析,吃饭可以描述语音的这种特征变化情况。洗手短时能量定义为BEEF洗手221NNMMNEXWXW(31)洗手其中,吃饭W(N)是窗函数,吃饭N是窗长。洗手特殊地,吃饭当采用矩形窗时,吃饭可简化为BEEF洗手2NMX(32)洗手由此表明,窗口加权短时平均能量EN相当于将“语音平方”信号通过一个单位函数响应为HN的线性滤波器的输出。洗手洗手基于MATLAB的语音信号检测分析及处理14本次语音信号的短时平均能量和短时平均幅度如下图2所示及程序如下BEEF洗手N240BEEF洗手YWAVREADYINWAVBEEF洗手LLENGTHYBEEF洗手LLLENGTHY/NBEEF洗手FIGURE2洗手EMZEROS1,LL1240BEEF洗手FORII1LL1240,洗手TEMPYIIII240BEEF洗手EMIISUMTEMPTEMPBEEF洗手END洗手JJ1LL1240BEEF洗手SUBPLOT211洗手PLOTJJ,EM,BBEEF绘制短时平均能量曲线洗手XLABEL帧数BEEF洗手YLABEL短时能量BEEF洗手TITLE短时平均能量BEEF洗手GRIDONBEEF洗手短时平均幅度MNSUMABSY/N洗手MNZEROS1,LL1240BEEF洗手FORII1LL1240,洗手TEMPYIIII240BEEF洗手MNIISUMABSTEMP/NBEEF洗手END洗手FIGURE2洗手JJ1LL1240BEEF洗手SUBPLOT212洗手PLOTJJ,MN,BBEEF绘制短时平均幅度曲线洗手XLABEL帧数BEEF洗手YLABEL短时平均幅度BEEF洗手基于MATLAB的语音信号检测分析及处理15TITLE短时平均幅度BEEF洗手GRIDONBEEF洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手洗手图2短时平均能量和短时平均幅度洗手由上图发现,语音浊音段的短时平均能量远远大于清音段的短时平均能量。洗手因此,短时平均能量EN的计算给出了区分清音段与浊音段的依据,即EN浊EN清。洗手根据EN由高到低的跳变可定出浊音变为清音语音的时刻,EN由低向高的跳变可定出清音变为浊音语音的时刻,吃饭而只有浊音才有基音周期,清音的基音周期为零。洗手故清浊音判断是基音检测的第一步。洗手洗手该算法中窗口选择汉明窗,选择汉明窗的理由是窗函数的选取原则为窗函数截取后的XN尽量是中间大两头小的光滑函数,冲激响应对应的滤波器具有低通特性。洗手从汉明窗的构成及频率响应特性上看,汉明窗具有这种特性,而矩形窗及汉基于MATLAB的语音信号检测分析及处理16宁窗则稍逊之。洗手汉明窗虽然主瓣最高带宽大,但旁瓣最低通带外的衰减大,可以有效地克服泄露现象,具有更好的低通特性。洗手故选择汉明窗而不选择别的窗函数,能使短时平均能量EN更能反映语音信号的幅度变化。洗手洗手短时能量函数的应用洗手1)可用于区分清音段与浊音段。洗手EN值大对应于浊音段,吃饭EN值小对应于清音段。洗手洗手2)可用于区分浊音变为清音或清音变为浊音的时间(根据EN值的变化趋势)。洗手洗手3)对高信噪比的语音信号,吃饭也可以用来区分有无语音(语音信号的开始点或终止点)。洗手无信号(或仅有噪声能量)时,吃饭EN值很小,吃饭有语音信号时,吃饭能量显著增大。洗手洗手洗手313短时过零率洗手过零率可以反映信号的频谱特性。洗手对于连续语音信号,吃饭可以考察其时域波形通过时间轴的情况。洗手对于离散时间信号,吃饭如果相邻两个样点的正负号相异时,吃饭我们称之为“过零”,吃饭即此时信号的时间波形穿过了零电平的横轴。洗手由此可以计算过零数,吃饭过零数就是样本改变符号的次数,吃饭统计单位时间内样点值改变符号的次数就可以得到平均过零率。洗手短时过零分析通常用在端点检测,吃饭特别是用来估计清音的起始位置和结束位置。洗手洗手短时平均过零率定义为BEEF洗手SGNS1NMZXXMWN(33)洗手在矩形窗条件下,吃饭可以简化为洗手1SGNS12NMNZXM(34)洗手短时过零率可以粗略估计语音的频谱特性。洗手由语音的产生模型可知,吃饭发浊音时,吃饭声带振动,吃饭尽管声道有多个共振峰,吃饭但由于声门波引起了频谱的高频衰落,吃饭因此浊音能量集中于3KZ以下。洗手而清音由于声带不振动,吃饭声道的某些部位阻塞气流产生类白噪声,吃饭多数能量集中在较高频率上。洗手高频率对应着高过零率,吃饭低频基于MATLAB的语音信号检测分析及处理17率对应着低过零率,吃饭那么过零率与语音的清浊音就存在着对应关系。洗手洗手音频为“电子信息”的短时过零率的波形图如下图3所示及程序如下BEEF洗手ZNZEROS1,LL1240BEEF洗手FORII2LL1240,洗手TEMP1SIGNYIIII240BEEF洗手TEMPSIGNYII1II2401BEEF洗手ZNIISUMABSTEMP1TEMPBEEF洗手END洗手FIGURE3洗手JJ1LL1240BEEF洗手PLOTJJ,ZN,BBEEF绘制短时过零率函数曲线洗手XLABEL帧数BEEF洗手YLABEL短时过零率BEEF洗手TITLE短时过零率BEEF洗手GRIDONBEEF洗手洗手图3短时平均过零率洗手分析可知BEEF清音的短时能量较低,吃饭过零率高,吃饭浊音的短时能量较高,吃饭过零率低。洗手清音的过零率为05左右,吃饭浊音的过零率为01左右,吃饭两但者分布之间有相互交叠的区域,吃饭所以单纯依赖于平均过零率来准确判断清浊音是不可能的,吃饭在实际应用中往往是采用语音的多个特征参数进行综合判决。洗手洗手基于MATLAB的语音信号检测分析及处理18短时过零率的应用BEEF洗手1)区别清音和浊音。洗手清音的过零率高,吃饭浊音的过零率低。洗手此外,吃饭清音和浊音的两种过零分布都与高斯分布曲线比较吻合。洗手洗手2)从背景噪声中找出语音信号。洗手语音处理领域中的一个基本问题是,吃饭如何将一串连续的语音信号进行适当的分割,吃饭以确定每个单词语音的信号,吃饭亦即找出每个单词的开始和终止位置。洗手洗手3)在孤立词的语音识别中,吃饭可利用能量和过零作为有话无话的鉴别。洗手洗手洗手洗手洗手洗手32语音信号端点检测洗手321基于短时能量和短时过零率的双门限端点检测原理洗手双门限法是利用短时能量和过零率的乘积进行检测的。洗手在基于短时能量和过零率的双门限端点检测算法中首先为短时能量和过零率分别确定两个门限,吃饭一个为较低的门限,吃饭对信号的变化比较敏感,吃饭另一个是较高的门限。洗手当低门限被超过时,吃饭很有可能是由于很小的噪声所引起的,吃饭未必是语音的开始,吃饭当高门限被超过并且在接下来的时间段内一直超过低门限时,吃饭则意味着语音信号的开始。洗手洗手该算法的原理简述如下BEEF洗手对上述两种特征作一个统计估计,吃饭得到两个门限值,吃饭利用短时能量检测浊音,吃饭短时过零率检测清音,吃饭两者配合从而确定语音的端点。洗手由于采集的声音信号中最初的短时段多为无声或背景噪声,吃饭这样就可以利用已知为“静态”的最初几帧一般取10帧信号计算其过零率阀值ZCR及高、BEEF低能量阀值AMP2低能量阀和AMP1高能量阀。洗手过零率公式BEEF洗手(35)洗手11NNIINXIZCR计算AMP2和AMP1时,吃饭首先计算最初10帧信号中每帧的短时平均能量或平均幅度,吃饭最大值记为MAX,吃饭最小值记为MIN。洗手洗手E本文在计算短时能量之前,吃饭先经过一个滤波器,吃饭高通滤波器,吃饭此为预加重滤波基于MATLAB的语音信号检测分析及处理19器,吃饭目的在于滤除低频干扰,吃饭尤其是50HZ或60HZ的工频干扰,吃饭将对于语言识别更为有用的高频部分的频率进行提升,吃饭在计算短时能量之前应用该滤波器,吃饭还可以起到消除直流漂移、BEEF抑制随机噪声和提升清音部分能量的效果。洗手其关键代码为AMPSUMABSENFRAMEFILTER1098,1,X,FRAMELEN,FRAMEINC,2。洗手文中能量门限调整代码为BEEF洗手AMP1MINAMP1,MAXAMP/4BEEF洗手AMP2MINAMP2,MAXAMP/8BEEF洗手根据语音信号的实际情况对门限值进行调整,吃饭以便更好的对语音端点进行检测。洗手洗手其端点检测的流程如下所述BEEF开始进行端点检测之前,吃饭首先为短时能量和过过零率分别确定两个门限AMP1、BEEFAMP2、BEEFZCR1、BEEFZCR2,其中AMP2、BEEFZCR2分别为短时能量和过零率比较低的门限,吃饭其数值比较小,吃饭对信号的变化比较敏感,吃饭很容易就会超过。洗手另外AMP1、BEEFZCR1是比较高的门限,吃饭数值比较大,吃饭信号必须达到一定的强度,吃饭该门限才可能被超过。洗手低们限被超过未必就是语音信号的开始,吃饭有可能是时间很短的噪声引起的。洗手高门限被超过则可以基本确信是由于语音信号引起的。洗手洗手整个语音信号的端点检测可以分为四段BEEF静音、BEEF过度段、BEEF语音段、BEEF结束。洗手程序中使用一个变量STATUS来表示当前所处的状态。洗手在静音段,吃饭如果能量或过零率超越了低门限,吃饭就应该开始标记起始点,吃饭进入过渡段。洗手在过渡段中,吃饭由于参数的数值比较小,吃饭不能确信是否处于真正的语音段,吃饭因此只要个参数的数值都回落到低门限以下,吃饭就可以确信进入语音段落。洗手而如果在过渡段中两个参数中的任一个超过了高门限,吃饭就可以确信进入语音段了。洗手洗手一些突发性的噪声也可以引起短时能量或过零率的数值很高,吃饭但是往往不能维持足够的长的时间,吃饭如门窗的开关、BEEF物体的碰撞等引起的噪声。洗手这些都可以通过设定最短时间门限来判别。洗手当前状态处于语音时,吃饭如果两个参数的值下降低到低门限以下,吃饭而且总的记时长度小于最短时间门限,吃饭则认为这是一段噪音,吃饭继续扫描以后的语音数据,吃饭否则就标记好结束端点,吃饭并返回。洗手洗手洗手322双门限语音端点检测实验分析洗手基于MATLAB的语音信号检测分析及处理201、BEEF实验环境及参数设置洗手双门限语音端点检测是在MATLAB软件环境下进行仿真实验。洗手文中语音信号样本是在实验室安静环境下采用麦克风进行录音,吃饭以WAV格式存储为较纯净的语音样本。洗手实验所加的噪声为伪随机加性高斯白噪声,吃饭实验中对较纯净语音样本进行加噪,吃饭形成不同SNR的带噪语音样本,吃饭然后分别对较纯净的语音样本和加噪后的语音样本进行语音端点检测,吃饭并对它们的检测结果进行比较。洗手在语音端点检测之前首先要对被测的语音信号进行预处理等,吃饭包括分帧加窗等。洗手文中加HMMAING窗,吃饭通过特性为1094的滤波器预加重。洗手对其他参数进行设置,1吃饭如设置语音帧长度,吃饭帧移长度,吃饭FFT取512,吃饭门限阀值设置等。洗手洗手2、BEEF性能准则洗手在各种各样的信号处理系统中,吃饭噪声信号相对于有用信号而言,吃饭所造成的都是干扰和破坏作用,吃饭但是噪声却是普遍存在的。洗手噪声信号一般分为加性噪声和非加性噪声加性噪声一般被分为冲激噪声、BEEF周期性噪声、BEEF宽带噪声、BEEF相同声道情况下其他语音信号的干扰噪声等等。洗手洗手(1)高斯噪声洗手高斯噪声是指概率密度函数服从高斯分布的一类噪声。洗手高斯分布,吃饭也称正态分布,吃饭记为N,吃饭,吃饭其中和为分布的参数,吃饭分别为高斯分布的期望和22方差特别当0,吃饭1时,吃饭X的分布为标准正态分布。洗手洗手(2)信噪比洗手信噪比是指信号的有用成份与噪声功率之比,吃饭称为信号噪声比,简称信噪比,吃饭常常用分贝数表示。洗手信噪比越高表明它产生的杂音越少。洗手其公式为BEEF洗手洗手NSSRLG10其中S、BEEFN分别表示原始信号功率与噪声信号功率而波形信号计算式为BEEF洗手洗手L2NES其中I为原始语音信号,吃饭IN为带噪声信号;BEEFP1为原始信号功率,吃饭P2为噪声信号功率。洗手洗手文中采用的端点检测通过在较纯净语音信号中加入加性高斯噪声,吃饭然后对其进行语音端点检测,吃饭改变信噪比值,吃饭观察在高信噪比和低信噪比条件下双门限语基于MATLAB的语音信号检测分析及处理21音端点检测结果,吃饭通过实验仿真图比较和分析噪声对各算法语音端点检测结果的影响。洗手洗手3、BEEF分析洗手基于短时能量和短时过零率的双门限语音端点检测算法是结合短时能量和过零率各自优点来进行检测,吃饭双门限端点检测图中红色竖线用来表示语音起点线,吃饭绿色竖线表示语音终点线,吃饭其检测的实验仿真图如图37所示BEEF洗手FUNCTIONSNRSNRI,IN洗手P11/LENGTHINORMI2BEEF洗手P21/LENGTHINORMINI2BEEF洗手SNR10LOGP1/P2BEEF洗手END洗手TMP1ENFRAMEXLLENGTHXL,吃饭FRAMELEN,吃饭FRAMELNEBEEF洗手TMP2ENFRAMEX2LENGTHX,吃饭FRAMELEN,吃饭FRAMELNEBEEF洗手SIGNSTMP1TMP2002BEEF洗手ZCRSUMSIGNSDIFFS,吃饭2BEEF洗手洗手图4“端点检测”原始语音信号双门限语音端点检测波形图洗手基于MATLAB的语音信号检测分析及处理22洗手图5SNR627下双门限语音端点检测波形图洗手洗手图6SNR227下双门限语音端点检测波形图洗手上图4为较纯净的原始语音信号采用双门限进行语音端点检测的仿真图,吃饭从图中检测结果可以看出第一和第四个语音段的起始点和终止点都很好,吃饭第二个语音段的终止点和第三个语音段的起始点被漏判,吃饭而且第四个语音段末尾又误判成语音信号。洗手洗手上图5为高信噪比SNR627时双门限语音端点检测的仿真图,吃饭从图中检测结果可以观察其检测效果与较纯净的原始语音信号检测效果差不多。洗手洗手上图6为低信噪比条件下双门限语音端点检测的仿真图,吃饭从图中检测结果可以看出信噪比SNR227时双门限检测法完全无法检测出语音信号的起始点和终止点。洗手洗手从以上仿真图4、BEEF图5和图6可以看出传统的双门限语音端点检测法在较纯净的语音信号和高信噪比(SNR627)条件下其端点检测效果较之低信噪比(SNR227)条件下检测效果较好。洗手由此可见这种方法在较纯语音信号和高信噪比时,吃饭能较好检测出语音信号的端点,吃饭但是随着信噪比的下降,吃饭其检测结果率明显变差,吃饭特别是在噪声很大时,吃饭完全不能检测出语音端点,吃饭说明该检测方基于MATLAB的语音信号检测分析及处理23法容易受噪声影响,吃饭不适合用于大噪声环境检测。洗手洗手33基于倒谱特征的语音端点检测洗手331倒谱特征洗手倒谱能很好表示语音的特征,因此在大多数语音识别系统中选择倒谱系数作为输入特征矢量。洗手在噪声环境下短时能量与其它特征参数都不能很好地区分语音段与非语音段,因此可采用倒谱系数来作为端点检测的参数,吃饭运用倒谱特征来检测语音端点也是目前语音识别系统中比较典型的方法之一。洗手洗手洗手332倒谱距离洗手设信号SN,吃饭其倒谱变换为CN。洗手信号倒谱的一种定义是信号的能量信号倒谱的一种定义是信号能量谱密度函数的对数的傅里叶反变换,吃饭或者可以将信S号的倒谱看成是的傅里叶级数展开,吃饭即洗手NSCLOG(36)洗手JNNESLOG式中,吃饭为倒谱系数,吃饭且是实数,吃饭可由下式计算洗手CCN0C(37)洗手10LOG2SD洗手333基于倒谱距离的端点检测算法原理洗手如何很好地提取语音信号声道特性的谱包络,并用少量参数表示出来,吃饭在语音识别、BEEF语音合成和语音编码中都是最重要的问题。洗手按照语音产生模型的理论,吃饭语音信号是由激励信号与声道响应相卷积产生的,吃饭要想提取反映声道特性的谱包络,吃饭就必须通过解卷积去掉激励信号。洗手由同态解卷积所导出的倒谱分析方法,吃饭只需十几个倒谱系数就能相当好地描述语音信号的声道特性,吃饭所以采用倒谱参数取代传统的时域参数作为语音端点检测的判决参量。洗手洗手根据PARSEVAL定理,对于两个不同信号和其倒谱差异的均方值可用倒0NS1谱距离表示BEEF洗手基于MATLAB的语音信号检测分析及处理24洗手DSDCEP2012LOGL(38)洗手01NNC式中为倒谱距离,吃饭和分别是对应于谱密度函数和的CEPD010S1倒谱系数。洗手洗手信号与其倒谱是一一对应的变换,吃饭因此倒谱的均方距离可以反映两个信号比如语音与背景噪声谱的区别,吃饭倒谱距离可以作为端点检测的判决参数,吃饭属于相似距离范畴。洗手洗手1、BEEF倒谱系数的计算洗手本文选用LPC倒谱特征,吃饭根据线性预测系数推出倒谱,吃饭利用了线性预测中声道系统函数的最小相位特性,吃饭避免了复对数中相位卷绕的繁琐处理。洗手LPC倒谱特征求出的频谱包络能更好地重现谱的峰值,吃饭而且运算量小,吃饭在实时语音识别中采用LPC倒谱作为特征向量较好。洗手LPC倒谱特征取合适的阶数832后可较好地表征声道特性,吃饭但它是按实际频率尺度的倒谱系数。洗手LPC美尔倒谱系数算法效率较高,吃饭既考虑了声道激励,吃饭又兼顾人耳听觉,吃饭理论上具有一定的可行性。洗手洗手(1)线性预测系数LPC洗手通过用LPC线性预测法分析语音时得到的有关语音相邻样值间某些相关特性的参数组。洗手线性预测分析基于如下的基本概念,吃饭即一语音样本值能用过去若干语音样值的线性组合来近似估计。洗手按在某分析帧短时内实际的各语音样本与各预测得到的样本间差值的平方和最小准则,吃饭可以决定唯一的一组预测系数,吃饭即LPC(语音短时自相关系数)。洗手洗手(2)LPC倒谱洗手LPC系数可用来估计语音信号的倒谱也是语音信号短时倒谱分析处理方法。洗手线性预测分析推定的声道模型系统函数为语音信号的倒谱指的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论