




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要语音信号特征的提取是语音信号处理( 语音识别、语音合成、语音压缩) 的基础, 而线性预测分析 ( LPC) 又是目前较为流行的一种分析方法 , 所以本文就如何利用 LPC 的分析方法来提取一组简洁而准确的语音特征参数的问题进行了研究, 同时还详细地论述了语音特征提取的过程, 对各种谱估计进行了一定的分析。使用 MATLAB 进行仿真实验时,对比了不同说话人的语音特征参数曲线及其分类误差,同时分析改变线性阶数 P 值对谱曲线的影响。最后总结出线性预测分析在应用于说话人特征提取时选择参数的规律。关键词 语音特征提取,线性预测分析,线性阶数 ABSTRACTThe extraction of speech singal feature is the foundation of speech processing such as speech recognition, speech synthesis and speech compression. LPC analysis is a more popular method at present . In this paper , westudy how to extract a group of concise and correct feature parameters by using LPC analysis method. In the meantime, we also discuss the process of feature ex tract ion of speech signal in detail, and analyse all kinds of spretrum revaluation methods.Using Matlab simulation experiments, comparing the different parameters of the speakers voice characteristics curves and their classification error, simultaneous analysis of changes in the order of P-value for linear spectral curve. Concludes linear predictive analysis applied to the selection of speaker feature extraction parameters of the law.Key words:Speech singal feature ex traction, LPC analysis, Linear order目 录摘 要 .ABSTRACT .1 绪论 .11.1 本课题的背景和意义 .21.2 本课题的主要内容 .32 语音信号线性预测的分析原理 .52.1 LPC 基本原理 .52.2 LPC 和语音信号的模型的关系 .72.3 LPC 方程的自相关解法 .92.4 模型增益 G .102.5 LPC 倒谱及其实现 .112.6 LPC 分析的频域解释 .122.7 LPC 谱估计 .122.8 LPC 的其它参数 .123 MATLAB 在数字语音信号处理中的应用 .143.1 MATLAB 概述 .143.1.1 MATLAB 简介 .143.1.2 MATLAB 如何在语音信号处理中应用 .143.1.3 论文涉及的 MATLAB 应用主要函数 .153.2 语音信号处理实例 .173.2.1 语音信号的采集 .173.2.2 语音信号的提取及比较分析 .183.2.3 改变线性阶数 P 值对谱曲线的影响 .253.3 MATLAB 仿真程序设计 .273.3.1 语音信号提取的程序 .273.3.2 LPC 分析程序 .28总 结 .31参 考 文 献 .32致 谢 .331 绪论语音信号处理技术是计算机智能接口与人机交互的重要手段之一。从目前和整个信息社会发展趋势看,语音技术有很多的应用。语音技术包括语音识别、说话人的鉴别和确认、语种的鉴别和确认、关键词检测和确认、语音合成、语音编码等,但其中最具有挑战性和最富有应用前景的为语音识别技术。对于语音识别技术而言,在一些应用领域中正成为一个关键的具有竞争力和影响力的技术。近几年来,说话人识别技术在公安机关的破案和法庭举证方面发挥着举足轻重的作用。与此同时,说话人识别技术也逐渐在安全加密、银行信息电话查询服务等方面取得很好的应用。在声控应用中,计算机可识别输入的语音内容,并根据内容来执行相应的动作,包括声控电话转换、医疗服务、股票查询服务和工业控制等。在手提电话通信系统中,电话的使用也逐渐开始从单调的服务性的工具演变为日常生活中服务的重要的伙伴和提供者关系,这归功于语音接口的功劳;如今人们可以运用手提电话和通讯网络,便捷的从远方数据库系统中搜索和提取需要的资讯服务;随着时代的发展,手提计算机的出现,平板电脑以及计算机的小型化,键盘的使用逐渐成为移动通信服务平台中的比较大的障碍之一。我们可以设想,在尺寸上和手表一样大的手机,再和往常一样用键盘输入字符,进行拨号操作似乎已经是不现实的事情。想像一下,如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。另外一方面,声控打字机,自动口语分析仪也使用了语音信号处理的原理知识。随着计算机和大规模集成电路的发展,复杂的语音识别的系统也完全可以制成专用芯片,进行大量生产。在西方经济发达国家,大量的语音识别系统也已经进入市场和服务领域。时至今日,科技技术的高速发展,人们查询个人银行信息、旅游资讯、机票等信息,都可以依靠通讯网络的语音口语识别对话系统完成,而这往往给人们带来的不只是良好的操作体验享受,更重要的是便捷的生活服务。用户的手提电话、个人计算机(PC) 、交换机等设备也内置了语音识别拨号功能,语音合成和语音识别功能也添加进了像其它的如同语音记事本、语音智能玩具等产品之中,并且取得了良好的市场反馈。就语音合成而言,它已经在许多方面得到了实际的应用并发挥了很大的社会作用。例如,公交汽车上的自动报站、各种场合的自动报时、自动报警、手机查询服务和各种文本校对中的语音提示等。在电信声讯服务中的智能电话查询系统中,采用语音合成技术弥补以往通过电话进行静态查询的不足,满足海量数据和动态查询的需求,如股票、售后服务、车站查询等信息;也可以用于基于微计算机的办公、教学、娱乐等智能多媒体软件,例如语音学习、教学软件、语音玩具、语音书籍等;也可与语音合成技术与机器翻译技术结合,实现语音翻译等。对于语音编码而言,随着人类社会信息化进程的加快,语音编码技术也正在迅速发展,在移动通讯、卫星通讯、军事保密通讯、信息高速公路和IP电话通讯中得到了广泛的应用。例如低速率语音编码技术解决了通信容量问题。光纤通信技术使有限通信的信道容量得到了缓解,但对于通讯价格昂贵的卫星通信及线路铺设艰难的边远山区通信,仍希望在现有信道上得到更大的通信容量。再者由于数字加密技术具有高度可靠性,一般在军事保密通信中采用低速率语音编码器、语音储存、多媒体通信、数字数据网(DDN)中也用到语音信号技术。目前语音编码的算法发展较快,它可应用的范围也相当广泛,除了上述应用外,未来的ISDN、卫星通信、移动通信、微波接力通信和信息高速公路以及保密电话等无一例外地都会采用低速率语音编码技术。随着信息技术的不断发展,尤其是网络技术的日益普及和完善,语音信号处理技术正发挥着越来越重要的作用,也逐渐延伸并影响着各个行业领域的发展。1.1 本课题的背景和意义近二三十年来,语音识别技术得到了明显的提升与发展,已经逐渐由研发室进入到人们的视野和生活之中。让机器设备经过识别和翻译理解过程将数字语音信号转换成相应的命令或文本的高新技术是语音识别技术的基本理念。专业人士预测,未来十到二十年的时间里,消费电子、家庭服务、医护医疗、汽车电子、通信产业、家电技术、工业制造等领域将会广泛地应用语音识别技术。语音识别技术主要包括模型训练技术、模式匹配准则及特征提取技术三个方面。随着计算机技术和信息技术的发展,语音识别已经成为人机交互的必要手段。美国科学家N.Wiener(维纳 )在研究火炮的自动控制时提出了线性预测的思想。日本学者Itakura (板仓)等人首先将线性预测技术应用与语音分析和语音合成的领域中,使语音处理技术获得巨大的发展。在各种语音处理技术中,线性预测是第一个真正达到实际应用的技术,可用于估计基本的语音参数,如基音周期、共振峰频、谱特征及声道截面积函数等。特征参数的提取是关系到语音识别系统性能好坏的关键,而线性预测分析是目前普遍采用的特征参数提取方法。作为最有效的语音分析技术之一,语音线性预测分析(LPC )的基本理念是:能够使用过去若干个采样值的线性组合的逼近来表示数字语音信号现在的抽样值。得到确定的一组线性预测系数,可以促使线性预测抽样值和实际语音抽样值两者之间的均方误差最小而达到。线性预测的基本原理是建立在语音的数字模型的基础上的,为估计数字模型中的参数,线性预法提供了一种可靠的精确有效的方法。1.2 本课题的主要内容本课题重点研究语音识别技术的线性预测特征之方法,线性预测的基本原理是建立在语音的数字模型基础上,为估计数字模型中的参数,线性预测法提供了一种可靠精确而有效地方法。课题旨在基于线性预测分析从人的发声机理入手,通过对声道的短管级联模型的进行语音识别的分析和研究。语音分析技术最有效的方法之一是线性预测分析,而这也较广的应用于语音识别、语音合成、语音编码和说话人识别等信息处理领域之中。语音线性预测分析(LPC)的基本理念是:能够使用过去若干个采样值的线性组合的逼近来表示数字语音信号的抽样值。得到确定的一组线性预测系数,可以促使线性预测抽样值和实际语音抽样值两者之间的均方误差最小而达到。因为语音是一种短时平稳信号,所以只能使用一段语音来估计模型参数。这时有两种方案。第一种方案是自相关法,这种方法是将较长的语音序列进行加窗处理,然后使用LPC 原理对加窗的语音进行处理,在处理的过程中,只要可以限定窗的长度就能够保证分析的短时性;第二种方案是协方差法,这种方法则是在对语音处理的过程不对语音信号进行加窗处理,这种方法的实现的原理是在计算均方差预测误差的时候限制其取和区间。语音信号特征的提取是语音信号处理( 语音识别、语音合成、语音压缩) 的基础, 而线性预测分析( LPC) 又是目前较为流行的一种分析方法, 所以本文就如何利用LPC 的分析方法来提取一组简洁而准确的语音特征参数的问题进行了研究, 同时还详细地论述了语音特征提取的全过程, 对各种谱估计进行了一定的分析。线性预测分析( LPC) 法是目前进行语音特征分析的最有效、最重要的理念之一,这是由于:1. 线性预测分析法可以将数字语音信号当作是由全极点模型生成的,并且有效的解答了短时平稳数字语音信号的模型化问题;2. 线性预测分析法能很好的提供谱估计,而且可以很好的逼近共振峰;3. 线性预测分析法所计算运用的数字语音信号模型参数,诸如声道面积函数、共振峰、谱、基音等,计算量小,准确而简洁,有利于进行实时处理;4. 线性预测分析法能够自如的运用于低速率传输的环境;5. 线性预测分析法能够将线性预测系数形成的模型参数存储起来,便于在语音识别中减少识别时间和提高识别率。2 语音信号线性预测的分析原理2.1 LPC 基本原理在语音编码算法中,由于实际语音信号的动态范围变化范围很大的,如果直接对其进行量化,则编码所需的时间的比特数较大,编码速率较高。为了保证在较好的语音编码质量前提下,尽量减少编码速率,可设法减小编码器的输入信号的动态范围。线性预测编码就是利用过去的样值对新的样值进行预测,然后将样值的实际值与其预测值相减得到一个误差信号,显然误差信号的动态范围远小于原始语音信号的动态变化范围,对误差信号进行量化编码可大大减少量化所需的比特数,使编码速率降低。设语音信号的样值序列为: nns、2、1),(其中语音信号的当前取样值,即第n时刻的取样值是 。而p阶线性预测,)(s是根据信号过去p个取样值的加权和来预测信号当前取样值 ,此时的预测器称为p阶预测器。设 为 的预测值,则有)(s(2.1)()(1insanspi式中, 称为线性预测系数,上式称为线性预测器,预测器的阶pa、 21数为 p 阶。p 阶线性预测器的传递函数为(2.2)ipizaP-1)z(信号 与其线性预测值之差称为线性预测误差,用 表示。 表示式)(ns )(ne为:(2.3)pisansnse1)()(可见,预测误差 是信号 通过具有如下的传递函数的系统输出:(2.4)ipzzA1称系统 A(z)为 LPC 误差滤波器,设计预测误差滤波器 A(z)就是求解预测系数 ,使得预测器的误差 在某个预定的准则下最小,这个过程称pa、 21 )(ne为 LPC 分析。LPC分析:即设计预测误差滤波器A(z) 的过程,也就是求解预测系数(图2.1所示) ,使得预测器的误差 在某个预定的准则下最小。图 2.1 LPC 误差滤波器线性预测的基本问题就是由语音信号直接一组预测系数 ,这组pa、 21预测系数就被看做语音产生模型中系统函数H(z)的参数,它使得在一段语音波形中均方预测误差最小,理论上常用的是均方误差 最小的准则, 表)(2neE)(2neE示对误差的平方求数字期望或平均值。要得到使 最小的预测系数,可将对每个系数进行系数求导,并令各个系数求偏导。并令起结果为0。)(2neE线性预测的基本问题就是由语音信号直接求出一组线性预测系数使得在一短段语音波形中均方预测误差最小。将对各个系数求偏导,并令其结果为零,即(2.5)0)(2)(2 kkaneEaneE由式(2.3)得(2.6)pnsaek 、2、1),()由式(2.3)与式(2.7)kneE、0)(2得 0)()(1piknsansksk=1、 2、 、 p (2.8)此式表明预测误差与信号的过去的 p 个取样值是正交的,称为正交方程。令 的自相关序列为)(ns(2.9)()(knsEkR由于自相关序列为偶对称,因此(2.10)piapi 、2、1,01 (2.11)上式称为标准方程式,它表明只要语音信号是已知的,则 p 个预测系数通过求解该方程即可得到。设 pPaA21 )0()2(120)1RpRpR )(21pRap(2.12)kikakRpi 、2、1,)(1 (2.13)矩阵形式为 或者0papAappRA1通过求解上式即可求得 p 个线性预测系数。2.2 LPC 和语音信号的模型的关系线性预测分析是建立在语音产生的数字模型基础上的,语音产生的数字模型简化框如图 2.2.所示。图 2.2 语音产生的数字模型简化框图该模型的参数有清/浊音判决、浊语音的基音周期、增益常数 G 及数字时变滤波器系数 ,这些参数是随时间缓慢变化的。其中,输入的语音pa、 21信号可由周期脉冲序列的激励(对于浊音)或者是随机噪声序列的激励(对于清音)来模拟,周期脉冲序列之间的间隔即为基音周期。而声门激励,声道调制和嘴唇辐射的合成贡献,可用如下的的数字时变滤波器表示(2.14)pilzabGzUSH1)()(上式既有极点又有零点。按其有理式的不同,有如下三种信号模型:ARMA 模型。这种模型 H(z)既有极点又有零点,是一种一般的数字模型。此时的模型输出是 可由信号的过去 ,i=0,1,p 及输入信号值的)(ns)(ins线性组合 ,l=0, 1,q 线性组合来预测得到。luAR 模型。此时 H(z)只有极点没有零点,模型输出 只由过去的信号值)(ns,i=0,1, p 线性组合来得到。)(insMA 模型。此时 H(z)只有零点没有极点,模型输出 只由模型的输入,l=0,1, q 线性组合来得到。l可见,ARMA 模型是 AR 模型和 MA 模型的混合结构。相对于声门激励来说,声道系统是一个时变系统,该系统是会随着时间而进行缓慢的变化。从声学理论上我们能够了解到,除摩擦音和鼻音时变声道系统H(z)需用零极点模型 ARMA 来模拟外,其他语音都能使用全极点 AR 模型来模拟。因为从理论上讲,ARMA 模型和 MA 模型可以用无限高阶的 AR 模型来表示,而且对 AR 模型做参数估计时遇到的是线性方程组的求解问题,处理容易。模型中含有有限个零点时,则需要求解非线性方程组,处理难度大。所以一般都用 AR模型作为作为语音信号处理的常用模型。此时时变数字滤波 H(z)写为(2.15)piizaGzUSH1)(式中,增益 G 以及数字滤波器系数 都可随时间的变化而变化,pa、 21p 为预测器阶数。当 p 足够大时,这个全极点模型几乎可以模拟出所有语音信号的声门系统。采用这样一个简化的模型的主要优点在于可以用线性预测分析法对增益 G 和滤波器系数 进行直接而高效的计算。paa、 21在语音产生的数字模型中,语音抽样信号 和激励信号之间的关系可用下)(ns列差分方程来表示:(2.16)(1GuianSpi可见,如果语音信号准确服从上式的模型,则 (2.17)(ne所以预测误差滤波器 A(z)是 H(z)的逆滤波器,故有下式成立: (2.18)(zAGHH(z) 称为合成滤波器。线性预测误差滤波相当于一个逆滤波过程或逆逼近过程,当调整滤波器 A(z)的参数使输出 逼近一个白噪声序列 时,A(z)和 H(z)是等效的,而按最小)(ne)(nu均方误差准则求解线性预测系数正是使输出 白化的过程。e2.3 LPC 方程的自相关解法根据线性预测分析的原理可知,求解 p 个线性预测系数的依据,是线性误差滤波器的输出方均值或输出功率最小。可称这一方均误差为正向预测误差系数 Ep,也就是:(2.19)()(11min2 inseEaseEapipp 由上式正交方程知,上式第二项为 0。(2.20)papAR piip RaRinsEnsEnseE 11 )()0()()(2.21)以上两式组合起来得(2.22)0-1)0()2(120) ppEaRpRp上式方程的系数的矩阵元素是对称的,且沿着任一与主对角线平行的斜对角线上的所有的元素相等,系数矩阵的大小为 p* p,这样的矩阵称为 Toeplitz(特普利兹) 矩阵,上式称为尤勒-沃尔克(Yule-Walker)方程。其中的 R(p)确定的待分析语音信号 的自相关序列。可见,为了解得线性预测系数,必须首先计算)(ns出R(k) , ,解得上式方程即可。但是计算 R(k) , 却是个十分p1 1复杂的问题。为了简化计算,可根据语音信号的短时平稳特性讲语音信号分帧,每帧长度取 10-30ms,这样的自相关序列 R(k)可用下式估计(2.23)nksknsEkR )(1)()(如果将预测误差功率 Ep 理解为预测误差的能量,则上式中的系数 对线性n1预测方程的求解没有影响,因此可以忽略。但其中的求和范围 n 的不同定义,将会导致不同的线性预测解法。经典的方法有两种:一种是自相关法,该方法假定语音信号序列 在间隔 以外为 0,这相当于用窗函数从语音序)(ns1n0N列中截取出选定的序列部分,截取出的序列记为 ,)(s。另一种是协方差法。该方法不规定语音序列 的长1、2、)1(Ns )(ns度范围,但上式的范围为 ,这样相当于在此范围内估算 R(k)所需要的 是存在矩阵已经不具有 Toeplitz 矩阵的性质,因此其方程的求解不同于n自相关法,由于不需要加窗,协方差计算精度较自相关法大大提高。但由于协方差法不具有自相关法的稳定性的条件。斜格法就是为了解决这里两种方法的精度和稳定性之间的矛盾而形成的一中的方法。利用对称托普利兹(Toeplitz)矩阵的性质,自相关法求解可用 Levinson-Durbin(莱文逊 -杜宾)递推算法求解。该方法是目前广泛采用的一种方法。利用 Levinson-Durbin 算法递推时,从最低阶预测器开始,由低阶到高阶进行逐阶递推计算。自相关法递推过程如下(2.24)piEjirairkiji 1,)()()1(2.25)0(2.26)1(2iiEkika((2.27)11,)1()1() jkaijij(2.28)联立左面 5 式可对 i=1、2 、p 进行递推求解,其最终解为pjapj1,)((2.29)对于 p 阶预测器,在上述求解预测器系数的过程中,阶数低于 p 的各阶预测器系数也同时得到。自相关法的优点是较简单且较稳定,确定是由于两端的截断效应而精度脚较低。2.4 模型增益 G模型的激励信号 Ge(n)表示为: pinsansGe1)()((2.30)预测误差 如式(2.31) ,这样当实际的预测系数与模型系数相等时,有)(ne)(nGe(2.31)这说明激励信号正比于误差信号,其比例常数等于模型增益 G。通常假设误差信号的能量等于输入激励信号的能量,因此可以得到: nNmNm EGeG )()(10221022 (2.32)对于式中的激励信号 ,主要分为浊音和清音两种情况。其中为浊音时,)(ne考虑到此时实际的激励信号为声门脉冲,因此可以将激励信号表示为 n=0 时的单位抽样。为了保证这个假设成立,要求分析的区间应该大致和语音基因周期的长度相等。当语音为清音时,我们假定激励信号 为一个零均值、单位方差的平)(ne稳白噪声过程。采用自相关解法时,浊音的模型增益为21)()0(GiRaREpinn(2.33)清音计算模型增益的公式和浊音相同。2.5 LPC 倒谱及其实现线性预测倒谱系数 LPCC 定义:是 LPC 系数在倒谱域表示。指的是这个信号z 变换的对数模函数的反 z 变换。通过对语音信号的傅里叶变换取模的对数再求反傅里叶变换可得到一个信号的倒谱。优点:计算量小,易于实现,对元音有较好描述能力。缺点:对辅音的描述能力较差,抗噪性能较差。求解方法设通过线性预测分析得到的声道模型系统函数为piza1)z(H(2.34)其冲激响应为 ,倒谱为 ,则有)(nh)(nh1)()(lnnzhzH(2.35)将 H(z)代入倒谱表示式并将其两边对 z-1 求导,整理可得 ipinnpii aa1111((2.36)令上式两边的各次 z-1 的系数分别相等,可得由 LPC 系数求倒谱系数的递推公式:( 1)()(11pnnakhnhn k2.37)线性预测倒谱系数是一个右半序列。语音信号的倒谱能较好地描述语音的共振峰特征,并较彻底地去掉了语音产生过程中的激励信息,因此在语音识别系统中得到了较好的应用效果。实验表明,使用倒谱可以提高特征参数的稳定性。2.6 LPC 分析的频域解释由于语音产生模型中全极点滤波器的频率特性主要反映了声道的共振特性,而语音信号的 LPC 系数就是语音信号产生模型中全极点合成滤波器 H(z)的分母多项式的系数,因此当根据一帧语音的取样值计算出语音信号的 LPC 系数后,只要将 代入 H(z)进行计算,就意味着求得了这帧语音信号产生模型的频率jez特性。)(1)(H1jwpijwijw eAGaGe(2.38)LPC 分析可以看成是对语音信号短时谱进行估计的一种有效方法。在语音产生模型中,语音的功率谱等于激励源功率谱与全极点合成滤波器频率特性模的平方的乘积,而激励源是准周期冲击序列或白噪声,其功率谱是平坦的。所以语音的功率谱主要由全极点滤波器的特性来决定。 2.7 LPC 谱估计用线性预测谱作为语音信号谱的解释 deHSGdeASEE jjjp 2222 )()(21(2.39)波形匹配规律解释:由上式知,按最小均方误差求解时,的区域在总误差中所起的作用比 的区域大。)(jjeHS )(jjeS因此 LPC 谱误差准则有利于在谱峰附近良好匹配,而在谱谷附近匹配较差。2.8 LPC 的其它参数因为人们可以从声音的音质、频率高低等不同信息中分辨出说话人的个体特征。 所以我们能够设想,使用语音信号的特征的有效组合取得相对来说比较稳定的识别性能。从某种意义上来说,假设组合的各个参数之间的相关性不是很大的话,那么得到的结果会更加有效和有意义一些,原因在于它们分别反映除了数字语音信号的不一样的特征。长久以来,研究人员在组合参数在说话人识别中的应用中投入了很多精力和心血。研究数据显示,系统的识别性能的提高的多个因素之中包含了组合参数的改变影响系统系能的众多因素之中的确包含了组合参数,然而很明显的是,不管是在特征参数的提取环节,抑或是在模型匹配和训练等环节都会加大计算机的处理任务量。在参数特征提取的环节,需要计算一种甚至更多的特征参数。与此同时,在模型匹配和模型训练环节,因为组合参数特征矢量的维数较多,会导致运算过程的复杂度加大。很明显,计算机运算量的加大也会进而致使系统的识别速度受到影响。为了使计算机的处理速度和程序运行机制得到优化,通过 LPC 参数与语音帧能量参数的组合,促使在运算量增加不是很明显的环境下改善系统的性能。语音帧能量是指一帧语音信号的能量,它等于该帧语音样值的平方和。选取与语音帧能量构成组合参数主要有以下考虑:(1)语音帧能量体现一帧数字语音信号能量的高低,也是数字信号的不可或缺的时域特征。语音帧能量同时作为语音信号最为基础的短时参数;(2)对数字语音信号处理后得出的语音帧能量是标量值,同其它参量形成组合参数,但是不导致原特征矢量的维数明显增多,特征矢量的维数越少,那么需要的运算复杂度就越小,此外,取得语音帧能量的运算并不繁琐;(3)LPC 参数和语音帧能量两者的联系不大,两者预示着语音信号的不同特征,应该有较好的效果。3 MATLAB 在数字语音信号处理中的应用3.1 MATLAB 概述3.1.1 MATLAB 简介MATLAB 语言是当今科学界(尤其是自动控制领域)最具影响力、也是最具活力的软件。它起源于矩阵运算,并已经发展成为一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、便捷的与其他程序和语言接口的功能。MATLAB 语言在各国高校与研究单位发挥着重要的作用。MATLAB 语言的首创者 Cleve Moler 教授的数值分析,特别是在数值线性代数领域也影响力,他参与撰写了数值分析领域一些著作并参与编写了两个重要的FORTRAN 程序 EISPACK 和 LINPACK。他曾在密歇根大学、斯坦福大学和新墨西大学任数学与计算机科学教授。1980 年前后,诗人新墨西哥大学计算机系主任的 Cleve Moler 教授在讲授现行代数课程时,发现用其他的高级语言变成极为不便,便构思并开发了 MATLAB(MATRIX LABORATORY,即矩阵实验室) ,这一款软件利用当时数值线性代数领域最高水平的 EISPACK 和 LINPACK 两大款软件包中可靠的子程序,用 FORTRAN 语言编写了集命令翻译、科学计算于一体的交互式软件系统。所谓交互式语言,是指人们给出一条指令,立即接就可以得出该命令的结果。该语言无需像 C 语言和 FORTRAN 语言那样,首先要求使用者编写源程序,然后对之进行编译、连接,最终翻译成可执行文件。这无疑会给使用者带来极大地方便。数字语音信号处理是讲数字信号处理与语音学相结合,解决现代通信领域中的人与人,人与机器之间的信息的交流的学科。近几年来语音信号处理学科在全世界范围内已取得了飞速的发展。随着 MATLAB 的不断发展,其功能越来越强大,广泛用于数字语音信号处理,数字图像处理、仿真、自动控制、小波分析和神经网络等领域。同时又由于 MATLAB 具有大量的信号处理工具箱并能利用非线性动态系统分析工具 Simulink 等优点,所以今年来 MATLAB 已成为数字信号处理的有利工具,因此也成为学习语音信号处理和进行研究工作的仿真软件工具。3.1.2 MATLAB 如何在语音信号处理中应用下面简要介绍 MATLAB 在数字语音信号中的几个方面应用。1、通过 MATLAB 可以对数字话的语音信号进行时频分析。通过 MATLAB可以方便的展现语音信号的时域及频域曲线,并且根据语音的特性对语音进行分析。2、通过 MATLAB 可以对数字化的语音信号的进行估计和判别。例如,根据语音信号的短时参数,以及不同语音信号的短时参数的性质对一段给定的信号进行又有无声和清浊音的判别、对语音信号的基音周期进行估计等。3、通过利用 MATLAB 编程对语音信号进行处理,由于 MATLAB 是一种科学和工程计算的高级语言,允许用数字形式的语言编程,又有大量的库函数,所以编程简单、编程效率高、易学易懂。我们可以对信号进行加噪、滤波、截取语音等,也可进行语音编码,语音识别,语音合成的编程等。3.1.3 论文涉及的 MATLAB 应用主要函数1、wavread 函数wavread 只能读取非压缩格式的 wav 音频文件。wav 文件一般都是压缩的,用 matlab 播放时需要用转换程序将其转换为非压缩格式的 wav。在 MATLAB 软件平台下,利用函数 wavread 对语音信号进行采样,记住采样频率和采样点数。wavread 函数调用格式: y=wavread(file),读取 file 所规定的 wav 文件,返回采样值放在向量 y 中。y,fs,nbits=wavread(file),采样值放在向量 y 中,fs 表示采样频率(Hz) ,nbits 表示采样位数。y=wavread(file,N),读取前 N 点的采样值放在向量 y 中。 y=wavread(file,N1,N2),读取从 N1 点到 N2 点的采样值放在向量 y 中2、画图函数(1)基本形式,例如: y=0 0.58 0.70 0.95 0.83 0.25; plot(y)生成的图形是以序号为横坐标、数组 y 的数值为纵坐标画出的折线。 x=linspace(0,2*pi,30); % 生成一组线性等距的数值 y=sin(x); plot(x,y)则生成的图形是上 30 个点连成的光滑的正弦曲线。(2)多重线的绘制在同一个画面上可以画许多条曲线,只需多给出几个数组,例如 x=0:pi/15:2*pi; y1=sin(x); y2=cos(x); plot(x,y1,x,y2)则可以画出多重线。另一种画法是利用 hold 命令。在已经画好的图形上,若设置 hold on, MATLA 将把新的 plot 命令产生的图形画在原来的图形上。而命令hold off 将结束这个过程。例如: x=linspace(0,2*pi,30); y=sin(x); plot(x,y) hold on z=cos(x); plot(x,z) hold off(3)多幅图形可以在同一个画面上建立几个坐标系, 用 subplot(m,n,p)命令;把一个画面分成 mn 个图形区域, p 代表当前的区域号,在每个区域中分别画一个图 ,如 x=linspace(0,2*pi,30); y=sin(x); z=cos(x); u=2*sin(x).*cos(x); v=sin(x)./cos(x); subplot(2,2,1),plot(x,y),axis(0 2*pi 1 1),title(sin(x) subplot(2,2,2),plot(x,z),axis(0 2*pi 1 1),title(cos(x)subplot(2,2,3),plot(x,u),axis(0 2*pi11),title(2sin(x)cos(x)subplot(2,2,4),plot(x,v),axis(0 2*pi 20 20),title(sin(x)/cos(x)3、坐标系的控制在缺省情况下 MATLAB 自动选择图形的横、纵坐标的比例,如果你对这个比例不满意,可以用 axis 命令控制,常用的有:axis(xmin xmax ymin ymax) 中分别给出 x 轴和 y 轴的最大值、最小值axis equal 或 axis(equal) x 轴和 y 轴的单位长度相同axis square 或 axis(square) 图框呈方形axis off 或 axis(off) 清除坐标刻度4、窗函数数字信号处理的主要数学工具是博里叶变换而傅里叶变换是研究整个时间域和频率域的关系。不过,当运用计算机实现工程测试信号处理时,不可能对无限长的信号进行测量和运算,而是取其有限的时间片段进行分析。做法是从信号中截取一个时间片段,然后用观察的信号时间片段进行周期延拓处理,得到虚拟的无限长的信号,然后就可以对信号进行傅里叶变换、相关分析等数学处理。无线长的信号被截断以后,其频谱发生了畸变,原来集中在 f(0)处的能量被分散到两个较宽的频带中去了(这种现象称之为频谱能量泄漏) 。为了减少频谱能量泄漏,可采用不同的截取函数对信号进行截短,截断函数称为窗函数,简称为窗。信号截短以后产生的能量泄漏现象是必然的,因为窗函数 w(t)是一个频带无限的函数,所以即使原信号 x(t)是有限带宽信号,而在截短以后也必然成为无限带宽的函数,即信号在频域的能量与分布被扩展了。又从采样定理可知,无论采样频率多高,只要信号一经截短,就不可避免地引起混叠,因此信号截短必然导致一些误差。泄漏与窗函数频谱的两侧旁瓣有关,如果两侧瓣的高度趋于零,而使能量相对集中在主瓣,就可以较为接近于真实的频谱,为此,在时间域中可采用不同的窗函数来截短信号。3.2 语音信号处理实例3.2.1 语音信号的采集本文是以一段简短的语音信号作为分析样本。通过计算机中的录音机分别将两人发出的同一段语音信号“09 自动化” 录入到计算机中。如图 3.1 所示:图 3.1 使用计算机自带录音机录音该段语音时长约为 3 秒,并分别保存为“m1.wav”和“m2.wav ”语音文件。由于在语音录制过程中,会出现短时的语音短时延迟,如图 3.2 所示A处B 处图 3.2 原始语音的出现短时延迟因此在做数字语音采样之前,使用 Goldwave 程序将录制好的语音进行剪辑。剪辑过程中,分别以 A、B 处为起始和结束剪辑点,剪辑掉前后部分没有语音信号输入的部分,并保存为 WAVE PCM unsigned 8 bit,mono 单声道格式的*.wav 文件。如图 3.3 所示:图 3.3 剪辑后的语音波形图3.2.2 语音信号的提取及比较分析打开并运行 MATLAB 程序,如图 3.4 所示:图 3.4 Matlab 软件界面在 MATLAB 中使用 Wavread 函数,新建“yuyincaiyang.m”的 M 文件,输入并运行语音采样程序(见 3.3.1 节) ,分别对录制的语音“m1.wav” , “m2.wav”进行采样处理。如图 3.5 所示:图 3.5 用于语音采样的 M 文件在 MATLAB 仿真运行过程中,我们可以清晰的听到来自不同两人的所说“09 自动化”语音的播放,并且可以得知语音信号“m1.wav” , “m2.wav”的采样频率 fs 和采样位数 bits,两人的语音信号采样结果都为采样频率 fs=44100Hz,采样位数 bits=8 位,如图 3.6 所示图 3.6 采样信号的频率和位数得到的两人的语音“m1.wav” , “m2.wav”的波形图如图 3.7 和图 3.8 所示:图 3.7 “m1.wav”的语音信号波形图图 3.8 “m2.wav”的语音信号波形图比较图 3.7 和图 3.8 不同两人的语音波形,我们可以得出这样的结果:两人所录制的语音“m1.wav ”和“m2.wav”的整段音频数据中得到的声音信号高低起伏基本一致,并且可以观察到其中包含部分高频噪声。在对语音进行采样处理后,打开
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第21课 清朝前期的文学艺术说课稿-2023-2024学年初中历史中国历史 第二册统编版(五四学制)
- 人教版高中 必修二教学设计1.3 人口的合理容量
- 2025供电合同范本(律师)
- 2025中小学食堂承包合同样本
- 8.3 俄罗斯(说课稿)2023-2024学年七年级地理下册同步教学(湘教版河北专版)
- Unit 5 Fun Clubs Section A 1a~1d 说课稿 2024-2025学年人教版(2024)七年级英语上册
- 山西公务员真题试卷
- 5.1.1 合成高分子的基本方法- 加聚反应(教学设计)高二化学同步高效课堂(人教版2019选择性必修3)
- 机械厂员工奖励申请执行规章
- 印刷厂员工生日补贴管理规定
- 小学生品德发展与道德教育PPT完整全套教学课件
- 部编人教版五年级上册语文 第三单元单元分析
- 护理综述论文的撰写
- 医院院内急会诊制度
- TSDPIA 05-2022 宠物猫砂通用技术规范
- 动力管道培训
- GB/T 11446.9-2013电子级水中微粒的仪器测试方法
- 热力学发展史概述讲课稿
- 教学配套课件:二维动态图形设计基础
- 预防电信诈骗网络诈骗
- 督脉灸参考课件
评论
0/150
提交评论