[硕士论文精品]数学形态学在语音识别中的应用研究_第1页
[硕士论文精品]数学形态学在语音识别中的应用研究_第2页
[硕士论文精品]数学形态学在语音识别中的应用研究_第3页
[硕士论文精品]数学形态学在语音识别中的应用研究_第4页
[硕士论文精品]数学形态学在语音识别中的应用研究_第5页
已阅读5页,还剩84页未读 继续免费阅读

[硕士论文精品]数学形态学在语音识别中的应用研究.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河北工业大学博士学位论文I数学形态学在语音识别中的应用研究摘要由于现实环境中存在各种噪声,严重影响了语音的识别率,因此带噪语音识别的研究显得尤为重要。本文从语音信号的非线性理论出发,探讨数学形态学在提高语音识别抗噪性能中的应用。对带噪语音识别中的语音增强、特征参数提取及识别方法等关键问题进行了研究。主要研究内容如下1对基于形态滤波的语音增强方法进行了研究。采用不同的形态滤波器和结构元素对带噪语音进行增强,得到不同情况下的输出信噪比,分析了结构元素形状及长度对增强效果的影响。2将形态滤波和小波变换相结合,形成形态小波滤波器,对带有不同噪声的语音信号进行滤波。实验结果表明,这种滤波器较好地保持了语音信号形状并使信号得到增强,效果优于形态滤波器。3基于形态滤波器的幂等性,采用形态预失真方法提取纯净语音的美尔倒谱等参数。对纯净、带噪、去噪及预失真语音特征参数间的距离进行了分析比较,得出了预失真方法的可行性。4在形态滤波的基础上,对基音周期检测方法进行了研究。根据短时平均幅度差函数AMDF与修正自相关函数MACF的特点,设计了滤波加权修正自相关函数的基音周期检测方法。该方法利用归一化平均幅度差函数的指数形式对修正自相关函数进行加权,实现了带噪语音的基音周期检测。5采用预失真特征参数作为训练数据用于隐马尔可夫模型(HMM)识别方法,提高了训练和识别的匹配性,使语音识别率较使用传统方法的识别率有较大提高。6设计了基于预失真参数的改进径向基函数(RBF)神经网络语音识别方法。对隐层中心的选择、权值的计算及网络结构优化方法进行了研究,分析了不同准则对结构优化的影响,确定了改进方案。通过实验分析比较了RBF神经网络与采用预失真参数的改进方法对带噪语音的识别率。关键词数学形态学,预失真,小波变换,语音增强,语音识别数学形态学在语音识别中的应用研究IISTUDYONTHEAPPLICATIONOFMATHEMATICALMORPHOLOGYINSPEECHRECOGNITIONABSTRACTTHEREAREKINDSOFNOISEINREALCIRCUMSTANCE,SPEECHRECOGNITIONRATEISINFLUENCEDSERIOUSLY,SOITSEEMSVERYIMPORTANTTOSTUDYNOISYSPEECHRECOGNITIONFORMNONLINEARTHEORYOFSPEECHSIGNAL,THISPAPERDISCUSSESTHEAPPLICATIONOFMATHEMATICALMORPHOLOGYFORIMPROVINGROBUSTNESSOFRECOGNITIONSPEECHENHANCEMENT,FEATUREEXTRACTIONANDRECOGNITIONMETHODINNOISYSPEECHENHANCEMENTARESTUDIEDTHEMAINRESEARCHWORKISASFOLLOWS1SPEECHENHANCEMENTMETHODBASEDONMORPHOLOGICALFILTERISSTUDIEDNOISYSPEECHSIGNALSAREENHANCEDUSINGDIFFERENTMORPHOLOGICALFILTERSANDSTRUCTURINGELEMENTS,OUTPUTSNRSINDIFFERENTCIRCUMSTANCESAREACQUIRED,ANDTHEINFLUENCESOFTHESHAPEANDLENGTHOFSTRUCTUREELEMENTSAREANALYZED2MORPHOLOGICALFILTERANDWAVELETTRANSFORMARECOMBINEDTOFORMMORPHOLOGYWAVELETFILTER,SPEECHSIGNALSWITHDIFFERENTNOISESAREFILTEREDEXPERIMENTSSHOWTHATTHISFILTERCANMAINTAINSIGNALSHAPEANDENHANCESIGNAL,ITSEFFECTISBETTERTHANMORPHOLOGYFILTER3BASEDONIDEMPOTENCYOFMORPHOLOGICALFILTER,CLEANSPEECHFEATURECOEFFICIENTSAREEXTRACTEDUSINGMORPHOLOGYPREDISTORTIONMETHODFEATUREDISTANCESOFCLEAN,NOISY,DENOISYANDPREDISTORTIONSPEECHAREANALYZEDANDCOMPARED,ANDFEASIBILITYOFPREDISTORTIONMETHODISACHIEVED4ONTHEBASISOFMORPHOLOGICALFILTER,PITCHDETECTIONMETHODSARERESEARCHEDACCORDINGTOTHECHARACTERSOFSHORTTIMEAVERAGEMAGNITUDEDIFFERENCEFUNCTIONAMDFANDMODIFIEDSHORTTIMEAUTOCORRELATIONFUNCTIONMACF,FILTERINGWEIGHTEDMODIFIEDAUTOCORRELATIONPITCHDETECTIONMETHODISDESIGNEDTHISMETHODUSESEXPONENTOFNORMALIZEDAMDFTOWEIGHTMACF,ANDREALIZESPITCHDETECTIONOFNOISYSPEECH5PREDISTORTIONFEATURECOEFFICIENTSAREUSEDINHIDDENMARKOVMODELHMMRECOGNITIONMETHODASTRAININGDATAINORDERTOINCREASEMATCHINGOFTRAININGANDRECOGNIZINGPROCESS,ANDTHESPEECHRECOGNITIONRATESOFTHISMETHODAREBETTERTHANTHATOFTRADITIONALMETHOD河北工业大学博士学位论文III6SPEECHRECOGNITIONMETHODOFRBFNEURALNETWORKSBASEDONPREDISTORTIONCOEFFICIENTSISDESIGNEDTHEFOLLOWINGRESEARCHWORKISCONCERNEDWITHHIDDENCENTERSCHOOSING,WEIGHTSCOMPUTINGANDNETWORKSTRUCTUREOPTIMIZINGINFLUENCESOFDIFFERENTCRITERIONSAREANALYZED,ANDANIMPROVINGSCHEMEISDECIDEDRECOGNITIONRATESOFNOISYSPEECHUSINGRBFNEURALNETWORKSANDMODIFIEDMETHODBASEDONPREDISTORTIONCOEFFICIENTSARETESTEDKEYWORDSMATHEMATICALMORPHOLOGY,PREDISTORTION,WAVELETTRANSFORMATION,SPEECHENHANCEMENT,SPEECHRECOGNITION原创性声明本人郑重声明所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名王雷日期2一PR2F关于学位论文版权使用授权的说明本人完全了解河北工业大学关于收集、保存、使用学位论文的规定。同意如下各项内容按照学校要求提交学位论文的印刷本和电子版本学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。保密的学位论文在解密后适用本授权说明学位论文作者签名导师签名王霰翘吻群日期2,LR日期二删S,掺河北工业大学博士学位论文1第一章绪论11选题意义随着计算机技术的迅猛发展,自动的人机交互技术一直是各国专家学者所研究和探讨的热点课题,而语音识别则是实现这一目标的重要途径。日益丰富的数学新算法推动了语音识别的发展,而语音识别技术的发展又进一步推动了相关学科的进步。语音识别的目的是计算机能够自动准确地理解人类语音,它是一门以计算机技术为基础的交叉学科,研究内容涉及到声学、语音学、模式识别、人工智能等多个学科。语音识别始于1950年代,贝尔实验室首次研制成功能够识别十个英文数字的语音识别系统;到1960年代末1970年代初,由于计算机技术以及一系列语音信号处理方法的形成,促进了语音识别技术的蓬勃发展。由于语音识别技术在工业、民用等诸多领域有着广阔的应用前景,如语音拨号系统、信息查询系统、股票交易、计算机控制、声控智能玩具、翻译系统等等,从1960年代至今,世界各地许多著名大学和国际公司的研究机构投入巨资进行开发研究,使得语音识别技术不断成熟,研究水平不断提高。我国的语音识别技术起步相对较晚,但国内很多科研机构都给予了高度的重视,中科院声学所、中科院自动化所、清华大学、北京大学等很多单位都开展了此项技术的研究,经过长期的积累,针对汉语的语音识别技术在不断进步,不断成熟,促进了语音识别技术向着实用化的方向发展。在语音识别的研究过程中还有很多问题有待继续探索,虽然实验室安静环境下的语音识别系统可以达到较好的效果,但在实际环境中,由于噪声的影响以及训练环境和识别环境的不匹配,使得系统的识别性能严重下降1,即系统的鲁棒性不好。这是影响语音识别技术商业化的重要因素,所以很多研究人员都致力于这方面的研究24。为提高系统性能,可以采用对语音进行增强的方法、使用抗噪特征和抗噪测度以及模型补偿的方法。本文从语音信号的非线性理论出发,研究提高语音识别抗噪特性的非线性数学增强方法。以此为出发点,依托上海市自然科学基金编号04ZR14138,探索了应用数学形态学的语音信号处理技术,来改善语音识别系统的性能。数学形态学是一种非线性数学工具,已经成功地应用于图像滤波、特征提取等方面。而语音信号和图像信号都是复杂的多分辨率、非平稳和非线性的信号,将其用于语音信号的增强是可行的5。形态滤波法以数学形态学为理论基础,以形态变换为基本手段,构造出不同结构元素的形态滤波器,改进了传统滤波器的不足。已成为非线性滤波领域中很有发展前景的一种滤波器。而小波变换也是非线性处理方法,将其与形态滤波相结合也是有益的探索。预失真技术是利用形态滤波后的语音信号作为训练数据用于语音识别,以使训练及识别模版相匹配,从而达到提高语音识别率的目的。目前语音识别较重要的两数学形态学在语音识别中的应用研究2种方法是基于隐马尔可夫(HIDDENMARKOVMODEL,HMM)模型和基于神经网络的语音识别方法。HMM模型是一种用参数表示的,用于描述随机过程统计特性的概率模型,是语音识别的主流方法。而人工神经网络是由大量神经元广泛连接构成的分布式并行处理系统,有很强的自组织、自学习能力和很高的容错力和顽键性6,日益成为语音识别技术的一个重要研究方法。因此为了验证预失真技术的有效性,分别采用了这两种方法。在神经网络方法中采用径向基函数神经网络,它是一种性能良好的前馈神经网络,具有较快的学习速率,且不存在局部极小值的问题。12语音增强技术研究现状伴随着计算机技术的发展,语音识别技术也在不断取得进步,许多成功的语音识别系统相继问世,然而大多数的语音识别系统针对实验室环境下的“干净语音”表现出优越的性能,而当置于自然噪声环境下时,识别效果迅速下降。这是由于在实际环境中,从周围环境、传输媒质中引入的噪声,通信设备内部电噪声以及其它说话人的干扰等因素使得接收端的语音成为受噪声污染的语音,最严重的情况下,语音将完全淹没到噪声中无法分辨。语音增强是解决噪声污染的一种有效方法,有着广泛的应用基础,寻求有效的从带噪语音信号中提取纯净原始语音的算法具有重要的研究意义。对收听人而言,语音增强的主要目标是改进语音质量,提高语音可懂度,消除疲劳感;对语音处理系统而言,语音增强的主要目标是提高系统的抗干扰能力,提高系统的识别效果。但是在一般情况下语音信号是随机信号,难以找到一种适用于各种噪声环境的语音增强算法,因此必须根据实际情况,采取特定的语音增强策略来降低噪音7,8。121语音和噪声的特性语音增强不但涉及信号处理理论中信号检测、波形估计等内容,还关系到语音特性、人耳感知特性等相关知识,因此要结合语音特性、人耳感知特性及噪声特性79,根据实际情况选用合适的语音增强方法。1、语音特性语音是人体的发音器官发出来的一种声波,具有音色、音调、音强和音长这四种要素。音色也叫音质,是一种声音区别于其他声音的基本特性。音调是指声音的高低,音调取决于声波的频率,而声波频率又与发音体长短、厚薄以及松紧程度有关。声音的强弱叫做音强,它是由声波振动幅度决定的。声音的长短叫做音长,它取决于发音持续时间的长短。音节是语言的最小使用单位。一个音节可以由一个音素构成,也可以由几个音素构成。音素是语音的最小单位。语音除了具有上述的声音的物理属性外,它还和一定的意义相联系,一定的语音要表达一定的思想和意义。因此,语音中所包含的信息是十分丰富和多种多样的。语音信号的产生过程与发声器官的运动紧密相关,声道的面积随时间和距离变化,气流速度随声门压力改变,使得语音信号是一个时变、非平稳、非遍历的随机过程。但发声器官状态变化的速度比声音振动的速度要缓慢得多,在一段短时间内1030MS其特性基本保持不变,因此可以认为语音信号是短河北工业大学博士学位论文3时平稳的,可以应用平稳随机过程的分析方法来处理,在语音增强中就可以利用短时频谱的平稳特性。语音信号分为周期性的浊音和非周期性的清音;浊音和音质密切相关,在时域上有明显的周期性,并具有较强的振幅,周期的倒数对应的是声带振动的频率,称为基音频率;在频域上具有谐波结构,谱包络反映出共振峰值。清音没有明显的时域和频域特征,波形类似于白噪声,振幅较弱,容易被强噪声掩盖,只在较高的信噪比时携带较多的信息。由于浊音和清音在语音产生机理和特征上的明显差异,在语音增强中可以利用浊音的准周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音则难以与宽带噪声区分。2、人耳感知特性人耳的主观感受是最终度量评价语音增强效果的重要标准,利用人耳感知特性来减少运算代价也是语音增强的重要途径。生理学、心理学、声学和语音学的一些有用的研究结果可应用于语音增强1人耳对语音的感知主要是通过语音信号频谱分量幅度获取的,对相位则不敏感;2人耳对频谱分量强度的感受是频率与能谱的二元函数,响度与频谱幅度的对数成正比;3人耳有掩蔽效应,即强信号对弱信号有掩盖的抑制作用,掩蔽的程度是声音强度与频率的二元函数,对频率的临近分量的掩蔽要比频差大的分量有效得多;4第二共振峰对语音的感知比第一共振峰重要,对语音信号进行一定程度上的高通滤波不会影响语音的可懂程度。5人耳还可以在两个人以上的讲话环境中分辨出所需要的声音等。借助于人耳对语音信号的感知机理,更加有助于深入研究语音增强技术。3、噪声特性实际应用环境不同,噪声的形式也多种多样,可以是加性的,也可以是非加性的,而且通过变换,非加性噪声也可以转变为加性噪声,因此本文重点研究加性噪声的消除方法。加性噪声通常分为周期性噪声、脉冲噪声、宽带噪声和同声道语音干扰等等,它们各自具有不同的特点。周期性噪声主要来源于周期性的机械运转、电气干扰等等,其特点是频谱上有许多离散的、时变的、与语音信号重叠的窄谱峰,可以通过功率谱滤波或变换技术去掉。脉冲噪声通常是放电等突发性的干扰,其特点是类似于时域波形中冲击函数的窄脉冲,可根据带噪语音信号幅度的平均值确定阈值,在时域内进行消除。宽带噪声来源很多,包括风、呼吸噪声和一般随机噪声源,平稳的高斯型白噪声也可以视为宽带噪声。宽带噪声在时域和频域上与语音信号完全重叠,比较成功的消除方法是采用非线性处理。同声道语音干扰是多个语音同时在单信道中传输时,由于叠合而导致的语音干扰。可以利用不同语音存在的基音差别,采用语音分离的方法进行消除。122语音增强方法研究人员在加性噪声的模型上进行研究,针对不同噪声各自的特点,提出了各种语音增强算法,大致可分为三类1时域方法,如基于参数和模型的方法、子空间的方法等;2频域方法,如谱减法、自适应滤波法等等;3其它方法,如形态滤波法、小波变换法、KL变换法、DCT法、HMM方法、神经网数学形态学在语音识别中的应用研究4络、分形理论、听觉掩蔽法等。下边对各类方法分别进行介绍。1221时域方法1、基于参数和模型的方法。基于参数和模型的方法通常有两大类分析合成法和滤波器滤波处理的方法。分析合成法基于离散时域的语音信号模型。语音信号可以看成是线性时变滤波器在激励源激励下的输出,激励源分为浊音和清音两个分支,在浊音情况下,激励信号由一个周期脉冲发生器产生;在清音情况下,激励信号由一个随机噪声发生器产生;将声道模型看作是一个全极点时变滤波器,滤波器参数可以通过线性预测分析得到。如果能够知道激励参数和声道滤波器的参数,就能利用语音生成模型合成得到“纯净”的语音,该方法的关键是从带噪语音中准确地估计语音模型中的激励参数和声道参数。滤波器滤波处理是当激励参数难以准确估计时,只利用声道参数构造滤波器进行处理的方法10,11。典型的滤波器模型有以下几种1梳状滤波器利用语音信号浊音段有明显周期性的特点,采用梳状滤波器来提取语音分量,抑制噪声。梳状滤波器的输出信号是输入信号延时加权和的平均值,当延时与信号的基音周期一致时,这个平均过程使周期性分量加强,而非周期分量或周期不同于信号的其他周期分量被抑制或消除。这种方法的关键是要准确估计出语音信号的基音周期。这种方法一般只适用于平稳的非白噪声,在基音变化的过渡段和强噪声背景干扰下无法精确估计时,应用受到限制。2维纳滤波法维纳滤波方法是设计一个采用最小均方误差准则的数字滤波器,带噪语音信号通过此滤波器便得到语音信号的估计,这个最佳滤波器就是维纳滤波器。维纳滤波器是在平稳条件、最小均方误差意义下的最优估计。此种算法适用于高斯白噪声。它在一定程度上能消除噪声,提高信噪比。但是由于维纳滤波器只能在平稳条件下才能保证最小均方误差的最优估计,而语音和背景噪音的非平稳性会导致最优估计的误差。而且采用维纳滤波也没有完全利用语音的生成模型,增强后的语音带有不悦耳的声音12,13。3卡尔曼滤波法卡尔曼滤波器是在已知状态方程和噪声统计特性的条件下,用线性预测LP分析参数实现波形最小均方误差意义下的最佳估计器。卡尔曼滤波弥补了维纳滤波的两个缺陷,它是基于语音生成模型的,且在非平稳条件下也可以保证最小均方误差意义下的最优,故适合于非平稳噪声干扰下的语音增强。卡尔曼滤波通过引入卡尔曼信息,将要解决的滤波与预测的混合问题转化为纯滤波和纯预测两个独立的问题来考虑进行语音增强。其优点是噪声在平稳和非平稳情况下都能使用,能在不同程度上消除噪声,提高信噪比。其缺点是1需要迭代估计模型参数,在噪声强时误差大;2语音生成模型中假定激励是白噪声源,这仅对清音成立而对浊音是不成立的;3计算量较大;4优化标准是时域的波形误差最小,对语音信号而言此标准不够合理14,15。河北工业大学博士学位论文52、子空间的方法实验表明语音特征的协方差阵有很多零特征值,说明纯净语音信号的能量只分布在它对应空间的某个子集中;而噪声的方差通常都假设已知且严格正定,这说明噪声矢量存在于整个带噪语音信号张成的空间中。因此带噪语音信号的矢量空间可以认为由一个信号与加噪声的子空间和一个纯噪声子空间构成。子空间法就是将带噪声语音信号分解为正交的信号加噪声子空间和噪声子空间,对纯净语音信号的估计可以通过将噪声子空间中的信号舍弃,只保留信号子空间中的信号来预测干净的语音,从而达到降噪的目的16,17。子空间法的优点是能有效地去除带噪语音中的背景噪声,使语音的质量和可懂度都有较大的提高,但是计算量较大。1222频域方法语音是非平稳随机过程,但在L0MS30MS内可近似看成是平稳的。如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到语音增强的目的。由于人耳对语音的感知主要是通过语音信号中各频谱分量幅度获得的,对各分量的相位不敏感,因此此类语音增强方法估计的对象是短时谱幅度。典型的方法有谱减法、短时谱幅度的MMSE估计、自适应滤波法等。1、谱减法谱减法是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为“纯净”的语音频谱。它的优点是运算量小,容易实时实现,增强效果也较好。但是也存在一定的缺陷,谱减法是一种最大似然估计,没有对语音频谱的分布进行假设,而语音频谱分量的幅度对人耳的听觉是最重要的。因此谱减法进行增强处理后,会带来音乐噪声,不仅使听者在听觉效果上产生一定的干扰影响,还影响语音编码等后续处理工作。常用的谱减法有线性谱减法、非线性谱减法和概率谱减法1820。2、短时谱幅度的最小均方误差估计法最小均方误差MMSE估计是一种对特定的失真准则和后验概率不敏感的估计方法。它是利用已知的噪声功率谱信息,从带噪语音频谱分量中估计出纯净语音频谱分量,借助带噪语音相位得到增强的语音信号。对于语音短时谱幅度的分布,通常通过两种途径解决一是假设一个合理的概率分布模型;另一个则是通过实际统计的方法去获得。为此,假设语音频谱分布为高斯分布,并在此假设下推导MMSE估计公式,然后讨论实际分布情况。另外由于大部分语音的变化是比较缓慢的,帧与帧之间的频谱有着一定的相似性,其相应频谱分量之间存在某种相关性,这反映在前一帧的频谱值对后一帧频谱的分布产生一种约束影响。由此产生了基于帧间频谱分布约束的MMSE估计方法。人耳对声音强度的感受是与谱幅度的对数成正比的,采用对数失真准则更为适合一些。为此,将上述MMSE估计式进行推广,得到频域分布约束下的短时对数谱的MMSE估计21,22。MMSE算法达到了语音可懂度和降噪比的折中,适用信噪比的范围较广,但是由于需要统计各种参数,算法运算量大,实时性不好。3、自适应滤波法自适应滤波法是通过双话筒分别采集噪声和带噪语音信号,从带噪语音幅度谱中减去经过自适应滤数学形态学在语音识别中的应用研究6波器后的噪声分量幅度谱,然后加上带噪语音频谱的相位,经过傅里叶逆变换就得到增强的语音信号。当输入信号的统计特性未知或者输入信号的统计特性变化时,自适应滤波器能够自动地迭代调节自身的滤波器参数,以满足某种准则的要求,从而实现最优滤波。因此,自适应滤波器具有“自我调节”和“跟踪”能力。自适应滤波器通常采用FIR滤波器,系数采用最小均方LMS误差准则来迭代估计23,24。这种方法的问题是如何得到与带噪语音中的噪声一致的噪声。系统要求双话筒采集信号,限制了这种方法的适用范围。对于只允许单话筒采集的,一般是在语音间歇期间利用采集的带噪语音来估计噪声,但是这样会影响语音增强效果。此外如同谱减法一样还有一个缺点就是增强语音中含有明显的“音乐噪声”。1223其它方法前面介绍的各种语音增强需要知道噪声的一些特征或统计性质。在没有噪声先验知识的情况下,仅仅依靠带噪语音信号来分离语音信号非常困难。随着新的信号处理理论和技术不断涌现和不断完善,语音研究工作者将这些新技术引入语音增强领域,如形态滤波法、小波变换法、KL变换法、DCT法、隐马尔可夫模型法、神经网络、分形理论、听觉掩蔽法。1、形态滤波法形态滤波器是从数学形态学发展起来的一种非线性滤波器,也是目前非线性滤波器中发展最快、应用最广的一种25。形态滤波器作为非线性滤波方法,在多维信号中得到广泛应用,而由于其具有良好的滤波特性在一维信号处理中也逐渐得到重视。将其应用于语音信号增强,基于信号的几何结构特征,利用预先定义的结构元素对信号进行匹配或局部修正,从而达到提取信息、抑制噪声的目的5,26,27。蒋等人在语音基音周期提取过程中,利用形态滤波后的语音对削波阈值进行自适应调节28。HEMDAL则把伪彩色声谱图作为平面图像来进行形态滤波处理29。2、小波变换小波变换具有多尺度的特性,可以由粗及细的逐步观察信号。语音信号增强的目的就是从带噪语音信号中去掉语音信号中所含有噪音成分从而得到比较纯净语音信号。利用具体问题的先验知识,根据信号和噪声的小波系数在不同尺度上具有不同性质的机理,构造相应规则,在小波域采用其他数学方法对带噪信号的小波系数进行处理。处理的实质在于减小甚至完全剔除由噪声产生的系数,同时最大限度地保留真实信号的系数,最后由经过处理的小波系数重构原信号,得到真实信号的最优估计30,31。小波变换进行信号去噪时,能够在去除噪声的同时很好地保留信号的突变部分。但是在使用这种方法时,还应考虑抑制噪声与保留信号细节之间的折衷问题,以及分解尺度的选取、阈值的选取,如果阈值选得过高,会使信号丢失过多的细节,使信号失真;如果阈值选得过低,则不能达到去噪的目的。3、KARHUNENLOEVE变换KARHUNENLOEVE变换用于语音增强是把带噪语音沿着经过KL变换的纯净语音向量空间进行分解,得到特征向量,通过修正每一个向量使得当剩余噪声功率被限制在一特定值,然后经KL反变换合成输出增强后的语音32,33。4、离散余弦变换DISCRETECOSINETRANSFORM离散余弦变换的语音消噪方法与小波变换类似,通过对带噪信号进行离散余弦变换后用阈值函数处河北工业大学博士学位论文7理,再进行离散余弦反变换就可以得到增强的语音信号。同样,阈值的选择是这类方法的关键,也是不断研究改进的重要内容34,35。5、隐马尔可夫模型法隐马尔可夫模型法是采用基于状态空间的变换方法,对不同类别的语音和噪声信号建立不同的模型。HMM的各个状态可以对带噪信号、噪声信号所有不同的区域进行充分的建模,将带噪信号中的噪声信号部分去除就可得到语音的增强,甚至在只有带噪信号的情况下,利用HMM对状态转移概率进行建模,将可能为噪声的信号部分滤除,就可以达到语音增强的目的。但是在只有带噪信号的情况下,准确估计噪声会有一定的误差36,37。6、神经网络语音增强在一定意义上也是一种说话人区分问题,只不过区分的是在背景中的噪声,因此可以利用人工神经网络来实现语音的增强。假设测试语音和噪声环境的分布保持不变且与训练时相同,利用带噪语音和干净的目标语音分别进行训练,得到合适的预测神经元模型,构造可以对语音和噪声进行分类的分类器,对当前语音信号进行最佳匹配,来实现语音增强38。7、分形理论语音与噪声具有不同的混沌和分形特性,因此可将分形维数用于语音增强。根据分形结构的语音信号在一定的尺度范围内具有等价标度不变性,导出带噪语音信号的真实分形维数的计算方法,利用分形维数内插方法计算出信号的维数。根据它们之间的差值进行对重构的阈值和位置自适应控制,实现语音信号与噪声的分离。既抑制了噪声,又减少了语音段的信息的损失,提高了信噪比39,40。8、听觉掩蔽听觉掩蔽法是利用人耳听觉特性的一种增强算法。人耳能够掩蔽语音信号中能量较小的噪声信号,使得这部分噪声不为人所感知。听觉掩蔽模型常与语音增强算法结合实现去噪,其实现过程为首先基于一种语音增强方法对语音信号进行粗估计,再由语音信号粗估计计算出听觉的掩蔽阈值,根据听觉掩蔽阈值和噪声参数的估值,结合相应的增强算法计算出增益,并依此估计出纯净语音。这种方法在消噪的同时可以减少不必要的语音失真。但由于噪声掩蔽阈值是在纯净语音基础上得到的,在实际应用中常只能用带噪语音来估计掩蔽阈值,这样估计的结果误差较大41,42。语音增强算法各有优缺点,分别适用于不同的场合。随着信号处理技术不断完善和发展,语音增强算法的新方法必将层出不穷。在实际应用时,要根据具体的噪声情况和特定环境,选用不同的语音增强方法或语音增强方法的组合,来达到消除噪声或提高语音清晰度的目的。如只要求消除带噪语音中的噪声,可以采用一些传统的语音增强方法如谱减法、自适应滤波法等,达到提高信噪比,增强语音的效果。如为了减小对语音的听觉失真,提高语音的清晰度,权衡考虑增强后的语音失真和去噪效果,可以采用听觉掩蔽效应和其它方法相结合,如基于听觉掩蔽效应的改进谱减算法43或基于ARHMM模型的谱减算法44等方法。还可以利用不同的语音增强方法之间进行互补,达到更高的增强效果,如基于HMM模型的方法也可以和扩展的卡尔曼滤波器联合使用45,小波阈值算法中关键是阈值的选取可采用神经网络的方法来自适应寻找46等等。数学形态学在语音识别中的应用研究813语音识别技术研究现状语音识别以研究语音信号处理技术为基础,内容涉及计算机科学、数字信号处理、语言学、生理学、心理学等诸多学科,是人机交互技术、模式识别研究领域中的一个重要分支,它是实现计算机自动理解语音和智能计算机接口的关键部分,是一个系统的模式识别过程。1952年,美国BELL实验室的DAVID等人研制了最早的语音识别器AUDRY系统,该系统可以成功的识别10个英文数字的语音,这是语音识别研究工作的真正开端。1959年,JWRORGIE和CDFORGIE采用计算机来识别英文元音和孤立词,开始了基于计算机技术的语音识别。1960年代,动态规划DYNAMICPROGRAMMING,DP和线性预测分析技术LINEARPREDICTIVE,LP广泛应用于语音识别的研究工作中,对语音识别、语音合成、语音分析、语音编码等起到了巨大的推动作用。1970年代,语音识别研究领域取得了突破性的进展,因为线性预测倒谱LINEARPREDICTIVECEPSTRALCODING,LPCC和动态时间规整技术DYNAMICTIMEWARPING,DTW的日趋成熟,研制成功了基于线性预测倒谱和动态时间规整技术的特定人孤立语音识别系统;随后,矢量量化VECTORQUANTIZATION,VQ和HMM理论被成功地应用于语音识别系统,1988年,美国卡内基梅隆大学CMU研制成功了SPHINX系统,系统基于矢量量化和隐马尔可夫模型理论,可以理解由1000个单词构成的4200个句子,被认为是语音识别研究历史上第一个真正意义上的非特定人、大词汇量、连续语音识别系统。1980年代,语音识别的研究工作进一步深入,人工神经网络ARTIFICALNEURALNETWORK,ANN引入语音识别研究领域。随着计算机技术的飞速发展,语音识别正从研究走向实用,其研究成果已达到相当高的水平。按照不同的分类依据和分类方式,语音识别系统可以进行如下划分1根据对说话人说话方式要求的不同,可分为孤立词语音识别系统、连接词语音识别系统和连续语音识别系统。2根据对说话人依赖程度的不同,可分为特定人语音识别系统和非特定人语音识别系统。3根据语音词汇量大小不同可分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别系统。不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似。一个完整的语音识别系统框图如图11所示。图11语音识别系统框图FIG11DIAGRAMOFSPEECHRECOGNITIONSYSTEM语音信号训练语音测试语音特征提取特征提取模板数据库学习模式匹配识别结果特征提取特征提取语音信号河北工业大学博士学位论文9语音识别过程的主要任务就是利用提取到的特征向量进行相关语音的训练和识别,从而建立起特征向量数据流和语音信号之间的对应关系,用最简单有效的模型来表示出每一个语音基本单元。由于人类语言信息结构复杂、内容丰富,使得语音识别系统相对复杂。在这半个世纪的研究过程中,不同的研究工作者探索了不同的语音特征识别方法,在语音识别的发展过程中,出现了动态时间规整、矢量量化技术、隐马尔可夫模型以及神经网络等一些主要方法。1、动态时间规整动态时间规整,也叫做“时轴弯折”,是在匹配过程中使参考样本与测试样本中相应部分在时间对齐的技术,把测试样本未知量伸长或缩短,直到它与参考模式的长度一致时为止。借助于动态规划,寻找一个最佳的时间规整函数,通过局部最优化的方法实现加权距离总和的最小,这样就将一个复杂的全局最优化问题转化为许多局部最优化问题,从而使得参考样本和测试样本得到最好的匹配。在时间规整过程中,未知单词的时间轴要不均匀地扭曲或弯折,以便使其特征与模型特征对正。该方法很好地解决了信号识别中由于信号速度不均而造成的时间伸缩变化问题4749。DTW是成功地解决了在语音信号特征参数序列比较时时长不等的难题,对提高系统的识别精度极为有效,但是DTW算法必须要求一个精确的起点定位,当识别任务由孤立词语音转变为连续语音大词汇量语音识别系统,或者是非特定人语音识别时,由于它匹配速度慢等缺点,逐渐为HMM和时间延迟神经网络TIMEDELAYEDNEURALNETWORK,TDNN等方法所取代。2、矢量量化技术矢量量化是一种效率很高的编码技术,它是将用K个标量表示的语音信号的波形帧或参数帧用一个K维矢量来表示,然后对此矢量进行整体量化50。采用LBG算法,通过对大量的K维帧矢量进行统计试验,完成统计划分从而把K维无限空间聚类划分为M个区域边界,每个区域边界对应着一个中心矢量值,把这个中心矢量作为码字,用一个标号来表示,所有的码字构成码本。在识别时,把输入语音信号的K维帧矢量和已有码本中的所有个区域边界作比较,按失真测度最小准则找到与该输入矢量距离最小的码字标号来代替此输入的K维矢量,这个对应的码字就是识别的结果,在对其进行K维重建就可获得被识别的语音信号。在该过程中,码字的标号可以作为存储和传输的参数,不但实现了高效的数据压缩,又有利于安全保密。可以代替DTW完成动态匹配,存储量和计算量相对较小。经过多年的积累,产生了很多矢量量化方法,主要包括K均值算法KMEANS,分裂法BINARYSPLIT、K均值修正算法MODIFIEDKMEANS、链映射法、共有最邻近法、迭代自组织数据分析法、乘积矢量量化法等等;还有科研工作者针对K均值算法导致的码本结果落入局部最优的特点,将模拟退化算法引入了矢量量化。然而矢量量化技术只适于孤立词而不适合连续语音大词汇量语音识别,并且容易收敛到局部最优,因此许多科研工作者对矢量量化方法不断改进51,52。3、隐马尔可夫模型隐马尔可夫模型基本理论是由BAUM等学者在1960年代后期提出,1970年代初期卡内基梅隆大学的BAKER和IBM公司的JELINEK引入到语音识别中,不但促进了语音识别技术的发展,而且使得HMM理论得到了完善和发展。HMM依靠其成熟的数学结构和对时变信号的强大建模能力,在许多处理序列数学形态学在语音识别中的应用研究10化动态非平稳信号的研究领域中得到应用。HMM是一种用参数表示的、用于描述随机过程统计特性的概率模型,它是由MARKOV链演变来的,所以它是一种基于参数模型的统计识别方法。HMM与有限状态的MARKOV链一样,采用初始分布、状态转移概率矩阵来描述有限长随机序列的统计特性,但不同于MARKOV链,它不是由每一观察即可确定当前所处状态,而是由每一观察估算出当前各种状态的概率,它具有双重随机性,是一种双重随机过程。HMM的基本思想是用双随机过程来描述一个模式,一是MARKOV链,这是基本随机过程,它是描述模式内部的状态序列;二是描述状态值和观察值之间关系的随机过程。因此它对复杂系统的描述能力比单纯的MARKOV模型要强大的多。从观察者的角度只能看到观测值,而看不到内部状态,只能通过反映观测值和内部状态之间的随机过程去感知状态的存在及其特性。语音信号只有在短时段内1030MS左右认为是时不变的平稳过程,HMM用概率统计理论成功地解决了辨识具有不同参数的短时平稳语音段,又能够追踪它们之间的转化,解决了非平稳语音信号的模型化问题。HMM是语音信号时变特征的参数表示法,由相互关联的两个随机过程共同描述信号的统计特性。模型参数包括HMM拓扑结构,状态转移概率和描述观察符号统计特性的一组随机函数。在实际应用中,采用这种技术,要以一个只具有有限不同状态的系统作为语音生成模型。每个状态都可产生有限个输出。在生成一个单词时,系统不断地由一个状态转移到另一个状态,每一个状态都产生一个输出,直到整个单词输出完毕。状态之间的转移是随机的,每一状态下的输出也是随机的,由于允许随机转移和随机输出,所以HMM能适应语音发音的各种微妙变化。在识别词表中,每一个单词都对应这样的一个模型。识别器要做的工作就是输出,识别的任务就是决定由哪一个模型提供输出。语音学的研究表明,人的声道具有有限的发音结构,当人在发音的时候,声道的结构将进行有序的变化。大量的试验分析表明,“从左至右”的HMM比“各态遍历”的HMM等结构更适合进行语音身份的辨识。可以把它和“从左至右”HMM中的状态对应起来,语音信号作为相对于一定声道结构产生的观察信号,当用“从左至右”HMM来描述一个人的发音时,实际上也描述了这个人的声道结构发这个音时的有序变化。这样训练得到的各个人的HMM模型就包含了发音者的个人特征5355。现在广泛应用于语音信号处理的传统连续HMM,把语音信号看成是平稳的MARKOV过程,对状态之间变化的规律估计的过于简单,认为状态之间的转移概率仅仅与MARKOV链所处的状态有关。而实际上,由于每个状态与一定的发音结构相对应,而每个发音结构都要占据一段相对稳定的时间,因此刚进入一个发音结构就立刻向下一个发音结构转移的概率,要比过了一段时间再向下一个发音结构转移的概率小,特别是对于语音中的元音段,就更加明显,因此传统HMM中的平稳性假设与实际语音信号的发音规律是不相符的。HMM技术之所以在语音识别中应用较为成功,主要是它具有较强的对时间序列结构的建模能力,尽管如此,HMM仍然是有缺点和局限性的1对低层次的声学音素建模能力差,使声学上相似的词易混淆;2对高层次语音理解或语义建模能力差,使其仅能接受有限状态或概率文法等简单场合应用;3一阶HMM假设很难直接用模型描述协同发音COARTICULATION,因为HMM假设输出是相互独立河北工业大学博士学位论文11的,且依赖于当前状态;4HMM需对状态的分布作先验假设,而这种假设不一定适于语音信号;5HMM识别系统难以用硬件实现。随着研究的不断深入,研究工作者将HMM理论不断深化,研究方式已不仅仅局限于传统的离散HMM模型、连续HMM型和半连续HMM模型。改进现有的HMM语音信号处理模型的途径有一是提高模型的阶数;二是将音素长度的分布信息添加到现有的语音信号处理模型中去。但到目前为止,由于受到训练和识别算法的影响,所有有关改进HMM语音信号处理的模型研究都还没有完全摆脱模型平稳性的假设,一些研究人员考虑到语音在某一状态的停留时间,设计了考虑状态驻留时间的HMM,更加符合语音的特点,更为精确地描述了语音的发音过程,改善了识别效果5660;还有研究工作者引入二阶HMMSECONDORDERHMM,这样就考虑了相邻帧特征矢量之间的相关性,避免了状态转移概率和输出观测值概率的计算时只考虑当前状态而不考虑历史的简单假设,在实际问题中更具有其合理性6163。4、神经网络神经网络本质上是一个自适应非线性动力系统。人工神经网络模拟了人脑的认知过程,采用大量的神经元完成了大量信息存储,实现了数据的大规模并行分布式处理,将信息存储与处理统一到单一的模型中,体现出了与人脑相似的学习记忆能力、知识概括能力和较强的分类映射能力,逐渐为广大语音识别技术研究者所关注。利用神经网络来仿生人的听觉神经机理,模拟了人类大脑神经元活动的基本原理,具有学习、记忆判断、联想、对比、推理、概括等能力,业已成为当前语音识别研究的一个重要方向64。采用神经网络的语音识别系统不同于传统的语音识别方法,传统的语音识别方法是基于模板匹配或句法模式识别的方法,前者是对语音信号通过特征参数提取及模式匹配完成;后者是在认为输入的未知模式属于某个对象时,再检查一下输入模式相应于识别对象的结构,当与对象模式结构相同或某范围结构一致时,则判定该未知模式就是识别对象的语音。神经网络的语音识别方法与传统方法的差异之处在于,不像传统方法那样有输入模式和标准模式的比较匹配,而是依靠神经网络中大量的连接权对输入模式进行非线性计算,产生最大兴奋的输出点就对应着输入模式的分类。与传统方法相比,神经网络的方法更加接近于人类的感知过程。神经网络的语音识别方法更加依赖于网络结构和连接权值,语音识别工作者不断的研究设计合理的网络结构,探索尝试了多种形式的神经网络结构。在研究已分段的语音过程中,探索采用了单层感知器SINGLELAYERPERCEPTRON,SLP神经网络模型65,多层感知器MULTILAYERPERCEPTRON,MLP神经网络模型66,自组织特征映射SELFORGANIZATIONFEATUREMAPPING,SOFM模型67以及径向基函数RADIALBASISFUNCTION,RBF神经网络模型68;而在识别动态语音数据时,时延神经网络69,时延MLP以及预测网络都为广大语音识别研究人员所采用。多层感知器网多层感知器误差反传网络是采用反向传播算法的多层感知器神经网络,克服了HMM对声学上相似的词容易混淆的缺点,已经成功的用于音素识别,但是研究者更趋向于用BP网络完成静态模式分类,再用HMM或DP完成时间对准。KOHONEN自组织神经网络自组织神经网络是基于仿生学的研究结果,模拟了声音或景物对听觉或数学形态学在语音识别中的应用研究12视觉器官的刺激沿神经向大脑皮层投射时的拓扑结构,从而在大脑皮层形成各种特征区域。预测神经网络预测神经网络PREDICTIVENEURALNETWORK,PNN是20世纪末产生的一种神经网络语音识别方法,具有很强的建模能力。它把感知器作为预测器而不是模式分类器来使用,能够充分利用语音模式中的时间相关性,容易增加新的识别类,可用于大词汇量、连续语音、非特定人的语音识别研究。为了反映出语音信号的动态时变特性,还有时延神经网络(TIMEDELAYNEURALNETWORK,TDNN)、循环神经网络RECURRENTNEURALNETWORK,RNN。总体上讲,基于神经网络的语音识别方法普遍存在训练、识别时间太长的缺点,因此还在不断地进行探索研究,进一步提高识别效果的方法主要围绕下面的几个方向展开合理选择较多的输入样本;更好地对输入数据进行预处理;改进神经网络结构;加入模糊技术等等。在以上介绍的几类方法中,尤以神经网络和HMM成为研究者的主要研究方法,近年来一些语音识别研究工作者针对神经网络和HMM具有各自不同的优缺点,将神经网络与HMM相结合构成混合网络,能充分利用神经网络的强分类能力,同时保留HMM的强时间序列建模能力70。语音识别研究工作者将不同的神经网络结构与HMM相结合产生了很多的组合方式,包括HMM与MLP混合网络71,72,HMM与SOFM混合网络73,TDNN和HMM混合网络74,75。另外,伴随着对支持向量机SUPPORTVECTORMACHINES,SVM76和模糊逻辑FUZZYLOGIC77,78等数学方法研究的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论