




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音识别主要是让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息执行人的各种意图。语音识别技术既是国际竞争的一项重要技术,也是每一个国家经济发展不可缺少的重要技术支撑。本文基于语音信号产生的数学模型,从时域、频域出发对语音信号进行分析,论述了语音识别的基本理论。在此基础上讨论了语音识别的五种算法:动态时间伸缩算法①ynamicTimeWarpingDTW)、基于规则的人工智能方法、人工神经网络(ArtificialNeuralNetwork,ANN)方法、隐马尔可夫(HiddenMarkovModel,HMM)方法、HMM和ANN的混合模型。重点是从理论上研究隐马尔可夫但乂乂)模型算法,对经典的HMM模型算法进行改进。语音识别算法有多种实现方案,本文采取的方法是利用Matlab强大的数学运算能力,实现孤立语音信号的识别。Matlab是一款功能强大的数学软件,它附带大量的信号处理工具箱为信号分析研究,特别是文中主要探讨的声波分析研究带来极大便利。本文应用隐马尔科夫模型(HMM)为识别算法,采用MFCC(MEL频率倒谱系数)为主要语音特征参数,建立了一个汉语数字语音识别系统,其中包括语音信号的预处理、特征参数的提取、识别模板的训练、识别匹配算法;同时,提出利用Matlab图形用户界面开发环境设计语音识别系统界面,设计简单,使用方便,系统界面友好。经过统计,识别效果明显达到了预期目标。关键词:语音识别算法;HMM模型;Matlab;GUIABSTRACTSpeechRecognitionisdesignedtoallowmachinestounderstandwhatpeoplesay,andaccuratelyidentifythecontentsofvoicetoexecutetheintentofpeople.Speechrecognitiontechnologyisnotonlyanimportantinternationallycompetedtechnology,butalsoanindispensablefoundationaltechnologyforthenationaleconomicdevelopment.Basedonthemathematicalmodelfromthespeechsignal,thispaperanalyzeaudiosignalfromthetimedomain,frequencydomainproceeding,anddiscussedthebasictheoryofspeechrecognitiontechnology.Fivealgorithmarediscussed:DynamicTimeWarping(DTW)、Rule-basedArtificialIntelligence,ArtificialNeuralNetwork(ANN),HiddenMarkovModel(HMM),HMMcombinedwithANN.ThefocusisputinthetheoreticalstudiesofHiddenMarkov(HMM)modelalgorithm,andtheclassicalHMMalgorithmisimproved.Speechrecognitionalgorithmisrealizedinvariousprograms,thisarticletakingthemethodistouseMatlabpowerfulmathematicaloperationabilitytorealizetherecognitionofspeechsignalisolation.Matlabisapowerfulmathematicsoftwarewithamassoftoolboxesdealingwithsignalprocessing.Itgivesaterrificshortcuttotheresearchofsignalprocessing,especiallythewaveanalysis.Wecancharacterizethesoundwithkeyparameterssuchasintensity,frequencyetc.Inthispaper,hiddenMarkovmodel(HMM)recognitionalgorithmusingMFCC(MELfrequencycepstralcoefficients)asthemainvoicecharacteristicparameters,theestablishmentofaChinesedigitalspeechrecognitionsystem,includingthepreprocessingofthespeechsignal,theextractionofcharacteristicparametersthetrainingoftherecognitiontemplate,identifyingmatchingalgorithm;thesametime,theuseofMatlabgraphicaluserinterfacedevelopmentenvironmentdesignedspeechrecognitionsysteminterface,isdesignedtobesimple,easytouse,friendlyinterface.Besides,tohaveasimpleexplorationofthevoicerecognitionisanothertarget.Afterstatistics,recognitionresultobviouslyismadeoutastheexpectedgoal.Keywords:Speechrecognitionalgorithm;HMMmodel;Matlab;GUIII目录TOC\o"1-5"\h\z\o"CurrentDocument"一、前言 1\o"CurrentDocument"语音识别的发展历史 1\o"CurrentDocument"语音识别研究现状 1\o"CurrentDocument"语音识别系统的分类 2\o"CurrentDocument"语音识别系统的基本构成 3\o"CurrentDocument"语音识别技术难点 3\o"CurrentDocument"语音识别发展前景 4\o"CurrentDocument"二、语音信号分析 4\o"CurrentDocument"语音学知识 4\o"CurrentDocument"音素和音节 5\o"CurrentDocument"汉语的声调 5\o"CurrentDocument"语音信号产生模型 6\o"CurrentDocument"语音信号数字化和预处理 7\o"CurrentDocument"数字化 7\o"CurrentDocument"预加重处理 7\o"CurrentDocument"防混叠滤波 8\o"CurrentDocument"加窗处理 8\o"CurrentDocument"语音信号的时域分析 9\o"CurrentDocument"短时能量分析 9\o"CurrentDocument"短时平均过零率 11\o"CurrentDocument"短时自相关函数和短时平均幅度差函数 12\o"CurrentDocument"语音端点检测 13\o"CurrentDocument"语音信号的频域分析 14\o"CurrentDocument"滤波器组法 14\o"CurrentDocument"傅立叶频谱分析 14\o"CurrentDocument"特征参数提取 15\o"CurrentDocument"LPCC倒谱系数 15\o"CurrentDocument"Mel频率倒谱系数 16\o"CurrentDocument"三、语音识别主要算法 17\o"CurrentDocument"动态时间伸缩算法 17\o"CurrentDocument"基于规则的人工智能方法 18\o"CurrentDocument"人工神经网络方法 19\o"CurrentDocument"隐马尔可夫方法 20\o"CurrentDocument"HMM和ANN的混合模型 21\o"CurrentDocument"四、隐含马尔可夫模型算法 23\o"CurrentDocument"HMM的基本理论和数学描述 23\o"CurrentDocument"HMM的三个基本问题及解决算法 24\o"CurrentDocument"HMM算法的改进 31IIITOC\o"1-5"\h\z\o"CurrentDocument"HMM的结构和类型 33\o"CurrentDocument"HMM算法实现的问题 34\o"CurrentDocument"五、基于Matlab环境下的语音识别算法实现 35\o"CurrentDocument"识别系统平台介绍 35\o"CurrentDocument"在Matlab中HMM算法的实现 36\o"CurrentDocument"端点检测 36\o"CurrentDocument"特征参数提取 36\o"CurrentDocument"训练和识别 37\o"CurrentDocument"实验结论分析 38\o"CurrentDocument"六、结束语 39回顾 39展望 39\o"CurrentDocument"七、致谢 40\o"CurrentDocument"参考文献 40IV河南理工大学毕业设计(论文)说明书一、前言语音识别的发展历史作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛,有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等,几乎深入到社会的每个行业、每个方面,其应用和经济社会效益前景非常广泛。因此语音识别技术既是国际竞争的一项重要技术,也是每一个国家经济发展不可缺少的重要技术支撑。研究语音识别,开发相应的产品有着广泛的社会意义和经济意义。语音识别中的说话人辨认的研究始于20世纪30年代。早期的工作主要集中在人耳听辨试验和探讨听音识别的可能性方面。Bell实验室的L.G.Kesta目视观察语谱图进行识别,提出了“声纹(Voiceprint)”的概念。Bell实验室的S.Pruzansky提出了模版匹配和概率统计方差分析的声纹识别方法,形成了声纹识别研究的一个高潮。60年代末和70年代初语音识别最重要的发展是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音的特征提取和时间不等长匹配问题,对特定人的语音识别十分有效。研究特点是以孤立字语音识别为主,通常把孤立字作为一个整体来建立模板。80年代,语音识别研究的重点之一是连接词语音识别,开发了各种连接词语音识别和关键词识别算法,如多级动态规划语音识别算法。另一个重要发展是语音识别算法从模板匹配技术转向基于统计模型技术。语音识别研究现状20世纪90年代后,在细化模型的设计、参数提取和优化,以及系统的自适应技术上取得了一些关键进展。语音识别技术进一步成熟,并开始向市场提供产品。由于中国的国际地位不断提高,以及在经济和市场方面所处的重要地位,汉语语音识别也越来越受到重视。IBM、Microsoft.L&H等公司相继投入到汉语语音识别系统的开发中,其投资也逐年增加。IBM开发的Viavoice和Microsoft开发的中文识别引擎代表了当前汉语语音识别的最高水平。台湾的一些大学和研究所也开发出大词汇量非特定人连续语音识别演示系统。日本也先后在语音识别领域大展头角,还有如Philips公司开发的Speech—Media和SpeechPearl两套软件,涵盖了自然语音识别与理解的对话系统。我国语音识别研究工作近年来发展很快,同时也从实验室逐步走向实用。从1987年开始执行863计划后,国家863《智能计算机主题》专家组为语音识别研究立项。每两年滚动一次,从1991年开始,专家组每一至二年举行一次全国性的语音识别系统测试。汉语语音识别研究已经走上组织化的道路。目前我国大词汇量连续语音识别系统的研究已经接河南理工大学毕业设计(论文)说明书近国外最高水平。语音识别发展到一定阶段,世界各国都加快了语音识别引用系统的研究开发,通常连续语音是含有较完整语法信息的连续语句,最接近于人的自然讲话方式,从非连续语音到连续语音的研究面临着很多完全不同的技术难点,非连续语音的识别是一些孤立的声波片段,连续语音则面临着如何切分声波的问题。诸如此类的新问题使连续语音识别率的提高比非连续语音更加困难。经过几十年的发展和摸索,人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性一起集中于一个系统中,并以此确定了统计方法和模型在语音识别和语音处理中的主流地位。在声学识别层次,以多个说话人发音的大规模语音数据为基础,以马尔可夫链为基础的语音序列建模方法HMM(隐含马尔可夫模型)比较有效的解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。目前在语音识别研究领域非常活跃的课题为稳健语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自适应语言模型,以及深层次的自然语音的理解。研究的方向也越来越侧重于口语对话系统。语音识别系统的分类语音识别是近年来十分活跃的一个研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。本文介绍了语音识别的基本流程、所用到的语音参数算法、语音识别的训练算法和识别算法做初步的探究,主要运用了特定人孤立词识别的DTW算法和非特定人识别的连续HMM算法的Matlab识别系统。语音识别按说话人的讲话方式可分为孤立词(IsolatedWord)识别、连接词(ConnectedWord)识别和连续语音(ContinuousSpeech)识别。孤立词识别是指说话人每次只说一个词或短语,每个词或短语在词汇表中都算作一个词条,一般用在语音电话拨号系统中。连接词语音识别支持一个小的语法网络,其内部形成一个状态机,可以实现简单的家用电器的控制,而复杂的连接词语音识别系统可以用于电话语音查询、航空定票等系统。连续语音识别是指对说话人以日常自然的方式发音,通常特指用于语音录入的听写机。显然,连续非特定人语音识别的难度要大得多,因为不仅有说话人口音的问题,还有协同发音、断字断句、搜索等问题,除了考虑语音的声学模型外还要涉及到语言模型,如构词法、文法等。从识别对象的类型来看,语音识别可以分为特定人(SpeakerDependent)语音识别和非特定人(SpeakerIndependent)语音识别。特定人是指只针对一个用户的语音识别,非特定人则可用于不同的用户。实际上,非特定人语音识别的初始识别率往往都比较低,一般都要求用户花一定的时间对系统进行训练,将系统的参数进行一定的自适应调整,才能使识别率达到满意的程度。非特定人大词表连续语音识别是近几年研究的重点,也是研究的难点。目前的连续语音识别大多是基于HMM(隐马尔可夫模型)框架,并将声学、语言学的知识统一引入来改善这个框架,其硬件平台通常是功能强大的工作站或PC机。河南理工大学毕业设计(论文)说明书语音识别系统的基本构成语音识别系统的典型实现方案为:输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音信号经预处理后,接下来很重要的一环就是特征参数提取。对特征参数的要求是:1,提取的特征参数能有效地代表语音特征,具有很好的区分性。2,各阶参数之间有良好的独立性。3,特征参数要计算方便,最好有高效的计算方法,以保证语音识别的实时实现。在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模版库。在识别阶段,语音喜好经过相同的通道得到语音参数,生成测试模版,与参考模版进行匹配,将匹配分数最高的参考模版作为识别结果。同时还可以在很多先验知识的帮助下,提高识别的准确率。语音识别技术难点虽然语音识别已突破了最初对技术的检验阶段,而进入通过对话及系统形象的设计,建立用户喜爱的应用系统时期。然而语音技术本身仍在不断进步,为市场提供更新更好的应用模式和技术。目前,技术及应用的焦点主要集中在三个方面。首先,带口音(Dialect)语音的识别。首先要明确的是,口音是指同一种语言在不同地区的发音有所不同,与同一地区(例如中国)的不同方言是有区别的。例如,中国的八大方言多属于与普通话(北方语系)不同的语系。也就是说是有别于普通话的不同的语言,应该用不同的声学模型来描述。而对于口音的适应性首先是由声学模型本身的品质决定的。对某一种口音,语言的声学模型的适应性决定了基础识别率,而在此基础上的优化和模型适应方案则提供了很好的解决方案。例如Nuance公司,作为拥有最大市场和最多用户的公司,也拥有最多的用户语音数据,保证了它极高的基础识别率。此外,该公司的系统优化工具为所有系统提供一个实用、有效的优化方法。优化过程对所有系统的表现都会有提高,也可以解决小范围的口音问题。而针对严重的口音问题,它的声学模型适应机制提供了很好的解决方案,可以使系统的识别率有很大改善。焦点之二是背景噪音。人多的公共场所巨大的噪音对语音识别的影响自不用说,早期即使在实验室环境下,敲击键盘、挪动麦克风都会成为背景噪音。它将破坏原始语音的频谱,或者把原始语音部分或全部掩盖掉,造成识别率下降。实际应用中,噪音是无法避免的。研究将要解决的问题就是如何把原始语音从背景噪音中分离出来,即所谓提高音质(speechenhancement)或减噪(noisereduction)的预处理。这将会使识别系统具有很强的适应性。在这方面,Nuance优化的语音参数、灵活的模型结构、新的建模方法以及独有的噪音抑制功能,使得系统在背景环境噪声、手机、车载免提等高噪音环境下能保持良好的工作状况。第三个就是“口语”的问题。这就是用户说话的自由度问题。它既涉及到自然语言理解,又与声学有关。语音识别技术的最终目的是要让用户在“人机对话”的时候,能够像进行“人人对话”一样自然。而一旦用户以踉人交谈的方式来进行语音输入时,口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难。你也许接触到一些语音软件声称是可以做到自然语言识别,而在这方面真正有实用商业系统的只有Nuance公司。Nuance的最新版识别软件所提供的“随意说(Sayanything)”技术,使用户可以以自然的河南理工大学毕业设计(论文)说明书语言说出自己的需求。例如,“我对我的手机上的一些功能不太明白,想问一下”,或者“嗯,我的账单应该到期了,请帮我查一下要交多少钱”。它为用户提供了一种像“人人对话”的自然语音交互界面,这种更加友善的界面允许一般对话时的一些行为,如停顿及不完全的语句等。语音识别发展前景语音技术是目前世界上最热门和最具有发展前景的技术之一。从某种意义上说,语音识别是将计算机变成真正的“智能化”设备的最佳途径。语音作为当前通讯系统中最自然的通信媒介,随着计算机和语音处理技术的发展,不同语种之间的语音翻译将成为语音研究的热点。自然语音数据库的设计:语音特征的提取;利用语音料库进行声学模型训练的研究;适应说话人声学模型的研究;语音识别算法的研究:语言翻译和对话处理的研究等成为语音技术的热点方向。语音识别研究的另一个发展方向是人体语言与口语相结合的多媒体人机交互。目前这种采用声觉、视觉两种信息融合进行识别的研究在全球范围内己经展开,成为语音识别研究的重要发展方向和研究热点之一。一位业界的资深人士对IT产业发展的提出的八大预言之一即为:语音成为新人机界面。语音识别技术的成熟使人机界面发生革命性突破,网络时代用户需要更自然、更简单、更方便的以语音为中心点的人机界面。未来几年里,真正实用的语音识别和音字转换技术将首次走出实验室,走进千家万户的电器设备中。摩尔定律所预言的硬件产品奇迹般的更新速度使计算机处理复杂运算的能力突飞猛进,也使体积庞大的语音库有机会栖身于普通用户的硬盘或其他存储介质上;技术方面,新的语音统计算法日趋成熟:市场需求方面,简化PDA、移动电话和其他信息家电原本繁琐的操作步骤的最佳途径便是通过语音技术。另外,语音识别是一门交叉学科,语音识别技术关系到多学科的研究领域,在不同领域上的进步都会促进语音识别的发展。(1)物理学(声学):声音产生与传播原理、声电转换以及声音在房间回响等相关知识。(2)生理学:有关人的声道与耳朵的生理结构、耳朵的听觉特征,在脑内高层的语言处理等。(3)统计学和模式识别理论;基于各种统计方法对模式进行匹配,以及建立有关的统计模型,对语音特征参数进行估值和分类。(4)信息理论和计算机科学:各种算法的研究、快速搜索查找匹配的方法。(5)语言学:有关人的语言产生、感觉方面的知识。(7)数字信号处理技术:信号的时域分析、噪声消除、数字滤波、线性预测等方面的知识。(8)微电子技术:超大规模集成电路(VLSI)技术的发展对语音识别的具体应用有很大的影响,VLSI使语音识别系统商品化成为可能。二、语音信号分析语音学知识在连续数字语音识别过程中,为了提高连续数字匹配搜索算法的有效性以及数字的识别率,必须要将对数字语音的研究细化到语音学的层次上,包括对各数字的音素和音节的特性和各数字的声调进行深入研究。河南理工大学毕业设计(论文)说明书音素和音节音素是语音信号的最基本组成单位,可分为浊音和清音两大类。浊音通过喉部发声,发声时声带振动,声带振动的基本频率称为“基音频率”,其倒数称为“基音周期”。清音通过将口腔内有的空气释放出来而发声,发声时喉部封闭,由于该气流通过一个狭窄通道时在口腔中形成流,因此具有明显的随机噪声的特点。音节是由音素结合而成的发声最小单位,一个音节由“元音”和“辅音”构成。当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。元音构成一个音节的主干,无论从长度还是能量上看,元音在音节中都占主要部分。所有元音都是浊音。发音时呼出的气流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。辅音也有清浊之分。辅音出现在音节的前端或者后端或前后两端。汉语的声调汉语是一种声调语言,相同声母和韵母构成的音节随声调的不同而具有完全不同的意义,对应着不同的汉字。所以,在汉语的相互交谈中,不但要凭借不同的元音和辅音来辨别这些字或词的意义,还需要从不同的声调来区别它,也就是说声调有辨义作用。汉语普通话的声调有阴平、阳平、上声、去声等四种声调(另外,有时还包括“轻声”),这些基本的调型在语句中虽然受语法、语气的影响而有所变动,但基本上不改变原有的模式一调型。声调的变化就是浊音基音周期(或基音频率)的变化,各个韵母段中基音周期随时问的变化产生了声调,变化的轨迹称为声调曲线。声调曲线从一个韵母的起始端开始,到韵母的终止端结束。不同声调的声调曲线的开始段称为弯头段,呈共同上升走向;末尾一段呈共同下降走向,称为降尾段;而中间一段具有不同的特点,这一段称为调型段。一般来说,弯头段和降尾段对声调的听辨不起作用,起作用的是调型段。而一段语音,它的起始和结尾处的波形幅度较小,要准确地测出这些地方的基音周期并不容易,因此可将这两处的波形忽略,只测调型段这一部分波形的基音周期。图2.1给出了单独说一个音节时的四种声调的典型曲线(F0/Hz)。
河南理工大学毕业设计(论文)说明书语音信号产生模型语音信号是声道被激励发生共振而产生的输出。由于在发音过程中声道是运动的,因此可以用一个时变线性系统来模拟。理想的模型是线性的,且时不变的;但是语音信号是一连串的时变过程,且声门和声道相互耦合形成了语音信号的非线性特性。做一个合理的假设,当在较短的时间间隔内表示语音信号时,则可以采用线性时不变模型。它包括激励模型、声道模型、和辐射模型。图2.2给出了经典的语音信号的产生模型,语音信号被看成是线性时不变系统在随机噪声或准周期脉冲序列激励下的输出。图2.2语音信号产生模型河南理工大学毕业设计(论文)说明书语音信号数字化和预处理数字化为了将原始的模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。根据采样定理,当采样频率大于信号的2倍带宽时,在采样过程中不会丢失信息,且从采样信号中可以精确地重构原始信号波形。在实际语音信号处理中,采样频率通常为7〜10kHz。在信号的带宽不明确时,采样前应接入抗混叠滤波器(低通滤波器),使其带宽限制在某个范围内;否则,如果采样频率不满足采样定理,则会产生混叠。此时,信号中的高频成分将产生失真。采样之后要对信号进行量化,在量化过程中不可避免的会产生误差。量化后的信号值与原始信号之间的差值为量化误差,又称为量化噪声。信号与量化噪声的功率之比为量化信噪比。若用5*2表示输入语音信号序列的方差,2X皿a表示信号的峰值,B表示量化分辨率(量化位长),52表示噪声序列的方差,则量化信噪比为:eTOC\o"1-5"\h\z52 X (21)SNR=10lg(—)=6.02B+4.77—20lg(—max) (41)52 5e *假设语音信号的幅度服从Laplacian分布,此时信号幅度超过45*的概率很小,只有0.35%,因而可以取X=45。此时上式变为SNR=6.02B-7.2。上式表明,量化器中每位字长对SNR贡献为6dB;当B=7位时,SNR=35dB。此时量化后的语音质量能满足一般通信系统的要求。研究表明:要使语音波形的动态变化信噪比达到55dB的信噪比,B应取10位以上。为了在语音信号变化范围内保持35dB的信噪比,常用12位来量化,其中附加的5位用于补偿30dB左右的输入动态范围变化。2.2.2预加重处理由于语音信号的平均功率谱受声门激励和鼻辐射的影响,在800Hz以上的高频时约按6dB/oct衰减,为此要在预处理中进行预加重。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行声道参数分析或频谱分析。预加重在防混叠滤波与A/D转换之前进行。这样,不仅能够进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。所以为尽量提高SNR,应在A/D转换之前进行预加重。同时,预加重也可在A/D转换之后进行,用具有6dB/oct地提升高频特性地预加重数字滤波器实现。它一般是一阶的,即:H(z)=1-uz-i,式中u值接近于1,本文中去为0.94。加重的信号在分析处理后,需要进行去加重处理,即加上6dB/oct的下降的频率特性来还原成原来的特性。图2.3所示为对语音信号“0”的预加重处理结果。从下图可以明显
河南理工大学毕业设计(论文)说明书[ 20C04JOO600C 30JO 100J0 [ 20C04JOO600C 30JO 100J0 12000采样点却1Ub他0理-051经高逋滤波节后弓声音口013.C5他nI也1-1C5-01C2OCO4300 600C 30JO 1OOJO12000采样点数图2.3语音信号“0”的预加重处理效果防混叠滤波A/D转换之前还需要加一个防混叠滤波器。如果频率干扰(50或60Hz)不严重或另有抗干扰措施,则不必用带通滤波器而只用低通滤波器即可。低通滤波器的截至频率由语音信号带宽决定,用于虑除高于l/2采样频率的信号成分或噪声,并且希望其带内波动和带外衰减特性尽可能好。A/D转换后采用低通滤波器作为平滑滤波器,对重构的语音波形的高次谐波起平滑作用,以去除高次谐波失真。对于这种低通滤波器的特性和A/D转换频率,也要求与采样时具有相同的关系。加窗处理已经数字化的语音信号序列将被依次存入一个数据区。在语音信号处理中,一般用循
环队列的方式来存储这些数据,以便用一个有限容量的数据区来应付数量极大的语音数据。
在进行处理时,按帧从此数据区中取出数据,处理完成后再取一帧,如此进行下去。一般
来说,语音信号处理的帧长一般取20ms(当F『8kHz时,相应每帧由160个信号样值)。在
s
河南理工大学毕业设计(论文)说明书取数据时,前一帧与后一帧的交叠部分称为帧移。帧移与帧长之比一般取为0〜0.5。在对语音信号进行短时分析的过程中,信号流的处理用分段或分帧来实现。一般每秒的帧数为33〜100,视实际情况而定。分帧既可连续,也可采用交叠分段的方法,用可移动的有限长度窗口进行加权的方法来实现。在10〜20ms这样的时间段内,数字化后的语音信号的频谱特性和某些物理特征参量可近似地看作是不变地。这样就可以采用平稳过程的分析处理方法来处理了。这种时间以来处理的基本手段,一般是用一个长度有限的窗序列w(n)截取一段语音信号来进行分析,并让这个窗滑动,以便分析任意时刻附近的信号。其一般式为g"t[%(㈤上似n_m),其中nm二一8T[*]表示某种运算{x(m)}为输入信号序列。通帮采用最多的窗函数是矩形窗、汉宁窗(Hanning)和哈明窗(Hamming)。本文主要采用哈明窗,其公式为:(2-2)0.54-0.46cos2.m~^,n=0-Lw(n)=< IL-1J(2-2)、0,n=其他其中L是窗长。通常认为在一个语音帧内,应含有1〜7个基音周期。然而,不同人的基音周期变化范围很大,从女性儿童的2ms到老年男子的14ms(即基音频率为50〜70Hz),所以L的选择比较困难。通常在10kHz采样频率下,L折衷选择为100〜200个采样点(即持续时间为10〜20ms)。语音信号的时域分析对信号分析最自然最直接的方法是以时间为自变量进行分析,语音信号典型的时域特征包括短时能量、短时平均过零率、短时自相关系数和短时平均幅度差。短时能量分析对于信号x(n),短时能量定义为:(2-3)XL(m)w(n一m»=XL(m)w(n-m»=x2(n)*h(n)(2-3)nm=-8 m=n-N+1式中,h(n)=w2(n),N为窗长,[表示在信号的第n个点开始加窗函数时的短时能量。可以看出,短时能量可以看作语音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲激响应为h(n),如图2.4所示。图2.4短时能量的方框图表示如果用xw表示x(n)经过加窗处理后的信号,窗函数的长度为N,则短时能量可表示为:河南理工大学毕业设计(论文)说明书如图2.5所示为语音如图2.5所示为语音E="艺一%2(m)
n wm-n“0”时域波形图和语音(2-4)“0”短时能量图。J.5-In-1
J100语音信号口0.5 1 rs 2 2.5口才旧 [产南音悟目n网片能聂函救1 ?d Rn1; 14RIF21故致UUG040J.5-In-1
J100语音信号口0.5 1 rs 2 2.5口才旧 [产南音悟目n网片能聂函救1 ?d Rn1; 14RIF21故致UUG040II曲程空日?nu图2.5语音信号“0”的短时能力函数利用短时能量可以区分清音和浊音,因为浊音的能量比清音的能量大得多;其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界等。在语音识别系统中,一股也作为特征中的一维参数来表示语音信号能量的大小和超音段信息。短时能量由于是对信号进行平方运算,因而认为增加了高低信号之间的差距,因此要采用短时平均幅度来表示能量的变化,其公式为:M=X1%(m)w(n-m)-n更1%(m)(2-5)nm--s如图2.6所示为“0”的短时平均幅度图。从图中可观察到,短时平均幅度对能量小的信号累计效果要比短时能量好。10河南理工大学毕业设计(论文)说明书语音信号口短时平均一度MJ,Iji语音信号口短时平均一度MJ,IjiIr.।hi।G.0 / 4I0 "II.' 14 "6I:-I旷如图2.6语音信号“0”的短时平均幅度短时平均过零率短时平均过零率是指每帧内信号通过零值的次数。对于连续语音信号,可以考察其时域波形通过时间轴的情况。对于离散信号,它实质上是信号采样点符号变化的次数。在一定程度上短时过零率可以反映出频率的信息,在浊音段一般具有较低的过零率,而在清音段具有较高的过零率,这样就可以初步判断清音和浊音,但只是相对而言,没有精确的数值关系。短时平均过零率公式为:(2-6):£IsgnL(m)]一sgnL(m-1)Hw(n-m)m--8(2-6)~n艺1sgnL(m)]-sgnL(m-1)H2 w wm-nSgn[*]是符号函数。为了解决低频的干扰,我们设立一个门限T,将过零率的含义修改为跨过正负门限的次数。于是有:z-1Xn2m--8( )(2-7)〉w\n-m)Isgn[%(m)-T]-sgn[%(m-1)-TH+IsgnL(mz-1Xn2m--8( )(2-7)〉w\n-m)另外,可以将短时平均过零率和短时能量结合起来判断语音起止点的位置,即进行端点检测。在背景噪声较小的情况下,短时能量比较准确,但当背景噪声较大时,短时平均过零率可以获得较好的检测效果。一次一般的识别系统,其前端的端点检测过程都是将这两个参数结合用于检测语音是否真的开始。如图2.7语音信号“0”的过零率,可为端点检测提供参考。11
河南理工大学毕业设计(论文)说明书■n叫 - 1「 ; 2■■■1寸B io"10: 2-I6 8II2 -10: 2-I6 8II2 -1 6 18 二00642图2.7语音信号“0”的短时平均过零率短时自相关函数和短时平均幅度差函数语音信号xw(n)的短时自相关函数Rn(k)的计算式如下:R(k)=Nkx(m2(m+1)(0<k<K)(2-8)n n nm=0这里K是最大的延迟点数。短时自相关函数具有一些性质,如它是偶函数假设序列具有周期性,则其自相关函数也是同周期的周期函数等。因此对于浊音语音可以用自相关函数求出语音波形序列的基音周期。短时自相关函数是语音信号时域分析的重要参量。但是,计算自相关函数的运算量很大,其原因是乘法运算所需要的时间较长。利用快速傅立叶变换等简化计算方法都无法避免乘法运算。为了避免乘法,一个简单的方法就是利用差值,为此常常采用另一种与自相关函数类似作用的参量,即短时平均幅度差函数(AMDP)。平均幅度差函数能够代替自相关函数进行语音分析,是基于这样一个事实:如果信号是完全的周期信号(设周期为Np。),则相距为周期的整数倍的样点上的幅值是相等的,差值为零。即: Pd(n)=x(n)-x(n+k)=0(k=0,±N,±2N,)(2-9)p p对于实际的语音信号,d(n)虽不为零,但其值很小。这些极小值将出现在整数倍周期12河南理工大学毕业设计(论文)说明书的位置上。为此,可定义短时平均幅度差函数:TOC\o"1-5"\h\zF(k)=NS1-kx(m)-x(m+k) (2T0)n n nm二0显然,如果x(n)在窗口取值范围内具有周期性,则将出现极小值。如图2.8所示,对于周期性的x(n),Fn(k)也呈现周期性。与Rn(k)相反的是,在周期的各个整数倍点上Fn(k)具有谷值而不是峰值。 n n语音信号口正时V图2.8语音信号“0”的自相关函数语音端点检测语音端点检测的准确性和可靠性,对系统识别率的提高起着重要的作用当系统收到一段包含语音的信号时,系统需要对语音的端点进行定位,丢弃语音前.后多余的噪音段。如果语音前后噪音保留过多,则会增加不同语音的共同成分,对识别产生干扰;而如果语音部分被切割掉,则会造成语音信息的丢失,若丢失的恰是区分语音的重要特征,则造成误识。正确确定语音端点也会减少系统的计算量和存储量。语音端点检测算法主要是根据语音的一些特征参数,短时能量、过零率等完成端点检测。端点检测有双门限前端检测算法和多门限过零率前端检测算法。双门限前端检测算法用于有话、无话鉴别或词语前端检测,通常窗长(即帧长)取10〜15ms,帧间隔(即采样间隔)取5〜10ms,有一定的抗干扰能力,即使存在小的随机噪声,只要它不使信号越过正负门限所构成的带,就不会产生虚假的过零率。多门限过零率前端检测算法是设多个高低不同的门限。与一股的单门限过零率法相13
河南理工大学毕业设计(论文)说明书比,可明显地减少前端误判,但是有时存在较大时延。因为首次找到高门限越过点,再往前推可能要搜索200ms左右才能找到清音的起点,这就不便于实现实时特征提取。语音信号的频域分析语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此,对语音信号进行频谱分析,是认识语音信号和处理语音信号的的重要方法。滤波器组法利用一组滤波器来分析语音信号的频谱,方法使用简单、实时性好、受外界环境的影响小。滤波器组法所用的滤波器可以是模拟滤波器,也可以是数字滤波器。滤波器可以用宽带带通滤波器,也可以用窄带带通滤波器。宽带带通滤波器具有平坦性,用它可以粗略地求取语音的频谱,其频率分辨率降低,相当于短时处理时窗宽较窄的那种情况。使用窄带带通滤波器,其频率分辨率提高,相当于短时处理时窗宽较宽的那种情况。语音信号乂6)输入带通滤波器/,f2,……fn,滤波器输出为具有一定频带的中心频率为f/f2,……fn的信号。可以将滤波器组的输出经过自适应增量调制器变为二进制脉冲信号,再经过多路开关,变为一串二进制脉冲信号。这种信号可以输入计算机进行各种分析和处理。傅立叶频谱分析傅立叶频谱分析是语音信号频域分析中广泛采用的一种方法。它是法国科学家J.Fourier在1807年为了得到热传导方程的简便解法而提出的。傅立叶频谱分析的基础是傅立叶变换,用傅立叶变换及其反变换可以求得傅立叶谱、自相关函数、功率谱、倒谱。由于语音信号的特性是随着时间缓慢变化的,由此引出语音信号的短时分析。XX%(mXX%(m)w(n一m)e-jwm(2-11)m=一8式中,w(n)为窗口函数。图2.9是从带通滤波器作用理解短时傅立叶变换。图2.9图2.9从带通滤波器作用理解短时傅里叶变换(ejww)可以看作是加窗后函数的傅立叶变换,为了实现反变换,将X(jw)进行频率n14
河南理工大学毕业设计(论文)说明书采样,即令wk=2nK/L则有eejwk^=不L(m)w(n一m)e-jwkm](2-12)m=-8式中,L为频率采样点数。短时功率谱实际上是短时傅立叶变换幅度的平方,它是信号x(n)的短时自相关函数的傅立叶变换,即PQw)=Xeejw)2=牙R(k)ejwk(2-13)
n n nk=-8式中小(口是自相关函数。图2.10是几种谱之间的关系。俾里叶变换傅里叶瓦斐汝尺间目相关面轨MP附傅里叶瓦斐汝尺间目相关面轨MP附景豹地空X亡।博里叶惜图2.10几种基于短时傅里叶变换谱之间的关系2.5特征参数提取LPCC倒谱系数线性预测倒谱参数(LinearPredictionCepstrumCoefficient,LPCC)是线性预测系数在倒谱域中的表示,该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小,易于实现,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。语音信号的倒谱与LPC系数之间的递推关系:ac(n-kac(n-k),1<n<p(2-14)c(n)=Xac(n-k)n>p或是由LPC得到C (n)=C (n)+2:1・C (n-k)C (k) (2-15)LPCC LPC nLPCC LPCk=1根据同态处理的概念和语音信号产生的模型,语音信号的倒谱c(n)等于激励信号的倒15
河南理工大学毕业设计(论文)说明书谱e(n)与声道传输函数的倒谱E(h)之和。通过分析激励信号的语音特点以及声道传输函数的零极点分布情况,可知e(n)的分布范围很宽,c(n)从低时域延伸到高时域,而h(n)主要分布于低时域中。语音信号所携带的语音信息主要体现在声道传输函数上,因而在语音识别中通常取语音信号倒谱的低时域构成LPC倒谱特征c,即c=CcG),c(2),…,c(q)]10<q<16 (2-16)式中,q为LPC倒谱特征的阶数。然而LPCC同时也继承了LPC的缺陷,其主要的一点就是LPC在所有的频率上都是线性逼近语音的,而这与人的听觉的特性是不一致的;而且LPC包含了语音高频部分的大部分噪声细节,这些都会影响系统的性能。Mel频率倒谱系数美尔频标倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分考虑了人耳的听觉特性,而且没有任何的前提假设,MFCC参数具有良好的识别性能和抗噪声能力,但其计算量和计算精度要求高。MFCC不同于LPCC。在汉语数码语音识别中,MFCC参数的性能明显优于LPCC参数。MFCC是采用滤波器组的方法计算出来的,这组滤波器在频率的美尔坐标上是等宽的。这是因为人类在对约1000Hz以上的声音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。Mel频率可以用如下公式表示:fMel=fMel=2596*10g(1+f/700)(2-17)对频率轴的不均匀划分是MFCC特征区别于普通倒谱特征的最重要的特点。将频率按照式(2-17)变换到Mel域后,Mel带通滤波器组的中心频率是按照Mel频率刻度均匀排列的。在实际应用中,MFCC倒谱系数计算过程如下:(1)将信号进行分帧,预加重和加哈明窗处理,然后进行短时傅立叶变换并得到其频谱。(2)求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中分量的作用在入耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱X(k)。(3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12〜16个左右。MFCC系数为Cn=工log%(kKsJG—0.5%/M]n=1,2,…,L (2-18)(4)将这种直接得到的MFCC特征作为静态特征,再将这种静态特征傲一阶和二阶差16河南理工大学毕业设计(论文)说明书分。得到相应的动态特征。三、语音识别主要算法动态时间伸缩算法日本学者首先将动态规划的概念用于解决孤立词识别时说话速度不均匀的难题,提出了著名的DTW算法,当词汇表较小以及各个词条不易于混淆时,这个算法取得了很大成功。从而自60年代末期开始引起了语音识别的研究热潮。在孤立词语音识别中,最为简单有效的方法就是该算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。用于孤立词识别,DTW算法与HMM算法在相同的环境条件下,识别效果相差不大,但HMM算法要复杂得多,主要体现在HMM算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中,DTW算法仍得到广泛的应用。在训练和建立模板阶段以及在识别阶段,都采用端点检测算法确定语音的起点和终点。已存入模板库的各个词条称为参考模板,一个参考模板可表示为,m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此为该模板所包含的语音帧总数,为第帧的语音特征矢量。所要识别的一个输入词条语音称为测试模板,可表示为,为测试语音帧的时序标号,n=1为起点语音帧,n=N为终点语音帧,因此N为该模板所包含的语音帧总数,T(n)为第n帧的语音特征矢量。参考模板与测试模板一般采用相同类型的特征矢量(如MFCC系数)、相同的帧长、相同的窗函数和相同的帧移。测试和参考模板分别用T和R表示,为了比较它们之间的相似度,可以计算它们之间的距离D[T,R],距离越小则相似度越高。为了计算这一失真距离,应从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号,d[T(n),R(m)]表示这两帧之间的距离。距离函数取决于实际采用的距离度量,在DTW算法中通常采用欧氏距离。DTW算法是把时间规正和距离测度计算结合起来的一种非线性规正技术。如设:(1)参考模板特征矢量序列为a1,a2,…,aM。(2)输入语音特征矢量序列为b1,b2,…,bN,如果MWN,那么DTW算法就是要寻找时间规正函数m=w(n),它把输入模板的时间轴疗非线性的映射到参考模板的时间轴m,并且该w满足:D=min£din,w(n)] (3T)w(n)n=1式中,d[n,w(n)]是第n帧输入矢量和第m帧参考矢量的距离,D是相应于最优时间规正下二模板的距离测度。若N=M则可以直接计算,否则要考虑将T(n)和R(m)对齐。对齐可以采用线性扩张的方法,如果N<M可以将T线性映射为一个M帧的序列,再计算它与之间的距离。但是这样的计算没有考虑到语音中各个段在不同的情况下的持续时间会产生或长或短的变化,因此识别效果不可能最佳。因而更多地是采用动态规划(DP)的方法。DTW是17河南理工大学毕业设计(论文)说明书一个典型的最优化问题。它用满足一定条件的时间规正函数w(n)描述输入模板和参考模板的时间对应关系,求解二模板匹配时累计距离最小所对应的规正函数:所以DTW保证了二模板间存在的最大声学相似性。DTW算法的优点是既简单又有效,对于小词汇表孤立词识别系统十分适用。但它没有一个有效的用统计方法进行训练的框架。也不容易将底层和顶层的各种知识用到识别算法中,因此在解决大词汇表、连续语音,非特定人语音识别问题时较HMM相形见细。图3.1为基于DTW的孤立字语音识别流程图。图3.1基于DTW的语音识别流程图基于动态时间归整匹配的DTW算法从目前来看,可能是一个最为小巧的语音识别的算法。其系统开销小,识别速度快,在对付小词汇量的语音命令控制系统中是一个非常有效的算法。但是,如果系统稍微复杂一些,这种算法就显得力不从心了。基于规则的人工智能方法持这种观点的专家认为,用其识别语音有种种困难,但是人类识别语音却并不困难。如果能将这些原理加以发现并且归纳为一些规则,由计算机执行,就能接近人类同样的水平。语音学家通过研究不同语音的语谱及其变化后发现,虽然不同的人说同一些语音时,相应的语谱机器变化种种差异,但是总有一些共同的特点足以使他们区分于其他语音,这些特点就是语音学家提出的“区别性特征(DistinctiveFeature)”。另一方面,人类的语言要受词、句法、语义等约束,人在识别语音的过程中充分应用了这些约束以及对话环境的有关信息,将来自声学一一语音学的“区别性特征”(这称为一个识别系统的“底层”)与来自构词、句法、语义和语用约束(这称为识别系统的“顶层”)相互结合,就可以构成一个“由底向上(Bottom-up)”和“由顶向下(Top-down)”交互作用的识别系统,不同层次的知识可以用若干规则来描述。美国卡内基一一梅隆大学在七十年代完成的Happy系统是基于这个理论的最成功的语18河南理工大学毕业设计(论文)说明书音识别系统。这个系统应用了“黑板模式”完成底层和顶层之间不同层次的信息交换和规则调用,在人工句法约束的1000词表的连续语音识别任务中,所产生的语义误差不大于10%,虽然从人工智能的角度看,对这个系统评价很高,但从语音识别的角度所做的评价与此相反,因为从语音识别的角度看,语音的多变性和不确定性是其固有的,一些研究者经长期研究后着重宣称:人们对于语音的最大知识就是确认对于语音的无知,正是需要在这一前提下来研制具有高识别率的系统。知识和规则的方法之所以很难取得更大的进展,既由于语音的多变,又由于规则的难以搜集完备,还有执行规则的算法难以高效运行。所以从七十年代后期到现在,虽然仍然有人应用人工智能的方法进行语音识别,但他们很少取得成果。人工智能的方法己不再是现代语音识别研究的主流。人工神经网络方法人工神经网络的出发点是通过模拟大脑的机制(实际上人们到目前为止还不完全清楚大脑的思维机制),将包括听觉系统的生物神经系统的信息处理机制引入机器学习的研究中,使其具有学习和理解的能力。著名的神经网络研究专家Hecht-Nielsen给人工神经网络下的定义是:“人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入作状态响应而进行信息处理”。一个神经网络包含大量类似大脑神经元的处理单元,这些单元之间相互连接形成一定的拓扑结构,并相互影响。所有的神经元协同工作,使整个网络呈现出大规模的集体计算行为,系统的所有计算都是由这些单元完成的,而单元之间的连接权决定了网络对任意输入模式的计算响应。连接权的建立是通过训练算法进行的。神经网络之所以能吸引众多研究人员的兴趣,在于它具有一系列传统的数字计算机系统及线性网络所没有的优点。人工神经网络在语音识别中的主要应用,如矢量量化、分类区分、降噪滤波、共振峰检测等,其中用的最多的是神经网络的区分能力。最初是用神经网络将语音段分成清音和浊音两类,或分成鼻音、摩擦音和爆破音三类。这些实验都取得了很好的分类结果,充分显示了神经网络强大的分类区分能力。在基于神经网络的语音识别方法中,系统参数就是整个神经网络的权值所构成的集合,这些权值是针对全部待识别的语音基元,经过大量训练学习而建立的,是语音特征在系统中的一种映射。它完全不同于传统识别方法的地方在于:单个权值与识别基元之间不存在明确的对应关系,只存在整个权值构成的系统参数与整个识别空间之间的对应关系。也就是说,系统参数只在整体上有意义,是不可分的。从信息处理的角度来看:一组信息的存储在神经网络内部是混迭在一起的,在存储过程中对信息进行了大量的加工,而绝对不是只把它们孤立地放在那里。信息存储和信息处理二者密不可分,信息处理过程同人脑一样,如同一个黑箱。但神经网络识别方法有个较大的缺点,就是时序性很差,没有解决时间对准问题。图3.2为基于神经网络的语音识别示方法原理图。19河南理工大学毕业设计(论文)说明书图3.2基于神经网络的语音识别方法原理图神经网络对语音进行分类有两个基本方法:静态识别和动态识别。在静态识别中,神经网络一次输入整个待识的语音特征矢量序列,然后做出一个判决。而在动态分类网络中,神经网络输入一帧加窗语音矢量序列,这个窗在语音矢量序列上滑动,网络就做出一系列局部决策,这些局部决策不断地整合形成一个全局决策。静态网络在音素识别问题上的识别效果非常好,而动态分类在字以及句子层面上的识别效果比较好。神经网络依靠连接权能够进行长时间记忆和知识存储,但对于输入模式的瞬时响应的短时记忆能力比较差。语音信号是一种典型的动态模式序列,前后帧之间的时间相关性非常强,所以要将神经网络应用于语音识别,必须解决好瞬时输出的记忆问题。因此考虑将人工神经网络与已经发展的方法结合构成一种混和系统,在这种系统中,神经网络或者作为其前端进行预处理,或者作为后端进行后处理。总之,是希望通过这种结合充分发挥各自的特长。隐马尔可夫方法基于统计的HMM算法可能是目前最为成功的一种语音识别模型和算法了。目前所能见到的各种性能优良的连续语音识别系统几乎无一例外地采用了这种模型。这是因为这种数学模型出现的时间较早,人们对它的研究也比较深入,己建立起了完整的理论框架。从20世纪80年代初人们开始用这种模型来描述语音信号后,就不断有人对它进行了各种改良和发展。这种隐含马尔可夫模型的算法是将语音看成是一连串特定状态,这种状态是不能被直接观测到的(如这种状态可以是语音的某个音素的特征),而是以某种隐含的关系与语音的观测量(或特征)相关联。而这种隐含关系在口服模型中通常以概率形式表现出来,模型的输出结果也以概率形式给出。这为系统最后给出一个稳健的判决创造了条件。如今,各种形式的}砌模型和算法己日趋成熟,以它为基础己经形成了语音识别的整体框架模型,它统一了语音识别中声学层和语音学层的算法结构,制定了最佳的搜索和匹配算法,以概率的形式将声学层中得到的信息和语音学层中己有的信息比较理想的结合在一起。因此,HMM语音识别模型与算法是迄今为止最为完美的一个语音识别模型,从中也可看出好的理论体系对研究工作所起的重要的指导作用。图3.3为一个基于HMM的语音识别流程图。20河南理工大学毕业设计(论文)说明书图3.3基于HMM的语音识别框图目前,基本上所有实验系统和实用化的产品都是使用HMM方法,比如IBM公司的ViaVoice系统、卡内基梅隆大学SPHINX系统和DragonSystem的NaturallySpeaking系统等。也正是基于成熟的HMM方法设计了嵌入式环境下(如手机,PDA等)的语音识别系统。随着语音识别研究工作的深入开展,HMM语音识别方法愈来愈收到人们的重视,基于HMM技术的识别系统的缺点就在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAN的DSP才能完成。另外,它的一个最主要的缺点是根据词模型推出的状态段长分布是指数分布,这不符合语音的本质属性,因此,现在推出了一种非齐次的 HMM语音识别模型(DurationDistributionBasedHiddenMarkovModel,简称DDBHMM)。在此模型中用状态的段长分布函数替代了齐次HMM中的状态转移矩阵,彻底抛弃了“平稳的假设”,而从非平稳的角度考虑问题,使模型成为一种基于状态段长分布的隐含Markov模型。段长分布函数的引入澄清了经典HMM语音识别模的许多矛盾,DDBHMM比国际上流行的HMM语音识别模型有更好的识别性能和更低的计算复杂度(训练算法比较流行的Baum算法复杂度低两个数量级)。由于该模型解除了对语音信号状态的齐次性和对语音特征的非相关性的限制,因此,为语音识别研究的深入发展提供了一个和谐的框架。HMM和ANN的混合模型语音信号是一种典型的动态模式序列,前后帧之间的时间相关性非常强,所以要将神经网络应用于语音识别,必须解决好瞬时输出的记忆问题。因此考虑将人工神经网络与已经发展的方法结合构成一种混合系统,在这种系统中,神经网络或者作为其前端进行预处理,或者作为后端进行后处理。ANN和HMM可以以不同的方式进行结合,如ANN直接实现HMM,两者在帧层面上的结合,语音层面上的结合,音段层面的结合和子层面上的结合等方式,而HMM和ANN混合模型的结合,即能优化HMM模型,又能充分利用每一种技术的长处:HMM的时间建模和ANN21河南理工大学毕业设计(论文)说明书的声学建模,特别是用神经网络计算HMM状态的观测概率。用神经网络来估计观测概率,设计和训练神经网络的方法有很多,最简单的方式就是将一帧语音矢量直接映射成观察概率,网络的训练也是一帧接一帧地进行,这种方法就成为帧层面上的网络训练。在音段层面方式中,神经网络的输入来自整个语音段,而不是一帧语音或固定长度的语音窗。这样就可以让网络更好地利用存在音段中的所有语音帧之间的相关性,而且还可以更容易地利用其它信息,比如时长。这个方法的缺点是必须先对语音进行分段,神经网络才能对分出的各个音段进行计算。在这些不同的结合形式中,实验结果表明,帧层面上的结合比较符合HMM和ANN两种方法的特点。与传统的HMM相比,混合HMM/ANN模型不仅在理论上抛弃了HMM一系列不合理假设,而且在训练过程中自然地引入了HMM状态之间的区分机制。混合模型克服了最大似然准则(MLE)区分能力差的缺陷。而且在系统体系上又保持了HMM的框架,所以混合HMM/ANN模型是HMM和ANN两种模型的有机结合,具有明确的数学和物理意义。与传统的HMM相比,混合HMM/ANN模型还为融合多种语音特征矢量,考虑不同层次上的多种约束提供了一个非常方便的接口。混合模型结构还充分利用了ANN的下述特性,克服YHMM的一系列缺陷和不足,主要特点如下:(1)混合模型可以自适应学习以适应语音数据的变化;可以不必拘泥于选取特殊的语音参数面对综合的输入模式进行训练和识别。(2)可以把人的听觉模型融合于ANN中,在ANN的输入端可以同时加载相邻数帧的语音特征矢量,因而和语音信号的实际情况更加符合。(3)分类神经网络的输出端可以逼近任意形式的概率分布函数,它能很好地掌握蕴含在训练数据中的概率分布特性,所以能够较真实地描述语音信号的概率分布特性。(4)ANN的训练着眼于描述类间的边界,而不是描述每一类内的分布.所以是一种区分性训练。在处理语音信号的时变特性方面。混合模型利用YHMM在这方面的特长。所以混合模型在系统框架上保持了传统HMM的框架,而局部功能模块如:概率估计、上下文关联等则通过ANN实现,这样有机地将HMM和ANN的各自优势统一在一个系统之中.又弥补了各自的不足。在混合HMM/ANN中用神经网络来进行声学建模,而时域建模依赖于传统的HMM。用神经网络进行声学建模一般有两种方法:第一种方法是预测网络。预测网络的输入是相继的几帧语音特征矢量,输出下一帧语音的预测值,通过给每一个音子分配一个预测网络,就可以比较每个音素预测网络的预测误差,选取其中具有最小预测误差的网络与当前语音段匹配,体现了相邻语音帧之间的时域相关性。第二种方法是分类网络。在分类网络中,输入还是相继的几帧语音矢量。但输出直接映射成HMM状态。分类网络可以用n个输出节点表示n个类,将输入映射成n类中的一种。分类网络具有简单直观、在本质上是区分性的、在设计上是模块化的、可以方便地组合成更大的系统、具有完善的数学解释等优点,所以可以很容易地集成到HMM的统计识别框架中。22河南理工大学毕业设计(论文)说明书四、隐含马尔可夫模型算法HMM是在80年代由IBM的Baker和Jrlinek引入入语音识别的研究,目前它是最灵活最成功的语音识别方法之一。HMM一方面用隐含的状态对应于声学层各相对稳定的发音单位,并通过状态转移和状态驻留来描述发音中音的变化和停留甚至音变。另一方面它引入了概率统计模型,不再用动态时间对齐的方法求匹配距离,而是通过搜索最佳状态序列并计算最大后验概率找到识别结果,HMM模型较好地描述了语音信号在时间和声学特性两个方面的统计变化。通常HMM对应了具有一定语音学含义的单元,通常是音素。音素之间通过HMM模型之间的连接(转移)可以构造出字模型(马尔可夫链),字模型进一步可以组成词模型,再到句子,所以通过不同层面上的模型(状态)之间的转移(连接),就实现了音素、字、词的统计表示,形成了一个自下而上的统计识别框架。与知识表示的层次结构很好地吻合,这是HMM在处理时间变化上最成功的方面。这也成就YHMM的霸主地位。HMM的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深入分析2025年创业扶持政策的嘉奖机制试题及答案
- 绿色建筑材料市场推广策略与政策支持下的区域市场研究
- 小学摸底测试题及答案
- 物理实验中误差分析的技巧试题及答案
- 理解分销渠道的商务英语试题及答案
- 环保站面试真题及答案
- 线下演出市场复苏2025年剧院运营成本控制案例报告
- 数字人民币2025跨境支付技术挑战与跨境支付清算效率提升报告
- 2025公务员考试常用题目及答案
- 政策激励下的创业者精神探讨试题及答案
- 【专项训练】相似三角形五大模型+训练(共45题)(原卷版+解析)
- 国家助学贷款还款救助归档材料清单
- 11《杠杆》教学设计-2023-2024学年科学五年级下册人教鄂教版
- 2024版恶性肿瘤患者营养治疗指南解读课件
- 2025届四川省成都市高三上学期毕业班摸底测试(零诊)历史试题(解析版)
- YB 4019-1991 轻烧菱镁矿粉化学分析方法柠檬酸法测定轻烧菱镁矿粉的活性
- 路面工程练习试卷1(共101题)
- DL∕T 802.8-2014 电力电缆用导管技术条件 第8部分:埋地用改性聚丙烯塑料单壁波纹电缆导管
- DL∕T 1901-2018 水电站大坝运行安全应急预案编制导则
- 教育公平问题案例
- DL∕T 1630-2016 气体绝缘金属封闭开关设备局部放电特高频检测技术规范
评论
0/150
提交评论