(信号与信息处理专业论文)基于改进lp倒谱特征和神经网络的语音识别算法研究.pdf_第1页
(信号与信息处理专业论文)基于改进lp倒谱特征和神经网络的语音识别算法研究.pdf_第2页
(信号与信息处理专业论文)基于改进lp倒谱特征和神经网络的语音识别算法研究.pdf_第3页
(信号与信息处理专业论文)基于改进lp倒谱特征和神经网络的语音识别算法研究.pdf_第4页
(信号与信息处理专业论文)基于改进lp倒谱特征和神经网络的语音识别算法研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 基于改进l p 倒谱特征和神经网络的语音识别算法研究 摘要 语音识别是近年来高速发展的一项技术,但由于其研究的复杂性, 长期以来一直是一项难题,尤其是噪声环境下的非特定人语音识别。 本文从一个典型的语音识别系统出发,介绍了语音识别的基本原理, 讨论了几种常用的特征提取、模式匹配及模型训练的方法,并对其常 规算法进行了改进。 l p 倒谱是语音识别技术中应用广泛的特征参数,但在噪音环境下, 系统的识别率会显著下降。由于m e l 频率尺度可较充分地反映人耳对 频率及幅度的非线性感知特性,以及人耳在听到复杂声音时所表现的 频率分析和谱合成特性。本文对l p c c 特征提取方法进行改进,即将 l p 倒谱按符合人耳听觉特性的m e l 尺度进行非线性变换,得到l pm e l 倒谱系数( l p m c c ) 作为特征参数。实验结果表明此种方法抗噪性能 好,识别效果高。 径向基神经网络是一种新颖有效的前馈式神经网络,本文详尽的 介绍了常规聚类训练算法和全监督训练算法,并分别用这两种算法进 行语音识别系统的仿真试验。实验显示在相同环境下,用全监督训练 算法使结果有了显著的提高,充分说明了全监督训练算法对r b f 网络 的性能提高有较大的作用,使r b f 网络具备了更强的分类能力。但缺 点是训练速度较慢,可在以后的研究中加以改进。 小波神经网络是结合小波变换理论与人工神经网络思想而构造出 来的一种“新型的神经网络模型”,融合了小波变换良好的时频局域化 太原理工大学硕士研究生学位论文 性质及神经网络的自学习功能。本文构建了一个以m o r l e t 母小波作为 小波基的小波神经网络结构,并采用梯度法进行网络训练,得到了较 好的语音识别效果。 关键词:语音识别,l p 美尔倒谱系数,r b f 神经网络,小波神经网络 太原理工大学硕士研究生学位论文 s t u d y o fs p e e c hr e c o g n i t i o n a l g o r i t h mb a s e do nm o d i f i e dl pc e p s t r u m a n dn e u r a ln e t w o r k a b s t r a c t s p e e c hr e c o g n i t i o ni sat e c h n o l o g yw i t hf u r t h e rd e v e l o p m e n ti nr e c e n t y e a r s ,b u tb e c a u s eo ft h ec o m p l e x i t yo ft h er e s e a r c h ,i ti sap u z z l ei nt h e l o n gh a u l ,e s p e c i a l l yf o rt h es p e a k e r - i n d e p e n d e n ts p e e c hr e c o g n i t i o nu n d e r n o i s ye n v i r o n m e n t b a s e do nac l a s s i c a ls p e e c hr e c o g n i t i o ns y s t e m ,t h i s p a p e ri n t r o d u c e dt h ef u n d a m e n t a l so fs p e e c hr e c o g n i t i o n ,a n dd i s c u s s e d s e v e r a lm e t h o d si nc o m m o nu s eo ff e a t u r ee x t r a c t i o n ,p a t t e r nm a t c h i n g , a n dm o d e lt r a i n i n g ,a n dc a r r i e dt h r o u g h i m p r o v e m e n t so nt h e i rg e n e r a l a l g o r i t h m s l p c e p s t r u mi st h ef e a t u r ep a r a m e t e r sw i d e l yu s e di nt h et e c h n o l o g y o fs p e e c hr e c o g n i t i o n ,b u tu n d e rn o i s ye n v i r o n m e n t , t h er e c o g n i t i o nr a t e w i l ld e c l i n e r e m a r k a b l y b e c a u s e m e l f r e q u e n c y s c a l ec a nr e f l e c t s u f f i c i e n t l yt h en o n l i n e a rp e r c e p t i v ec h a r a c t e r i s t i co fh u m a n sh e a r i n gt o 抒e q u e n c ya n da m p l i t u d e ,a n df x e q u e n c ya n a l y s i sa n ds p e c t r u ms y n t h e s i s c h a r a c t e r i s t i c sw h e nh e a r i n gc o m p l e xs o u n d s a ni m p r o v e da l g o r i t h mf o r l p c cf e a t u r ew a sp u tf o r w a r di nt h i sp a p e r , t h a ti st os a y , l pe e p s t r u mi s m a d en o n l i n e a rc h a n g e sb ym e a n so fm e ls c a l ea c c o r d i n gt oa u d i t o r y c h a r a c t e r i s t i c a n dt h el pm e lc e p s t r u mc o e f f i c i e n t ( l p m c c ) i su s e da s f e a t u r ep a r a m e t e r t h ee x p e r i m e n ts h o w st h a tt h i sm e t h o di sg o o df o r r o b u s t n e s sa n de f f e c t i v e0 1 1r e c o g n i t i o n r b fi sak i n do fn o v e l ,e f f e c t i v ef o r w a r d f e e d b a c kn e u r a ln e t w o r k i i i 太原理工大学硕士研究生学位论文 t h i sp a p e ri n t r o d u c e de l a b o r a t e l yr o u t i n ec l u s t e r i n ga l g o r i t h ma n dw h o l e s u p e r v i s i o nt r a i n i n ga l g o r i t h m ,a n di m p l e m e n t e ds p e e c hr e c o g n i t i o ns y s t e m s i m u l a t i o n e x p e r i m e n tu s i n g t h et w o a l g o r i t h m sr e s p e c t i v e l y t h e e x p e r i m e n ts h o w s t h a tu n d e rt h es a m ee n v i r o n m e n t , t h e r ei s g r e a t e n h a n c e m e n ti nt h er e s u l tw h e nu s i n gw h o l e s u p e r v i s i o nt r a i n i n ga l g o r i t h m , a n de x p l a i n ss u f f i c i e n t l yt h a tw h o l es u p e r v i s i o nt r a i n i n ga l g o r i t h mh a s g r e a te f f e c to nt h ee n h a n c e m e n to f t h ep e r f o r m a n c eo f r b fn e u r a ln e t w o r k , a n dm a k e sr b fn e t w o r kh a s s t r o n g e rc l a s s i f i c a t i o na b i l i t y b u tt h e s h o r t c o m i n gi st h a tt h et r a i n i n gs p e e di ss l o w , a n dw i l lb ei m p r o v e di nt h e f u t u r e sr e s e a r c h w a v e l e tn e u r a ln e t w o r ki sa “n e wn e u r a ln e t w o r k w h i c hc o m b i n e d t h et h e o r yo fw a v e l e tt r a n s f o r mw i t l lt h et h o u g h to fa r t i f i c i a ln e u r a l n e t w o r k ,i n t e g r a t e dt h eg o o dt i m e - f i e l dl o c a lp r o p e r t yo f w a v e l e tt r a n s f o r m w i t ht h es e l f - e d u c a t e df u n c t i o no fn e u r a ln e t w o r k t h i sp a p e rc o n s t r u c t e da w a v e l e tn e u r a ln e t w o r ks t r u c t u r eu s i n gm o r l e tm o t h e r - w a v e l e ta sw a v e l e t b a s i s ,a n dt r a i n e dn e t w o r ku s i n gg r a d i e n td e s c e n d a n tm e t h o d ,s ot h eb e t t e r s p e e c hr e c o g n i t i o nr e s u l t sa r eg a i n e d k e yw o r d s :s p e e c hr e c o g n i t i o n ,l pm e le e p s t r u m ,r b fn e u r a ln e t w o r k , w a v e l e tn e u r a ln e t w o r k i v 声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:焦叠煎 日期:建。t 丕童查! 豆! ! 园 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的, 复莉赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) o 签名:互蠢盔煎 e t i 磬i : 星堑丘砻圭丑蜩 导师签名:塑叟蔓日期:2 趣缱主圆! 堋 太原理工大学硕士研究生学位论文 1 1 语音识荆技术 第一章绪论 1 1 1 语音识别概述 语音识别最摹本鲍定义罡“电脑能听嗲人类谎话憝语句或命令,著做出糟应 鼢工作”。也就怒说,如栗电脑配置有“语音识剐”的程序组,郝么当你的声音 通过一个转换装置输入电脑内部、并以数据方式存储后,语音识别程序便拜始以你 的声音榉本与搴先存健好豹声齿样本进纷对纥王终。声誊对魄王 擎完成屠,电脑就 会输出个它认为最像的声音样本序号,由此可以知道你刚才念的声音怒什么意 义,进而执行命令。其根本目的悬研究出一秘具有听觉功能的机器,这秘机器戆 耋接接受人的语音,理解入的意图,并徽出裙癍的反斑。 让机器昕懂人类的语言,鱼是人们追求的目标。要达到这一目标面临着诸 多的困难。这些困难具体表现在: , 语裔信号豹声学特性陡与之前后褶逢的语音的不两而有很大的变化,且连 续语音流中各语音单位之间不存在明显的界限。 语纛特征睫发音人的不同、发音人生理或心璧状态鳇变化燕京缀大豹菱 异。 环境噪声和传输设备的差异也将囊接影响语音特征的提取。 一令语句掰表达憋意思与上下文沲客、谈话封豹环境条 警及文纯背景等因 素有关,而语句的语法绪构又怒多交的,并且语境信息几乎是计算杌语音识别无 法利用的,所有这些郝给语意的理解带来很大的困难。 计算机自动语音识别豹任务裁是耢究魏禽利用计舞税从入的声学谱音信号审 提取有用信息,并从中确定语音信号的语言含义。其应用背景及学科基础如图1 - 1 所示。 太原理工大学硕士研究生学位论文 霉l 一1 语音识别瞬瘴用 f i g u r ei - 1 t h ea p p l i c a t i o no f s p e e c hr e c o g n i t i o n 锈音识别具有广蠲豹应耀前景,随着信息产业和互联网豹快速发震,对语音 识别晌需求也更加迫切。比如在声讯服务中,要实时查询股票交易、航班动态、 车站隳务动态等,用传统的声讯技术已难以胜任,而用语音技术则能解决这些海 量馈惑静动态查询。还露,人们希望在嵌入式系统中做成无处举农静信息家电, 幕繁藏霆特网上戆售惠翔惫话送蜀手家万户,还有一令更美努豹瑟鎏,就是在不 久的将来,能够把语音、图像、动画与互联嘲技术相结合,造就虚拟现实的新一 代多媒体,语音技术犬火降低了人们迈进信息时代的门槛,并开辟了许多新的信 息服务及应用领域,它现在形成一个新兴的产业。正因为如此,墩界各国不仅把 语誊技零歹l 入了裹接寒磅究谤麓,瑟显终为2 l 超纪蔼悫产鼗熬豢要竞争枣场。 1 1 2 语音识别技术的发展与现状 谣音识别的研究工作大约开始于五十年代,当时a t & tb e l l 实验室实现了 第一个可识另4 十个英文数字的语音识别系统- - a u d r y 系统0 1 。 穴中年我,谤算稳懿疲惩接动了语考谈爨戆发震。这辩籁熬霪要残暴是撵鑫 了动森规划( d p ) 和线性预测分析技术函p ) ,渐籍者较好地解决了谣啬信号模型的阋 题,辩语音识别的发展产嫩了深远影响。 七十年代,语音识别领域取得了突破。农理论上,l p 技术得到进一步发展, 2 太器理工夫学碳士磷究生学位论文 动态对阕艇整技术( d t w ) 基本成熟,特剐是提出了矢量量化( v q ) 和隐马尔可夫模 登( h m m ) l 墨论。在实筏上,实现了基予线建预测倒诺和d t w 按术的特定人孤亨 词痞音识别系统”l 。 八十年代中裳以来,人工毒孛缀瓣终匏磺究取缮了嶷著翡进矮。梵其麓多鬃静 馈网络,因其优异灼分类性能,在摸式识别领域中德到了广泛憋应爝。农终秀模 式识别的匿要分支一语畿识蹦方蕊,基于神经网络的识别聚统的研究亦褥到了普 遍的重视。由于人工神缀网络( a n n ) 具有自邋应睫、并 亍性、非线性、鲁捧性、客 错性和学习特性,在结构和算法上都显示出其实力,进入九十年代聪神缎网络逐 步成为语音识别方面的一个新亮点,目前的研究是找到对语音信号更强有力的神 经网络模型,烫适宜的激活函数,更高速有效的学习算法和更合理的结构。 随着多媒俸时代的来稿,迫切要求语音识别系统从实验室走向实用。许多发 达国家懿美国、强零、韩雷瑷及l b 氛莲 a p p l e ,a t & t , n i t 等蔷名公司都为谱音识剐 系统熬实鳎纯开发授潋氍资。经过遥五十年豹发袋,蟊前语音识掰邑经达到一个 j 媚对寒酸水乎。语誊识裂硬究痰平最重簧匏标恚之一怒菲特定入大谣汇量连续语 音识别躲性能。曩翦对予理想环境下熬语音数据,英鬓蟹援大学戆h t k 系统熬误 识率融达到5 以下。对母广播语鸯,剑橇的h t k 系统误识率达到6 。2 。在港喾 识别的应用方面,i b m 公司推出的v i a v o i c c 系统标志麓非特定人大词汇量连续浯 胬识别的实用化;在小词表语音识别领域中,各公司也纷纷推出了单片的语音识 别系统,各种电子产品上也加入了语音识别的功能。 我国语音识别研究工作起步于五十年代,但j 琏年来发展很快。研究水平也从 实验室逐步走向实用。从1 9 8 7 年开始执行阑家8 6 3 计划后,豳家8 6 3 智能计 算撬专家缀为语音谈剐技术研究专门立项,每两年滚动一次。我国语音识剐技术 豹研究东警已经基奉上等藩辩同步,在汉语谮音谈剩技术上还宥自己的特点与优 势,劳达罄国舔先滋承平。西藩国内麸攀语裔谖掰研究觞梳构琶括:清华大学电 子工穰系、漶华大学计算提系、孛瓣貔巍动纯溪、孛科院声学骈、啥尔滨王鲎大 学等。1 9 9 8 年黪8 6 3 溪i 试译魄孛,清华大学电子互程系 ;点王终荚教授为善戆课题 缀完成的汉语连续语啬识别系统的字识别率达副9 0 以上,代表了星魏国内躲先 进水平。在汉语小词寝语酱识别及虚用方面,清华大学电子工程系以划润生教授 3 太原理工大学硕士研究生学位论文 为首的课题组已推出了基于非特定人汉语数码语音识别的语音拨号电话机,并在 从事语音识别专用芯片的设计研究。 1 1 3 语音识别的困难 语音识别的最终且的是让机器能听懂人的语言,实现真正的人机对话。然而, 要做到这一点,却是相当的困难。这主要是由于以下几个方面的原因: ( 1 ) 语音系统的复杂性 语音信号处理是一项及其复杂的工程,它涉及到语音声学、心理学、人工智 能、统计学、模式识别、通信学、计算机学等多门学科领域。这些相关学科自身 发展的不成熟不完善在某种程度上也限制了语音识别领域的研究。 ( 2 ) 语音识别处理的对象范围大 人类的语言种类很多,每种语言中由字或单词组成的词组、句子则更是数不 胜数。就是对同一种语言而言,由于说话人的不同,也会造成语音识别的困难。 这样庞大的语音识别研究范畴,是一般模式识别研究中所极少碰到的。目前,语 音识别从小词汇量、孤立词的识别系统逐渐发展到超大词汇量、连续语音识别系 统。 ( 3 ) 语音信号本身的不稳定性 语音信号是一种典型的非平稳信号,在进行语音信号的分析时,短时平稳的 假设与实际很不符合,到目前为止,提取快变语音段的特征还没有找到较为理想 的方法。语音信号的不稳定性还体现在同一说话人发音的长短、语气的轻重、频 率的高低等多方面的变化上。 “) 噪声的干扰 在进行语音信号采集时,语音输入设备、环境噪声等外界因素都会对语音信 号产生影响。这会带来语音信号输入范围的断定、词间界限的区分等方面的困难。 如何在噪声环境下,提高语音识别系统的鲁棒性,是语音识别研究领域中的又一 个关键点。 总之,语音信号识别的研究是一项极其复杂而艰巨的工作,它不仅依赖于人 类对语音信号本身的认识和探索程度,还依赖于生理学、心理学、通信科学、计 4 太原理工大学硕士职究生学位论文 算税科学等稻关领域的发装情况。这又扶茄一个方面减缓了爵音识剐研究工作的 进展。尽管如此,近凡十年柬,人类对语音识嗣的研究工作从柬没有停止过,并 且在许多方面已纾取得厂可軎的成绩。 1 2 神经网络在语音识猁中的应用 棒经隧络怒在现代科学研究成采的墓础土提出束模叛入脑结构视制的一门新 兴科学,它不楚入脑真实的全面箍述,而是这类生物稀经网络的抽象、模拟和简 化,其目的在于探索人脑的信息加工、存储和搜索机制,从而为人工智能和信息 处理等学科的研究开辟新途径。人工神经网络就是采用物理可实现的系统来模拟 人脑神经细胞的结构和功能的系统。它是凼很多处理翦元有机地连接起来进行并 行的工作,它的处理单元擞十分简单,但其工作却是“集体”进行雏,它的傣息 传攥、毒镶方式与挫经网终楣戗,之没有运算器、存镶器、控巷器等这些现钱诗 算机懿基本单元,疆是耀弱的篱擎处瑾器熬组合,萁镕患处理是存结在蔻理单元 静连接七溺。 语音识别在实现过程中通常涉及多种因素,需臻同时考虑。由于计算羹很大, 再加上语音信号的随机性,以及我们对人类听觉机理了解甚浅,因此,目前机器 自动识别语音的能力要比人类麓得多,尤其是对非特定人的连续语音识别更慰如 此。用神经网络模型作为分类器或凝类器,发展出一些额的语蠢识别方法。 语老识剔联遇剿的难题是搜索最佳识别结果和参数训练。人工专孛经魁络中太 塞季孛经嚣并孬分毒运冀浆覆理、嵩效戆学习算法以及对入熬谈鼹系统静模仿貔力 等都傻它极适蜜子解决类徽予谣音识别这一类谋磁,它既适用于底层又适用予顼 层。 由于神经网络反映了人脑功能的基本特征,具有自组织性、自适应性和连续 学习的能力。这种网络是可以训练的,即可以随着经验的积累而改变自身的性能。 同肘由予高度的并行性,它们能够进行快速判决并具有容锚性,特别选合于鳞决 象谗啻识别这类难以用算法求搂述两又窍丈量撵本耀供学习的阅题e 黄统熬语音识别弱采鼹专孛经网络豹语音识别是窍送别黪。在传统黪语蠹谈剔 方法孛,模式毯配法是在对语誊傲过预处瑾之螽,逶过特征参数静提敬及模式匹 5 太原理工大学硕士研究生学位论文 配完或识爨。由予添音信弩豹裹瘦多交挂,输入模式要与标准模式完全匿鬻是凡 乎不可能的。因此,识别时漂预先制定好计算输入的语音特征模式与各特征模式 静类纭或躐离豹麓蠲,距离最枣者虢是最类徼豹模式。薅锈法模式谖襄法当谖鸯 输入的位置模式属予某个对象时,就要检凌一下输入模式与识别对象的结构,当 与对象模式结构相瀚或在巢范围内结构一致时,则判定该朱知模式就是识嬲对象 的谶毒。神经网络的语音识别方法岛传统方法的差异在予提取了诱啻鲍特征参数 后,不象传统方法那样有输入模式国标准模式的比较匹配,而是靠神经网络中大 量瓣连接投瓣输入模式进行 线毯运算,产生最大兴套鼹孳| 鑫入点裁代表了输入模 式对应的分类。 棒经掰终豹连羧衩系数楚在傻褥孛鬏据识裂结果酶蓬确与否苓凝戆逡纷鑫适 应修正。神经网络的特性依赖于网络结构及连接权值,丽不同于传统方法中依赖 于统计参数。眈较起来,神经网络识窥系统更接邋入类的戆知过稳。莠了研究秘 模拟神经系统如何感受各种刺激信号,弓l 越不同的感觉并产生和传递相应的神经 冲动及完成各种功能,必须深入研究神经冗的各种特性,并建立相应的数学模 型 3 1 1 4 1 。 八十年代中后期以来,关于神经网络在语音信号处理中的应用研究十分活跃, 英孛瑷在语瓷识裂方瑟静斑弱最令入辗嚣。嚣翦,生要是麸瞬觉樱经摸登巾德到 启发,以便构成一般具有类似能力的人工系统,使它们在解决语音信号处理( 特别 是谈臻) 瓣麓嚣雩能得翻较蟹鹣往麓。研究车孛经嚣络激探索入豹听觉褥经撬莲,改迸 现有语音语啬识别系统的性能,是洳前语音识别研究的一个重要方向【5 】。迄今为 止,已经提出了多种网络类挺,如b p h o p e f i e l d , c m a c ,r b f 等。与此同时,针对 各种网络类裂,又掇出了各种各样豹训练算法。 1 ,3 本文研究内褰及章节安排 一 本文共分6 章: 第一章是绪论。对语鸯识翮按沭的发展和应掰,包括神经弼络在语音谖掰方 厦的应用进行了综述,并对语音识别技术联前所面临的医难和论文的结构安排进 行了介绍。 6 太原理工大学硕士研究生学位论文 第二帮主要分绍了添啻识翻系统戆主要鼓零。获一令典型豹语音鼋跫爰系绫塞 发,介绍了语音识别的纂本原理,并简单介绍了预处理,特征提取,模式匮西芒及 模型训练技木各部分的 。受史现方 :土。 第三鬻是基于建绞艟缓堪特缝疆取方法。援滋了一静竣遴戆褥短提取方法, 即l p m c c 特征提取方法,用于语音识别。实验绪聚表明,该方法更符合人耳的听 觉特性。 繁斟露为基于r b f = f | l 终联终方蠢豹螽素谈彩。在奉章中主要套绥了r b f 网络 结构及其训练算法。并用“无师”和“有师”两种不同的训练算法进行了语音识 别系统仿真实验并对结聚进行分析和讨论。 第五零为基于奎波李拳经惩终懿瓣鬻识裂。在零索孛蓄先奔绥了垂波季孛缀阏终 的发展,其次阐述了小波神经网络的理论基础,介绍小波神缀湖络的训练算法, 最后构建了一个以m o f l e t 母小波作为小波基函数的小波神经网络结构,进行诺音 鼋襞聚戆傍粪实验,取褥? 较磐瓣实验缝鬃。 第六章是总结与展壤。对论文工作进行总结,弗提出了论文下一步的工作及 课题改进方案。 7 太原理工大学硕士研究生学位论文 第二章语音识别系统主要技术 计算机语音识别是一门包含了声学、生理学、数字信号处理等诸多学科的综 合性学科,它与计算机同步发展。 语音识别系统的分类方式及依据如下: 夺根据对说话人说话方式的要求,可以分为孤立词语音识别系统,连接词语音识 别系统以及连续语音识别系统。 夺根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 夺根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量 语音识别系统。 2 1 语音识别原理 不同的语音识别系统,尽管设计和实现的细节不同,但所采用的基本技术是 相似的。一个典型的语音识别系统过程如图2 - 1 所示: 结果 图2 1 语音识别系统模式匹配法原理方框图” f i g u r e2 - 1 p a t t e r nm a t c h i n gp r i n c i p l ed i a g r a mo f s p e e c hr e c o g n i t i o ns y s t e m 预处理:包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环 境引起的噪声影响等,并涉及到语音识别基元的选取和端点检测问题。 特征提取:用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零 率、共振峰等。 训练:在识别之前通过让讲话者多次重复语音,从原始语音样本中去除冗余信 息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。 模式匹配:是整个语音识别系统的核心,它是根据一定规则( 如某种距离测度) 8 太琢理工大学硕士研究生学位论文 以及专家知识( 如构词题赠、镶法援则、语义炽则等) ,毒专箩输入特 芷与库存模式之 间的相似度( 如匹配距离、似然概率j ,判断出输入语音的语意信息。 2 2 语音识别技术 语音识别技术主鬻包括预处理投术、特征提取技术、模式匹配准则及模型训 练技术三个方西。此铃,还涉及到谬啻识别单元的选取。 2 2 1 预处邋 在信号处理系统星,对原始信号进行预处理是必要的,这样可以保证系统获 褥一今比较爨想的处理对象。在语豢识别系绕中,落音信号的预处理主要魁摇预 加重殿端点梭测等内容。 ( 1 ) 簇擞重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,语音从嘴唇辐射会 有6 d b l o 畦豹衰减,羧魏在j 薅语音售弩透芎亍疑理之嚣,希望熊按镪l o c t 静拱:铡薅 信号加以提升( 或加冀) ,以使得输出的信号电平相近似。预加霪的目的是提升高频 部分,使信号变得平城,保持在低频到离频的熬个频带中,能用间样的信嗓汔求频谱, 以便于频谱分析或声道参数分析 1 1 。潞用数字电路来爽现6 d b o e t 预嬲重时,可采 用以下差分方程所定义的数字滤波器: 炎磅= 撑 一群一1 ) ( 2 。1 ) 式中,系数d 常在0 9 至l 之间选取。 ( 2 ) 臻赢检溯 语音信号起止点的判别怒任何一个语音识别系统必不可少的组成部分。因为 只有准确的找出语音段豹超始点和终止点,才有可能使采集弼的数攒是真藏要分 析的潺音信鼍,端点检测即怒指从背景噪声中找出语音的开始和终止点,是语音 处理领域的基本问题,特别怒在孤立词语音识别中,找出每个单词的语音信号范 嚣是缀重要麴。稳定浯考售譬黪牙戆襄终止莓戳减少系统懿大量谤黧,使系统运 行效率得到很大的提高。 程毙较安静熬嚣境下,稷蔹靠愆瓣戆量鹰逶零搴这溪个特薤藏霹羧较好缝完 9 太原理工大学硕十研究生学位论文 成语音信警翡起点粼决。黧需要攒趱鹃蔗,这两个特 垂魄铰容易受辫赛嗓声的予 扰,鲁棒性较差,幽语音倍号的信噪比较低时,信号的短时能量和过零率将受到 报犬的影确。 端点检测的两级判断方法:基于能量一过零攀的端点梭测一般使用鼹级判决 法,在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。一 个怒比较低豹门限,其数馕魄较小,对信号的交化魄较敏感,缀窖爨就会被超过。 另一个是比较高的门限,数值比较大,信号必须达到一定的强度,该门限才可能 被熬过。低瞧羧被越过未必裁是谣密熬开始,骞爵貔是孵瓣穰短懿囔声零| 起戆, 高门限被超过则可以基本确信是由予语音信号引起的。 整个语膏信号豹端点裣溺可戳分为霾浚:静音、过渡音、语音蔽、结束。在静 音段,如果能量或过零率超越了低门限,就应该_ 歼始标记起点,进入过渡段。在 过渡段中,由于参数的数值比较小,不能确信是否处于真藏的语音段,因此只要 两个参数的数值都蹋落到低门限以下,就将当前状态恢复剿静音状态。嚣如果在 过渡段中两个参数中的任一个超过了高门限,就可以确信进入语音段了,并标记 起始点。热栗当兹状态之兹处予语密段,凝兹孵秀令参数戆数篷黪 象裂低瓣羧跌 下,并且持续时间大于设定的最长时间门限,那么就认为语音结束了,返阐到参 数数篷降低捌毵门澈黻下豹瓣麴,标记结聚熹。一麓突茇稳兹噪声氇胃班弓 起短 时能量或过零率的数值很高,但是往往不能维持足够长的日寸间,如门窗的开关, 豹体的碰撞等雩i 起静嗓声,这些都可以通道设定最缀对阀门限来籁掰。 2 。2 2 特征攥蕺 检测到语音的起止点后,就可以开始对检测出爿乏的语音信号段j l 行分析处理, 苁中抽取语裔识鄹所需豹信号特征,郎对谮音信号滋行分析处理,去除对语音识 别无关紧要的冗余信息,获褥影响语音识别的重要馕息。 一 语音信号从整体来看其特征及夜征其本质特征的参数均是随时间而变化的, 所以它是一个非平豫态过程,不戆翅处理乎稳售号的数字傣号处理技术黯其进行 分析处理。假是,由于不同的语音魁由人的口腔肌肉运动构成声道某种形状而产 生熬响应,瓣这秘篮腔瓤爨运动辐瓣于语鸯菝率来说是裴常缓攫戆,掰跃旋勇一 1 0 太原理工大学硕士研究生学位论文 方瑟看,虽然语考售号爨鸯霹交特瞧,毽是杰一令缎对藏范萤瘫( 一羧试努磊l o 3 0 m s 的短时间内) ,其特性基本保持不变即相对稳定,困而可以将其看作魁一个 准稳态过程,即语音信号具 j 短时平稳性。所以任何l g 言信号的分析和处理必须 建立在“缎簿”懿蓦礁主,鼙透露“短霹分辑”,将浯音信号分为一段一莰寒分 析,其中每一段称为“帧”,帧长一般取为1 0 3 0 m s 。 语音特征参数每帧般构成一个矢量,因此谣音特征是个矢量序列。语音 岩号中撬敬爨柬翦耱,霞经过数据压缩历程成为露蠹魄援叛。显然,特征翡逡铎对 识别效果鬣关重大,选择的标准应尽攮满足:( 1 ) 能商效地代表谮啬特征,包括声道 特征和听觉特征,具有很好的区分性;( 2 ) 各阶参数之间有良好的独立性;( 3 ) 特征 参数要谤冀方矮,最好蠢舞效静谤冀方法,鞋保谖语音谖黧豹突霹实瑗。 孤立单词语音识别系统的特征提取一般需要解决两个问题,一个是从谢音信 号中提取( 域测量) 有代袭性的合适的特征参数( 即选取有用的信墨表示) :另个是 遴行适当懿数摇基缭。褥对手蘩特定入语音浚爨袋毒芽,鬟蓑蘩黪徭参数嚣帮戆多 的反映语义信息,尽量减少说话人的个人信息( 对特定人语音识别来讲,则相反) 。 从信息论角度讲,这也是信息压缩的过程。 语啻僚号静簧拯圭黉鸯露域纛羰域嚣秘。辩域将薤翅薤辩乎鹭麓量、籁辩平 均过零率、菸振峰、基齑周期等:频域特征有线性预测系数( l p c ) 、l p 倒谱系 数( l p c c ) 、线谱对参数( l s p ) 、缀时频谱、m e l 频率倒谱系数( m f c c ) 等。现 在还有绪会嚣雪溺窝菝率戆特征,霹辩簇谱,充分蓥l 焉了语音绉譬鹃霹痔绩慧。基 于听觉模型的特征参数提取嘲,如感知线性预测( p l p ) 分析,试图从不同于声道模 型的另一个方面进行研究。所有这些特征都只包食了语音信号的部分信息。为了 充分表徭游啻信号,入翻尝试综合备耱特薤,莠欷褥了一定熬效果。餐垂嗲瓣兹 语音识别分袋器的限制和数学模型描述的局限性,人们尚未充分利用已有的部分 信息,于怒特征的变换姆取舍、特征时序信息的使用等成了重鬻的研究课蹶。有 关特征磷究豹另羚一个熬要方蘧是特征豹藐臻声魏缒,由于漤帮识瘸静最终嚣振 是在现实世界中使用,背景噪音的千扰成为不可忽视的因素,阑此必须研究一种 方法,使褥特征的提取尽可能不受噪鬻的影响。下面奔绍几种特征提取方法: 进行预加重数字滤波处理厝,接下来进行加窗分帧处理。一般每秒的帧数约 荧3 3 1 0 0 鲮,援实际馕嚣露定。分羧掇然可以袋耀连续分段兹方法,毽一般凝 1 8 太原理工大学硕士研究生学位论文 采瞒图3 - 1 辨示数交叠分段戆方法,这是必? 使鲮与梭之阉擎潺过渡,保持茭连续 性。分帧是用可移动的有限长度窗口进行加权的方法柬实现的。这就是用一定的 密基数镢 ) 来黍s ( 摊) ,跌韵形成热翁韬营信号s 。( ”) = s f ) t w ( n ) 。 嚣瓤飞) 一一一一一一1 一一 。氘 脚 l 胃l “柚。 i卅8 秽 l 驽 i 阑3 - 1 语音信号分帧( n 为帧长,m 为帧移 f i g u r e3 - if r a m es p e e c hs i g n a l 冬i sf l a m el e n g t h ,mi s 翩es h i f t ) 常用的衡函数是矩形窗和h a m m i n g 等,本文选用h a m m i n g 窗: 删= 0 5 4 - 6 c o s 器例2 3 ( 3 2 ) 3 2 倒谱分析 倒谱特征是用于语音个性特征袭征和语音识别的最有效的特征之一。语音信 号是声道频攀窝激励傣号二豢粮卷戮豹结果,嚣考瓣予某i | 啖瑟言,鬻带有一定翦 随机性,而诺音的个性特征很大程度上取决于说话人的发音声道,即声道频率特 经,瓣筵,嚣要将二器送孝亍蠢效逢努离。霹淼薅号鲶莲遣称为蘑态滤渡,宅群实现 将卷积关系变换为求和关系的分离处理,即解器。因此,可以把信号作适当的同态滤 波,将卷积的两个部分分离,滤波的关键是先将卷积赔理纯为乘积,然后作对数处 理,使之化为可分离的相加成份。倒谱分析就是实现这一耳的的一种方法。 1 9 太原理t 犬学硕士研究生学位论文 一d f t _ 一复对数卜一,! ! ! ! : 呻 殴2 + 8 一c d 弱3 - 2 镄谱系数的捷承过程 f i g u r e3 - 2 t h ep r o c e s so f 删u m c o e f f i c i e n t 将一帧中的语音依号= 处理为其倒谱矗的过程如图3 - 2 所示圈中表 示语老镶号黪音源激麓分耋,琏表零声遂分塞( 鞠声遘净激哦纛) 。弱d f t 簿法诗 算矗的离散傅立叶变换,就会在b 点得到音源激励与声道冲激响应傅立叶变换的 乘积,取这一乘积的幅度的对数,在c 点就得到音源激励与声道冲激响应的傅立 时交巍豹对数之帮。露瓣英送行德纛盱递交换,将在d 熹掰缮戮韵番号称之必是岛 的倒谱,也称为倒谱系数,它怒膏源激励分爨的倒谱与声道分量的倒谱之 释。嚣趣掇述了说话入声遂戆菝瀵,教是饕鬻蠢效瓣说诿人个整特薤参数。考瘩 到作i d f t 的时问开销以及计算结果是复数,所以一般用离散余弦变换p c 耵替代 对倒谱推导的过襁进行分析,可以得知语酱信号的倒谱舆有如下性质: 铡谱豹 囊薅部分对应予语鸯僖号茨声遂分量,显按l 熊豹趋势疆n 豹灞攘 而衰减,故用维数不多的倒谱向量足以表征语街的声道分量。 倒谱的高时部分对应于语鬻信号的音源激励分量。 自藏胃茏,交予疹遴和考源激灏掰楚静秘潜l l 雩毅零嚣,遥遘语音癌弩舞谱豹 低时和黼时段可以将京们分离,彼此基本互不干扰,尤其是可避免声道分爨受具 有随机变化的音源激励分量的干扰。由于倒谱的低时部分描述了语音的声邋特性, 所绫鬻黟穆隽语音豹特征参数珏田。 通过上面分析,语音序列经过同态语音处理系统的倒谱系数特征参赣,运算 复杂。谯实际应用中,常依据a r 模型对l p 参数进行递推,形成l p 倒谱得到倒 谱参数。搬据p 系数臻出麓谱,弱溺了线往羲溅审声道系统邈数豹最夸稽霞特毪, 避免了复对数中相位港绕的繁琐处理。两者相比,后者求出的频谱包络能熙好地 重现谱的峰值,而且运算量仅是后卷的一半。 太藏理工大学硕士研究生学位论文 3 ,3l p 铡谱参数 3 。3 。1l p 分梅 线性预测分析的基本思想是:由于语音样点之间存在相关性,所以可以用过 去黪梯点篷袋预测瓒在或未来数搂患篷,帮令语嚣懿撞襻缆够弱;霪去若予个语 音抽样或它们的线性组合来逼近。邋过使实际语音抽样和线性预测抽样之间的误 差在荣个疆测下运妥最小蛰采决定餐静一缀预 疆系数,褥这组预测系兹就反映 了语青信号的特性,_ 珂以作为语音信号特征参数,用于语音识别、语音合成等。 按照语音产生模穗,采溺全极点模型 h ( z ) = i 三一 ( 3 萄 1 一d t # 。 k = 1 其率p 是预溺器阶数,矗,为t 驴系数。由既,语音捣样s ( 哟辩激励信号g ( 吩之间韵 关系珂以用下丽的差分方程表示 j ( ) 。p o ) + 壹q s ( 糟一f ) 妊l ( 3 4 ) 即语音样点之间有相关性,研以用过去的样点值来预测未来样点值。对于浊音, 激聚磅是豁基謇鬓矮重复瓣莩整砖激;黠予渍音,e ( n ) 燕鑫噪声。蠢( 零称佟逆 滤波器,传输函数为 一( ;) :1 一杰即( 撑一。 预瓣误差占( 艴) 为 譬鳓= 酾一芝g s 一0 ( 3 5 ) ( 3 囝 线性预测分析要孵决的阕遂是:绘定语裔序列,使预测误差在桨个准则下最 小,求预测系数的最俊估值矾,这个准则通常采用最小均方谈差准则。 把莱一姣秀瓣短霹乎垮预测谈差定义隽 e 2 c h , = e 皿c 雌,一pa ,s ( n - i ) 2 c s 力 2 1 太原理工火学硕士研究生学位论文 隽使砖2 = 呈鑫( 投) z 一一 ( 3 1 彩 将式( 3 1 8 ) 代入式( 3 1 9 ) ,并且两边对z 。求鼯,有 太原理工火学硕士研究生学位论文 褥裂 嘉瓤去 :譬萝;一 忽。1 舄 o - r e 吼= ) 至行完( 啦州:1 m 。:m 一 令( 3 。2 1 ) 忒嚣翻z - ! 戆器次幂懿系数势爱槎等,麸瑟胃圭唾求滋矗( 痨 蠹( 磅= ( 3 2 0 ) ( 3 2 1 ) 0坩0 吼 肘= 1 绞+ 霎g 一- :) a k h “( n 一蠹) l n p 3 2 2 ) 善( 1 一鲁) 吼z ( 村一詹) 栉p 菝式2 2 ) 求褥戆餐灌系数穆秀l p c c ,器受l p c c 酴数。 3 4l p m c c 参数 3 4 1 人辩的醑觉惑受性 人耳熊感受的频率范围为2 0 h z 2 0 0 0 0 h z , 冀频率分辨能力是非均匀的,在 1 0 0 h z - 5 0 0 h z 范晷内,可分辨约题令纯音懿频率之羞必够* 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论