




已阅读5页,还剩120页未读, 继续免费阅读
(计算机应用技术专业论文)hmm和神经网络用于语音识别的算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
太原理l ,大学硕士研究生学位论文 h m m 和神经网络用于语音识别的算法研究 摘要 语音识别是语音信号处理领域的研究热点,它长期以来一 直是一项难题,尤其是对于噪声环境下以及非特定人语音识别。 为此,本文讨论了几种常用的语音识别方法包括经典的隐马尔 可夫模型以及目前比较流行的人工神经网络,并引入一种新的 用于抗噪的特征参数:过零率与峰值幅度特征( 简称z c p a 特 征) 组成一个鲁棒的语音识别系统。 文中首先介绍了几种常用的特征提取方法如线性预测倒谱 系数( l p c c ) 和m e l 频率倒谱系数( h 心c c ) ,这两种特征在 静音环境下有很好的识别效果,但在嗓音环境下,性能就会严 重下降。为此论文重点介绍了一种抗噪特征:z c p a 特征,并分 析了其抗噪原理。接下来论文讨论了隐马尔可夫模型的原理及 用于语音识别的系统实现过程。经典的b a u m w e l c h 训练算法在 软件实现中存在下溢问题,文献中没有给出正确的针对下溢问 题的重估公式。因此,论文使用定标算法,重新推导了 b a u m w e l c h 训练算法的重估公式。实验结果表明修改后的公式 收敛速度很快,并且得到了较好的识别效果,充分证明了重新 推导后公式的正确性,而使用原公式在训练肘无法收敛。然后 太原理工大学硕士研究生学位论文 论文又研究了几种可用于分类的前馈神经网络:反向传播网络 ( b p 网) ,径向基函数( r b f ) 网络及小波神经网络,讨论了 各自的原理、学习过程以及用于语音识别的建模方法。r b f 网 络隐节点的中心选取对网络性能有很大影响,常用的k 均值聚 类是一种无监督的学习方法,论文提出利用训练样本中的分类 信息对输入数据进行聚类,计算它们的形心作为隐节点函数中 一1 1 , 。实验结果表明这种有监督地选取函数中一1 1 , 识别率明显高于 k 均值聚类的方法。最后论文引入小波变换理论,用小波基函 数代替r b f 网络中的高斯基函数构成一个小波r b f 网络,实验 结果表明,这种神经网络同样可以获得很好的识别效果。 关键词:语音识别,特征提取,隐马尔可夫模型,r b f 神经网络,小 波神经网络 太原理工大学硕士研究生学位论文 s t u d yo fs p e e c hr e c o g n i t i o n a l g o r i t h mb a s e do nh m ma n d n e u r a ln e t w o r k a b s t r a c t s p e e c hr e c o g n i t i o ni st h er e s e a r c hh o t s p o ti nt h e 自e k lo f s p e e c hs i g 芏1 a lp r o c e s s i n g i th a sb e e na d i f f l c u l tp r o b l e mf o ral o n g t i m e ,e s p e c i a l l yf o rt h er e c o g n i t i o no fp e r s o n i m d e p e n d e n ta n di n n o i s ye n v i r o n m e n t t h i sp a p e rd i s c u s s e ds e v e r a lc o m m o ns p e e c h r e c o g i l i t i o nm e t h o d si n c l u d i n gc l a s s i c a lh i d d e nm a r k o vm o d e la n d a r t i f i c i a ln e u r a ln 酡o r kw h i c hi s v e r yp o p u l a rc u r r e m ly i ta l s o i n t r o d u c e dan e wa n t i m o i s ef e a t u r ep a r a m e t e r z e m c r o s s i n g sw i m p e a :k _ 眦p l i t l l d e sf e a t u r e ( z c p af j m l r e ) ,w h i c hc a nb eu s e dt o c o n s t m c tar o b u s ts p e e c hr c c o g n i t i o ns y s t e m t h i s p 印e rp r e s e n t l 甜s e v e r a l f h m i l i a rf e a t u r e e x t r a c t i n g m e t h o d ss u c ha sl i n e a rp r e d i c t i o nc e p s t n l mc o e f 五c i e n t ( l p c c ) a n dm e lf r e q u e n c yc e p s t m mc o e m c i e n t ( m f c c ) t h e yh a v eg o t e x c e l l e n tr e c o g n i t i o nr e s u l t su n d e rc l e a ne n v i r m e n t ,b u t 也e i r p e r f b m a n c ew i l ld e t e r i o r a t es e v e r e l yi nn o i s yc o n d i t i o n s om o s t p a ni sd e v o e dt oi n t r o d u c ez c p af b a t u r ea n da n a l y z ei t sa n t i n o i s e p r i n c i p l e t h e nt h i sp a p e rd i s c u s s e d 丑、i mt h e o 巧w h i c hi su s e di n s p e e c hr e c o g n i t i o na n di t sj m p 】e m e n t 撕o np r o c e s s t h e r ea r e i i i 太原理工大学硕士研究生学位论文 u n d e r f l o wp r o b l e m si ns o f t w a r ei m p l e m e n t a t i o np r o c e d u r ef o rt h e c l a s s i c a lb a u m - w e l c h t r a i n i n ga l g o r i t h m ,a n dal o to f l i t e r a t u r e sd i d n o tp r e s e n t e da ne x p l i c i tm e t h o d w i t hr e s p e c tt ot h i sp r o b l e m ,t h i s p a p e ri n d u c t e dt h es c a l i n ga l g o r i t h ma n dd e r i v e dt h er e e s t i m a t e f o r m u l a eo fb a u m - w e l c ha l g o r i t h ma g a i n t h ee x p e r i m e n t ss h o w e d t h a ti tc a nc o n v e r g er a p i d l ya n dt h er e c o g n i t i o nr e s u l t sa r eg o o d , w h i c hp r o v e dt h ec o r r e c t n e s so ft h en e wr e e s t i m a t ef o r m u l a e , w h i l et h eo l df o r m u l a ec a nn o tc o n v e r g ei ne x p e r i m e n t s t h e nt h e p a p e r s t u d i e ds e v e r a lf e e d - f o r w a r dn e u r a ln e t w o r k s u s e di n c l a s s i f i c a t i o ni n c l u d i n gb pn e t w o r k ,r b fn e t w o r ka n dw a v e l e t n e t w o r k i td i s c u s s e dt h e i rt h e o r i e s ,l e a r n i n g p r o c e s s a n dt h e m o d e l i n gm e t h o df o rs p e e c hr e c o g n i t i o n r e s p e c t i v e l y c e n t r o i d s e l e c t i n go fr b fh i d d e nn o d e sh a sg r e a ti n f l u e n c ef o rt h en e t w o r k p e r f o r m a n c e t h ec o m m o nk m e a n sc l u s t e r i n g i sak i n d o f u n s u p e r v i s e dl e a r n i n gm e t h o d ,t h ep a p e rp r o p o s e dt oc l u s t e rt h e i n p u td a t ab yt h ec l a s s i f i c a t i o ni n f o r m a t i o no ft r a i n i n gs a m p l e sa n d c a l c u l a t et h e i rc e n t r o i d st ob et h ec e n t e r so fe a c hh i d d e nf u n c t i o n e x p e r i m e n tr e s u l t ss h o w e dt h a tt h er e c o g n i t i o nr a t eb ys e l e c t i n gt h e c e n t r o i d so fh i d d e nf u n c t i o n ss u p e r v i s e di sb e t t e rt h a nk m e a n s c l u s t e r i n gm e t h o d f i n a l l y , t h ep a p e ri n t r o d u c e dw a v e l e tt r a n s f o r m t h e o r y , a n dt h eg a u s s i a nb a s i sf u n c t i o no fr b fn e t w o r kw a st a k e n p l a c eb yaw a v e l e tb a s i sf u n c t i o n ,s oaw a v e l e tn e u r a ln e t w o r kc a l l b ef o r m e d e x p e r i m e n t ss h o w e dt h a tt h ew a v e l e tn e t w o r ka l s oc a n g e te x c e l l e n tr e c o g n i t i o np e r f o r m a n c e i v 太原理工大学硕士研究生学位论文 k e yw o r d s :s p e e c hr e c o g n i t i o n ,f e a t u r ee x t r a c t i o n ,h i d d e n m a r k o vm o d e l ,r b fn e u r a ln e t w o r k ,w a v e l e tn e u r a ln e t w o r k v 太原理工大学硕士研究生学位论文 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除文中特别加以标注和致 谢中所罗列的内容外,论文中不包含其他人已经发表或撰写过 的研究成果;也不包含为获得太原理工大学或其他教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本文研究 所做的任何贡献均已在论文中做了明确的说明并表示了谢意。 本人签名:趣嫁蟊 日期:兰! ! 年月旦日 太原理工大学硕士研究生学位论文 关于论文使用授权的说明 本人完全了解太原理工大学有关保留和使用学位论文的规 定,即:学校有权保留送交论文的复印件,允许查阅和借阅论 文;学校可以公布论文的全部或部分内容,可以允许采用影印、 缩印或其它复制手段保存论文( 保密的论文在解密后遵守此规 定) 。 本人签名:叁邀壶 日期:型! 立年月卫日 导师签名:缝美 日期:幽:年上月卫日 太原理:大学硕士研究生学位论文 i i 语音识别综述 第一章绪论 1 1 1 引言 语言是人类获取信息的主要来源之一,是人类与外界交流信息最方 便、最有效、最自然的工具,随着计算机技术的快速发展,语音技术的研 究也愈来愈受到重视。人们对语音的研究主要包括语音编码,语音合成, 语音识别及说话人辩识等几个方面。 语音识别以语音为研究对象,它是语音信号处理的一个重要研究方 向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科 学以及信号处理等学科。语音识别的目的是为了使机器能够准确地听出人 的语音及其内容,以便控制其它设备来满足人类的各种需求,它是发展人 机有声通信和新一代智能计算机的重要组成部分。 语音识别技术的渗透性很强,有着广阔的应用范围,它将无处不在的 改变我们的生活方式。 我们最常见的有用于手机的语音拨号功能,使用语音拨号,只需一次 性地输入( 读入) 人名和电话号码,在使用时便可以直接对着电话说出要通 话人的姓名,经语音识别后,查出该姓名所对应的号码,然后自动地进行 拨号。同样,对于p c 机,我们可以丢掉键盘鼠标,靠语音输入命令来控 制计算机。 1 太原理工大学硕士研究生学位论文 日常生活中常见的还有语音识别在家电遥控器中的应用,家用电器发 展的一个重要方面是让用户界面更加人性化,更加方便自然,做到老年人 和残疾人可以无障碍地使用。利用语音识别技术实现语音控制是提高家电 产品用户界面质量的条重要途径。 语音查询是语音识别的又一个应用领域“3 ,可用于旅游业及服务业的 各种查询系统。如语音自动导游系统,游客只要说出自己当前的位置和感 兴趣的景点名称,系统便自动显示出图文并茂的最佳路线、乘车方案、费 用及其它相关信息。如果游客还需要进一步了解更为详尽的资料,则可以 同系统进行交互式的对话,系统将对用户的问题一一给予答复。对于键盘 输入非常陌生的人来说,语音输入提供了最方便快捷的查询方式。 语音识别技术在人工邮件分拣中的作用也日益显现,发展前景诱人。 发达国家的邮政部门已经使用了这一系统。该系统的使用,大大提高了分 拣质量和劳动生产率,越来越多的国家关注着这一技术的发展和动向。 语音识别还可以应用在工业控制方面,在一些工作环境恶劣、对人身 有伤害的地方( 如地下、深水及辐射、高温等) 或手工难以操作的地方,均 可通过语音发出相应的控制命令,让设备完成各种工作。 语音识别技术在帮助伤残人的各种设备中也将发挥其难以替代的作 用。对于一些肢体伤残者或盲人,若全部用声音控制,则给伤残者或盲人 提供极大的生活便利。一些办公设备加上语音功能后,即使是伤残者也可 以足不出户地在家里工作。 此外,嵌入式语音识别软件具有语音识别、声控、用字母语音输入的 2 太原理,【一大学硕十研究生学位论文 语音键盘等功能,可应用于手提电话、掌上电脑、电子记事本、声控设备、 及便于残疾人的设备等。 1 1 2 国内外研究现状及语音识别方法介绍 ( 一) 国内外研究现状 语音识别的研究可以追溯到二十世纪五十年代初”1 ,当时很多研究人 员正尝试探索声学一语音学的基本规律。1 9 5 5 年,b e l l 实验室的d a 。i s 等人利用共振峰特征研剑出了世界上第一台原始语音识别系统。1 9 5 9 年。 美国l i n c o l n 实验室的r o r g i e 和f o r g i e 首次采用数字计算机识别英文的 元音和以摩擦音开头的孤立字,这些识别系统都是针对孤立语音,都使用 模式匹配器和滤波器组来分析谱信息的。这些标志着计算机语音识别时代 的开始。 在六十年代,计算栅的应用推动了语音识别的发展。同本的东京无线 电研究实验室、京都大学和n e c 实验室都制作了能够进行语音识别的专用 硬件,对语音识别领域进行了开拓性的研究工作。当时,有关语音识别的 三个关键项目的启动,对以后语音识别的研究和发展产生了深远的影响。 它们是m :( 1 ) r c a 实验室的m a r t i n 为解决语音事件时间尺度的非均匀性, 以便能可靠地检测到语音的起始点和终止点,提出了一组基本的时间归一 化方法,有效地减小了识别结果的可变性;( 2 ) 前苏联的v i n t s y u k 提出了 使用动态规( d p ) 划方法,对一组语音在时间上进行校准。它包含了动态时 间伸缩的概念,解决语音识别中不等长的对正问题;( 3 ) c a m e g i em e l l o ” 3 太原理工大学硕士研究生学位论文 大学的r e d d y 通过对音素的动态跟踪对连续语音识别方法做了开创性的研 究工作,并促成了一项后来获得巨大成功的连续语音研究计划。 七十年代,语音识别领域取得了突破。首先,语音识别已经成为可用 的技术,模式识别、动态规划技术也开始在语音识别系统中得到应用。低 比特率编码中取得成功的线性预测编码( l p c ) 方法被用来作为语音的谱特 征参数,并沿用至今。动态时间规整技术( d t w ) 基本成熟,并且提出了矢 量量化和隐马尔可夫模型理论,实现了基于线性预测倒谱和d t w 技术的 特定人孤立语音识别系统。 七十年代语音研究的重点是孤立词语音识别,而在八十年代,连续语 音成为研究重点,并出现了大量的连续语音识别算法,如n e c 公司提出的 二层动态规划算法,b e l i 实验室的m y e r s ,r a b i n e r 和l e e 等人提出的分层 构造算法,以及帧同步分层构造算法等。另外,在八十年代中后期,语音 识别研究所用的技术方法发生了变化:由基于模板的方法转向了统计建模 的方法,尤其是使用了隐马尔可夫模型方法,这种方法现在已成为语音识 别研究的主流。h m m 的广泛应用应归功于a t tb e l l 实验室r a b i n e r 等 科学家的努力,他们把原本艰涩的h m m 纯数学模型工程化,从而为更多 研究者了解和认识。自从开始用h m m 来描述语音信号后,就不断有人对 它进行了各种改良和发展。h m m 的一个基本假设便是它认为语音信号是 准平稳的并且其中的平稳部分可以由h m m 中的状态来表征。在传统的 h m m ( t r a d i t i o n a l1 1 i d d e nm a r k o vm o d e l ,t h m m ) 中,模型在某状态停留一定 时间的概率随着时间的增长呈指数下降的趋势,因此使得t 王 m m 不能合 4 太原理工大学硕士研究生学位论文 来,首先在此基础上建立所需的模板,这个建立模板的过程称为训练过程。 接下来将新提取的特征与模板匹配的过程称为识别过程。即根据语音识别 的整体模型,将输入的语音信号的特征与已经存在的语音模板( 参考模式) 进行比较,根据一定的搜索和匹配策略( 判决规则) ,找出一系列最优的 与输入的语音相匹配的模板。然后,根据此模板号的定义,通过查表就可 以给出计算机的识别结果。 隐马尔可夫模型是对语音信号的时间序列结构建立统计模型,将之看 作一个数学上的双重随机过程。3 :一个是用具有有限状态数的m a r k o v 链来 模拟语音信号统计特性变化的隐含的随机过程,另个是与m a r k o v 链的 每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前 者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程, 语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需 要( 不可观测的状态) 发出的音素的参数流。可见,h m m 合理地模仿了这 一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理 想的一种语音模型。 与模式匹配法相比,h m m 是一种迥然不同的概念。在模式匹配法中, “参考样本”是由事先存储起来的“模式”本身充当的,而h m m 则是把 这一“参考样本”用一个数字模型来表示( 马尔可夫链) ,然后待识的语音 与这一数学模型相比较,这就从概念上较前深化了一步。图卜2 给出了一 个基于h m m 的孤立词语啬识别原理图。 8 太原理 :大学硕十研究生学位论文 盥竺警。 竺:兰i 竺书i 下求 燕卅:惜 “ :_ ;i j 础 规则f 圈1 2 隐马尔可夫模型用于孤立词语音识别方框图 f ;g u r el 一2 i s o l a t e dw b r ds p e e c hr e c o g n i t j o nd i a g r a mb a s e do nf m m 采用h m m 进行语音识别,实质上是种概率运算。根据训练集数据 计算得出模型参数后,测试集数据只需分别计算各模型的条件概率( v i t e r b i 算法) ,取此概率最大者即为识别结果。由于马尔可夫过程各状态自j 的转 移概率和每个状态下的输出都是随机的,故这种模型更能适应语音发音的 各种微妙的变化,使用起来比模板匹配方法灵活的多。除训练时需运算量 较大外,识别时的运算量仅有模式匹配法的几分之一。此模型七十年代初 首先用于c m u ( 卡内基一梅隆大学) 研制的d r a g o n 系统中,此后又有了 很大发展,七十年代以来,使用h m m 的系统都取得了很高的识别率。 人工神经元网络( a n n ) 在语音识别中的应用是当前研究的又一热点。 人工神经网络本质上是一个自适应非线性动力学系统,模拟了人类神经元 活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性8 1 。目 前用于语音识别的神经网络有多层感知机,k o h o n e n 自组织神经网和预测 神经网。 人工神经网络是采用物理上可实现的系统来模拟人脑神经细胞的结 9 犁上粉 j 1 绦刖_ f 一 - 一 太原理工大学硕士研究生学位论文 构和功能的系统。它是由很多简单的处理单元有机地连接起来进行并行 的工作,人工神经网络中大量神经元并行分布运算的原理、高效的学习 算法以及对人的认知系统的模仿能力等都使它极适宜于解决类似于语音 识别这类课题。由于神经网络反映了人脑功能的基本特征,具有自组 织性、自适应性、和连续学习的能力。这种网络是可以训练的,即可以 随着经验的积累而改变自身的性能。同时由于高度的并行性,它们能够 进行快速判决并具有容错性,特别适合于解决象语音识别这类难以用算 法来描述而又有大量样本可供学习的问题,图卜3 给出了神经网络用于 语音识别的原理性方框图: 焉甄卜h 燃揽 输出结果 图1 _ 3 基于神经网络的语音识剐原理图 f i g u r e1 3 s p e e c hr e c o g n “0 nd i a g r a mb a s e do nn e u r a ln e t w o r k 神经网络的一项非常重要的功能是通过学习实现对于输入矢量的分 类。这就是说每输入一个矢量,人工神经网络输出一个该矢量所属类别的 标号。在传统的语音识别方法中,通过特征参数的提取及模式匹配完成识 别。由于语音信号的高度多变性,输入模式要与标准模式完全匹配是几乎 不可能的。神经网络的语音识别方法与传统方法的差异在于提取了语音的 特征参数后,不象传统方法那样有输入模式与标准模式的比较匹配及统计 参数,而是靠神经网络中大量的连接权对输入模式进行非线性运算,产生 1 0 太原理1 :人学硕十研究生学位论文 最大兴奋的输入点就代表了输入模式对应的分类。神经网络的连接权系数 是在使用中根据识别结果的正确与否不断的进行自适应修证。比较起来, 神经网络识别系统更接近人类的感知过程。 语音识别系统根据不同的分类准则可以有多种分类方式。: 根据对说话人说话方式的要求,可以分为孤立字( 词) 语音识别系 统,连接字语音识别系统以及连续语音识别系统。 根据对说话人的依赖程度可以分为特定人和非特定人语音识别系 统。 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及 无限词汇量语音识别系统。 1 2 课题研究背景 尽管语音识别的研究工作迄今已近5 0 年,取得了辉煌的成就,但是 现有的语音识别系统还面临着许多困难,具体表现在以下几个方面“3 : 】语音识别系统的适应性差。主要体现在对环境条件的依赖性很强, 继续要保持测试条件和训练条件的一致性,否则系统性能严重下降。另外, 全世界有近百种官方语言,每种语言有多达几十种方言,同种语言的不同 方言在语音上相差悬殊,这样,随着语言环境的改变,系统性能也会变得 很差。 2 噪声问题。在强噪声干扰环境下语音识别困难。由于语音数据大部 分都是在接近理想的条件下采集的,语音识别的编码方案在研制时都要在 l l 太原理工大学硕士研究生学位论文 高保真设备上录制语音,尤其要在无噪环境下录音。然而,当语音处理由 实验室走向实际应用时,环境噪声的存在所带来的问题就变得越来越重 要。特别是线性预测作为语音处理技术中最有效的手段,恰恰是最容易受 噪声影响的。 3 语音识别基元的选择问题。即如何根据存储空间和搜索速度的要求, 选择合适的识别单元,如词、音节、音素。一般来讲,识别的词汇量越大, 所选基元应越小。 4 端点检测。语音信号的端点检测是进行语音识别的第一步。研究表 明,即使在安静的环境下,语音识别系统一半以上的识别错误来自端点检 测器。提高端点检测技术的关键在于寻找稳定的语音参数。 5 还有大词汇连续语音识别的训练工作量和识别速度问题、局势问题 以及关键词检测技术,以及对用户的错误操作不正确响应问题等。 6 另外,对于人类由中枢神经控制的记忆机理、听觉理解机理、联想 判断机理等,人们目前仍知之甚少。 基于上述提到的噪声和语音识别速度问题,本论文分别在h m m 和r b f 神经网络模型的基础上,采用了具有一定抗噪特性的特征参数和识别网络 组成抗噪语音识别系统。笔者针对非特定人、孤立词的识别构造了几种不 同的系统,并比较了各自的识别性能,得到了一些好的结果,为抗噪语音 识别的关键技术研究打下了基础。 1 2 太原理上人学硕士研究生学位论文 1 3 论文内容安排 1 在绪论中,主要介绍了语音识别的应用、发展历史、国内外研究进 展、语音识别的基本方法及目前语音识别面i 临的难题。 2 第二章介绍了语音信号的前端特征参数提取技术,讨论了几种常见 的方法,并针对抗噪问题,重点阐述了一种比较新的具有抗噪性能的特征, 这种特征将在笔者实现的系统中使用,来证明其优良的抗噪性能。 3 第三章将介绍矢量量化技术。v q 技术就是把k 维无限矢量空间根 据定的聚类方法划分成几个有限的区域边界,将输入矢量按照某种失真 测度划分到一个区域中。这章是论文后面研究的h m m 和r b f 神经网络的 预备知识。 4 第四章研究了隐马尔可夫模型算法。这是一种用于语音识别的经典 算法,此算法中用来训练模型的一种迭代处理方法( b a u m w e l c h 法) 存 在一定的问题:对于软件实现过程中出现的下溢问题和多序列训练重估问 题,文献中都没有给出正确的重估公式。论文中详细介绍了h m m 的三个 问题的求解方法,并且重点针对上面提到的下溢问题采用定标算法,逐步 推导,给出了加入标度因子后的正确的单序列和多序列b a u m w e l c h 重估 公式。最后笔者用c + + 语言实现了一仑离散h m m ( d h m m ) 的非特定人识 别系统,证明采用定标后的修正公式,不仅训练速度很快,而且也达到了 较好的识别结果。而文献中给出的用于训练参数的重估公式在实验中无法 收敛,无法得出识别结果。 1 3 太原理工大学硕士研究生学位论文 5 第五章研究了几种人工神经网络,包括b p 网络、r b f 网络和小波 神经网络。论文重点研究了r b f 网络,网络的隐层函数使用高斯基函数, 函数的中心和宽度需和隐层到输出层的权值分开计算。一般函数中心和函 数宽度的确定使用聚类算法,但这种算法没有充分利用训练样本中给出的 分类信息,是一种无监督的学习算法,得到的识别效果并不理想。论文中 提出了根据样本中给出的分类信息来计算高斯函数的中心和宽度因子,这 样有监督地确定这两个参数,是一种有监督学习方法。笔者分别使用k 均 值聚类算法和提出的非聚类有监督学习算法求取高斯函数的中心和宽度, 实现了r b f 神经网络模型,结果表明,后一种方法的识别结果明显优于前 一种方法。接下来,论文在小波理论的基础上,提出使用小波基函数代替 r b f 网络中常用的高斯基函数。笔者使用了几种不同的小波基函数,选取 一种效果最好的基函数代替原有的高斯函数。实验表明,采用径向基函数 结构的小波神经网络同样具备优良的识别结果。 6 第六章是结论与展望。对论文工作进行总结,并提出了论文下一步 的工作及课题改进方案。 1 4 太原理1 :大学硕士研究生学位论文 2 1 概述 第二章特征提取 在上一章我们给出了基于各种方法的语音识别系统原理框图( 图1 1 、 图卜2 和图1 3 ) ,本章将介绍其中的特征提取部分。特征参数提取是对 语音信号进行有效压缩和进行语音识别的特别重要的一环,也是任何一个 模式识别处理首先要解决的问题。特征提取是指从语音信号波形获得一组 能够描述语音信号特征参数的过程,它是解决时域语音信号的数字表示问 题。 语音特征参数是分帧提取的,每帧特征参数一般构成个矢量,因此 语音特征量是一个矢量序列。语音信号中提取出来的矢量序列经过数据压 缩后便成为语音的模板。显然,特征的选取对识别效果至关重要,选择的 标准应尽量满足“:( 1 ) 能有效的代表语音特征,包括声道特征和听觉特 征,具有很好的区分性,它体现在对异音字之间的距离尽可能大,而同音 字之间的距离应尽可能小;( 2 ) 各阶参数之间有良好的独立性:( 3 ) 特征 参数要计算方便,在保持高识别率的情况下,最好有商效的计算方法,以 减小存储要求并保证语音识别的实时实现。 语音信号的特征主要有时域和频域两种。时域特征如短时平均能量、 短时平均过零率、共振峰、基音周期等:频域特征有线性预测系数( l p c ) 、 1 5 太原理工大学硕士研究生学位论文 l p c 倒谱系数( l p c c ) 、线谱对参数( l s p ) 、短时频谱、m e l 频率倒谱系 数( m f c c ) 等。现在还有结合时间和频率的特征,即时频谱,充分利用了 语音信号的时序信息。基于听觉模型的特征参数提取“”,如感知线性预测 ( p l p ) 分析,试图从不同于声道模型的另一个方面进行研究。所有这些特 征都只包含了语音信号的部分信息。为了充分表征语音信号,人们尝试综 合各种特征,并取得了一定的效果。但由于目前语音识另u 分类器的限制和 数学模型描述的局限性,人们尚未充分利用已有的部分信息,于是特征的 变换与取舍、特征时序信息的使用等成了重要的研究课题。有关特征研究 的另外一个重要方面是特征的抗噪声性能,由于语音识别的最终目标是在 现实世界中使用,背景噪音的干扰成为不可忽视的因素,因此必须研究一 种方法,使得特征的提取尽可能不受噪音的影响。 2 2 特征提取过程简介 特征提取的目的是对原始语音进行处理,计算语音对应的特征参数, 主要包括以下几个步骤“: ( 1 ) 采样与量化 首先将模拟语音信号s ( t ) 以采样周期t 采样,将其离散化为s ( n ) , 采样周期的选取应根据模拟语音信号的带宽( 依奈奎斯特采样定理确 定) ,以避免信号的频域混叠失真。在对离散后的语音信号进行量化处理 过程中会带来一定的量化噪声和失真。 ( 2 ) 预加重处理 1 6 太原理j :人学硕士研究生学位论文 对输入的原始语音信号进行预加重,其目的是为了对语音的高频部 分进行加重,增加语音的高频分辨率,般通过个传递函数为 h ( z ) = 1 一以。的滤波器对其加以滤波,其中口为预加重系数且 0 9 口 1 o 。设n 时刻的语音采样值为工( ) ,经过预加重处理后的结果 为,( 疗) = z ( 珂) 一n z ( 栉一1 ) ( 0 9 口 1 o ) 。 ( 3 ) 分帧与加窗 语音具有短时平稳的特点,通过对语音进行分帧操作后,可以提取其 短时特性,从而便于模型的建立。然后将每帧信号用某种窗相乘,以减小 帧起始和结束处的信号不连续性。常用的加窗函数有汉明窗和汉宁窗。 ( 4 ) 特征参数计算 文中主要介绍三种参数:l p c c 、m f c c 和种新的具有很好抗噪性 的特征:过零率与峰值幅度( z e r o ,c r o s s i n g sw i t hp e a k - a m p i i t u d e s ,简称 z c p a 特征) 。最后为了后续处理方便,需要对提取的特征进行归化处 理来得到最终的特征表示。 2 3 几种常用的特征提取方法 2 3 1 线性预测系数( l p c ) 线性预测分析“”从人的发声机理入手,通过对声道的短管级联模型的 研究,认为系统的传递函数符合全极点数字滤波器的形式,从而某一时刻 的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采 样值和线性预测采样值之间达到均方误差( m s e ) 最小,即可得到线性预 】7 太原理j :人学硕士研究生学位论文 对输入的原始语音信号进行预加重,其目的是为了对语音的高频部 分进行加重,增加语音的高频分辨率,般通过个传递函数为 h ( z ) = 1 一a z 。的滤波器对其加以滤波,其中口为预加重系数且 0 9 口 1 0 。设n 时刻的语音采样值为x ( n ) ,经过预加重处理后的结果 为y ( n ) = x ( n ) 一a x ( n 一1 ) ( 0 9 口 1 0 ) 。 ( 3 ) 分帧与加窗 语音具有短时平稳的特点,通过对语音进行分帧操作后,可以提取其 短时特性,从而便于模型的建立。然后将每帧信号用某种窗相乘,以减小 帧起始和结束处的信号不连续性。常用的加窗函数有汉明窗和汉宁窗。 ( 4 ) 特征参数计算 文中主要介绍三种参数:l p c c 、m f c c 和种新的具有很好抗噪性 的特征:过零率与峰值幅度( z e r o ,c r o s s i n g sw i t hp e a k - a m p l i t u d e s ,简称 z c p a 特征) 。最后为了后续处理方便,需要对提取的特征进行归化处 理来得到最终的特征表示。 2 3 几种常用的特征提取方法 2 3 1 线性预测系数( l p c ) 线性预测分析“”从人的发声机理入手,通过对声道的短管级联模型的 研究,认为系统的传递函数符合全极点数字滤波器的形式,从而某一时刻 的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采 样值和线性预测采样值之间达到均方误差( m s e ) 最小,即可得到线性预 】7 太原理工大学硕士研究生学位论文 测系数l p c 。 根据语音产生的模型,语音信号s ( z ) 是一个线性非移变因果稳定系统 v ( z ) 受到信号e ( z ) 激励产生的输出。在时域中,语音信号s ( n ) 是该系统 的单位取样响应v ( n ) 和激励信号e ( n ) 的卷积。语音产生的声道模型在大 多数情况下是个可用式( 2 1 ) 阐述的全极点模型: y ( z ) :一 ( 1 一4 ,z “) - = l ( 2 1 ) 根据最小均方误差对该模型参数口,进行估计,就得到了线性预测编码 ( l p c ) 算法,求得的石即为l p c 系数( p 为预测器阶数) 。对l p c 的计算方 法有自相关法( 杜宾d u r b i n 法) 、协方差法、格型法等等。计算上的快 速有效保证了这一声学特征的广泛使用。 2 3 2l p c 倒谱系数( l p c c ) 在语音识别系统中,很少直接使用l p c 系数,而是由l p c 系数推导出 另一种参数:线性预测倒谱系数( ( l p c c ) 。倒谱实际上是一种同态信号处理 方法,标准的倒谱系数计算流程需要进行f f t 变换、对数操作和相位校正 等运算,运算比较复杂。倒谱 c 。) 是信号的z 变换的对数模函数的反z 变 换。既然线性预测也是一种参数谱估计方法,而且其系统函数的频率响应 ( e 一) 反映了声道的频率响应和被分析信号的谱包络,因此用 l 0 9 1 日( p ,。) 1 作反傅里叶变换求出的倒谱系数,应该是一种描述信号的良 好参数。主要优点是比较彻底的去掉了语音产生过程中的激励信息,主要 1 8 太原理l :火学硕士研究生学位论文 反映声道响应,而且往往只需要几个倒谱系数就能够很好的描述语音的共 振峰特性。基于l p c 分析的倒谱系数可以用下面的公式束求得: r + 奴咒 当l s 墨p + l = l g = l 癌。+ 幻矗肛t 辫 当 p + l ( 2 2 ) 其中p 为预测器阶数。l p c 的倒谱系数有很好的内插性能“,它是由l p c 系数递推得到的,不同的是在倒频域做了截短,相当于在频域进行了倒谱 窗平滑,使振峰展宽了。实验表明使用l p c c 能提高参数的稳定性,它的 主要优点是较彻底地去掉了语音产生过程中的激励信息,主要反映声道响 应。l p c c 在语音识别应用中获得了良好的效果。 2 3 3m e i 频率倒谱系数( m f c c ) 前面提到的l p c 模型是基于声管模型建立的,这种参数强烈地依赖于 模型的精度,且模型所假设的语音信号的平稳特性并不能随时满足。因此, 基于声管模型的语音特征参数的鲁棒性并不是很好,现在常用的另种语 音特征参数是基于人的听觉的特征参数。近年来,种能够比较充分利用 入耳这种特殊的感知特性的参数得到了广泛的应用,这就是m e l 频率倒谱 参数( m e 卜f r e q u e n c yc e p s t r u mc o e f f i c i e n t ,简称m f c c ) 。大量的研究表 明,m f c c 参数能够比l p c c 参数更好地提高系统的识别性能。 通过对入的听觉机理的研究发现。当两个频率相近的音调同时发出 时,人只能听到一个音调。临界带宽指的就是这样种令人的主观感觉发 1 9 太原理工大学硕士研究生学位论文 生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个 音调听成一个,这称之为屏蔽效应“。m e l 刻度是对这一临界带宽的度量 方法之一。m e l 频率倒谱系数首先是将信号频谱的频率轴变换为m e l 刻度, 再变换到倒谱域得到的倒谱系数。其计算过程如下 ( 1 ) 将信号进行短时傅里叶变换得到其频谱。 ( 2 ) 求频谱幅度的平方,即能量谱,并用组三角形滤波器在频域对 能量进行带通滤波。这组带通滤波器的中,心频率是按m e l 频率刻度均匀排 列的( 间隔1 5 0 m e l ,带宽3 0 0 m e l ) ,每个三角形滤波器的两个底点的频率 分别等于相邻的两个滤波器的中心频率,即每两个相邻的滤波器的过渡带 互相搭接,且频率响应之和为1 。滤波器的个数通常与临界带数相近,设 滤波器数为m ,滤波后得到的输出为:x ( ) ,k = 1 ,2 ,m 。 ( 3 ) 对滤波器组的输出取对数,然后作2 m 点逆傅里叶变换即可得到 m f c c 。由于对称性,此变换式可简化为 盯 c 。盎三d g z ( 七) c o s 丌( 七一o 5 ) 聆 f 】 这里,m f c c 系数的个数l 通常取1 2 1 6 。在谱失真测度定义中通常不 用o 阶倒谱系数,因为它是反映频谱能量的。上面所说的在频域进行带通 滤波是对能量谱进行滤波,而不是对幅度谱进行滤波。这样做的根据是考 虑到一个多分量信号的总能量应该是各个正交分量的能量之和。 2 3 4z c p a 特征介绍 特征参数的好坏直接决定着系统的识别性能。要想使识别系统有好的 2 0 太原理工大学硕士研究生学位论文 生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个 音调听成一个,这称之为屏蔽效应“。m e l 刻度是对这一临界带宽的度量 方法之一。m e l 频率倒谱系数首先是将信号频谱的频率轴变换为m e l 刻度, 再变换到倒谱域得到的倒谱系数。其计算过程如下 ( 1 ) 将信号进行短时傅里叶变换得到其频谱。 ( 2 ) 求频谱幅度的平方,即能量谱,并用组三角形滤波器在频域对 能量进行带通滤波。这组带通滤波器的中,心频率是按m e l 频率刻度均匀排 列的( 间隔1 5 0 m e l ,带宽3 0 0 m e l ) ,每个三角形滤波器的两个底点的频率 分别等于相邻的两个滤波器的中心频率,即每两个相邻的滤波器的过渡带 互相搭接,且频率响应之和为1 。滤波器的个数通常与临界带数相近,设 滤波器数为m ,滤波后得到的输出为:x ( k ) ,k = l ,2 ,m 。 ( 3 ) 对滤波器组的输出取对数,然后作2 m 点逆傅
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议中子女抚养费、监护及探望权明确合同
- 生态修复工程种树土地租赁与植被重建合作协议
- 离婚协议补充协议正本及子女抚养权变更及探望权协议
- 离婚协议公证在调解离婚纠纷中的实际效果评估
- 城市核心区域离婚房产分割及补偿协议
- 新能源科技公司股东个人股权转让及环保责任协议
- 主题公园内商户租赁合同范本:景区商业合作租赁协议
- 班长安全培训内容课件
- 个人素养提升培训
- 高校师生安全培训
- 2025秋新部编版一年级上册语文教学计划+教学进度表
- (2025)社区网格员笔试考试题库及答案
- 大学英语四级高频词汇1500+六级高频词汇1500
- GB/T 20841-2007额定电压300/500V生活设施加热和防结冰用加热电缆
- 《智慧农业》的ppt完整版
- 新浙教版小学美术一年级上册教学计划及教学目标分解
- CT图像伪影及处理
- 住宅给水设计秒流量计算举例
- DB11T 1893-2021 电力储能系统建设运行规范
- 诊所备案申请表格(卫健委备案)
- LANTEK兰特钣金软件手册(下)
评论
0/150
提交评论