(电路与系统专业论文)基于dsp的汉语数码语音识别系统的研究.pdf_第1页
(电路与系统专业论文)基于dsp的汉语数码语音识别系统的研究.pdf_第2页
(电路与系统专业论文)基于dsp的汉语数码语音识别系统的研究.pdf_第3页
(电路与系统专业论文)基于dsp的汉语数码语音识别系统的研究.pdf_第4页
(电路与系统专业论文)基于dsp的汉语数码语音识别系统的研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

( 蓟 :二 硕士学位论丈 s 1e r ;ih e s j 摘要 语音是人类进行相互通信和交流的最便捷的手段。在当今数字化的信息时 代,用数字化的技术进行语音的增强、传送、识别、合成、存储已成为语音信 号处理技术的学科前沿,汉语数码语音识别是这前沿中重要的部分且用途很 广,因此,汉语数码语音识别的研究日益受到重视。本文就是在这种情况下对 汉语数码语音识别做了一些研究h 本文基于语音产生的模型,从时域、频域,特别是从倒谱出发,对语音信 号进行分析并结合模式识别的理论,论述语音识别的基本理论。 在介绍d s p 特点和t i v i s 3 2 0 v c 5 4 9 结构的基础上,本文提出基于d s p 的语音识别 系统,借鉴了t m s 3 2 0 c 5 4 x 的评估模块( e v m ) ,对以t m s 3 2 0 v c 5 4 9 芯片为核心的系统 硬件设计进行了研究,阐述了系统的构成,分析了工作过程,采用8 9 c 5 1 单片机对 t m s 3 2 0 v c 5 4 9 的控制代替p c 机的控制,并对p c 机与1 粥3 2 0 v c 5 4 9 的通信方式进 行改造,即将t m s 3 2 0 v c 5 4 9 的h p i 口与p c 机的i s a 总线相连改为t m s 3 2 0 v c 5 4 9 的h p i 口与p c 机的并行口相通信,使t m s 3 2 0 v c 5 4 9 成为独立于p c 机的系统。整个 系统以t m s 3 2 0 v c 5 4 9 为核心电路进行设计,t l e 2 0 6 4 进行放大,t l c 3 2 0 a c 0 2 进行a d 转换,t 粥3 0 v c 5 4 9 进行训练和识别语音信号,由l c d 显示结果。 针对汉语数码语音的特点,引用已有的算法进行软件系统设计,论述系统 软件的设计过程a 本文采用的汉语语音的端点信号的检测和清浊音信号切分方 法是:短时相对能频积的方法对汉语语音信号的端点进行检测;短时相对能频 比的方法对语音信号的清浊音进行切分,提高汉语语音信号切分的成功率。关 键技术是引入声调的特征量作为特征参数,利用基频、基频的一阶和二阶差分, 作为特征参数,以提高识别率。采用连续h m m 模型,利用b a u m w e l t h 重估、 v i t e r b i 算法进行训练和识别,实现系统软件设计。率文所做的研究工作,是 为汉语数码语音识别早日进入商业化进行有效的探索。j 关键词:汉语数码;语音识别:隐马尔可夫模型 m 吣;m e l 倒谱系数锕f c c ) : 差分倒谱系数 i 硕士学位论丈 、sre rst j es is a b s t r a c t i n c o n t e m p o r a r yd i g i t a lt i m e s ,t h e r e s e a r c ha b o u tm a n d a r i nd i g i t s p e e c h r e c o g n i t i o ni sm o t ea n dm o r en o t i c e d ,s i n c es o m ea s p e c t sb yd i g i t a lt e c h n i q u e ,s u c h a ss p e e c hi n t e n s i f i c a t i o n ,s p e e c ht r a n s m i s s i o n ,s p e e c hr e c o g n i t i o n ,s p e e c hs y n t h e s i s a n ds p e e c hd e p o s i t ,a r et h ef r o n t p a r t s o fs p e e c hs i g n a lp r o c e s s i n g ,o fw h i c h m a n d a r i n d i g i ts p e e c hr e c o g n i t i o n i sa l li m p o r t a n t p a r t ,a n du s e d i nm a n ya r e a s o n t h i sb a c k g r o u n d ,t h ea u t h o rh a sd o n es o m er e s e a r c h e s o nt h eb a s i so ft h em o d e lo f s p e e c hg e n e r a t i o n ,t h es p e e c hs i g n a l si sa n a l y z e d i nt h et i m ed o m a i n ,i nt h ef r e q u e n c yd o m a i n ,a n de s p e c i a l l yi nt h ec e p s t r u m a n d t h e n ,w i t ht h et h e o r yo fp a t t e mr e c o g n i t i o n ,t h ef u n d a m e n t a lt h e o r yo fs p e e c h r e c o g n i t i o n i sd i s c u s s e di nt h et h e s i s t h i sp a r te m p h a s i z e sh o wt od e i g nt h es y s t e m ,i nw h i c ht m s 3 2 0 v c 5 4 9i s u s e da si t sc o r ec i r c u i t ,w i t ht h eh e l po ft m s 3 2 0 c 5 4 x se v m ,t h et h e s i sd e s c r i b e s t h es t r u c t u r eo ft h i ss y s t e m ,a n de x p o u n d st h ep r o c e s so ft h es y s t e m i n s t e a do fp c , 8 9 c 5 1 ,t h es i n g l e c h i pm i c r o c o m p u t e r , i su s e d t oc o n t r o lt m s 3 2 0 v c 5 4 9 t h e c o m m u n i c a t i o nm o d ei si m p r o v e ,a n dt h ei s ab u si sr e p l a c e db yt h ep a r a l l e lp o r t w h e nt m s 3 2 0 v c 5 4 9c o m m u n i c a t e sw i t ht h ec o m p u t e r , s ot h es y s t e m ,w h i c hb a s e s o nt m s 3 2 0 v c 5 4 9 ,c a nw o r ko u to f t h ec o m p u t e r t m s 3 2 0 v c 5 4 9i su s e da st h ec o r ec i r c u i t ,t l e 2 0 6 4a m p l i f i e st h es i g n a l s , t l c 3 2 0 a c 0 2c o n v e a t st h e a n a l o gs i g n a l t ot h e d i g i t a ls i g n a l ( a d ) , t m s 3 2 0 v c 5 4 9t r a i n sa n dr o g n i z e st h es p e e c hs i g n a l s ,a n dt h ec i r c u i to fl c d d i s p l a y st h er e s u l t a sf o rt h ef e a t u r eo fm a n d a r i nd i g i ts p e e c h t h ee x i s t i n ga r i t h m e t i ci sc i t e dt o t i 硕士学位论文 m s t e rst h j s is 一一一= = i ? _ = := = 一_ = ! 一= = ! l = = = = = = = ! = ! = = = ! = ,= 一 d e s i g nt h es o l , r a r es y s t e m ,a n dt h ed e s i g np r o c e s si sd e s c r i b e di nt h ep a r t h e r e , t h es h o r e - t i m e 置e l a t i v e e f p ( e n e r g y - f r e q u e n c y - p r o d u c o i su s e dt om a k et h e c a p s h e a f o fc h i n e s e s p e e c hs i g n a l , a n dt h es h o r t - t i m er e l a t i v e e f q ( e n e r g y - f r e q u e n c y q u o t i e n t ) i su s e d t o s e p a r a t e i t s s y l l a b l e a n d c o n s o n a n t - v o w e ls e g m e n t , a n di ti m p r o v e st h ec o r r e c tr a t e t h ek e yi st h a tt h et o n e f e a t u r ei si n t r o d u c e dt ob et h ef e a t u r ep a r a m e t e r t h a ti st os a y , t h ef u n d a m e n t a l f r e q u e n c y , t h e d e r i v a t i v eo ff u n d a m e n t a l f r e q u e n c ya n d i t sd e r i v a t i v ea r eu s e da st h e f e a t u r ep a r a m e t e r s t h ec o m m u o 岫d e n s i t yh i d d e nm a r k o vm o d e l ( c d h m m ) i s a d o p t e d v i t e r b ia n db a u m - w e l c hr e e s t i m a t i o na l g o r i t h m si su t i l i z e dt dw a i na n d l e c o g n i z et h es p e e c hs i g n a l s t h i ss y s t e mi sa ne f f e c t i v er e s e a r c ht op r o m o t et h e m a n d a r i nd i g i ts p e e c h r e c o g n i t i o n t ob u s i n e s sf i e l d k e yw o r d :m a n d a r i nd i g i t ;s p e e c hr e c o g n i t i o n ;h i d d e nm a r k o vm o d e l ( h m m ) ; m c l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ( m f c c ) ;d e r i v a t i v ec o e f f i c i e n to f c e p s t r u m 一、_-_-h_h-_-_-_-_-一一 、 ( 煞黧轰 第一章绪论 卜1研究汉语数码语音识别系统的背景和意义 语音是人类进行相互通信和交流的最方便快捷的手段,在高速发达的信息 社会中用数字化的方法进行语音的传送、存储、识别、合成、增强是整个数字 化通信网中最重要最基本的组成部分之一。语音信号的数字化处理涉及一些前 沿科研课题,是一门涉及面很广的交叉学科。它是目前发展最为迅速的信息科 学研究诸领域中的一个,它与语音学、语言学、数理统计学和神经生理学等学 科有非常密切的关系。语音信号数字处理主要包括语音信号的编码与传输、语 音信号的合成、语音识别、语音的增强( 在强背景噪声的干扰下恢复“干净” 的语音) 和说话人识别等领域“。几乎语音信号数字处理的所有领域的研究课 题都是受到应用的驱动。 信息产业的迅速发展促使科技界和工业界以及国防部门投入大量的人力、 物力和财力来研究语音识别,这一领域的突破具有重大的现实意义,比如说语 音打字机,用口述代替键盘实现向计算机输入文字可以使出版界的工作人员从 繁重的劳动中解脱出来。 语音识别的目标是让机器能够听懂人类口述的语言,语音识别中的汉语数 码语音识别,具有更为重要的意义。汉语数码语音识别的任务是识别“o ”到 “9 ”等1 0 个非特定人汉语数码语音。信用卡号码、电话语音拨号、个人 身份证号码、电子密码等都是具有数字化特征,因此,连续数码语音识别成为 语音识别中极其重要的一项任务“。一方面,连续数码语音识别可以识别用 户说出的数字串。向用户提供最自然、最灵活和最经济的人机接口界面从而 1 硕士章垃论文 v ;o i jjt j i s is 能有效解决军用和民用领域中遇到大量数据录入问题:另一方面,由于电话网 络的日益普及。连续数码语音识别可用于电话人口统计、远程股票交易及各种 号码的远程认证等。因此,汉语数码语音识别( m a n d a r i nd i g i ts p e e c h r e c o g n i t i o n ,m d s r ) 是语音识别领域中一个具有广泛应用背景的分支。 - 2 汉语数码语音识别的发展现状 语音识别技术近些年来有了突飞猛进的发展。在众多的语音识别任务中, 最先进入实用化的是英语数码语音识别,而以a t & t 公司、美国卡内基一梅隆 大学、英国剑桥大学等为代表的研究机构目前正致力于开发具有英语非特定 人、大词汇量、连续语音识别功能的实用产品,而且已经取得了相当喜人的效 果。同时,剑桥大学和菲力浦公司还正在研究英语语音识别算法在其它欧洲语 种中应用的可能性及效果。在汉语语音识别方面,国内外的汉语大词汇量语音 识别都达到了相当高的水平。与此相反,汉语数码语音识别( 即“0 ”“9 ” 汉语语音识别) 技术虽然在移动通信、电脑话务员、电话证券交易等领域有着 极大的应用价值并因此受到了国内科研单位广泛重视,但是其进展却相当缓 慢。这主要因为汉语数码语音识别存在诸多困难:语音问高混淆的问题,由 于汉语数码语音的音节数少,因此,语音混淆高:非特定人的问题,汉语是一 个多方言语种,由于各地入群在普通话中带有或多或少的口音,因此这种数码 语音识别系统仍然具有很大难度;噪声环境的问题,由于环境复杂、噪声源较 多,使得相应的数码语音识别任务相当艰巨:连续语音的问题汉语数码连续 语音的连续程度高n 。 英语数码语音识别的非特定人单字和数码串识别率早已分别达到了9 9 7 2 一 硕士学位论文 s t :rst _ e s is 和9 9 1 1 以上,汉语数码语音识别非特定人单字识别率尚无一超过9 9 ,连续 数码串的识别率则更在9 5 以下”1 ,由此可见,汉语数码语音识别水平尚远远 落后于英语数码语音识别水平。但是,随着算法研究的深入8 巾1 ,软件上突 破为期不远。 卜3 本文的主要工作 文献资料表明,硬件电路设计仅有基于t m s 3 2 0 5 x 评价模块对汉语数码语 音识别”,尚未见到由d s p 组成独立于p c 机的语音识别系统。本文提出基于 d s p 设计的一个语音识别系统,借鉴了t m s 3 2 0 c 5 4 x 的评价模块呻1 川,对以 t m s 3 2 0 v c 5 4 9 芯片为核心的系统进行硬件设计,采用8 9 c 5 1 对t m s 3 2 0 v c 5 4 9 的 控制代替p c 机的控制,使t m s 3 2 0 v c 5 4 9 成为独立于p c 机的系统。对p c 机与 t m s 3 2 0 v c 5 4 9 的通信方式进行改造,将t m s 3 2 0 v c 5 4 9 的h p i 口与p c 机的i s a 总线相连改为t m s 3 2 0 v c 5 4 9 的h p i 口与p c 的并行口相通信,使t m s 3 2 0 v c 5 4 9 既能脱离p c 机工作,又能与p c 机协作工作。 本文共分为五章,具体安排如下: 第一章:主要介绍了研究汉语数码语音识别的意义,并介绍了研究汉语数 码语音识别的发展情况。 第二章:在分析语音信号的基础上,论述了语音信号识别的基本理论。 第三章:在介绍d s p 的基础上,分析了实现汉语数码语音识别的硬件系统, 着重分析了t m s 3 2 0 v c 5 4 9 的h p i 端口,并基于此,采用了一种新的接口方法, p c 机的并行口与t m s 3 2 0 v c 5 4 9 的h p i 的端口的连接,方便实现两个端口的通信。 第四章:结合汉语数码语音的特点,从端点检测和清浊音切分,特征量的 提取,特别是声调的提取,隐马尔可夫模型的应用等方面,阐述系统过程的设计。 第五章:结束语 第二章语音识别的基本理论 本章从分析语音信号着手论述了语音识别的基本理论。 2 - 1 语音信号的分析 图2 1 所示框图表示了语音信号的产生过程。语音信号可以看作是激励信 号激励一个线性系统而产生的输出“1 1 。浊音信号是由一个周期性的引球冲串激 励一个线性系统而产生的输出,这个线性系统由声门脉冲模型、声道模型和辐 射模型级联而成。而清音信号是由白噪声序列激励一个线性系统而产生的输 出,这个线性系统仅由声道模型和辐射模型级联而成。 图2 1 语音信号产生过程的示意图 浊音信号产生过程受声门脉冲形状g ( h ) 、声道响应v c n ) 和口唇辐射影响 ,( 帕的共同作用,可等效为一个线性系统,称为声道系统即: 1 l ,0 ) = g ( 帕p ( 一) ,( 帕 ( 2 1 1 ) 4 硕士学位论文 m s :erst l ! s 1s 相应的z 变换为: h ,( :) = g ( :) y ( 力r ( z ) ( 2 1 2 ) 而将激励信号看作是一个周期性的占脉冲串: p ( n ) = 6 ( n + r - n p ) ( 2 1 3 ) 那么浊音信号就是二者的卷积结果,即: x ( h ) = p ( ”) 凡( ,1 ) = ,( 糟+ ,n p ) ( 2 1 4 ) 类似地,清音产生过程中的声道响应v ( 砷和口唇辐射影响,( 刀) 的共同作用也可 等效为一个线性系统: 风0 ) = v ( n ) r ( n ) ( 2 1 5 ) 相应的z 变换为: h 。( :) = r ( 曲r ( z ) ( 2 1 6 ) 而激励信号材( 砷假定为白噪声序列,于是有: x c n ) = “( 竹) 也( 一) ( 2 1 7 ) 语音信号是一种典型的非平稳信号。但是由于语音的形成过程是与发音 器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多,因 此语音信号常常可假定为短时平稳的,即在1 0 2 0 m s 这样的时间段内,其频 谱特性和某些物理特征参量可近似地看作是不变的。这样,我们就可以采用平 稳过程的分析处理方法来处理,以后所有的处理方法都立足于这种短时平稳的 假定。 硕士学位论文 s :f rsth ;sjs 一、语音信号的时域分析 这里所要讨论的平均过零率、短时能量和平均幅度,都是在这种短时平稳 假定下从时域来分析的一些物理参量“。这种时间依赖处理的基本手段,一般 是用一个长度有限的窗序列 f - o ( m ) ) 截取一段语音信号来进行分析,并让这 个窗滑动以便分析任一时刻附近的信号,其一般式为: q = t x ( m ) i 珊。一研) ( 2 1 8 ) 其中t 表示某种运算,f 面 为输入信号序列。几种常用的时间依赖处理 方法是: 当7 【z ( 小) 伪j 2 ( m ) 时,q 相应于短时能量; 当丁b 咖) 】爿s g n x ( m ) - s n g x ( m 1 ) g 就是短平均过零率; 式( 2 1 8 ) 是卷积形式的,因此见可以理解为离散信号玎工( m ) 】经过一 个单位冲激应为( 珊( m ) ) 的f i r 低通滤波器产生的输出,如图2 2 所示。由 于窗函数一般取为工( 帕中间大两头小的光滑函数,这样的冲激响应所对应的滤 竺鼍:巫甄:卜叫五j 卜玉亘运习一8 _ 线性滤波卜叫丌 卜_ 叫低通滤波i _ 坼 图2 2 短时分析原理的一般表示 波器具有低通特性,其带宽和频率响应取决于窗函数的选择。用得最多的三种 窗函数是矩形窗、汉明( h a m m i n g ) 窗和汉宁( h a r m i n g ) 窗。 信号仁( 一) ) 的短时能量为: e = 陋) 珊加一珊) 】2 ( 2 1 9 ) 令 ( 吣= 国2 ( 哟,则有 硕士学位论文 s t e rst _ e s is 巨= 工( m ) 2 h ( n - m ) 此式的含义可以用图2 2 中低通滤波作用来解释, 冲激响应。 语音信号的短时平均幅度为: m = ix ( m ) j 锄( h m ) e 和 l 都反映信号强度,但其特性有所不同。 信号 m ) ) 的短时平均过零率为: 己= is g n x ( n ) 一s g n x ( n l 肌c o ( n m ) 一般取 ( 2 1 1 0 ) ( ,1 ) 是低通滤波器的单位 删= 恃其o 他n 0 x 0 ;乙( k ) 表示第( k + 1 ) 帧语音信号的过零率; 4 s z r z ,( k ) ;s z 。表示前5 帧语音信号的总过零率 k = o 3 8 一一一一一一 硕士学位沧文 、s t e r ! f = e ! is z r = s z r 5 a r - l ( k ) 牛z ,( k ) = e ( k ) z ,( k ) b r = - e n z r ;z r 表示前5 帧语音信号的平均过零率 ;a r 表示一帧语音信号能量与其过零率的乘 积,称为短时能频积 :a r 表示平均能量与平均过零率的乘积,称 为平均短时能频积 ;b r 表示一帧语音信号总能量的与其过零率 的比值,称为短时能频比: ;b r 表示平均能量与平均过零率的比值,称 为平均短时能频比。 根据以上步骤所得到的特征参数,用各自合理的系数做一个加权运算后得 到四个相对值。用这些相对值作为端点检测和切分粗判的阈值。 3 初步的端点检测和音素切分 这里采用以下步骤来初步进行端点检测和音素切分: ( 1 ) 设定合理闽值 判断语音开始:帧量阈值1 5 * e n 、过零率阈值2 * z ,、能频积阈值2 * a r : 判断语音信号中清音和浊音切分的的阈值分别为:能量阈值5 6 * e n 、过零率 阈值0 5 * z r z 。3 5 * z r 、能频比阈值b r 5 b r ; 判断语音结束:由于一段语音信号结束时末尾经常带有比较大的噪声或 者有比较长的拖音,所以应用上述的特征参数作为阈值可能会造成一些错误。 鉴于此蒙因可利用结尾后四帧( 在正常的语音信号中这部分肯定是无 声段) 来提取特征参数设定阈值( 具体计算与上述相同) 。三个特征参数 ( 能量、过零率和能频积) 的阈值系数分别设为2 、2 、2 。 3 9 ( := 硕士擘位论文 ( 2 ) 粗判语音开头 若连续两帧的能量、过零率或者能频积大于自己相对应的阈值,则粗判该 帧为语音的开头,转( 3 ) :否则重复( 2 ) 。 ( 3 ) 粗判清音和浊音的切分点 连续采集四帧,若连续四帧的能量、过零率和能频比都超过各自所设定的 阈值范围则粗判此帧为语音信号中该音节浊音的开始,转( 4 ) :否则重复( 3 ) 。 ( 4 ) 粗判语音音节结尾 若连续两帧的能量、过零率和能频积均小于所设定的阈值,则粗判此帧为 这个音节的结尾,转( 5 ) :否则重复( 4 ) 。 ( 5 ) 粗判下一个音节的开头 重复( 2 ) ,判断是否已经连续取了8 帧。若小于8 帧,且满足转( 3 ) 的条 件,继续进行,否则转( 6 ) 。 ( 6 ) 粗判结束 4 精确的端点检测和切分 由于声韵母发声时的不稳定性和连续语音有音节连读的现象,使得粗判 的结果不太精确,有时甚至不能将音节切分开。因此,通过用粗判得到的第一 个音节作为相对样本,对它取帧能量和过零率的平均值,分别用e n e r g y 和z e r o 表示。令能量闺值为e n e r g y 乘以某个数,同时能频积和能频比的阈值也做相 应的变化。经过多次实验证明,判断语音信号的开头和结尾可以采用粗判的结 果,它与进一步精确判断的结果是一致的。在判断清音和浊音的分界点、音节 以及音节闯的结尾和开头时。需要进一步设定阈值。具体的闽值设定为:判断 清音和浊音的分界点时,能量阈值为o 5 * e n e r g y 能频比阙值为0 5 ,过零率 柏 硕士学位论文 q s t j rst 1 ! is 与上面介绍的相同:判断音节与音节之间的开头和结尾时,能量阈值分别为 0 1 5 * e n e r g y 和0 2 * e n e r g y ,过零率阙值不变,能频积阔值为 0 3 * z e r o * e n e r g y ( 判断开始) ,能频比闽值系数为0 2 ( 判断结尾) 。 4 - 3 提取特征参数 每帧语音转化为相应的特征矢量。其特征量包括鉴于m e l 频标的倒谱系数 ( m f c c ) 及其倒谱差分系数和对音调识别的基音参数。对于m f c c 参数,常 用的还有l p c c ,但由于m f c c 比l p c c 更符合人耳的听觉特性,在有信道噪声和 频谱失真的情况下,能产生更高的识别精度。故采用m f c c “”。语音信号的m f c c 特征主要反映了语音的静态特征,语音信号的动态特征可以通过这些静态特征 的差分谱来描述”m 1 。这些动态信息和静态信息形成互补,能很大程度地提高 系统的识别性能。为了进一步提高语音的识别能力,引入声调特征嘲9 3 。因此 整个系统的语音特征矢量由1 2 阶的m f c c 和1 2 阶其差分系数及3 阶基音特征 量。 一、语音信号的m f c c 参数及其定点算法 下面首先给出不含任何优化的m f c c 参数定点实现方法。 1 ) 计算输入信号的离散f f t 变换:在f f t 变换的程序中采用1 6 位算法, 每层蝶形计算完毕后提取最大的指数作为归一化参数e ,所有数据据此进行一 次归一化,保证结果在 - o 5 ,+ 0 5 范围之内。最后得到的离散f f t 结果为: y = d f f t ( x ) = y l + j l = 2 也+ j 2 y 。( 4 3 1 ) 其中2 。为归一化参数,而y ( n ) 、y 。( n ) 都在 - o 5 ,+ o ,5 之内。 4 1 一一一一一一 一 硕士学位论文 sr ir th e s i1 2 ) 计算功率谱 p = l y i t l 2 n + j 2 i 2 或:p ( n ) = 2 “( y 。( n ) 2 + y 。( n ) 2 ) = 2 “r ( n )n = o n 2 1( 4 3 2 ) 3 ) 计算滤波器输出 n 2 - 1n 2 一l t l = w - ( n ) s ( n ) = 2 “w _ ( n ) t ( n ) n = on = o ( 4 3 3 ) 其中w m 是第m 个滤波器。注意在此乘加循环中,累加的结果很可能大于 1 ,因此必须再提取一个最大的指数2 “将结果归一化到 0 ,1 ,即: 也= 2 “2 f m = 0 m - l( 4 3 4 ) 其中m 为滤波器的个数,本系统中m = 2 4 。 4 ) 计算对数 l = l n ( k ) = l n ( 2 2 “f j = l n ( 2 “2 ) + i n ( f 1 ) m = o m 一1( 4 3 5 ) 5 ) 计算离散余弦变换d = d c t ( l ) 或 。掣m - 1 l ( m ) m = o 其中: c ( k ) k = o m 一1 ( 4 3 6 ) k = l m 一1 最后取d 。 - d n 作为m f c c 参数即可。由以上步骤可以看到,在计算d c t 参 数时,由第一步和第三步得到的归一化参数理化2 。、2 h 是以常数的形式存在的。 硕士学位论文 由d c t 的定义可知该常数将作为直流分量的一部分体现在d 。中,而d 。又恰恰 是要被舍去的。因此实际计算时不必考虑e 、b 影响。这样我们就得到了m f c c 参数的快速定点算法: 1 ) 计算离散f f t 并归一化,去除指数部分,只保l i 日d 数部分 y = d f f t ( x ) = y + j y - = 2 1 i + j 2 t y - y _ y + j h ( 4 3 7 ) 2 ) 计算功率谱 p + ( n ) - y 。( n ) 2 + y 。( n ) 2 _ i t ( n ) ( 4 3 8 ) 3 ) 采用定点算法计算滤波器输出并归一化,去除指数部分,只保留小数部分 n 2 1 n 2 1 吐= d - ( n ) p + ( n ) = w i ( n ) t ( n ) h 、= 2 f -( 4 3 9 ) n = o n = o 4 ) 计算对数 l * o = i n f t ) ( 4 3 i 0 ) 5 ) 直接计算所需的确1 2 点i ) c t 。品譬掣半, k = l 1 2 ( 4 3 i i , m = o 其中( 4 3 ii ) 式中的系数事先计算好。经过以上优化,计算一帧m f c c 参数 所需的时问大为减少。 然后,对m f c c 参数用窗函数加权,以改进识别效果嘲。其窗函数为: 、 硕士学位;j 丈 、j s 1 :rjj h :1 1s w c 帕 s t 矧 ( 4 3 1 2 ) 加权倒谱系数可表示为: d :( m ) = w o ( m ) 队( m )( 4 3 1 3 ) 最后,为了进一步提高识别率,在加权倒谱参数后再增加1 2 个差分倒谱 分量,其差分倒谱分量如下: k d :( m ) = e k d 一- ( m ) g m = 1 1 2 ( 4 3 1 4 ) k = 一k 其中,k = 2 ,g = o 3 7 5 。 这样,就构成2 4 阶m f c c 及其差分倒谱分量作为识别的特征量。 二、声调特征量的提取 汉语是一种声调语言,因此在汉语的语音识别和理解中,正确地识别声 调具有重要的意义。识别声调的方法很多,这里采用了f 脚进行声调的识 别。h 删进行声调的识别,首先要提取声调的特征量。 为了高精度地提取汉语连续语音的基频轨迹曲线。我们采用倒谱的方法 来提取语音的基频信号。在对被提取的连续语音基频轨迹曲线进行清浊音点 的检定和修正以及对全体轨迹曲线的点中央平滑器平滑之后,我们可以得到如 下的时间系列 g g “g 3 g 。“3 1 5 ) 这里n 表示输入信号的总帧数。一般来说连续语音的基频轨迹曲线从 前到后有渐渐下降的倾向,因此,要对其进行补偿。 硕士学位论丈 m sre rst h e s is “:卜s 洲( ;8o ,睁点。, 。 l 0 ( g l - o ) f l o g ( g ;。)( g o ) j i _ ( 4 3 1 7 ) 1 0 ( g f - o ) 利用( 4 3 1 6 ) 式对( 4 3 1 5 ) 式进行了补偿,接着,再利用( 4 3 1 7 ) 对( 4 3 1 6 ) 式的各项取对数而得到一个新的系列j i - ( o i n ) 。 随后对 ( 4 3 1 7 ) 式继续处理,求出声调识别用特征参数u - 、v ,、w i ( i = l ,2 ,n ) 。 f a ;( g ”“+ 5 0 ) u i - ( 4 3 1 8 ) 【随机数( 其他) f j ;+ 。一j v 。= 【随机数 f ( j 。, - 2 j 。+ j 。) 2 w 。一 【随机数 ( g + ,0 ) ( 其他) ( g 。m o ) ( 其他) ( 4 3 1 9 ) ( 4 3 2 0 ) 利用了( 4 3 1 8 ) 、( 4 3 1 9 ) 、( 4 3 2 0 ) 式求得的声调识别用特征参数u t 、 v 。、w 。( i = l ,2 ,n ) ,作为连续声调h 删训练和识别用的数据。这里a t 是 5 点间的最小二乘误差近似直线的斜率。它反映基频轨迹曲线的大局特征,具 有吸收局部微小变动的能力。v 。、w 1 分别是基频的一阶和二阶差分。实践证明 硕士学位论文 ie rst h e ! i3 在音调识别中,基频的差分比它的绝对值更有效。为了适合连续分布型的训练 和识别,对于清音和无音部分,我们采用o 均值,较小方差的高斯分布型随机 数来进行插值,填补基频为0 的各帧信号。 4 _ 4 隐马尔可夫模型的应用 对于t 9 , o & 模型有离散h m m ,连续h 删和半连续h 枞三种模型,运用连续 i - v b l ,虽然运算量大,但识别率的最高,因此,采用连续删。 一、h m m 结构和状态的选择 采用了连续概率密度隐马尔可夫模型,其的每个状态的观测概率密度函数 由5 个连续正态密度函数h y 。 或艮( p n k ) 。1 描述: 5 p x 。= s y 。 = , k p - ( u m k ) ( 4 4 1 ) k = l a “= l ( 4 4 2 ) k = l 其中,i i 。分别为均值矢量、协方差阵。 根据语音信号的特点,一般采用无跳转( 如图4 2 所示) 或有跳转自左向 右( 如图4 3 所示) 模型且模型的个数对所有词条都相同。对于连续语音识别, 一般采用无跳转模型。 、 硕士学位论文 m 3s t e rst :l j i n 台 图4 2 无跳转模型 图4 3 有跳转自左向右模型 对于状态的选择,音素一般取3 个状态,音节可以取4 8 个状态”。由 于考虑到声调的特征量,故状态数选为5 “州。 二、h m m 参数的初值问题 用迭代计算法解h m m 系统的第一个问题时,需要设定各组参数的初值。 由于该问题涉及的价值函数p ( y l ) 不能保证是凸函数,因此初值选择不恰当 可能导致迭代计算收敛到非全局最优点。此外,好的初值选择还可以保证达到 收敛所需的迭代次数最少,即计算效率最高。这说明初值选择是一个非常重要 的问题,也是一个较难解决的问题叫。 ,a 这两组参数的初值较易确定。一个从左到右无跳转瑚h 模型,已 4 7 硕士学位论文 a srf r5 r h ! s i5 经确定( 即靠【- 1 ,i - o ,i 1 ) 。初值a 的选择,由于状态数为n = 5 ,则a 。+ 。 的初值选为0 2 = i 5 时,即等于状态数的倒数,而a 。= o 8 。这样,可以得到最 好的结果。 参数组b 的初值设置较其它两组参数更为至关重要也更困难,对于连续分 布b 中包含的参数越多越复杂,则参数初值的设置对于迭代计算的结果越至关 重要。概率密度函数为若干正态分布函数线性相加的情形,应采取一种更复杂 的方法,常用“分段k 一平均程序”( s e n g m e n t a lk - m e a n sp r o c e d u r e ) ,其基本 思想介绍如图4 4 所示。 图4 4 分段k _ 平均程序的程序流程图 4 8 := 硕士学住沧文 ! t j r ;t h s js 图4 4 给出了此方法的程序流程图。在计算开始时先设置一套模型参数初值 x = a ,b , ,这套初值是通过将语音进行等间隔划分状态来获得也可由过 去的一些试验结果中得到。第二步,根据此九用v i t e r b i 算法将输入的训练语 音数据划分为最可能的状态序列。第三步,用分段k 平均算法对 中的b 进行 重新估计。这就是将第二步得到的每一种状态的训练语音数据搜集在一起并对 其特性进行统计,从而得到b 。对于若干正态分布函数线性相加的连续h 删系 统则需要采用聚类算法,即k 平均算法。此算法如下:若每个状态的概率密度 函数p x 。= s y 。 由m 个正态分布函数线性相加而成把训练语音帧分为m 类( 这 里m 取5 ) ,即将p n y 。 最大的诸y 。划归第k 类。然后对同一类中诸语音帧矢 量h 取平均及求自协方差阵,作为该类新的均值矢量| 1 和协方差阵。再 用此新参数进行重新分类。此过程可反复进行直至收敛,从而得到所需的m 类 分布参数最后由每一类中包含的语音帧数除以该状态的语音帧总数,即得到 各类的权重系数u 。此外,参数a 也可由第二步得到的状态序列加以重新估 计。这样,就能得到一套新的初值 。第四步,用此 作为初值进行h 删系统 参数重估这里采用的是标准b a u m - w e l c h 算法。第五步,将第四步计算所得 的结果与计算初值进行比较。如果差异小于预置阈值,即说明模型参数已经收 敛,无需再进行重估计算,这时可将计算结果作为可用的模型参数输出。反之, 若差异超出阈值,则应将计算结果作为新的初值再次进行一轮运算。 二、下溢的问题嘲 为了防止下溢对于b a u m w e l t h 算法的递推值进行修正,乘以c 。这里, 令 硕士学位论炙 s tf rst he s j ) n c = a 。( n ) _ l n = l ( 4 4 3 ) 4 5i 练和识另u 为了建立一个非特定人的连接数字语音实时识别系统,在训练阶段需要很 多个说话者将多个可能的数字串说一或几遍存入数据库中,训练的任务包括两 部分:1 将成串的数字最佳地分割为孤立的数字,采用分段k 一平均算法,对系 统中的模型进行初始化,建立一套初始删参数,然后按照这套初始参数用分 层构建删算法,对系统的内部状态进进初始分割,然后采用v i t e r h i 算法对 分割的初始状态进行调整,一般情况下,迭代8 次左右即可完成。2 用每个已 分割为孤立数字的多个训练样本,估计出该数字的一套或多套h m m 参数,组成 模板库。尽管模板库中的每一个数字可以有多个模板,但是模板的增加,会增 加模板匹配的计算量和所需的内存量,使得识别响应速度减慢。因此,本系统 限制每个语音数字的最大模板数为3 ,采用聚类方法,并利用b a u m - w e l t h 重估 算法,使得同一数字语音的不同模板之间的差别增大,有效地提高了识别率。 此外,在录制同一语音数字的不同模板时,在不同的环境下进行,以提高模板 的效率及系统的鲁棒性“1 。 参考模式库建立完成后识别时,根据已知模型 = ( a ,b ,n ) 和给出 观测序列y = y 。,n ,y ) ,计算在模型 条件下产生观测序列y 的( 条件) 概率p ( y i 入) ,求出概率最大的模型,输出结果。 4 - 6 小结 本章基于汉语数码语音识别的特点引用已有的算法,论述了系统软件设 5 0 硕士学位论文 s re rst he s is 计的过程。采用的汉语语音的端点信号的检测和清浊音信号切分方法是:短时 相对能频积的方法对汉语语音信号的端点进行检测;短时相对能频比的方法对 语音信号的清浊音的清浊音进行切分,有效地提高汉语语音信号切分的成功 率。采用抗噪顽健性强的m e l 倒谱系数和差分倒谱系数。关键的是引入的声调 的特征量,利用基频、基频的一阶和二阶差分,作为特征参数。采用连续删 模型,论述训练和识别的过程。 5 l 硕士学位诠丈 、| t j i r :1e sj 第五章结束语 语音是人类最自然、最方便的交互工具,无严格方向的限制,具有其它视、 触觉信息无法替代的功能,深受重视。同时,信息产业的迅速发展也促使科技 界和工业界以及国防部门投入大量的人力、物力和财力来研究语音识别。语音 识别中的汉语数码语音识别,在席卷全球的数字化的浪潮中,尤为重要,汉语 数码语音识别的实现,将在信息产业、工业监控

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论