(模式识别与智能系统专业论文)孤立词语音识别系统的技术研究.pdf_第1页
(模式识别与智能系统专业论文)孤立词语音识别系统的技术研究.pdf_第2页
(模式识别与智能系统专业论文)孤立词语音识别系统的技术研究.pdf_第3页
(模式识别与智能系统专业论文)孤立词语音识别系统的技术研究.pdf_第4页
(模式识别与智能系统专业论文)孤立词语音识别系统的技术研究.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(模式识别与智能系统专业论文)孤立词语音识别系统的技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 语音识别是近年来十分活跃的一个研究领域,随着技术的深入研究,目前已 经得到了广泛的使用,在这些实际应用中,孤立词占据着及其重要的位置。孤立 词语音识别系统主要应用于自动控制,如驾驶、机器人操纵、仪器设备操纵以及 收集拨号、智能玩具、家用电器操纵,尤其当人手已被占用或无法使用的情况下 必须进行声音控制时,更可以起到不可替代的作用。本文在基于m a t l a bg u i 的基础上以d t w 算法为主要原理对孤立词语音命令识别系统进行了研究和实 现。 按照孤立词语音识别系统的处理过程,文章从语音信号的前端处理开始,分 别详细的介绍了每个步骤,包括数字采样频率的选择、预加重、分帧加窗直到后 来的特征参数的特点和选取、以及识别算法的选择。最终实现了一个小词汇量的 孤立词识别系统,并在m a t i a b 上面以用户图形界面( g u i ) 的方式展现了主 要相关的过程和结果,这个是系统是基于实时录入语音,并有着良好性能的界面。 端点检测是是继语音信号的预处理之后的首个对识别产生重要影响的阶段, 有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从 而使识别系统具有良好的性能。本文在应用中对传统的双门限检测算法的基础上 进行改进,作了延长可容忍静音的改进,有效的检测了多于一个字的孤立词语音 信号的语音区间,为后续的识别打下了良好的基础。 目前表征语音信号的特征参数主要有l p c c ( 线性预测倒谱系数) 和m f c c ( m e l 频标倒谱参数) 两种,由于m f c c 充分模拟了人的听觉特性,具有较高 的识别性能和抗噪能力,因为选择它作为识别参数。实际应用中采用了m f c c 以及它的一阶差分系数。 在语音识别算法中,d t w ( 动态时间弯曲) 和h m m ( 隐马尔可夫模型) 是 主流技术,由于本文是小词汇量孤立词识别系统,所以采用d t w 就能取得较好 的效果。同时,针对d t w ,本文从提高算法识别率和提高算法执行效率两个角 度对d t w 进行了改进,提出了松弛起点终点和改进局部判决函数的算法,节省 了执行的时间和计算量,提高了效率。 最后,在m a t l a b 的环境下,借助g u i d e 这个良好的开发工具,以g u i 江苏大学硕士学位论文 的形式展现了整个识别系统中的相关过程,包括对实时语音的录入和回放、语音 的实时端点检测及回放以及最后的基于d t w 的识别结果的输出。整个系统中的 相关过程以图形界面的方式清晰的展现在我们目前,达到视听的双重效果! 关键字:语音识别,孤立词,d t w ,m a t l a bg u i 江苏大学硕士学位论文 a b s t r a c t s p e e c hr e c o g n i t i o ni sav e r yp o p u l a rr e s e a r c h a r e ai nr e c e n ty e a r s w i t ht h e d e v e l o p m e n to ft e c h n o l o g yi th a sb e e nw i d e l yu s e di np r a c t i c a la p p l i c a t i o n s ,a n d a m o n gt h e mi s o l a t i o nw o r dp l a y si m p o r t a n tr o l e t h ei s o l a t e d w o r d s p e e c h r e c o g n i t i o ns y s t e mi sm a i n l yu s e di n a u t o m a t i cc o n t r o l ,s u c ha sd r i v i n g ,r o b o t m a n i p u l a t i o n ,i n s t r u m e n t sa n de q u i p m e n tm a n i p u l a t i o n ,a sw e l la st h ec o l l e c t i o no f d i a l - u p ,s m a r tt o y s ,h o u s e h o l da p p l i a n c e sm a n i p u l a t i o n ,e s p e c i a l l yw h e nh u m a n s h a n d sh a v eb e e no c c u p y e do ra r eu n a b l et ou s ea n dt h e mm u s ti m p l e m e n tt h ev i o c e c o n t d ,s t ) t h ei s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e mp l a yt h eu n r e p l a c e a b l e r o l e t h i sp a p e rf o c u so nt h er e s e r c ha n di m p l e m e n to fi s o l a t e dc o m m a n dw o r d r e c o g n i t i o nw i t hd t w ( d y n a m i c t i m ew a r p ) b a s e do nm a t l a bg u i a c c o r d i n gt ot h ep r o c e s so fi s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e m ,b e g i n 丽t h t h ef r o n t - e n do fs p e e c hs i g n a l ,t h ep a p e rd e s c r i b e de a c hs t e pi nd e t a i l sr e s p e c t i v e l y , i n c l u d i n gs a m p l e ,p r e e m p h a s i s ,e n f r a m ea n dw i n d o w ,u n t i lt h et h es e l e c t i o no f c h a r a c t e r i s t i cp a r a m e t e r sa sw e l la st h er e c o g n i t i o na l g o r i t h m u l t i m a t e l yi td e s i g n e da s m a l lv o c a b u l a r yi s o l a t e dw o r dr e c o g n i t i o ns y s t e m ,w h i c hd i s p l a yt h em a i nr e s u l t w i t hg u i ( g r a p h i c a lu s e ri n t e r f a c e s ) ,a n dt h er e a l i z a t i o no fs p e e c h r e c o r d i n gi s r e a l t i m ew h i c hh a se x c e l l e n ti n t e r f a c e s e n d p o i n td e t e c t i o ni so n eo ft h ei m p o r t a n tp a r t si ns p e e c hr e c o g n i t i o n e f f i c i e n t e n d p o i n t d e t e c t i o nc a nr e d u c et h ep r o c e s s i n gt i m e ,e l i m i n a t et h ed i s t u r b a n c eo f n o n - s p e e c hs e g m e n tn o i s e ,a n di m p r o v et h es y s t e m sr e c o g n i t i o np e r f o r m a n c e t h i s p a p e ri m p r o v e dt h ee n d p o i n td e t e c t i o na l g o r i t h mb a s e do nt h et r a d i t i o n a ld o u b l e t h r e s h o l da l g o r i t h mw i t hi n c r e a m i n gt h el e n g t ho ft o l e r a b l en o n v o i c e ,w h i c hd e t e c t e d t h ev o i c ei n t e r v a lo fs p e e c hs i g n a lt h a th a v em o r et h a no n ew o r d se f f e c t i v e l y ,a n dl a i d ag o o df o u n d a t i o nf o rf o l l o w i n g s t e p s t h e r ea r em a i n l yt w ok i n d so fc h a r a c t e r i s t i cp a r a m e t e ro fs p e e c hs i g n a l :l p c c ( 1 i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t ) a n dm f c c ( m e lf r e q u e n c ys c a l ec e p s t r u m p a r a m e t e r ) m f c cs i m u l a t e sh u m a nh e a r i n gc h a r a c t e r i s t i cf u l l y , a n dh a st h ee x c e l l e n t r e c o g n i t i o np e r f o r m a n c ea n dt h ea n t i - n o i s ea b i l i t y , s oc h o o s e si ta st h er e c o g n i t i o n p a r a m e t e ri nt h i sp a p e r i nt h ep r a c t i c a la p p l i c a t i o n ,t h em f c ca n di t sf i r s t o r d e r d i f f e r e n c ec o e f f i c i e n tw e r eu s e d d t w ( d y n a m i ct i m ew a r p i n g ) a n dh m m ( h i d d e nm a r k o vm o d e l ) i sa m a i n s t r e a mt e c h n o l o g yo fr e c o g n i t i o na l g o r i t h m ,b e c a u s et h i sp a p e ri sb a s e do ns m a l l 江苏大学硕士学位论文 v o c a b u l a r yi s o l a t e dw o r dr e c o g n i t i o ns y s t e m ,s od t w w i l lb ea b l et oo b t a i ng o o d r e s u l t s a tt h es a m et i m e ,f o rd t w jt h i sa r t i c l ei m p r o v ea l g o r i t h mi nt e r m so f r e c o g n i t i o nr a t ea n di m p l e m e n t a t i o ne f f i c i e n c yi n c l u d i n gp r o p o s e dr e l a xs t a r ta n d e n d p o i n ta n di m p r o v e dl o c a lf u n c t i o n ,w h i c hs a v i n gc o m p u t a t i o nt i m ea n di m p r o v e d i m p l e m e n t a t i o ne f f i c i e n c y ”f i n a l l y , u n d e rm a t l a be n v i r o n m e n t ,w i t h t h e a i do fg u i d et h i s9 0 0 d d e v e l o p m e n tk i t ,t h ep a p e rd i s p l a y e dt h ee n t i r er e l a t e dp r o c e s so fr e c o g n i t i o ns y s t e m w i t ht h ef o r mo fg u i ,i n c l u d i n gr e a l t i m ev o i c er e c o r d i n ga n dp l a y b a c k ,e n d p o i n t d e t e c t i o na n dp l a y b a c k i n ga sw e l la st h el a s tr e c o g n i t i o nr e s u l to u t p u tb a s e do nd 佩 t h ew h o l er e l a t e dp r o c e s so fs y s t e ms h o wf o ru sb yaw a yo fg r a p h i c a l i n t e r f a c ec l e a r , w h i c hc a na c h i e v e st h et h ed u a le f f e c to fa u d i o - v i s u a l ! k e y w o r d s :s p e e c hr e c o g n i t i o n ,i s o l a t e dw o r d s ,d t w ,m a t l a bg u i i v 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密固。 学位论文作者签名:童钆 z p 口7 年伪歹e t 指导教师繇能 1 年易月歹日 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不 包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究 做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 学位论文作者签名:熏涉 日期:2 ,。7 年f 月夕日 江苏大学硕士学位论文 1 1 研究目的与意义 第一章绪论 语音识别是让机器通过识别和理解的过程把语音信号转变为相应的文本或 命令的技术。语音识别作为一门综合学科,以语音为研究对象,是语音信号处理 的一个重要研究方向,它是模式识别的一个分支,涉及到生理学、心理学、语言 学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言( 如人在 说话时的表情、手势等行为动作可帮助对方理解1 ,其最终目标是实现人与机器 进行自然语言通信。 从不同种类的语音识别的用途来看,连续语音识别系统在文字录入、语种翻 译、声控排版等方面有着广泛的应用前景;连接词语音识别系统主要指的是对数 字构成的连接i n q ( j o i n i n gw o r d ) 进行识别,其典型应用场合是电话交换系统、银行 信用卡帐号电话查对等;孤立词语音识别系统则主要应用于自动控制,如驾驶、 机器人操纵、仪器设备操纵以及收集拨号、智能玩具、家用电器操纵,尤其当人 手已被占用或无法使用的情况下必须进行声音控制时,更可以起到不可替代的作 用。 从目前语音识别理论发展现状来看,非特定人、大词汇量、连续语音识别是 语音识别领域的三大难点。处于尚未找到很好的解决办法,导致目前非特定人、 大词汇量、连续语音识别系统性能难以满足应用的要求。 相对而言,特定人的连接词和孤立词语音识别的理论和实践都已较为成熟完 善,完全已经可以应用于一些对识别率要求不是十分苛刻的场合,如语音拨号手 机、声控家电和智能玩具。因此研制一些有限词汇( 有限命令集) 识别系统对于 将将语音识别技术扩大应用范围、推向市场以服务于社会的有着非常重大的意 义。 当前软件发展趋势显示,友好的图形用户界面( g u i ) 已经成为应用软件的 基本交互入口,m a t l a b 这一功能强大的计算软件也具备了强大的g u i 功能。 文章从这个角度出发,在研究语音识别关键技术的基础上,探索如何让识别系统 能够在m a t l a b 中具有良好的图形用户界面的交互性能,从而更加迈向实用化 和市场化。 江苏大学硕士学位论文 1 2 语音识别的发展与研究现状 语音识别的研究工作可以追溯到2 0 世纪5 0 年代a t & t 贝尔实验室的a u d r y 系统,它是第一个可以识别十个英文数字的语音识别系统。【1 】 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在6 0 年代末7 0 年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬 件和软件的可能,更重要的是语音信号线性预测编码( 凹c ) 技术和动念时间规 整( d t w ) 技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。 这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇 表的孤立词识别,实现了基于线性预测倒谱和d t w 技术的特定人孤立词语音识 别系统;同时提出了矢量量化q ) 和隐马尔可夫模型( h m m ) 理论。 图1 1 语晋识别技术发展历史的重要事件 实验室语音识别研究的巨大突破产生于2 0 世纪8 0 年代末:人们终于在实验 室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集 成在一个系统中,比较典型的是卡耐基梅隆大学( c a r n e g i em e l l o nu n i v e r s i t y ) 的 s p h i n x 系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是h m m 模型和人工 神经元网络( a n n ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于 a t & tb e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学模 2 江苏大学硕士学位论文 型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术 的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化, 而是更多地从整体平均( 统计) 的角度来建立最佳的语音识别系统。在声学模型 方面,以m a r k o v 链为基础的语音序列建模方法h m m ( 隐式m a r k o v 链) 比较有 效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元 构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层 面上,通过统计真实大规模语料的词之间同现概率即n 元统计模型来区分识别 带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机 制等也在语音识别中得到了应用。 2 0 世纪9 0 年代前期,许多著名的大公司如m m 、苹果、a t & t 和m 盯都 对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制, 那就是识别的准确率,而这项指标在2 0 世纪9 0 年代中后期实验室研究中得到了 不断的提高。比较有代表性的系统有:i b m 公司推出的v i av o i c e 和d r a g o ns y s t e m 公司的n a t u r a l l ys p e a k i n g ,n u a n c e 公司的n u a n c ev o i c ep l a t f o r m 语音平台, m i c r o s o f t 的w h i s p e r , s u n 的v o i c e t o n e 等。 我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从 实验室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算 机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的 研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优 势,并达到国际先进水平。 语音识别技术现在正处于高速增长的状况,因为硅片价格和寄存器成本不断 下滑,算法更复杂、完善,半导体技术也好过以前很多,应用前景广阔,正逐步 成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们 甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的 新兴高技术产业。尤其是语音嵌入汽车导航控制的趋势,预示着语音识别市场化 更广阔的前景。 比如目前在国内在这方面做得比较好的公司有安徽科大讯飞,他们的 i n t e r r e c o l :0 ,2 0 系列产品,允许用户通过语音输入来向动态语法增加命令或 词表。还有轻量级智能语音识别系统a i t a l k 2 0 ,能够方便的应用在嵌入式设备上, 让用户解放双手,通过语音命令操作设备、检索信息。目前这些技术都已经成功 的用在国内某些手机中。这种方式不但能够有效利用用户个性化的语音,提高系 统的识别准确率;而且能够提高用户输入词表的方便性和灵活性。1 3 】 这项技术的成功再次显示了以孤立词语音为主要应用的语音识别技术广阔 的应用市场和前景。因此加大对孤立词识别中的算法研究,以获得更好性能,具 3 江苏大学硕士学位论文 有很强的现实意义。 1 3 本文研究的主要内容与结构安排 本文以语音命令为研究对象,探讨以语音命令为识别对象的孤立词识别系统 中的关键技术,在已有的算法的基础上,对算法进行验证和改进。重点对预处理、 端点检测、动态时间弯曲( d t w ) 等孤立词识别中的主要阶段和关键步骤进行研 究,其中在端点检测阶段传统在双门限的基础上进行了算法改进、在识别阶段采 用高效的d t w 算法实现语音命令孤立词识别。接着研究基于m a t l a b 的g u i 的设 计方法技术。重点研究了m a t l a b 下g u i 设计的图形对象、基于集成开发环境 ( g u i d e ) 的设计事件的处理和回调机制和规则。建立一个包含实时录音、端点 检测、训练和识别、语音回放一体的小词汇量的语音识别系统,而这个系统就是 在m a t l a b 下以g u i 方式来实现的。 本文的主要研究内容: 1 孤立词识别中,准确地检测每个词语的起点和终点对于后续的识别及整 个过程都是非常重要的。由于语音命令的孤立词短语中各个字之间存在停顿现 象,采用传统的基于短时能量和过零率方法检测会出现只能检测到开始的单个单 词而导致检测结果不准确的现象,本文研究相应的措施,改进算法,有效的检测 此类词的起止点。 2 特征参数的提取也是决定识别性能的关键步骤,常用的语音特征参数有 2 种:l p c c 和m f c c 。l p c c 是基于线性预测的原理且符合全极点模型传递函 数的系数,但是它的阶数对于识别有着重大的影响,通过实验来验证能获得最好 识别率的最佳阶数。通过对比l p c c 和m f c c ,得出i v l f c c 更符合人耳的听觉 特性,具有较好的稳健性,拟采用m f c c 作为本文的特征参数,同时提出提高 m f c c 算法的几种方法。 3 选择适当的识别算法对于语音识别中最后一步关键技术。综合分析 h m m 和d t w 算法,由于d t w 算法具有运算量小,对资源要求少的特点,因 此适合像本文这样的词汇量不大的孤立词的识别。针对传统d t w 算法存在匹配 量比较大的问题,引入高效d t w 算法,实验结果表明,这种算法有效的减少了 存储量,提高了识别率。 4 研究基于m 棚a b 的g u i 设计。g u i 设计是能够使得用户和计算机之 间达到很好的交互性的计算机编程方法,而在h i l a b 中进行g u i 设计又有其 自身的特点。除了阐述在其中进行g u i 设计的基本步骤和原则,分析g u i 设计 的基础:图形对象的特点,还介绍m a t l a b 中的g u i 设计的集成开发环境 g u i d e 以及对这个环境下设计中的关键技术问题:事件处理、回调函数机制、 中断回调规则重点研究。这些技术是进行一个好的g u i 设计的关键考虑的问题 4 江苏大学硕士学位论文 和技术。 本文的结构如下: 第一章绪论简单介绍研究语音识别的发展与研究现状并对当前语音识别技 术以及实际产品所存在的难点和问题做了简要的分析,最后说明了本文主要研究 内容和论文结构。 第二章介绍基于语音识别技术的摹本原理,从声学的角度出发,得到适合研 究的语音信号的模型,并对语音信号的特性做了简要分析,同时还介绍2 个重要 时域参数短时能量和短时过零率,这是后面的端点检测的主要理论依据,最后对 典型的语音识别系统的基本结构和常用算法进行阐述。 第三章研究基于d t w 的孤立词语音识别中的关键技术,如预处理、端点检 测,特征提取,d t w 算法等,对语音命令孤立词的端点检测算法做了改进,同 时引进一种高效的d t w 算法。 第四章介绍基于m a t l a b 的g i l l 设计的相关知识。首先简介了设计原则和 步骤,然后对m a t l a b 中的句柄图形对象以及它们的属性相关操作做了详细的 介绍,最后讲述了g u i 的一些高级设计中需要处理的问题如回调函数的处理, 中断机制规则等,扎实掌握这些知识有助于设计出高性能的图形用户界面。 第五章具体介绍一个基于m a t l a bg u i 设计的孤立词语音识别系统的设计 和仿真测试。重点阐述了实时语音录入和端点检测的实施过程和主要技术,整个 系统以1 0 个数字和3 组语音命令孤立词为测试对象,融合了v i s u a lc + + , m a t l a b 以及它们之间的接口设计,实验结果有效的验证了这个系统的可行性! 第六章总结本文的研究工作,提出了对以后工作的一些看法。 5 江苏大学硕士学位论文 第二章语音技术基本原理 2 1 语音信号的声学模型 2 1 1 语音信号的声学模型 为了对语音信号进行数字处理,需要建立一个能够精确描述语音产生过程和 语音全部特性的数字模型。为了处理上和实现上的简便,这个模型尽可能的要简 单。然而,人类语音的产生过程很复杂,人类语音中所包含的信息又十分丰富多 彩,因而至今尚未找到一种能够细致描述语音产生过程和所有特征的理想模型。 在已经提出来的许多较为成功的模型里面,f a n t 于1 9 6 0 年提出的线性模型是模 拟语音主要特征的较为成功模型之一。线性模型是本文所有语音分析处理的基 础。 语音既具有生理特性,也有声学特性,还跟语音学、语言学、甚至和心理学 有很着很密切的关系。下文对语音信号的数学发声原理和数字模型做一个简单的 介绍。 语音是由空气流激励声道产生的。对于浊音、清音和爆破音三种不同的类型 的音来说,激励源是不同的。浊音激励源是位于声门处的准周期脉冲序列,清音 激励源是位于声道的某个收缩区的空气流( 类似于噪声) ,而爆破音的激励源是 位于声道某个闭合点处建立起来的气压及其突然释放。 由此可以知道,要准确描述语音是一件很困难的事情。由于这些困难,通常 会对声道和发声系统作一些假设,用全极点模型模拟声道,因此用熟悉滤波器来 模拟声道特性是一种常用的很方便的方法。【5 】f 6 】 下面是常用的语音信号的离散数学模型: 激励源 i 声道模型 :i 辐射模型 图2 1 语音信号产生模型 6 江苏大学硕士学位论文 从图中可以看出,该模型模仿了语音的自然产生过程,包含激励源、声道 模型和辐射模型等三个部分。 ( 1 ) 激励源 在浊音的情况下,激励信号可以看成是由一个周期脉冲发生器产生的周期为 0 的冲击序列,其每隔o 采样点便有一个样值为1 ,而其他样值为0 。 周期o 取决于基音频率磊和语音信号的采样频率兀,即o = r 厶,其中 e 和厶皆以h z 来计量,变化范围分别为8 k h z 和5 0 4 5 0 h z 时,相应的0 的变 化范围是1 8 1 6 0 。 上述的冲激序列通过一个声门脉冲滤波器浊音才会达到实际波形, r o s e n b e r g 研究发现可以用斜三角脉冲发生器模拟自然声门脉冲模型斜三角波形 的数学表达式如下: g ( 疗) = 扣c o s ( j r n n ,) l c o s j r ( n n | 2 n 2 0 式中, 1 是斜三角上升时间,n 2 是下降时间。g ( 甩) 的z 域传递函数为g ( z ) : g ( 垆南 ( 2 2 ) 式中c 是一个常数。显然上式是一个二极点的模型,g ( 力乘系数a 的作用 是调节浊音信号的幅度或能量。 在清音的情况下激励信号近似白噪声,可以由一个随机噪声发生器产生。设 定其平均值为0 其自相关函数是一个单位冲激函数万o ) ,这表明它的任何两个不 同样点是不相关且其均方值为l ,乘系数a 的作用是调节清音信号的幅度或能 量。 ( 2 ) 声道模型 为了得到声道模型,假定声道是一根具有时变特性的不均匀截面的声管在空 气流体中或者声管壁上都不存在热传导和粘滞损耗,这样声道可以视为由多段半 径不同的无损声管串连而成。由此推导出串连无损声道模型的系统函数v ( z ) , 多数情况下v ( z ) 是一个全极点模型可以表示为: y ( z ) = _ :生一 ( 2 3 ) 1 - - , a t z 一1 7 2 m 州 一 万 n 一电 鲰 棒靴 眍 m 其 江苏大学硕士学位论文 式中p 是极点的个数,g 是幅值因子,吼是常系数。 虽然上面结论在多种假设下推导得到,但是实验证明基本上符合大多数语音 的实际情况。对于部分鼻音和摩擦音还应该加入零极点模型才能全面反映语音 信号的特点,但是由于任何零点可以由多个极点来逼近,因此上面的全极点模 型模拟声道具有代表性。 ( 3 ) 辐射模型 语音经过口唇辐射发出口唇的辐射效应在高频端较为显著,在低频影响较小 可以用一阶高通滤波器近似描述: r = r o ( 1 - z 1 ) ( 2 4 ) 在实际信号分析时候,常采用这种的预加莺技术。即在采样之后,插入一个 一阶的高通滤波器。在语音合成时冉进行“预加重 处理,就可以恢复原来的语 音了。 综上所述,语音的数字模型可以看作由声门激励声道模型和辐射模型三部分 串连形成的线形系统系统的传递函数h ( z ) 可以表示为: h ( z ) = g ( z ) 木v ( z ) 宰r ( z ) h ( z ) 的一般形式为: 1 一圭玩z 。 h ( z ) = g 专l 1 一芝叩。 ( 2 5 ) ( 2 6 ) 式中系数a 。,及增益因子g 是模型的参数,p 和q 是选定模型的阶数。 h ( z ) 同时包含极点和零点称为自回归滑动平均模型模型( 简称a r m a 模型) 。当 玩= 0 时h ( z ) 为全极点模型: ( z ) : ( 2 7 ) 1 一叩t 七= 1 此时模型的输出只取决于过去的信号量,这种模型称为自回归模型简称a r 模型。 实际上最常用的模型就是( 2 7 ) 式的全极点模型这是因为:全极点模型最容易 计算对全极点模型做参数估计是对线性方程组求解过程,如果模型的阶数p 足够 高可以用全极点模型近似表示极零点模型,实验也证明全极点模型的阶数取1 2 8 江苏大学硕士学位论文 和1 6 可以足够清晰描述语音信号。 需要指出的是,虽然这种模型不能完全等效于语音的物理过程,存在缺陷, 但是对于大多数的实际应用来说,并不会产生很大的误差,因而这种数学模型获 得了广泛的应用【4 l 。 2 1 2 语音信号的非线性模型 上述提到的是语音信号广泛使用的线性模型,此外,在语音模型中其实还是 存在着许多的非线性的现象的:在2 0 世纪8 0 年代,t e a g e r 实验证明,语音信号 不仅可以由声门的激励产生,同时也可以由声道中存在的涡流来产生。 最为成功的非线性模型是1 9 9 3 年m a r a g o s 从语音是由声道共振产生的角度, 提出的新模型:调频一调幅模型( a m f m ) 。它利用能量分离法( e n e r g ys e p a r a t i o n a l g o r i t h m ) ,将与每个共振峰相对应的瞬时频率从语音信号中分离出来。利用这 个瞬时频率,可以得到一些描述语音信号本身特性的一些特性。这个模型近些年 来被广泛使用在语音信号处理领域,并获得一定程度上的成功。 2 2 语音的特性及其产生 1 、清音、浊音和爆破音 语音按其激励形式的不同可以分为三类 1 ) 浊音( ( v o i c e ds p e e c h ) 。当气流通过声门时,如果声带的张力刚好使声带发 生张驰式的振荡,产生一股准周期的气流,这一气流激励声道就产生浊音。 劲清音( u n v o i c e ds p e e c h ) 。当气流通过声门时,如果声带不振动,而在某处 收缩,迫使气流以高速通过这一收缩部分而产生湍流,就得到清音。 3 ) 爆破音( ( p l o s i v es p e e c h ) 。如果使声道完全闭合,在闭合后建立起气压,然 后突然释放就得到爆破音。 2 、基音频率 当发浊音时,气流通过声门使声带发生振动,产生准周期激励脉冲串,这个 脉冲串的周期就称为基音周期( p i t c h ) ,其倒数称为基音频率。 基音频率与个人声带的长短、厚薄、韧性、劲度和发音习惯等有关,这在很 大程度上反映了个人的特征。一般来说,男性说话者的基音频率大致分布在 5 0 2 0 0 h z 的范围,而女性说话者和小孩的基音频率在2 0 0 4 5 0 h z 之间。 3 、共振峰 人类的声道和鼻道都可以看作是非均匀截面的声道管。声道管的谐振频率称 为共振峰频率,简称共振峰。共振峰与发声器官的确切位置有很大的关系,即共 振峰频率与声道的形状和大小有关。每种形状都有一套共振峰频率作为其特征。 9 江苏大学硕士学位论文 表2 1 汉语语音的频率特性 浊音 元音浊辅音 清辅音 频率低频( 0 1 k h z低频( 0 1 k h z高频( 3 5 k h z 以 特性 至0 4 k h z 之间) 能至0 4 k h z 之间) 能量上) 能量较高 量较高;中频较高;中频( 0 6 4 k h z ( 0 6 4 k h z至至2 8 乜) 能量较低 2 8 k h z ) 能量较高 改变声道的形状就产生不同的声音。因此,当声道形状改变时,语音信号的 频谱特性就随之改变。共振峰频率由低到高排列依次为第一共振峰,第二共振峰, 第三共振峰,o oe9 相应的频率用h ,f 2 ,f 3 ,表示。一般的浊音中可以辨别 的共振峰有5 个,其中前面3 个对于区别不同语音至关重要。可利用倒谱法求语 音信号的共振峰频率。 2 3 语音信号的时域分析 语音信号的时域分析就是分析和提取语音的时域参数。进行语音分析时候, 最先接触的并且也是最直观的就是它的时域波形。语音信号本身就是时域信号, 因而时域分析直接利用语音信号的时域波形。时域分析通常用于最基本的参数分 析及应用,如语音的分隔、预处理、大分类等。这种分析方法的特点是: ( 1 ) 表示语音信号比较直观、物理意义明确。 ( 2 ) 实现起来比较简单,运算量少。 ( 3 ) 可以得到语音信号的一些重要参数。 ( 4 ) 只使用示波器等通用设备使用较为简单等。 语音信号的时域参数有短时平均能量、短时平均过零率、短时自相关函数和 短时平均幅度差函数等。这是语音信号的一组最基本的短时参数,在各种语音信 号数字处理技术中都要应用,在计算这些参数时使用的窗函数一般是方窗或汉明 窗【8 】o 2 3 1 短时能量 语音信号的能量随着时间变化明显,一般清音部分的能量要比浊音的能量小 得多。语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方 l o 江苏大学硕士学位论文 法。对于信号 x ( n ) 短时能量的定义如下: e = 顶m ) 以万一所) 】2 = x 2 ( m ) h ( n - m ) = x 2 ( 万) 宰j l ( 忍) ( 2 8 ) 式中,h ( n ) = 矿( 厅) ,e 表示在信号的第n 个点开始加窗函数时的短时能量。 可以看出,短时能量可以看作是语音信号的平方经过一个线性滤波器的输出,该 线性滤波器的单位响应为h ( n ) ,如图2 2 所示 图2 2 短时能量计算的方框图 如果用吒( m ) 表示工q ) 经过加窗处理之后的信号,窗函数的长度为n ,则第 n 帧语音信号吒( 肌) 的短时能量e 。表示为: e = x 2 n ) ( 2 9 ) 可以得知e 是一个度量语音信号幅度变化的函数,但是它对高电平非常敏 感( 因为用的是信号的平方) 。所以,常常还会采用下面一些度量语音信号幅度 变化的函数: 厶= l o g x 2 n ( m ) ( 2 1 0 ) m 。= i 毛( m ) l ( 2 1 1 ) 上面两个分别为短时对数能量和短时平均幅度函数。 短时能量主要用在下面几个方面: 首先利用短时能量可以区分清音和浊音,因为浊音的能量要比清音的能量 大。根据语音信号短时能量值的变化,可大致判定清音和浊音的变化时刻 对于高信噪比的语音信号,可以用来区分有无语音。此时,无语音信号的 噪声能量很小,而有语音信号时短时能量值显著地增大到某一个数值,由此可以 区分语音信号的起点和终点。 作为一种超音段信息,用于语音识别中阳h 1 0 1 。所以,在下面的章节中,将会 用在短时能量这个参数来进行孤立词语音的端点检测中。 1 1 江苏大学硕士学位论文 2 3 2 短时过零率 短时过零率表示一帧语音中语音信号波形穿过横轴的次数。过零率分析是语 音时域分析中最基本的一种。对于连续信号,过零率意味着时域波形通过时间轴; 在离散时间信号情况下,当相邻的两次抽样具有不同的代数符号时就称为发生了 过零。过零率z 。是指单位时间内信号由正变负、由负变正的总次数,短时过零 率是窄带信号频率量的一个简单量度,一个频率为兀的j 下弦信号以正速率抽样, 正弦波的一个周期内就有厶个抽样。每一个周期内有两次过零,所以过零率 为2 兀正。由此可见,平均过零率, - - ip a 适当的估计正弦波的频率。 语音信号是宽带信号,所以用平均过零率量度信号频率的方法就不那么确 切。然而,应用短时平均过零率可以得到谱特性的粗略估计。短时平均过零率的 定义为: z 。= 寺l s g n x ( m ) - s g n x ( m - 1 ) i v ( n - m ) ( 2 1 2 ) 其中,s g n 】是符号函数,即: s g n m = 仁1甚三墨 亿m 在实际应用中,过零率容易受到a d 转换时的直流偏移、5 0 h z 交流干扰以 及噪声的影响。减少这些干扰可以有两种方法:一种是采用带通滤波器消除信号 中的直流和5 0 h z 低频分量;另一种方法是用门限率来修改过零率,减少随机噪 声的影响。在零电平附近设置正负门限t ,将过零的含义修改为跨越正负门限, 并可定义为: z 。= 去 i s g n x ( m ) - t - s g n x ( m - 1 ) - t i ( 2 1 4 ) + i s g n x ( m ) + z 】一s g n x ( m 一1 ) + z 】| ) 以聆一肌) ( 2 1 5 ) 这样计算出来的短时过零率就有一定的抗干扰能力。即使存在小的随机噪声, 只要它不超过正负门限所构成的带,就不会造成虚假的过零率。 此外,典型的语音短时参数还有:短时自相关函数和短时幅度差函数,这2 个参数在许多场合的应用也是相当的广泛f 9 】。在本文中,就不一一阐述。 江苏大学硕士学位论丈 2 4 语音识别系统的基本结构 2 4 1 典型的语音识别系统结构 语音识别基本上是一个模式分类的任务,即通过学习,系统能够把输入的语 音按一定模式进行分类。目前主流的语音识别技术是基于统计模式识别的基本理 论。不同的语音识别任务来说,尽管设计和实现的细节不同,但所采用的基本技 术是相似的,一个典型的语音识别过程如图2 3 所示: 图2 3 典型的语音识别过程 可以看出,典型的语音识别系统一般由预处理单元、端点检测单元、特征 提取单元和识别单元构成【8 】【9 1 。预处理单元的功能是通过高频预加重来平滑信号 频谱,并利用窗函数把语音数据序列分成连续的信号帧。端点检测单元主要完成 确定单词的起始帧与结束帧的检测。特征提取单元的功能是完成基于频谱的特征 矢量的计算。当端点检测单元检测到当i j 语音信号帧为起始帧时,特征提取单元 开始特征提取计算,并存储帧特征矢量。在小型语音识

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论