(精密仪器及机械专业论文)噪声环境下的语音识别技术研究.pdf_第1页
(精密仪器及机械专业论文)噪声环境下的语音识别技术研究.pdf_第2页
(精密仪器及机械专业论文)噪声环境下的语音识别技术研究.pdf_第3页
(精密仪器及机械专业论文)噪声环境下的语音识别技术研究.pdf_第4页
(精密仪器及机械专业论文)噪声环境下的语音识别技术研究.pdf_第5页
已阅读5页,还剩132页未读 继续免费阅读

(精密仪器及机械专业论文)噪声环境下的语音识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘耍 摘要 本论文以应用垡语音控制技术为目标,以系统鲁棒性为研究重点,对噪卢环 境下嵌入式孤立词浯音识别技术的各个主要方面作了深入探讨。通过对鲁棒吾音 识别问题进行系统的研究和实验,本文形成了一套完整的鲁棒语音识别研究体 系,包括了实验平台、鲁棒端点检测算法、鲁棒特征提取算法、特征补偿算法、 声学模型等关键部分,涵盖了鲁棒语音识别的全过程,获得了一些有意义的成果。 所有研究成果都被完整地实现并在语音库上进行了验证,最终建立了一个完整的 孤立词语音识别系统,包括语音库、软件程序、硬件实现、应用系统等,以此为 基础可直接构建出。一个实用的语音控制系统。上述这些研究成果具体主要包括以 下几个方面: ( i ) 语旨识别实验系统 建立了一个基f 隐屿尔j 4 夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 的语音识 别实验系统。针对孤立词浯啬识别的特点优化了系统中的h m m 算法实现。给出 了一套用于抗噪语音识别实验的选词方案,保证了实验的代表性。建立了完整的 孤立词识别语音库和噪声库以及噪声度量标准,保证了实验的训重复性。 ( 2 ) 端点检测算法 针对传统双门限端点检测算法在噪声环境下的不足之处,对算法细节作出了 多处改进。首次将种1 f 线性动力学参数排列炳( p e r m u t a t i o ne n t r o p y ,p e ) 应用于噪声环境下的端点检测,提出了基于能频比和排列熵差分的双门限端点检 测算法。在实验平台下与传统算法进行了对比实验,实验结果显示,提出的算法 与传统算法相比,噪声鲁棒性更好,检测延时相当。 ( 3 ) 特征提取算法 系统总结了口前常用的几种语音识别特征参数,特别是详细分析了线性预测 编码( l i n e a rp r e d i c t i o nc o d i n g ,l p c ) 特征和m e l 频率倒谱系数( m e lf r e q u e n c y c e p s t r a lc o e f f i c i e n t 。m f c c ) 特征的原理、优缺点和实现细节。针对l p c 特征和 m f c c 特征的问题,将最小方差无失真响应( m i n i m u mv a r i a n c ed i s t o r t i o n l e s s r e s p o n s e ,m v d r ) 谱估汁技术引入到语音特征提取小,使用这种技术得到的特 征参数在某种程度上结合了上述两种主流特征参数的优点。针对语音信号的特 摘要 点。给出了几种m v d r 计算上的改进方法,最后通过实验对比了m v d r 方法与 其它方法的性能。 ( 4 ) 鲁棒语音识别技术 全面研究了包 舌抗环境噪声、说话人自适应、信道自适应等在内的系统鲁棒 性问题。提出了神用于语音识别的鲁棒特征提取算法,这种算法基于m v d r 谱估计技术,它在m e l 频率尺度上估计m v d r 谱,并对得到的m v d r 谱进行调 制谱滤波,然后提取其倒谱系数作为特征参数。在汽车噪声、人群噪声和高斯白 噪声三种噪声环境下,与m v d r 特征提取算法和m f c c 特征提取算法按多种信 噪比傲了对比实验。实验结果表明使用该算法的系统在这三种噪声环境下的识别 率均得到了不同程度的提高。 ( 5 ) 硬件实现问题 针对孤立词语旨识别算法的硬件实现问题,比较了通用处理器、数字信号处 理器( d i g i t a ls i g n a lp r o c e s s o r , d s p ) 、专用集成电路( a p p l i c a t i o ns p e c i f i ci n t e g r a t e d c i r c u i t ,a s i c ) ,现场可编程门阵列( f i e l d p r o g r a m m a b l e g a t e a r r a y , f p g a ) 等四 种硬件实现方案,提出了一套基于f p g a 的硬件实现方案。基于f p g a ,针对孤 立词语葺识别算法,提出了完整的设计流程,设计方案和测试方案,并对每个模 块的结构进行了详细说明。最后给出了外围电路的设计,从而完整地以硬件的方 式实现了整个语音识另u 系统。 关键词:鲁棒语音识别,特征提取,隐马尔科夫模型,排列熵,最小方差无失真 响应,调制谱,特征补偿,现场可编程门阵列 i i a b s t r a c t a b s t r a c t w i t ht h ea i mo fa p p l i e ds p e e c hc o n t r o lt e c h n o l o g ya n dt h ee m p h a s e so fs y s t e m r o b u s t n e s s ,t h i st h e s i sd e e p l yd i s c u s s e se v e r ym a i na s p e c to f e m b e d d e di s o l a t e d w o r d s p e e c hr e c o g n i t i o nt e c h n o l o g yi nn o i s ye n v i r o n m e n t t h r o u g ht h es y s t e m a t i cr e s e a r c h a n de x p e r i m e n to nr o b u s ts p e e c hr e c o g n i t i o np r o b l e m s ,ac o m p l e t er e s e a r c hs y s t e mo f r o b u s t s p e e c hr e c o g n i t i o n i s f o r m e d ,w h i c hi n c l u d e se v e r yk e yp a r ts u c ha s e x p e r i m e n tp l a t f o r m ,r o b u s te n d p o i n td e t e c t i o na l g o r i t h m ,r o b u s tf e a t u r ee x t r a c t i o n a l g o r i t h m ,f e a t u r ec o m p e n s a t i o na l g o r i t h m ,a c o u a i cm o d e le t c a n ds o m es i g n i f i c a n t r e s u l t sa r eo b t a i n e d a l lt h ea c h i e v e m e n t sa r ef u l l yi m p l e m e n t e da n dv e r i f i e di nt h e s p e e c hc o r p u s a t l a s tac o m p l e t ei s o l a t e d - w o r ds p e e c h r e c o g n i t i o ns y s t e m i s c o n s t r u c t e d ,w h i c h i n c l u d e s s p e e c hc o r p u s ,s o f t w a r ep r o g r a m ,h a r d w a r e i m p l e m e n t a t i o n ,a n da p p l i c a t i o ns y s t e m b a s e do ni t ,ap r a c t i c a ls p e e c hc o n t m l s y s t e m c a l lb ed e v e l o p e dd i r e c t l y t h e s er e s u l t sm e n t i o n e da b o v ec a nb ed e s c r i b e d c o n c r e t e l yi nt h ef o l l o w i n ga s p e c t : ( 1 ) s p e e c hr e c o g n i t i o ne x p e r i m e n ts y s t e m a s p e e c hr e c o g n i t i o ne x p e r i m e n ts y s t e mb a s e do nt h eh i d d e nm a r k o vm o d e l s ( h m m ) i sc o n s t r u c t e d ,t h ei m p l e m e n t a t i o no ft h eh m ma l g o r i t h mi nt h es y s t e mi s o p t i m i z e df o rt h ei s o l a t e d w o r ds p e e c hr e c o g n i t i o n as c h e m eo ft h ew o r ds e l e c t i o n f o rt h ee x p e r i m e n to fr o b u s ts p e e c hr e c o g n i t i o ni s g i v e n ,w h i c hc a ne n s u r et h e r e p r e s e n t a t i v e n e s so ft h ee x p e r i m e n t ac o m p l e t es p e e c hc o r p u sa n dn o i s ec o r p u s t o g e t h e rw i t ht h en o i s em e a s u r es t a n d a r di sb u i l tf o ri s o l a t e d w o r ds p e e c hr e c o g n i t i o n , w h i c hc a l le n s u r et h er e p e a t a b i l i t yo f t h ee x p e r i m e n t ( 2 ) e n d p o i n td e t e c t i o na l g o r i t h m a i m i n ga tt h es h o r t n e s so ft h et r a d i t i o n a ld o u b l e - t h r e s h o l de n d p o i n td e t e c t i o n a l g o r i t h mi nn o i s ye n v i r o n m e n t ,s o m ei m p r o v e m e n t sa r eg i v e n an o n l i n e a rd y n a m i c s p a r a m e t e r , p e r m u t a t i o ne n t r o p y ( p e ) i sa p p l i e di nr o b u s ts p e e c he n d p o i n td e t e c t i o n f i r s t l y a n dad o u b l e t h r e s h o l d e n d p o i n t d e t e c t i o n a l g o r i t h m b a s e do n a b s t r a c r e n e m y f r e q u e n c y r a t i oa n dp e r m u t a t i o n e n t r o p y d i f f e r e n c ei sp r o p o s e d e x p e r i m e n t s b a s e do nt h es p e e c hp l a t f o r ma r ec o n d u c t e dt oc o m p a r et h i s a l g o r i t h ma n dt h e t r a d i t i o n a la l g o r i t h m t h er e s u l t si n d i c a t et h a tt h i sa l g o r i t h mi sm o r er o b u s tt h a nt h e t r a d i t i o n a lo n ew i t ha l m o s ts a m ed e t e c t i o nd e l a y , ( 3 ) f e a t u r ee x t r a c t i o na l g o r i t h m s e v e r a lc o m m o nf e a t u r ep a r a m e t e r sf o rs p e e c hr e c o g n i t i o na r es y s t e m a t i c a l l y s u m m a r i z e d t h ep r i n c i p l e ,i m p l e m e n t a t i o nd e t a i l s ,a d v a n t a g e sa n dd i s a d v a n t a g e so f f e a t u r eb a s e do i ll i n e a rp r e d i c t i o nc o d i n g ( l p c ) a n dm e lf r e q u e n c yc e p s t r a l c o e f f i c i e n t ( m f c c ) a r ea n a l y z e di nd e t a i l a i m i n ga tt h ep r o b l e m so fl p cf e a t u r e a n dm f c cf e a t u r e ,t h es p e c t r u me s t i m a t i o nm e t h o db a s e do nm i n i m u mv a r i a n c e d i s t o r t i o n l e s sr e s p o n s e ( m v d r ) i si n t r o d u c e di n t os p e e c hf e a t u r ee x t r a c t i o n ,t h i s m e t h o dh a sb o t ht h ea d v a n t a g e so fl p ca n dm f c ci ns o m ed e g r e e s e v e r a l i m p r o v e m e n t si nc o m p u t a t i o na r eg i v e na c c o r d i n gt ot h ec h a r a c t e r i s t i co fs p e e c h s i g n a l ,t h ep e r f o r m a n c eo fm v d rm e t h o di sc o m p a r e dt oo t h e rm e t h o d sb y e x p e r i m e n t s ( 4 ) r o b u s ts p e e c hr e c o g n i t i o nt e c h n o l o g y t h es y s t e mr o b u s t n e s s p r o b l e m si n c l u d i n ge n v i r o n m e n t a ln o i s er e s i s t a n c e , s p e a k e ra d a p t a t i o na n dc h a n n e la d a p t a t i o na r ef u l l yr e s e a r c h e d ar o b u s tf e a t u r e e x t r a c t i o na l g o r i t h mf o rs p e e c hr e c o g n i t i o nw a sp r o p o s e d t h i sa l g o r i t h mi sb a s e do n t h em v d rs p e c t r u me s t i m a t i o nm e t h o d i te s t i m a t e sm v d rs p e c t r u ma tm e l f r e q u e n c y s c a l ea n df i l t e r st h em o d u l a t i o ns p e c t r u mo ft h em v d r s p e c t r u m ,t h e nt h e c e p s t r a lc o e f f i c i e n t s a r ee x t r a c t e da st h ef e a t u r e p a r a m e t e r e x p e r i m e n t sw e r e c o n d u c t e dt oc o m p a r et h ep r o p o s e d a l g o r i t h mw i t hm v d ra n dm f c cf e a t u r e e x t r a c t i o na l g o r i t h m s ,u n d e rd i f f e r e n tl e v e l so fc a rn o i s e ,b a b b l en o i s ea n dg a u s s w h i t en o i s e t h er e s u l t si n d i c a t et h a tt h er e c o g n i t i o na c c u r a c yo ft h i ss y s t e mh a sb e e n i m p r o v e da ts o m ed e g r e e su n d e rt h et h r e en o i s yc o n d i t i o n s ( 5 ) h a r d w a r ei m p l e m e n t a t i o np r o b l e m t h ef o u rs c h e m e si n c l u d i n gg e n e r a lp u r p o s ep r o c e s s o r , d i g i t a ls i g n a lp r o c e s s o r ( d s p ) , a p p l i c a t i o ns p e c i f i ci n t e g r a t e dc i r c u i t ( a s i c ) 。f i e l dp r o g r a m m a b l eg a t e a r r a y ( f p g a ) a r ec o m p a r e dt o g e t h e rf o rh a r d w a r ei m p l e m e n t a t i o no fi s o l a t e d - w o r d i v 。 a b s t r a c t s p e e c hr e c o g n i t i o na l g o r i t h m ah a r d w a r ei m p l e m e n t a t i o nd e s i g nb a s e do i lf p g ai s d e v e l o p e d ,t h ec o m p l e t ed e s i g nf l o w , d e s i g ns c h e m ea n dt e s ts c h e m eb a s e do nf p g a f o ri s o l a t e d - w o r ds p e e c hr e c o g n i t i o na r eg i v e nt o g e t h e rw i t hd e t a i l e ds p e c i f i c a t i o n so f e v e r ym o d u l e t h ed e s i g no fp e r i p h e r a lc i r c u i ti sa l s og i v e n s oac o m p l e t es p e e c h r e c o g n i t i o ns y s t e mc a nb ef u l l yi m p l e m e n t e di nh a r d w a r ef o r m k e yw o r d :r o b u s ts p e e c hr e c o g n i t i o n ,f e a t u r ee x t r a c t i o n ,h i d d e nm a r k o vm o d e l , p e r m u t a t i o n e n t r o p y , m i n i m u m v a r i a n c ed i s t o r t i o n l e s s r e s p o n s e ,m o d u l a t i o n s p e c t r u m ,f e a t u r ec o m p e n s a t i o n ,f i e l dp r o g r a m m a b l eg a t ea r r a y v 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被奄阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:艟 2 0 0 7 年1 0 月2 6 日 第1 章绪论 1 1 研究背景与意义 第1 章绪论 语言既是人类交流思想最重要的工具,也是人类进行思维的一种依托, 它是人类最重要的外在特征之一。语音是语言的声学表现,人类既可以随心所 欲地将语言信息转为声音信号,也可以从极其复杂的语音信号中迅速有效地提 取信息。因此与文字、图像、视频等交流信息的方式相比,语音始终都是对人 类最方便、最白然、最理想的方式。让机器听懂人类语音并按相应的含义去为 人类服务,以及让机器能发出人类语音,最终实现让机器能与人进行语音交流, 这一直是人类的理想之一。因此即使远在人类进入信息化时代之前,人类就开 始探索语音的奥秘,并形成了语音学这门学科。而信息时代数字技术的迅速发 展,语音信号处理技术得以形成,这种技术的发展以及对人类智能的研究正在 使人类的这个理想逐步实现。 语音信号处理是以语音学和数字信号处理为基础,涉及语言学、模式识别、 机器学习、人工智能、信息论等领域的一门综合性学科b 】,它主要包括四个部 分:语音识别、语音合成、语音编码和语音分类。语音识别是指机器在各种环 境下,自动从语音信号中提取语言信息,从而使机器能够有效地理解和执行发 声者的各种意图。语音合成是指在相对有限的资源占用下,机器根据任意文本 信息实时生成连续、可懂、自然的语音信号。语音编码是指在尽量减少失真的 情况下,高效率地对模拟语音信号进行数字表达。在某种意义上,语音识别与 合成可以看作是广义的语音编码和解码。但一般来说,语音编码不涉及语音信 号的语言信息,它要求尽量多地保留信号中人耳能分辨的声音特征。语音分类 是指判定任意语音信号是否属于指定的语音类,主要包括:说话人识别、自动 语种辨识、情绪识别等几个部分,目前已经研究得比较成熟的技术如男声女声 童声判别和语音非语音判别( 即端点检测) 等通常也可认为属于该分支。上述 四大分支之间有着密切的联系,它们相互影响,相互促进,共同造就了一个活 跃的语音信号处理领域。 尽管语苦信号处理的最终目标目前离人类尚远,但大量实用技术和实用产 第1 章绪论 品在这个研究过程中不断涌现,有些已经与生活息息相关,如语音编码技术在 通讯中的应用;有些已经直接应用与军事情报部门,如语种辨识技术:语音识 别技术由于其军事意义也一直是美国国防部长期资助的项目。语音信号处理的 巨大实用性也使它成为设计各种高速信号处理芯片的重要推动力量之一。语音 处理之所以能够这样长期地、深深地吸引广大学者,除了它的实用性之外,一 个重要原因是,它始终与当前信息科学中最活跃的前沿学科保持密切的联系, 并且一起发展,空i l 神经网络【3 1 、小波理论【4 j 、支持向量机1 5 1 、盲源分量【6 】等最新 技术都不约而同把谮音处理任务作为一个应用实例。同时语音处理技术也是数 字信号处理技术发展的重要推动力量,许多薪方法的提出,都足首先在语音处 理中获得成功,然后再推广到其它领域的。 语音识别足语音信号处理学科四大分支中极为重要的一个 7 1 ,它同时也是 人工智能、模式识别、智能信息处理、数字信号处理等学科的重要分支它的 最终目标是要让机器“听懂”人类口述的语言。通常是指将这种口述语言( 即 语音) 逐词( 字) 逐句地转换为相应的书面语言( 即文字) 。通俗地讲,就是模 拟人类的听觉功能。为了使研究目标更加具体可行,语音识别一般被分为如下 几类:根据对说话人说话方式的要求,可分为孤立词语聋识别系统,连接词语 音识别系统和连续语音识别系统;根据对说话人的依赖程度,可分为特定人语 音识别系统和非特定人语音识别系统:根据词汇量的大小,可分为小词汇量、 中等词汇量和大词汇量语音识别系统;根据使用方式的不同,可分为实时语音 识别系统和离线语音转换系统;根据说话风格的不同,可分为朗读语音识剐系 统和口语识别系统;根据传输信道的不同,可分为麦克分语音识别系统和电话 语音识别系统。在这些系统中,最有代表性的几类主要包括:特定人小词汇 量孤立词语音识别系统,非特定人小词汇量孤立词语音识别系统,非特定 人大词汇量连续语音识别系统。其中前两类被统称为孤立词识别系统,由于其 主要用于语音控制,也被称为语音命令识别系统或声控系统。第三类简称为大 词汇量连续语音识别系统( l a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n , 【c s r ) ,由于其可模仿人类的听写能力,也被称为听写系统。可以认为声控 系统和听写系统分别位于语音识别研究的两端,代表了两类最典型的应用。虽 然这两类问题的研究方案迥异,但在理论和方法上却有着千丝万缕的联系,任 2 第l 章绪论 何一类问题中的突破性进展都将极大地影响和推动整个语音识别技术的研究。 1 2 语音识别技术的研究与应用现状 语音识别的研究工作开始于2 0 世纪5 0 年代,当时a t & tb e l l 实验室实现 了第一个可识别十个英文数字的语音识别系统a u d r e y 系统吼该系统主要 依靠测量数字中元音部分的谐波潜识别孤立的数字。 6 0 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出 了动态规划( d y n a m i cp r o g r a m m i n g d p ) 【9 】和线性预测分析技术( l i n e a r p r e d i c t i o n ,l p ) 【l o “1 ,其中后者较好解决了语音信号产生模型的问题,对语音 识别的发展产生了深远的影响。 7 0 年代,语音识别领域进一步取得突破。在理论上,l p 技术得到进一步 发展,基于d p 技术的动态时间规整算法( d y n a m i ct i m ew a r p i n g ,d t w ) 基本 成熟,特别是提m 了矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 旧1 3 】和隐马尔科夫模 型( h i d d e nm a r k o vm o d e l ,h m m ) 理论”】。在实践上,实现了基于线性预测 倒谱和d t w 技术的特定人孤立词语音识别系统。 8 0 年代,语音识别研究进一步走向深入,其显著特征是h m m 模型和人t 神经网络( a r t i f i c i a l n e u r a l n e t w o r k ,a n n ) 1 6 ,”】在语音识别中的成功应用。h m m 模型的广泛应用应归功于a t & tb e l l 实验室r a b i n e r 等科学家的努力,他们把 原本艰涩的h m m 纯数学模型工程化,从而为更多研究者了解和认识【1 3 j1 9 】。 进入9 0 年代以来,随着多媒体时代的来临,一个巨大的人机语音交互市场 正在形成,这迫切要求语音识别系统从实验室走向实用。许多发达国家如美国, 日本、韩国以及i b m 、微软、i n t e l 、a t & t 等著名公司都为语音识别系统的实 用化开发研究投以巨资。随着语音识别实用化进程的加快,系统的鲁棒性越来 越被人们所重视。它也成为语音识别实用化的最大障碍之一,到目前为止,鲁 棒性研究一直是语音识别的热点1 2 0 2 3 1 。 我国语音识别研究工作起步于5 0 年代,一直紧跟国际水平,研究水平也从 实验室逐步走向应用。同时国家也十分重视语音识别技术的研究,从1 9 8 7 年起 语音识别研究就被列入“8 6 3 ”计划,国家8 6 3 智能计算机主题专家组为语 音识别研究立项,每两年滚动一次。从1 9 9 1 年开始,国家智能计算机主题 第l 章绪论 专家组每一至两年举行一次全国性的语音识别系统测试,参加测试的系统代表 了国内在这领域的研究水平。目前,汉语语音识别研究已经走上组织化的道 路,产生了一些国际先进水平的成果 2 4 , 2 5 】,特别是获得了一批针对汉语自身特 点的成果 2 6 , 2 7 1 ,这对提高汉语语音识别的水平有重要的意义。目前我国对大词 汇量连续语音识别系统的研究已经接近国外最高水平1 2 羽。由于汉语语音自身的 特殊性以及国内研究水平的提高,汉语语音识别作为一个相对独立的分支逐渐 被国际学术界认可( 2 9 l 。i b m 、微软、d r a g o n 等国际大公司相继投入到汉语语 音识别系统的开发中,其投资也逐年增加,产品逐渐走向市场。与之相比,从 实用化和商品化的程度来看,目前国内的研究还稍显不足。因此,国内除了要 加强理论研究外,更应加快从实验室演示系统到商用系统的转化i 埘。 随着语言识别研究水平的提高,出现了一大批语言识别系统。在应用领域, 比较典型的成功的小词汇量孤立词语音识别系统有a t & t 于1 9 9 2 年开发的 v c r p 系统。该系统是有五个单词( c o l l e c t p e r s o n t h i r dn u m b e r , o p e r a t o r , c a l l i n g c a r d ) 的非特定人小词汇量孤立词语音识别系统,现已应用于a t & t 通信网上, 可以实现自动话务员协助式呼叫,代替话务员完成五种呼叫类型,号称整个系 统的正确识别率超过9 9 。此外,还有a t & t 8 0 0 语音识别系统,n t t a n s e r 语音识别银行服务系统,n o r t h e r nt e l e c o m 股票价格行情系统等等。以上这些是 基于计算机的语备识别系统。另一些公司则将运算量与存储器需求相对较小的 特定人孤立词语音识别算法与d s p ( 数字信号处理器) 技术相结合,开发出了 多种型号的语音识别芯片,如d s pc o m m u n i c a t i o n si n c 的d v c 3 0 6 ( 1 2 8w o r d s ) , 台湾h u a l o nm i e r o e l e c t r o n i e s ( h m 】c o r p o r a t i o n 的h m 2 0 0 7 ( 4 0w o r d s ) ,o k i s e m i c o n d u c t o r 的m s m 6 6 7 9 ( 2 5w o r d s ) ,t o s h i b a 的t c 8 8 6 0 f ( 1 0w o r d s ) 、 t c s s 6 4 f ( 5 0w o r d s ) 和t c 8 8 6 5 f ( 2 0w o r d s ) 等等。这些语音识别芯片为构建脱机 实时语音识别系统提供了可靠的处理内核,使得语音识别技术逐步在手机、玩 具和家电产品上得到应用。此外,还有一些研究人员将识别程序写入单片机或 d s p ,完成了多种硬件代价很小脱机实时识别电路模块 3 1 j ,也为语音识别技术 的应用提供了宝贵的参考依据。目前应用领域的普遍趋势是将孤立词识别系统 硬件化,并最终研制出高鲁棒性非特定人语音识别芯片。虽然这个目标还远未 实现。但市场上已经有多家公司开始竞争,其中美国s e n s o r y 公司以其r s c 系 4 第1 章绪论 列芯片和台湾凌阳公司以其s p c e 0 6 i a 芯片正逐步占领大部分的市场份额。 研究领域的语旨识别系统则代表着当时语音识别研究的最高水平。先后出 现了特定人大词汇量孤立词语音识别系统:如i b m 的t a n g o r a - 5 ,t a n g o r a 2 0 , i b m 法国科学中心的2 0 0 ,0 0 0 词语音识别系统,加拿大i n r s 的8 6 ,0 0 0 词语音 识别系统,d r a g o n 公司的3 0 ,0 0 0 词语音识别系统等;特定人大词汇量连续 语音识别系统:如i b m 的2 0 ,0 0 0 词系统,欧洲三大公司( s i e m e n s ,p h i l l i p s ,i p o ) 合作完成的s p i c o s 系统,b b n 公司的b y b l o s 系统等;以及非特定人大阋 汇量连续语音识别系统:如美国c m u 的s p h i n x 系统,i b m 公司的v i a v o i c e 系统,们公司的t l 系统,s r i 的d e c i p h e r 系统,以及m i t l i n c o l n 实验室的 语音识别系统等。随着h m m 技术的深入研究和发展,特别是在s p h i n x 系统 出现之后,国际上出现了在h m m 的基础上,建立实用l v c s r 系统为目标的 热潮。但是总的来说,目前l v c s r 系统离实用尚有相当距离,它们普遍识别 率不够高,而且更关键的是鲁棒性很差。1 9 9 5 年,林肯实验室将t i m i t 数据库 ( 实验室条件) 和n t i m l t 数据库( t i m i t 数据库通过电话传输录音) 作了一 次说话人识别的对比,结果表明,当实验对象简单的经过电话信道传输后,识 别正确率由原先接近1 0 0 急速下降到6 0 多。如何在自然环境下令人满意的 进行语音识别,依旧是国内外语音识别研究者的一个艰巨任务。 1 3 主要研究内容与技术路线 从上一节的讨论可以看出,在安静环境下,孤立词识别系统,特别是特定 人孤立词识别系统,在算法上已经比较成熟且计算量相对较小。而l v c s r 系 统虽然代表着语音识别技术的最高水平,但目前离实用尚有一定距离,还有很 多问题有待研究f 3 2 3 3 】。因此随着近年来软硬件的飞速发展,孤立词语音识别系 统的实用化研究得到了越来越大的关注。随着研究的深入,人们发现噪声问题 是阻碍其实用的最关键所在【2 3 ,h 1 。但由于这方面的研究起步较晚,目前鲁棒语 音识别的研究还很不成熟,这主要表现在如下三个方面:大量的抗噪研究集 中在h m m 模型的改进和语言知识的利用一e ,这方面的研究对l v c s r 系统的 鲁棒性有显著的效果,但由于其计算复杂,资源消耗大,很难应用于嵌入式声 控系统。语音识别领域的学术带头人将主要精力集中在寻找h m m 模型的替 第1 章绪论 代模型上,显然这方面的研究一旦取得突破,将对语音识别领域产生颠覆性的 影响,但目前这些研究离实用尚远。应用型研究主要以语音增强和基于特殊 硬件的语音识别为e 。语音增强由于是一种通用算法,无法利用语音信号的特 点和语占模型的知识,因此笔者认为这种算法很难对语爵识别的抗噪性能产生 决定性的影响,而且其算法可以直接用在前端,与本文的研究不矛盾。基于特 殊硬件的语音识别主要包括使用麦克风阵列的盲分离算法和使用c c d 的多模 态识别,这两类算法都依赖特殊器件,硬件成本高,计算量成倍增加,目前实 用性还比较差。但不可否认,这两类算法由于获得的信息量也成倍增加,从而 更容易提高鲁棒性,在算法上取得突破的难度更低,本文限于研究经费和精力 的限制,暂时没有进行这方面的研究。 针对上述这种研究现状,本文选择以更具实用性的孤立词识别作为切入点, 系统研究噪声环境下的孤立词语音识别算法及其硬件实现。为了保证系统的实 用性,选择单卢道驻极体麦克风语音信号作为研究对象。针对目前识别率很高 的孤立词语音识别算法在噪声环境下容易出现问题的地方分别进行了研究,包 括:语音输入时的端点检测问题,提出了基于排列熵算法的方案;噪声环 境下的特征提取问题,提出了基于m v d r 算法的方案;语音模型的补偿问题, 提出了基于c c b c 算法的方案;硬件实现问题,给出了基于f p g a 的实现方 案。所有这些研究都对语音识别系统的实用性有着重要的影响,同时其研究成 果也可应用于l ,v c s r 系统。 本文将按照下i 习所示的路线进行研究。为了进行对比实验,首先要建立语 音库,语音库主要包括两个方面:纯净语音和噪声。我们编写语音采集程序通 过人工录音,收集网络中的语音,以及转换8 6 3 语音库中的语音建立个孤立 词纯净语音库。环境噪声也通过语音采集程序到现场录音采得,白噪声和各种 色噪馒用m a t l a b 编写程序生成。根据文献【3 5 ,3 6 1 编写基线算法用于对照。最终在 基线算法和语音库的基础上按模块化结构建立一个语音识别实验平台,以后的 算法研究都将基于该平台进行。 6 第1 章绪论 测试 数据 图1 1 研究路线图 在算法研究阶段,本文主要进行三个方面的研究。酋先,注意到对于孤立 词识别,端点检测的准确度对最终识别的结果有很大的影响【朔,而传统端点检 测算法对噪声比较敏感,因此我们结合新近提出的排列熵技术对端点检测算法 进行改进以提赢其鲁棒性。与l v c s r 不同,孤立词语音识别基本没有语言层 的先验知识可供利用,在目前还没有可以超越h m m 的声学模犁的情况下,语 音特征对孤立词识别有着至关重要的作用。本文重点研究了各种语音特征的识 别率及其抗噪声性能,并提出了多种改进方案。最后为了进一步提高系统的鲁 棒性,我们研究了特征补偿方法,从而使系统对噪声、非特定人、信道变化都 第1 章结论 有了较好的适应性。 在算法实现阶段,通过对语音实验平台中的多种竞争算法的筛选,我们可 以获得多个独立的孤立词语音识别程序,针对不同的硬件,我们挑选一个进行 优化并定点化。然后以该硬件为目标平台设计方案,并按方案重写程序,最终 在该硬件上实现整个语音识别算法。我们使用软件平台上获得的数据对硬件平 台进行测试,保证二者的完全一致性。 1 4 内容结构安排 本文具体内容安排如下: 第l 章:绪论 阐明了本文的选题背景及意义,讨论了语音识别在各个方面的应用,分析 了当前语音识别的基础研究和应用研究现状,包括汉语语音识别方面的研究进 展,以及国际和国内方面对孤立词识别系统硬件化的研究,指出了目前语音识 别研究存在的问题。最后介绍了论文的研究内容与技术路线,为进一步展开做 了相应的安排。 第2 章:基于h m m 的语音识别实验系统 本章对h m m 的数学原理和基本算法作了系统介绍,并详细描述了它在本 文所使用的语音识别实验系统中的实现细节。为了对算法进行充分的实验,需 要一个完备的语音库作为语音实验平台的基础,本章对语音库的选词和构造作 充分描述,以保证实验的代表性和可重复性。最后研究了几种噪声的度量与合 成算法,确立了本文的噪声度量与合成标准,保证了实验的一致性。本章是后 序几章的基础,后序章节的实验都是在本章阐述的语音实验平台上进行的。 第3 章:基于排列熵的端点检测 语音端点检测是孤立词语音识别的第一步。本章介绍了多种语音端点检测 算法,特别研究了在噪声环境下的端点检测详细论述了排列熵算法的原理并 基于l o g i s t i c 映射对其进行了有效性验证,首次将排列熵应用于噪声环境下的 端点检测,提出了基于能频比和摊列熵差分的双门限端点检测算法,给出了这 种算法和排列熵算法的计算量的渐进上界。最后在上一章建立的实验平台下与 传统算法进行了对比实验,可以看出排列熵可以有效地检测并放大复杂信号的 第l 章绪论 突变,且算法简单,计算速度快,可以用于检测语音的变化:与传统算法相比, 提出的算法噪声鲁棒性更好,计算时间略微增加,检测延时相当。 第4 章:基于m v d r 的特征提取 特征参数对于语音识别的鲁棒性有重要的意义。本章系统总结了目前常用 的几种语音识别特征参数,特别是详细分析了l p c 特征和m f c c 特征的原理、 优缺点和实现细节。针对l p c 特征和m f c c 特征的问题,引入了一种基于 m v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论