




已阅读5页,还剩75页未读, 继续免费阅读
(信号与信息处理专业论文)laguerre滤波器在语音识别前端处理中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
太原理t = 大学硕十研究生学 :】7 :论文 l a g u e rr e 滤波器在语音识别前端处理中的应用研究 摘要 语音识别是语音信号处理领域的研究热点,但由于其研究的复杂性, 长期以来一直是一项难题,尤其是噪声环境下的非特定人语音识别。本文 从一个典型的语音识别系统出发,介绍了语音识别的基本原理,讨论了几 种常用的特征提取方法,尤其对过零率峰值幅度( z c p a ) 特征提取作了较 为详细的介绍。在此基础上提出用l a g u e r r e 滤波器对z c p a 特征提取前端 处理进行改进的方法,并获得了具有优良抗噪性的识别结果。 本文中用l a g u e r r e 网络实现的滤波器吸收了传统有限冲激响应( f i r ) 、 无限冲激响应( i l r ) 滤波器的优点,既具有f i r 滤波器的稳定性又具有i i r 滤波器的长时记忆的特点和通阻带特性。其设计方法是在l a g u e r r e 滤波器 与理想滤波器的频率响应的均方误差为最小的前提下,利用牛顿一拉夫逊法 估算滤波器参数,然后由柯西一留数定理得出相对应的l a g u e r r e 系数以获得 最优滤波器。通过实例设计了l a g u e r r e 滤波器,并与传统f i r 和i i r 滤波 器的频率响应作了详细的比较,得出l a g u e r r e 滤波器有较小的滤波器长度, 合适的线性相位和较少的通阻带波纹。缺点是计算复杂,但使用介绍的引 理可降低其复杂性。 接着将l a g u e r r e 滤波器用在z c p a 特征提取中代替原来的f i r 滤波器, 后端分别利用r b f 网络和h m m 训练和识别。实验结果表明利用l a g u e r r e 滤波器代替f i r 滤波器进行特征提取,其识别率明显提高,而且抗噪性有 太原理i :人学硕十研究生学何论文 很大改善。 论文最后分析了l a g u e r r e 序列的频率弯折特性,并将小波变换的多分 辨特性与之相结合得出基于l a g u e r r e 网络的频率弯折小波变换,对其实现 结构作了详细介绍,同时也说明难点所在。提出下一步工作是将频率弯折 小波变换用于特征提取中,期望得到好的识别结果。 关键词:语音识别,特征提取,l a g u e r r e 网络,l a g u e r r e 参数, l a g u e r r e 滤波器 太原理工大学硕士研究生学位论文 a p p l i c a t i o nr e s e a r c ho fl a g u e r r ef i i j e ri n f r o n t e n dp r o c e s s i n g0 fs p e e c hr e c o g n i t i o n a b s t r a c t s p e e c hr e c o g n i t i o nh a sb e c o m eah o t s p o ti nt h ef i e l do fs p e e c hs i g n a l p r o c e s s i n g b u ti ti sn o te a s yt os o l v ep e r f e c t l yb e c a u s eo fi t sc o m p l e x i t y , e s p e c i a l l y f o r t h e s p e e c hr e c o g n i t i o n o fs p e a k e r i n d e p e n d e n ti nn o i s y e n v i r o n m e n t t h i sp a p e ri n t r o d u c e dt h ef u n d a m e n t a lo fs p e e c hr e c o g n i t i o na n d d i s c u s s e ds o m ec o m m o n l yu s e df e a t u r ee x t r a c t i o nm e t h o d sa n ds p e c i a l l y a n a l y s e dt h ez c p af e a t u r ee x t r a c t i o nb a s e do nac l a s s i c a ls p e e c hr e c o g n i t i o n s y s t e m b a s e do na b o v ec o n c l u s i o n ,i tp r e s e n t e dam e t h o dw h i c hi m p r o v e dt h e f r o n t - e n dp r o c e s s i n go fz c p af e a t u r ee x t r a c t i o n ,a n dg o tt h eb e t t e rr e c o g n i t i o n r a t ew h i c hh a se x c e l l e n ta n t i n o i s ep r o p e r t i e s t h ef i l t e rr e a l i z e db yl a g u e r r en e t w o r ki sa c o m p r o m i s eb e t w e e nt h ef i r a n di i r i tn o to n l yp o s s e s s e dt h es t a b i l i t yo ff i rb u ta l s oh a dt h eg o o d p r o p e r t yo fp a s s b a n da n ds t o p - b a n do fr m , a n da c h i e v e dal o n gt i m em e m o r y i nt h i sp a p e r , l a g n e r r ef i l t e r sd e s i g na p p r o a c hw a s p e r f o r m e db ye v a l u a t i n gt h e f i l t e r p a r a m e t e re m p l o y e dn e w t o n - r a p h s o nm e t h o d a n d c o r r e s p o n d i n g l a g u e r r ec o e f f i c i e n t sa n do b t a i n i n go p t i m u mf i l t e re m p l o y e dc a n c h yt h e o r e m w h e nt h em i n i m u m m e a n - s q u a r e - e r r o ro ft h ef r e q u e n c yr e s p o n s eb e t w e e nt h e l a g u e r r ef i l t e ra n dt h eo p t i m u mf i l t e rw a se x i s t e d i td e s i g n e dl a g u e r r ef i l t e r i i i 太原理工大学硕士研究生学位论文 a n dc o m p a r e dt h ef r e q u e n c yr e s p o n s eo fl a g u e r r ef i l t e rw i t ht h ef r e q u e n c y r e s p o n s eo fc o n v e n t i o n a lf i ra n d i i rf i l t e r st h r o u g he x p e r i m e n t ,e d u c e d l a g u e r r ef i l t e rh a ss m a l ll e n g t ha n da p p r o p r i a t el i n e a rp h a s ew i t l ll e s sr i p p l e si n p a s s - b a n da n ds t o p - b a n d b u tt h ec o s ti st h ec o m p l e xc o m p u t a t i o n w h i c hc a l lb e r e d u c e db yt h ei n t r o d u c e dl e m m a b a s e do nt h eb e t t e rp r o p e r t yo fl a g u e r r ef i l t e r , i tu s e dl a g u e r r ef i l t e r r e p l a c i n gt h et r a d i t i o n a lf i r f i l t e ri nt h ez c p af e a t u r ee x t r a c t i o n , a n de m p l o y e d r b fn e t w o r ka n dh m mt ot r a i na n dr e c o g n i s ei nt h eb a c k - e n d t h ee x p e r i m e n t r e s u l t ss h o w e da p p l y i n gl a g u e r r ef i l t e rr e p l a c i n gt h et r a d i t i o n a lf i rf i l t e ri n f e a t u r ee x t r a c t i o nw o u l di m p r o v e ds p e e c hr e c o g n i t i o nr a t ea n da n t i - n o i s e p r o p e r t i e s a tl a s t ,i tc o m b i n e dl a g u e r r et r a n s f o r ma n dw a v e l e tt r a n s f o r mb a s e do n t h ef r e q u e n c yw a r p e dp r o p e r t i e so fl a g u e r r et r a n s f o r ma n dm u l t i r e s o l u t i o no f w a v e l e tt r a n s f o r m , d e t a i l e d l yi n t r o d u c e di t ss t r u c t u r e ,s i m u l t a n e o u s l ya l s o e x p l m n e dw h a ti st h ed i f f i c u l t y , a n dt h ef u r t h e rt a s ki sa p p l y i n gt h ef r e q u e n c y w a r p e dw a v e l e tt r a n s f o r mt ot h ef e a t u r ee x t r a c t i o n , i t se x p e c t t og a i nt h eb e t t e r s p e e c hr e c o g n i t i o nr e s u l t k e yw o r d s :s p e e c hr e c o g n i t i o n , f e a t u r ee x t r a c t i o n , l a g u e r r en e t w o r k , l a g u e r r ep a r a m e t e r ,l a g u e r r ef i l t e r 声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:盔簦蔓e l i o t :羔立:! i 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; ( 骅校可允许学位论文被查阅或借阅;学校可以学术交流为目的。 复锚赡送和交换学位论文;学校可以公布学位论文的全部或部分内 容f 保密学位论文在解密后遵守此规定j o 签名:主必 导师签名: 日期: 塑:! 垒 太原理工大学硕士研究生学位论文 1 1 概述 第一章绪论 1 1 1 语音识别简介 语音识别是一门交叉学科,语音识别技术正逐步成为信息技术中人机接口的关键技 术,语音识别技术与语音合成技术相结合使人们能够甩掉键盘,通过语音命令进行操作。 语音技术的应用已经成为一个具有竞争性的新兴高技术产业【i 】a 与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的 高技术。近二十年来,语音识别技术已取得显著进步,开始从实验室走向市场。目前语 音识别技术已开始进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品 等各个领域,人们预计,在未来几年语音识别技术在这些领域的发展将会更加成熟。语 音识别听写机在一些领域的应用被美国新闻界评为1 9 9 7 年计算机发展十件大事之一。很 多专家都认为语音识别技术是2 0 0 0 年至2 0 1 0 年间信息技术领域十大重要的科技发展技 术之一【2 1 。 1 1 2 国内外研究现状 ( 1 ) 国外研究历史及现状 语音识别的研究工作可以追溯到2 0 世纪5 0 年代a 1 & t 贝尔实验室的a u d r y 系统,它是 第一个可以识别十个英文数字的语音识别系统 3 1 。但真正取得实质性进展,并将其作为 一个重要的课题开展研究则是在6 0 年代末7 0 年代初。这首先是因为计算机技术的发展为 语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码( l p c ) 技术和动态时间规整( d t w ) 技术的提出,有效的解决了语音信号的特征提取和不等长 匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小 词汇表的孤立词识别,实现了基于线性预测倒谱和d t w 技术的特定人孤立词语音识别系 统;同时提出了矢量量化( v e c t o r q u a n t i z a t i o n ,v q ) 和隐马尔可夫模型( h i d d e n m a r k o v 太原理工大学硕士研究生学位论文 m o d e l ,h m m ) 理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需 要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立 发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音 单位存在受上下文强烈影响的协同发音( c o - a r t i c u l a t i o n ) 现象;第三,非特定人识别时, 不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、 心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其 他干扰。因此原有的模板匹配方法已不再适用。 实验室语音识别研究的巨大突破产生于2 0 世纪8 0 年代末:人们终于在实验室突破了 大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中, 比较典型的是卡耐基梅隆大学的s p h i n x 系统,它是第一个高性能的非特定人、大词汇量 连续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是h m m 和人工神经网络 ( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 在语音识别中的成功应用。h m m 的广泛应用应归功 于a t & tb e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学模型工程 化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流【4 】。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更 多地从统计的角度来建立最佳的语音识别系统。在声学模型方面,以m a r k o v 链为基础的 语音序列建模方法h m m 比较有效地解决了语音信号短时稳定、长时时变的特性,并且 能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模 灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即元统计模型来 区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理 机制等也在语音识别中得到了应用。 2 0 世纪9 0 年代前期,许多著名的大公司如i b m 、苹果、a t t 和m r r 都对语音识别 系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确 率,而这项指标在2 0 世纪9 0 年代中后期在实验室研究中得到了不断的提高。比较有代表 2 太原理工大学硕士研究生学位论文 性的系统有:m m 公司推出的v i av o i c e 和d r a g o ns y s t e m 公司的n a t u r a l l ys p e a k i n g , n u a n c e 公司的n u a n c ev o i c ep l a t f o r m 语音平台,m i c r o s o f t 的w h i s p e r ,s u n 的v o i c e t o n e 等。 其中,i b m 公司于1 9 9 7 年开发出汉语v i a v o i c e 语音识别系统,次年又开发出可以识 别上海话、广东话和四川话等地方口音的语音识别系统v i a v o i c e 9 8 。它带有一个3 2 ,0 0 0 词的基本词汇表,可以扩展n 6 5 ,0 0 0 词,还包括办公常用词条,具有“纠错机制”,其平 均识别率可以达到9 5 。该系统对新闻语音识别具有较高的精度,是目前具有代表性的 汉语连续语音识别系统 5 , 6 1 。 ( 2 ) 国内研究历史及现状 我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室 逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算机专家组为语音识 别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国 外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院 自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技 大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究, 其中,具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国 家重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串 连续语音识别系统的识别精度,达n 9 4 8 ( 不定长数字串) 和9 6 8 ( 定长数字串) 。 在有5 的拒识率情况下,系统识别率可以达到9 6 9 0 , 6 ( 不定长数字串) 和9 8 7 ( 定长 数字串) ,这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5 0 0 0 词邮包校核非特定人连续语音识别系统的识别率达到多8 7 3 ,前三选识别率达9 9 9 6 ; 并且可以识别普通话与四川话两种语言,达到实用要求。 中科院自动化所及其所属模式科技p a t t e k 公司2 0 0 2 年发布了他们共同推出的面向不 同计算平台和应用的“天语”中文语音系列产品p a 哺e ka s r ,结束了中文语音识别产品 自1 9 9 8 年以来一直由国外公司垄断的历史【5 , 6 1 。 太原理工大学硕士研究生学位论文 1 1 3 目前语音识别面临的困难 ( 1 ) 就算法模型方面而言,需要有进一步的突破。目前能看出它的一些明显不足, 尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识 别的基础,这方面没有突破,语音识别的进展就只能是一句空话。目前使用的语言模型 只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人 类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。此外,随着硬件资 源的不断发展,一些核心算法如特征提取、搜索算法或者自适应算法将有可能迸一步改 进。可以相信,半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。 ( 2 ) 就自适应方面而言,语音识别技术也有待进一步改进。目前,像i b m 的v i a v o i c e 和a s i a w o r k s 的s p k 都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音 特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而 且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进行 训练。因此,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的影 响,这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的, 就声音特征来讲有男音、女音和童音的区别。此外,许多人的发音离标准发音差距甚远, 这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征, 那可能比提高一二个百分点识别率更重要。事实上,v i a v o i e e 的应用前景也因为这一点 打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满 意的成绩。 ( 3 ) 就强健性方面而言,语音识别技术需要能排除各种环境因素的影响。目前,对 语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机 能听懂你的话,来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音 技术的应用范围,目前要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能 进行,这对多数用户来说是不现实的。在公共场合中,个人能有意识地摒弃环境噪音并 从中获取自己所需要的特定声音,如何让语音识别技术也能达到这一点呢? 这的确是一 个艰巨的任务。 4 太原理工大学硕士研究生学位论文 此外,带宽问题也可能影响语音的有效传送,在速率低于1 0 0 0 比特秒的极低比特率 下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输语 音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的语 音识别,就必须处理声音信号的特殊特征,如因为带宽而延迟或减损等。语音识别技术 要进一步应用,就必须在强健性方面有大的突破。 ( 4 ) 多语言混合识别以及无限词汇识别方面,简单地说,目前使用的声学模型和语 音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文 转为英文,或者法文、俄文,计算机就会不知如何反应,而给出一堆不知所云的句子; 或者用户偶尔使用了某个专门领域的专业术语,如“信噪比”等,可能也会得到奇怪的 反应。这一方面是由于模型的局限,另一方面也受限于硬件资源。随着两方面的技术的 进步,将来的语音和声学模型可能会做到将多种语言混合纳入,用户因此就可以不必在 语种之间来回切换。此外,对于声学模型的进一步改进,以及以语义学为基础的语言模 型的改进,也能帮助用户尽可能少或不受词汇的影响,从而可实行无限词汇识别。 ( 5 ) 多语种交流系统的应用。最终,语音识别是要进一步拓展我们的交流空间,让 我们能更加自由地面对这个世界。可以想见,如果语音识别技术在上述几个方面确实取 得了突破性进展,那么多语种交流系统的出现就是顺理成章的事情,这将是语音识技术、 机器翻译技术以及语音合成技术的完美结合,而如果硬件技术的发展能将这些算法进而 固化到更为细小的芯片,比如手持移动设备上,那么个人就可以带着这种设备周游世界 而无需担心任何交流的困难,你说出你想表达的意思,手持设备同时识别并将它翻译成 对方的语言,然后合成并发送出去;同时接听对方的语言,识别并翻译成己方的语言, 合成后朗读给你听,所有这一切几乎都是同时进行的,只是机器充当着主角。 任何技术的进步都是为了更进一步拓展我们人类的生存和交流空间,以使我们获得 更大的自由,就服务于人类而言,这一点显然也是语音识别技术的发展方向,而为了达 成这一点,它还需要在上述几个方面取得突破性进展,最终,多语种自由交流系统将带 给我们全新的生活空间。 5 太原理工大学硕士研究生学位论文 1 2 滤波器的介绍及其在语音信号处理中的应用 1 2 ,】滤波器的介绍 滤波器是提取有用信息非常重要、非常灵活的方法,是现代信号处理的重要内容。 尤其是当前我们正处于数字化时代,数字信号处理技术受到了人们的广泛关注,其理论 及算法随着计算机技术及微电子技术的发展得到了飞速的发展,在许多领域得到了广泛 的应用。如语音、图像、雷达、通信等等,以与我们关系比较密切的手机来说,目前模 拟网已经退出了舞台,而完全由数字网代替;又如电视技术也已呈现出数字电视取代模 拟电视的趋势。数字滤波器是数字信号处理中最重要的组成部分之一,几乎出现在所有 的数字信号处理系统中,随着集成电路的发展,数字滤波器的应用必将越来越广泛。数 字滤波器没有漂移,能够处理低频信号,频率响应特性可做成非常接近于理想的特性, 且精度可以达到很高,容易集成等,这些优势决定了数字滤波器的应用将会越来越广泛。 同时现场可编程门序列( f i e l dp m g r a m m a b l eg a t ea r r a y ,f p g a ) 的迅速发展也促进了 数字滤波器的发展,并为其硬件实现提供了更多的选择。 1 2 2 滤波器的发展及现状 1 9 1 7 年,美国和德国科学家分别发明了l c 滤波器,次年导致了美国第一个多路复 用系统的出现。2 0 世纪5 0 年代无源滤波器日趋成熟。自6 0 年代起由于计算机技术、 集成工艺和材料工业的发展,滤波器发展上了一个新台阶,并且朝着低功耗、高精度、 小体积、多功能、稳定可靠和价廉方向努力,其中,小体积、多功能、高精度、稳定可 靠成为7 0 年代以后的主攻方向。导致r c 有源滤波器、数字滤波器、开关电容滤波器 和电荷转移器等各种滤波器的飞速发展,到7 0 年代后期,上述几种滤波器的单片集成 已被研制出来并得到应用。8 d 年代,致力于各类新型滤波器的研究,努力提高性能并 逐渐扩大应用范围。9 0 年代至现在主要致力于把各类滤波器应用于各类产品的开发和 研制。当然,对滤波器本身的研究仍在不断进行 7 1 。 我国广泛使用滤波器是5 0 年代后期的事,当时主要用于话路滤波和报路滤波。经 过半个世纪的发展,我国滤波器在研制、生产和应用等方面已纳入国际发展步伐,我国 6 太原理工大学硕士研究生学位论文 现有滤波器的种类和所覆盖的频率已经基本上满足现有的各种电信设备。从整体而言, 我国有源滤波器发展比无源滤波器缓慢,尚未大量生产和应用。从下面的生产应用比例 可以看出我国各类滤波器的应用情况:l c 滤波器占5 0 ;晶体滤波器占2 0 ;机械滤 波器占1 5 ;陶瓷和声表面滤波器各占1 ;其余各类滤波器共占1 3 。从这些应用比 例来看,我国电子产品要想实现大规模集成,滤波器集成化仍然是个重要课题m 。 1 2 3 滤波器在语音信号处理中的应用 语音信号处理,主要包括语音识别、语音合成、语音编码和说话人识别等四大分支, 其中,说话人识别和语音识别一样主要包括训练和识别两个阶段,训练阶段即系统的每 个使用者说出若干训练语句,系统据此建立每个使用者的模板和模型参数。识别阶段则 是由待识人说的语音经特征提取后与系统训练时产生的模板或模型参数进行比较。其 中,识别阶段的预处理和特征提取部分,对原始语音信号的滤波是必不可少的环节,在 此,采用的滤波器的种类,性质以及参数的设置对其识别结果起着举足轻重的作用。同 样,语音合成、语音编码中滤波器也是必需的部分,只要有信号处理就会有滤波器的存 在,因此在它在语音信号处理中的地位非常重要。 1 3 论文内容安排 1 在绪论中,简单介绍了语音识别的发展历史、国内外研究进展及目前语音识别 面临的难题。重点介绍了滤波器的概念、现状以及在语音识别中的应用。 2 第二章主要介绍了语音识别系统的常用技术。从一个典型的语音识别系统出发, 介绍了语音识别的基本原理,并简单介绍了预处理、特征提取、声学模型匹配技术以及 各部分的主要实现方法。重点讨论了几种常用特征参数,如线性预测系数,l p c 倒谱系 数,m e l 频率倒谱系数,过零率峰值幅度( z e r o c r o s s i n gw i t hp e a k a m p l i t u d e s ,z c p a ) 特征提取。 3 第三章简单介绍了有限冲激响应( f i n i t ei m p u l s er e s p o n s e ,f i r ) 滤波器和无限 冲激响应( i n f i n i t ei m p u l s er e s p o n s e ,i i r ) 的特性以及设计方法,特别讨论了全通传输 7 太原理工大学硕士研究生学位论文 函数的定义、性质和用途。重点基于f i r ,i i r 滤波器优势和全通滤波器的特性研究了 l a g u e r r e 滤波器,详细推导了设计l a g u e r r e 滤波器的过程,最后进行实例设计证明 l a g u e r r e 滤波器优于f i r 、i i r 滤波器。 4 第四章在第三章的基础上,利用l a g u e r r e 滤波器相比f i r 、i i r 滤波器的优势, 根据人耳的听觉特性提出了基于l a g u e r r e 滤波器的l z c p a 特征提取的方法,针对不同 噪声类型的不同词汇量分别用径向基函数( r a d i a lb a s i sf u n c t i o n ,r b f ) 和h m m 训练 识别,得到较好的结果。利用该滤波器改进的l z c p a 特征具有很好的鲁棒性。 5 第五章从两通道正交镜像滤波器的角度介绍了离散时间小波变换,然后将 l a g u e r r e 变换与离散小波变换相结合实现频率弯折小波变换,并分析了其实用价值。 6 第六章是总结与展望。对论文工作进行总结,并提出了论文下一步的工作及课 题改进。 b 太原理工大学硕士研究生学位论文 第二章语音识别系统概述 语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相 关性考虑,可以将识别系统分为3 类:( 1 ) 特定人语音识别系统:仅考虑对于专人的话 音进行识别;( 2 ) 非特定人语音识别系统:识别的语音与人无关,通常要用大量不同 人的语音数据库对识别系统进行学习;( 3 ) 多人的识别系统:通常能识别一组人的语 音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。 如果从说话的方式考虑,也可以将识别系统分为3 类:( 1 ) 孤立词语音识别系统: 孤立词识别系统要求输入每个词后停顿;( 2 ) 连接词语音识别系统:连接词输入系统 要求对每个词都清楚发音,一些连音现象开始出现;( 3 ) 连续语音识别系统:连续语 音输入是自然流利的连续语音输入,大量连音和变音会出现。 如果从识别系统的词汇量大小考虑,也可以将识别系统分为3 类:( 1 ) 小词汇量语 音识别系统:通常包括几十个词的语音识别系统;( 2 ) 中等词汇量的语音识别系统: 通常包括几百个词到上千个词的识别系统;( 3 ) 大词汇量语音识别系统:通常包括几 千到几万个词的语音识别系统。随着计算机与数字信号处理器的运算能力以及识别系统 精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的 识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别 系统的困难度。 2 1 语音识别系统描述 对于不同的识别系统要求,大体上可以划分为:( 1 ) 孤立语音和连续语音识别系 统;( 2 ) 大词表和小词表语音识别系统;( 3 ) 特定人和非特定人语音识别系统嘲。 不同的语音识别系统,尽管设计和实现的细节不同,但所采用的基本技术是相似的。 一个典型的语音识别系统框图,如图2 1 所示。 从图2 1 可以看到,语音识别系统包括预处理、特征提取、模型的训练和匹配等几 太原理工大学硕士研究生学位论文 个部分。下面分别简单的介绍一下这些技术。 图2 1 典型的话音识别系统框图 f i g u r e2 - 1b l o c kd i a g r a mo f t h ec l a s s i c a ls p e e c hr e c o g n i z a t i o ns y s t e m 2 1 1 预处理 预处理是指对语音信号的特殊处理,包括语音信号的采样,反混叠失真滤波器、预 加重器和端点检测器,有时还包括模数转换器等。下面结合端点检测的方法介绍一下语 音信号的预处理方法f s , 9 1 。 语音信号是随时间而变的一维信号,它所占据的频率范围可达1 0 k h z 以上,那么根 据取样定理则其采样频率至少为2 0 k h z ,但是对语音清晰度可懂度有明显影响的成分最 高频率约为5 7 k h z ,国际电报电话咨询委员会( i t u ) 推出的数字电话g 7 1 l 建议采样率 为8 k h z ,只利用了3 4 k h z 以内的信号分量,虽然这样的采样频率对语音清晰度是有损害 的,但受损害的只有少数辅音,而语音信号本身冗余度是比较大的,少数辅音清晰度下 降并不明显影响语句的可懂度。在实际应用中,大多数情况选用8 k h z 的取样频率。 要用计算机分析人的语音,就是要将从话筒中传来的语音信号转换成计算机能处理 的数字信号,这个从模拟量到数字量的转变过程成为模数变换,在计算机上只需要利用 声卡外接一个话筒就可以很容易地将话筒中传来的模拟信号采集后为数字信号存入计 算机,即语音信号的数字化如图2 2 所示。 图2 - 2 语音信号的数字化 f i g u r e2 - 2d i 百t a lb l o c ko f s p e e c hs i g n a l 采样前要先对语音信号进行滤波处理,其目的有两个:首先是使用低通滤波器限制 信号中频率分量超过采样频率一半的部分,以防止信号混叠干扰;其次是要用高通滤波 1 0 太原理工大学硕士研究生学位论文 器抑钳 5 0 i q z 的电源干扰。语音信号采样只是语音识别处理的开始,在此基础上要对所采 集的语音信号进行分析处理从中抽取语音识别所需的信号特征。 1 预加重 由于语音信号s ( 以) 的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在 $ 0 0 h z 以上按6 d b 倍频程跌落,所以求语音信号频谱时,频率越高相应的成分越小,高 频部分的频谱比低频部分的难求,为此要在对语音信号j ( 功进行分析之前对其高频部分 加以提升。使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪 求频谱,以便于频谱分析或声道参数分析。通常的措施是用一阶数字滤波器实现预加重, 其公式表示为 h ( 力= 1 一a z ,0 9 确定语音表达方式,将语音信号提炼成能反映语音特征并是神经网络所能接受 的某种数据形式。 网络模型选择,包括确定函数、连接方式、各神经元的相互作用等,还可以在 典型模型的基础上,结合具体语音特点,对原神经网络进行变形扩充,也可以采用多种 太原理工大学硕士研究生学位论文 网络模型结构的组合。 网络参数选择,确定输入、输出神经元的数目、多层网的层数以及隐层神经元 的数目,还有一些递归神经元等问题。 学习训练算法选择,确定网络的学习规则以及改进的学习规则,训练时还要结 合具体的算法,考虑初始化问题。 。 目前语音识别神经网络主要有多层感知器网,k o h o n e n 自组织神经网和预测神经网。 其中,径向基函数神经网络是一种性能良好的前向网络,具有最佳函数逼近性能和全局 最优特性,广泛地应用于分类、系统辨识、函数逼近和信号处理等方面】,详细介绍见 第四章。 基于人工神经网络的语音识别系统具有很大的发展空间,但普遍存在训练,识别时 间过长的缺点,目前许多学者正致力于利用神经网络同传统方法相互结合的语音识别系 统的研究并取得一定进展。 2 2 几种常用的特征提取方法 2 2 1 线性预测系数( l p c ) 线性预测分析1 羽从人的发声机理入手,通过对声道的短管级联模型的研究,得出系 统的传递函数符合全极点数字滤波器的形式,从而某一时刻的信号可以用前若干时刻的 信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方误差 ( m e a ns q u a r ee r r o r ,m s e ) 最小,即可得到线性预测系数l p c 。 根据语音产生的模型,语音信号s ( z ) 是一个线性非移变因果稳定系统v ( z ) 受到信 号e ( z ) 激励产生的输出。在时域中,语音信号j ( 功是该系统的单位取样响应哟和激 励信号e ( 功的卷积。语音产生的声道模型在大多数情况下是一个可用式( 2 - 4 ) 阐述的 全极点模型。 矿( 力:一( 2 - 4 ) ( 1 - q z 。) 1 4 太原理工大学硕士研究生学位论文 根据最小均方误差对该模型参数a 进行估计,就得到了线性预测编码算法,求得 的a 即为l p c 系数( p 为预测器阶数) 。对l p c 的计算方法有自相关法( 杜宾d u r b i n 法) 、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。 2 2 2l p c 倒谱系数( l p c c ) 在语音识别系统中,很少直接使用l p c 系数,而是由l p c 系数推导出另一种参数, 线性预测倒谱系数。倒谱实际上是一种同态信号处理方法,标准的倒谱系数计算流程需 要进行f f t 变换、对数操作和相位校正等运算,运算比较复杂。倒谱 g ) 是信号z 变 换的对数模函数的反z 变换。既然线性预测也是一种参数谱估计方法,而且其系统函数 的频率响应h ( e 扣) 反映了声道的频率响应和被分析信号的谱包络,因此,用 l o g l h ( e 扣) i 作反傅里叶变换求出的倒谱系数,应该是一种描述信号的良好参数。主要 优点是比较彻底的去掉了语音产生过程中的激励信息,主要反映声道响应,而且往往只 需要几个倒谱系数就能够很好的描述语音的共振峰特性。基于l p c 分析的倒谱系数可 以用式( 2 5 ) 来求得。 e = 吒+ 虹4 n 当1 s 玎s p + 1 k = l n - 1 + 奴q - 量n 当疗p + l ( 2 5 ) 式中,p 为预测器阶数。l p c 的倒谱系数有很好的内插性能【引,它是由l p c 系数递推 得到的,不同的是在倒频域做了截短,相当于在频域进行了倒谱窗平滑,使振峰展宽了。 实验表明使用l p c c 能提高参数的稳定性,它的主要优点是较彻底地去掉了语音产生过 程中的激励信息,主要反映声道响应。l p c c 在语音识别应用中获得了良好的效果。 2 2 3m e l 频率倒谱系数( m f c c ) 前面提到的l p c 模型是基于声管模型建立的,这种参数强烈地依赖于模型的精度, 且模型所假设的语音信号的平稳特性并不能随时满足。因此,基于声管模型的语音特征 参数的鲁棒性并不是很好,现在常用的另一种语音特征参数是基于人耳听觉的特征参 数。近年来,m e l 频率倒谱系数( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t ,m f c c ) 能够比 太原理工大学硕士研究生学位论文 较充分利用人耳这种特殊的感知特性。大量的研究表明,该系数能够比l p c c 系数更好 地提高系统的识别性能。 通过对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到 一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音 调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为掩蔽效应【1 3 1 。m e i 刻度是对这一临界带宽的度量方法之一。m e l 频率倒谱系数首先是将信号频谱的频率轴 变换为m e l 刻度,再变换到倒谱域得到倒谱系数。其计算过程如下: ( 1 ) 将信号进行短时傅里叶交换得到其频谱。 ( 2 ) 求频谱幄度的平方,即能量谱,并用一组三角形滤波器在频域对能量进行带通 滤波。这组带通滤波器的中心频率是按m e l 频率刻度均匀排列的( 间隔1 5 0 m e l ,带宽 3 0 0 m e l ) ,每个三角形滤波器的两个底点的频率分别等于相邻的两个滤波器的中心频 率,即每两个相邻的滤波器的过渡带互相搭接,且频率响应之和为1 。滤波器的个数通 常与临界带数相近,设滤波器数为膨,滤波后得到的输出为:x ( ,k = 1 ,2 ,m 。 ( 3 ) 对滤波器组的输出取对数,然后作2 m 点逆傅里叶变换即可得到m f c c 。由于 对称性,此变换式可简化为 吖 e = o e x ( k ) c o s ,r ( k - 0 5 ) n m n = l 2 l ( 2 - 6 ) i ,1 这里,m f c c 系数的个数三通常取1 2 1 6 。在谱失真测度定义中通常不用0 阶倒谱 系数,因为它是反映频谱能量的。上面所说的在频域进行带通滤波是对能量谱进行滤波, 而不是对幅度谱进行滤波。这样做的根据是考虑到一个多分量信号的总能量应该是各个 正交分量的能量之和。 2 2 4 过零率峰
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年油气管道维护与操作实务中级面试模拟题及答案
- 2025年物流师职业资格认证考试预测题解析
- 株洲管理知识培训班课件
- 福州七中2026届化学高一第一学期期末联考试题含解析
- 2025年人工智能算法工程师中级晋升面试题详解集萃
- 2025年酒店管理专业课程期末考试题库
- 2025年金融分析师考试模拟试题及标准答案公布
- 2025年建筑师面试指南模拟题与答案详解
- 2025年营养师专业考试中级模拟题及备考指南
- 2025年过氧化工艺安全操作考试试题集
- 陕鼓集团线上笔试题目
- 七年级数学下册 专题 不等式(组)中新定义运算&程序性问题(解析版)
- 娱乐场所营业日志
- 品质提升计划改善报告课件
- 《交通事故车辆及财物损失价格鉴证评估技术规范》
- NB-T35026-2022混凝土重力坝设计规范
- 我和我的祖国混声四部合唱简谱
- LYT 2085-2013 森林火灾损失评估技术规范
- GB/T 26527-2024有机硅消泡剂
- 业主授权租户安装充电桩委托书
- 信息安全技术 电信领域数据安全指南
评论
0/150
提交评论