已阅读5页,还剩58页未读, 继续免费阅读
(计算机软件与理论专业论文)基于hmm和代数神经网络的连续语音识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在当今这个信息时代,随着计算机技术突飞猛进的发展,各种智能化机器也走进了 人们生产生活的各个方面,致使人们渴望与机器之间的交流能像人与人之间的交流一样 自然流畅。这种需求使语音识别越来越被关注,并有着广阔的发展前景。有着广泛社会 效益和经济效益的语音识别技术的研究,虽然也取得了一定的成果,然而其在从实验室 走向实用化的过程中还存在很多问题。人们仍需对语音识别的算法、理论进行深入的研 究,使语音识别系统能够真正实用化。 本文以提高连续语音识别系统的识别率为目的,对语音识别理论基础进行全面研 究,并将一种新型的前馈型神经网络算法一代数算法引用到语音识别中,对此学习算 法进行了深入地分析,通过仿真实验将代数神经网络与传统的b p 神经网络算法进行对 比,证明其各项性能都要优于b p 神经网络。在此基础上,考虑到t t m m 有较强的时域建 模能力,但分类能力差;而代数神经网络恰恰相反,其分类能力强,但对动态时间信号 的描述能力却不尽如人意的特点,将代数神经网络与隐马尔可夫模型相结合,用代数神 经网络代替隐马尔可夫模型的高斯混合器计算观察概率,以弥补隐马尔可夫模型和代数 神经网络各自的不足。最后,完成了基于本文混合模型的非特定人小词汇量连续语音识 别系统的设计和实现,通过大量试验验证了此混合模型的有效性和适用性。 本文对语音识别系统各部分进行了深入的研究和实践,特别从识别方法上作了探索 性的工作,取得了一定成效,为语音识别研究奠定了基础。 关键词:语音识别,人工神经网络,隐马尔可夫,代数算法 t h er e s e a r c ho fs p e e c hr e c o g n i t i o nb a s e do n a l g e b r aa l g o r i t h ma n dh m m a b s t r a c t i nt o d a y si n f o r m a t i o na g e , 谢t l lt h er a p i dd e v e l o p m e n to fc o m p u t e r s ,a l lk i n d so f i n t e l l i g e n tm a c h i n e sh a v ea l s oe n t e r e d a l l a s p e c t so fo u rl i f e ,c a u s i n gp e o p l ee a g e rt o c o m m u n i c a t e 、析t l lt h em a c h i n e sc a nb ea sn a t u r a la st h ef l u i de x c h a n g eb e t w e e np e o p l e d u e t ot h ep r a c t i c a lv a l u es p e e c hr e c o g n i t i o nh a sr e c e i v e dm o r ea n dm o r ea t t e n t i o nr e c e n t l y s p e e c hr e c o g n i t i o nh a sab r o a ds o c i a la n de c o n o m i cb e n e f i t s ,a n dh a sa c h i e v e ds o m ee f f o r t s , b u ti ts t i l lh a sm a n yp r o b l e m si nt h ep r o c e s so fp r a c t i c a l i t y p e o p l ea l s on e e dd e e p l y r e s e a r c ht h et h e o r ya n da l g o r i t h m so ft h es p e e c hr e c o g n i t i o nt om a k ep r a c t i c a lu s e i n go f t h e m i nt h i sp a p e r , f o ri n c r e a s i n gt h er a t eo ft h e s p e e c hr e c o g n i t i o n ,i th a sp r o v i d e da c o m p r e h e n s i v es t u d yo ft h e o r e t i c a lb a s i sf o rs p e e c hr e c o g n i t i o n a n di t i n t r o d u c e san o v e l l e a r n i n ga l g o r i t h m a l g e b r an e u r a ln e t w o r k f r o me x p e r i m e n tr e s u l t ,t h ea l g e b r aa l g o r i t h m c o m p a r e dw i t ht h eb a c k p r o p a g a t i o na l g o r i t h mi sm u c h b e t t e r h m mh a st h es t r o n gt i m ed o m a i nm o d e l l i n ga b i l i t y , b u tt h ec l a s s i f i c a t i o ni sw e a k ;w h i l e t h ea l g e b r an e u r a ln e t w o r ki sj u s tt h eo p p o s i t e ,i th a ss t r o n gc l a s s i f i e da b i l i t y i no r d e rt o o v e r c o m et l l e i rf a u l t s ,a l g e b r an e u r a ln e t w o r ka n dh m mi sc o m b i n e di nt h i sp a p e r t h e a l g e b r an e u r a ln e t w o r ki n s t e a do ft h eg a u s sm i x e rt oc a l c u l a t et h eo b s e r v a t i o np r o b a b i l i t y f i n a l l y , i td e s i g nas m a l l - v o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o ns y s t e mb a s e do nt h e m i x e dm o d e l ,t h r o u g he x p e r i m e n t a lv e d 匆t h ev a l i d i t ya n ds e r v i c e a b i l i t yo ft h em i x e dm o d e l t h ei n - d e p t hs t u d ya n dp r a c t i c eh a v eb e e nc o n d u c t e di nt h i sp a p e r , e s p e c i a l l y , t h e e x p l o r i n gw o r k s a b o u tr e c o g n i t i o nm e t h o d sh a v e b e e n m a d e ,a n dh a v em a d ec e r t a i np r o g r e s s , w h i c hw i l ll a i daf o u n d a t i o nf o rt h es p e e c hr e c o g n i t i o nr e s e a r c h k e y w o r d s :s p e e c hr e c o g n i t i o n ,a r t i f i c i a ln e u r a ln e t w o r k ,h m m ,a l g e b r aa l g o r i t h m 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许 论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论 文收录到中国学位论文全文数据库或其它相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名: b f 口 指导教师签名 加居 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西 北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 3 匕 恧。 学位论文作者躲蔫亳 细o 年孑月 西北大学硕士学位论文 1 1 本课题的研究背景和意义 第一章绪论 语言是人类特有的功能,是人们进行交流,获取外界信息最直接、最自然的工具。 用声音传递信息显然比用文字和视觉传递信息效果要好很多。因此,语音是人们之间进 行感情交流和思想沟通最主要的途径。 在当今这个信息时代,计算机已经渗透到人们工作、学习、生活的各个领域。人与 机器之间的交流也越来越广泛。在人们已经逐渐习惯通过计算机来完成各项事务的同 时,对计算机的智能化要求也越来越高。在这种情况下,如何让机器智能化地与人进行 通信,理解人的自然语言,建立更加自然方便的人机交互界面成为现代计算机科学的重 要研究课题之一。 语音识别是人机交互的一个重要领域,以语音信号为研究对象,将人发出的声音、 音节或短语转换成文字和符号,或者给出响应,如执行命令、做出回答等掣1 1 。语音识 别在文化、教育、工业、金融、商业等方面,特别是在计算机、自动化控制、信息处理 等领域有着极为广泛地应用1 2 j 。 语音识别技术有着广泛的应用前景。在日常生活方面,它可以使我们在使用计算机 的时候丢掉键盘鼠标,直接用语音控制机器进行操作。最常见的产品是手机的语音拨号 功能。工业控制方面,在一些比较恶劣的环境,如高温、有辐射的这些不方便靠近的地 方,可以用语音来控制机器进行相应的工作。 非特定人大词汇量连续语音识别是语音识别的最高技术,它能够使机器与人之间的 交流如同人与人之间的对话一样自然流畅。非特定人大词汇量连续语音识别可以应用于 数据库检索系统、打字机及语音控制系统等方面。在数据库检索中,可以代替费时费力 的人工检索,直接用语音对数据库进行操作。语音数据库检索可以应用在档案检索、银 行业、医疗卫生、旅游业、教育部门等。语音打字机可以使人们在打字的时候脱离键盘, 直接语音操控,计算机将人所说的语音内容直接转变为相应的文字及符号。这种语音打 字机可以使肢体残疾的人比较方便地操作打字机,也可以减轻排字工人的工作量。语音 控制,提供了一种方便快捷的控制方法,特别是对盲人及上肢残疾的人p j 。 小词汇量连续语音识别也具有重要的研究意义,在语音拨号、语音导航、家电的语 音控制方面有很大的应用价值。此外,小词汇量连续语音识别和非特定人大词汇量连续 第一章绪论 语音识别的理论和方法有着千丝万缕的联系,对大词汇量连续语音识别的研究有借鉴作 用。 连续语音识别具有广泛的社会效益和经济效益,已经取得了很大的成就,但在实用 化方面还存在一些的问题。环境噪声对发音人的语音特征影响很大,发音人的身体状况、 情绪也会影响语音特征,从而使语音难以识别。因此,要实现语音识别系统的实用化, 人们还得不断研究语音识别的算法理论,提出一些具有创新性和实用性的新技术、新方 法来解决语音识别中存在的问题,从而设计出具有更高鲁棒性、可靠性和识别率的语音 识别系统。 1 2 语音识别的发展历史及现状 语音识别的历史源于2 0 世纪5 0 年代。1 9 5 2 年a t & t 贝尔实验室研发的a u d r y 系 统,是世界上第一个能识别十个英文数字的系统【4 】,标志着语音识别研究的开始,其 识别率达到了9 8 。 6 0 年代,语音识别随着计算机的广泛应用取得了进一步的发展。一些语音识别思 想开始浮出水面,日本学者i t a k u r a 提出了动态时间规整算法( d t w :d y n a m i ct i m e w a r p i n g ) 和线性预测技术( l p c ,l i n e a rp r e d i c t i o n ) ,这两种算法的引入,解决了语音信号 不等长匹配和特征提取问题,很大程度上减少了语音时间不一致问题。 7 0 年代,语音识别在理论和实践上都取得了重大突破。动态时间规整技术基本成 熟,线性预测技术也得到了进一步的发展。这一时期还进一步提出了矢量量化( v q , v e c t o rq u a n f i z a t i o n ) 技术,美国c m u 大学j k b a k e r 将隐马尔可夫模型( h m m ,h i d d e n m a r k o vm o d e l s ) 用于语音识别领域。同时,特定人小词汇量的孤立字语音识别已经初具 规模。 语音识别一个重要历史就是7 0 年代美国国防部资助的一项1 0 年计划d 删 计划,由于这个计划的推动,8 0 年代大词汇量语音识别系统得到了蓬勃发展。 8 0 年代,语音识别进一步走向深入,隐马尔可夫模型得到进一步完善和成熟。这 一时期语音识别研究思路从基于标准模板匹配转向了基于统计模型( h m m ) 【5 1 。比较典型 的是s p h i n x 系统,由卡耐基梅隆大学研发,它是第一个非特定人、大词汇量的连续语 音识别系统。 8 0 年代还有一个重要技术就是人工神经网络( 舢州,a r t i f i c i f ln e u r f ln e t w o r k s ) t 6 】 开始应用于语音识别领域。人工神经网络用于语音识别早在5 0 年代已经开始,但是当 2 西北大学硕士学位论文 时并不十分成功。随着基础理论的牢固深入,神经网络识别算法的性能不断得到提高, 从而比较成功地用于语音识别。人工神经网络主要是与h m m 相结合后用于语音识别系 统,实践证明了其结合后用于语音识别系统的有效性。 目前语音识别已经达到相当高的水平,随着多媒体时代的来临,语音识别系统已经 由实验室走向产品化。许多发达国家如美国、日本、韩国以及m m 、a p p l e 、a t & t 和 n t t r i b e n 等著名公司都为语音识别系统的实用化开发研究投以巨资。其中m m 公司 于1 9 9 7 年开发出汉语v i a v o i e e 语音识别系统,次年又开发出可以识别四川话、广东话 和上海话等地方口音的语音识别系统v i a v o i e e 9 8 ,其失误率在5 以下,是目前具有代 表性的汉语连续语音识别系统。 我国语音识别研究真正开始是在2 0 世纪7 0 年代,起步比较晚,但近年来也发展很 快,取得了丰富的成果。自8 6 3 计划以来,专门为语音识别立项,每两年滚动一次。现 在该研究水平已基本与国外同步。 在对汉语的语音识别方面,我们拥有自己的特点和优势。中科院和上海交通大学等 其他高校也都有自己的实验室专门进行语音识别研究。在1 9 9 8 年的8 6 3 测试评比中, 清华大学电子工程系以王作英教授为首的课题组完成的大词汇量连续语音识别系统的 字识别率达到了9 0 以上,句子的正确率达到了6 2 5 。在汉语小词汇量语音识别及应 用方面,清华大学电子工程系以刘润生教授为首的课题组也已推出了基于非特定人汉语 数码语音识别的语音拨号电话机,并继续致力于语音识别专用芯片的设计研究。 中科院自动化所推出的声纹识别产品,是目前国内推出的最优秀的产品之一,具有 良好的性能。在2 0 0 2 年其与p a t t e k 公司共同推出的产品p a 仕出s r ,结束了汉语语 音识别产品由国外垄断的历史。 1 3 语音识别存在的问题 尽管语音识别技术的研究工作已经有了半个世纪的历史,各个国家也开发出不少语 音产品,但语音识别产品的最终目的是让机器“听懂人说的话,现在离这个目标还有 一定距离,从实验室走向实用化的过程中还存在各方面困难【3 7 】,表现在: ( 1 ) 自适应性方面,语音识别系统对环境的依赖性比较大,般语音训练都是在特 定环境下进行的,离开了这个环境,系统性能就急剧下降,但是全世界有几百种语音, 每种语言又有多种方言,同种语言的方言在语音上都相差悬殊,在这方面,语音识别技 术有待进一步改进,使能够做到语音识别不受特定人、方言或者口音的影响。 3 第一章绪论 ( 2 ) 健壮性方面,在噪声环境下语音识别比较困难。环境噪声的平稳、非平稳,声 学环境是否有回声等都会带来信号的极大差异。个人可以有意识的屏蔽噪音获得自己所 需要的特定声音,要让语音识别系统达到这一点,就需要我们不断努力,寻找更好的信 号分析处理及语音识别技术。 ( 3 ) 体态表达难以利用,有时人们用眼神、面部表情、手势动作来表达自己,这些 对于语音识别系统就较难加以利用。这些信息的提取非常困难。 ( 4 ) 上下文关联。相同字母受上下文环境的影响可能有不同的语音特性。单词或其 一部分在发音中的重音、发音速度和音调也有可能不同,这些使词与词分割比较困难。 ( 5 ) 人类有中枢神经所控制的知识积累、听觉理解和联想判断机理等。我们对这方 面的认识还很不深入。把这方面成果用于语音识别,将是一个比较艰难的过程。 ( 6 ) 把语音识别系统从实验室转化到商品还有许多具体问题需要解决,如从连续的 语音中去除如“唉 、“啊”、“呀 等语音,获得真正待识别的语音部分,以及识别速度 等技术问题【8 】。 1 4 本文研究目的及思路 许多语音识别产品已经深入到人们社会生活的各个领域,随着使用人群的增多和使 用范围的扩大,对语音识别产品识别率和健壮性有了更高的要求,对识别内容的要求也 从简单的口令提高到要能用于日常生活工作中,而且语音识别系统要能被广泛的使用, 就必须有高的识别率和健壮性。 本文主要是基于汉语的连续语音识别研究,目的在于提高连续语音识别系统的识别 率和健壮性。本文的主要创新点是: ( 1 ) 将一种新型前馈型神经网络算法一代数算法引用到语音识别中,并经仿真实 验证明其性能优于传统的反向传播( b p ,b a c kp r o p a g a t i o n ) 神经网络算法。 ( 2 ) 以语音识别的基本理论为基础,根据h m m 有较强的时域建模能力,但分类能 力差;而代数神经网络分类能力强,但对动态时间信号的描述能力却不尽如人意的特点, 将两个模型结合以弥补各自缺点来提高系统的识别性能,并对该混合模型的理论依据、 设计思想、训练和识别算法进行分析研究。 ( 3 ) 在上述工作基础上,完成了基于本文混合模型的小词汇量连续语音识别系统的 设计和实现,并通过大量实验证明了本文所提出的新的混合模型的有效性和适用性。 4 西北大学硕士学位论文 1 5 章节安排 本文章节安排如下: 第一章,绪论。介绍本课题的研究背景和意义,国内外研究历史及现状,对目前语 音识别所面临的问题进行调研和总结,最后阐明了本文的研究思路及文章的组织结构。 第二章,语音识别系统理论概述。研究了语音识别的过程,讨论了声学单元的选取、 预处理和特征提取等主要技术,并简要介绍对比语音识别技术常用的几种方法。 第三章,基于代数神经网络的语音识别方法。介绍了人工神经网络的结构、学习方 式和学习算法,并重点介绍引进的代数神经网络的理论以及其在语音识别中的应用,研 究分析利用代数神经网络进行训练和识别的具体实现。最后通过仿真实验证明了代数神 经网络的性能优于传统的b p 神经网络。 第四章,混合模型在语音识别中的应用。分析隐马尔可夫模型的三问题及三个解决 方法,提出将隐马尔可夫模型( h m m ) 和代数神经网络模型相结合,分析研究该混合模 型的理论依据、设计思想、训练和识别算法。 第五章,小词汇量连续语音识别系统的设计实现。给出系统的具体实现方案和实验 结果。证明了本文所提混合模型的适用性。 第六章,总结与展望。对本文主要工作进行总结,对语音识别的未来做出展望。 5 西北大学硕士学位论文 第二章语音识别系统概述 2 1 语音识别系统的结构和分类 2 1 1 语音识别系统的结构 语音识别是让计算机“听懂 人的话,并作出相应反应的技术。说话人识别是利用 语音信号中能反应说话人特点的信息来对说话人的身份进行确定,强调个人信息而忽略 语音中的语义信息;与说话人识别不同,语音识别技术主要是针对语音信号中的语义内 容而进行识别。 语音识别的过程是首先根据系统模型选择合适的识别算法,再利用语音信号处理方 法提取能较好反映语音特点的特征参数,然后进入训练阶段和识别阶段。在训练阶段, 选择一组适合本识别系统的数据,结合系统参数初始值对系统的参数进行调整,使系统 更适合所选数据的识别,来提高识别率,最后将训练过的这些参数存储起来,形成模板; 在识别阶段,将需要识别的数据与存储的参考模板一一进行比较,如果两者的距离小于 事先给定的阈值,则输出该模板的识别结果。 典型的语音识别系统的实现过程如图2 1 所示。 图2 1 语音识别系统图 2 1 2 语音识别系统的分类 根据不同的标准,语音识别系统存在不同的分类方式【9 】。 ( 1 ) 按词汇量大小可分为小词汇量、中词汇量和大词汇量语音识别系统。一般情况 下,小词汇量语音识别系统是指能识别1 砣0 个词汇的系统,中词汇量系统能识别 2 0 , - , 1 0 0 0 个词汇,大词汇量系统能识别1 0 0 0 个以上的词汇。 ( 2 ) 按发音方式可分为孤立词语音识别、连接词语音识别、连续语音识别和理解会 7 第二章语音识别系统概述 话语音识别系统等。孤立词语音识别系统指说话人在发音时,每次只说一个词、一个词 组或一条命令让系统识别;连续语音识别系统能识别连续的句子,比如朗读一段话进行 识别;连接词语音识别是指十个数字( 0 9 ) 或少数指令构成的识别,它介于孤立词和连 续语音识别系统两者之间,与连续语音识别系统最大的区别就是音与音之间有停顿;理 解会话语音识别是更高级的语音识别系统,它们以最直接的自然语音进行输入,然后只 需要理解语句的意思,不必完全识别内容。 ( 3 ) 按对说话人依赖程度可分为特定人和非特定人语音识别系统。特定人语音识别 系统比较简单,只对专人的语音进行识别,识别率比较高,但在使用前必须输入大量发 音数据进行训练;非特定人语音识别系统在系统构建成功后,不需要事先输入大量数据 训练,即可使用。这种非特定人系统有比较好的通用性,但其识别率不容易提高。 2 2 语音识别单元的选取 识别单元的大小即声学单元大小对语音训练所需的数据量和识别率都有较大的影 响。可供选择的声学单元包括有音素、声韵母、半音节、音节、词等。在连续的语音 中因为词与词之间的相互影响比一个词内的音素或音节的相互影响要小很多,所以对于 连续语音识别系统,选择词作为基本声学单元,对简化系统结构和训练过程来说是很有 效的。但随着词数目的逐渐增加,选用词作为声学单元建模并不合理【1 0 】,原因有两方面: 第一,不能充分训练各种音联关系:要使得到的模型可靠,就必须将每个词的各种音联 关系训练多次,使得训练的样本足够多。假设系统包括1 0 0 0 个词,每个词与前面有3 0 种音联关系,与后面有2 0 种音联关系,要使每个词在各种音联关系下都出现一次,二 词组合就需要3 0 1 0 0 0 2 0 = 6 0 0 0 0 0 种,那么就需要设计出大量的句子和短语来包括这 些音联关系。显然,训练样本如此之多,训练就会很困难。第二,选用词作为基本声学 单元,各音素在词内重复出现,这需要更多的不必要的存储量和计算。所以在连续语音 识别系统中,采用词作为识别单元是不合适的,一般采用较小的识别单元。 音素这一较小的识别单元,经常被西文的语音识别系统采用。因其作为识别单元具 有如下特点: ( 1 ) 鲁棒性,音素作为识别单元能充分体现语音中的共性,可以适应不同的语音环 境,稳定性比较好。 ( 2 ) 灵活性,能够比较灵活的组成各种语音单元。 ( 3 ) 音素集是一个不大的有限集,运用起来十分方便。 8 西北大学硕士学位论文 在西文语音识别系统中,基本上用4 0 5 0 个较常用的音素就可以描述所有单词。以 音素为识别单元,训练的样本可以得到可靠的模型,而且各种声学单元之间的音联关系 都将被覆盖。 与书面语言不同,口头语音并不是机械地将语音单元如音素、音节和词串连起来。 一个语句由一串音素组成,但是一串音素并不是一个语句。音素对其上下文敏感性很强, 容易受到前后相邻的语音的影响而发生变异。连续语音中的相邻的语音单元经常互相渗 透、彼此重叠,产生协同发音( c o a r t i c u l a t i o n ) 现象【1 1 1 。一个音素的发音还没到位就又开 始后面音素的发音,识别单元受其前后识别单元发音的影响较大。人耳对这种现象很容 易就可以辨识出,但对于语音识别器来说,这种现象引起的问题会严重影响其识别效果。 协同发音现象会影响音素的稳定性,使同一发音在不同的上下文中产生较大差别的频谱 特征,削弱各音素的特性。 通过建立上下文相关的音素模型便可以捕捉协同发音。我们通常考虑的上下文相关 音素,上文m 个音素,下文n 个音素。如果m 和n 较大,那么模型数目就比较多, 复杂度就变高。并且m 和n 越大,音素间发音的相互影响也会越小。考虑到这些原因, 我们寻找了一种比较简单并且有效的模型三音素模型【1 2 1 ,这种模型只考虑每个音素 相邻的前后各一个音素。三音素与单音素相比,其可以描述连续发音的变化,并且能够 更加细致地刻画语音的内部结构。 用符号“a - b + c ”表示三音素模型,b 表示一个单音素;a 表示上文音素,与b 用“ 相连;c 表示下文音素,与b 用“+ 相连。可见,我们可以根据单音素的真值文本来 构造三音素的真值文本,将单音素文本直接扩展成三音素的文本。 将一句话转换成一个三音素的序列,有两种词的边界处理方式:一种是只考虑一个 词它自己内部的关联性,不考虑词之间的上下文相关性。另一种是考虑词与词之间的相 关性。本文采用三音素作为声学单元,选用第一种词边界处理方式。这种方式大大减少 了模型的数量,有效降低系统复杂性,从而提高了连续语音识别系统的效率。 2 3 语音信号的预处理 n y q u i s t 采样定理:在模拟信号的频谱带宽有限的情况下,比如不包含高于厶的频 率成分,那么用不小于2 厶的采样频率进行采样,就能从采样得到的信号中恢复出原模 拟信号【1 3 】。依据此定理,为了精确表示语音信号,采样频率应该等于或大于2 0 k h z 。但 9 第二章语音识别系统概述 实验结果表明对语音可懂度和清晰度有明显影响的最高频率约为5 7 k h z 。所以在实际 应用中并不需要那么高的采样频率,常用的采样频率为8 k h z ,1 0 k h z ,1 6 k h z 。 语音信号在采样之前要先进行预滤波,然后按一定采样频率进行采样,得到离散的 时域语音信号,再由a d 变换器将得到的时域信号变换为1 6 位二进制的数字信号。其 过程如图2 2 所示。 图2 2 语音信号的数字化 语音信号预处理还包括预加重、加窗分桢和端点检测等。 2 3 1 语音信号的预加重 预加重的目的是滤除低频干扰,提升语音信号高频部分,使信号的频谱变得平坦, 便于进行声道参数或频谱分析。其做法是将信号通过预加重滤波器,预加重滤波器传递 函数为【1 4 】: 日( z ) = 1 一舷- 1 ( 2 1 ) 语音信号s g ) 是预加重前的,s ( 力) 是经过预加重滤波器后得到的信号,那么: s ( n ) = s ( n ) 一a ( n 一1 ) ( 2 2 ) 通常系数a 在0 9 至l 之间选取【1 4 】,本文取a = o 9 3 7 5 。图2 3 所示为语音信号预加 重前后的对比。 2 3 2 加窗分桢 语音信号本身随时间而变化,是一个非平稳过程,我们为了能对其进行分析,一般 认为在l o m s 3 0 m s 内是平稳的。以下分析都是建立在这个假设的基础上。 分帧可以采用连续分段,也可交叠分段。为了保持连续性,使帧与帧之间平滑过渡, 我们一般采用交叠分段的分帧方法,前一帧和后一帧的交叠部分称为帧移,一般为窗长 的一半。帧长与帧移的关系如图2 4 所示。 加窗处理就是用一个有限长度的窗函数截取其中一段语音信号,将语音信号分成若 干帧的一种手段。加窗的时候,窗口的不同选择将会影响语音信号的分析结果。窗函数 1 0 西北大学硕士学位论文 的选择要考虑两点:形状和长度。 刁 趔 1 n 匝 吾 卫 、 犁 1 _ 量 时域 频率( h z ) 顾加重前帧颀加重前 频率( h z ) 顾加重后 0 0 5 0 加0 5 i 1 i 卯0 01 0 0 0 01 5 0 0 0 帧顾加重后 图2 3搿7 一的预加重前后对比图 图2 4 帧长与帧移关系图 常用的窗函数有矩形窗、汉宁窗和汉明窗,它们的表达式如下( n 为帧长) 【1 6 1 : 矩形窗: 汉宁窗: f 1 吣卜t o 0 n n 一1 其他 以刀) = 0 0 5 1 1 c o s ( 2 r t 刀i ) 】 1 1 ( 2 3 ) 0 n n 一1 ( 2 4 ) 其他 n 一 第一 * 一章$ 肯m 别系统概述 汉明窗: 州n ) = :5 4 一。4 6 + c 0 5 2 ”。7 一1 鉴一伫s , 窗函数长度越人,对信号的平滑作用越明显,但信号的变化细节就不容易看出来z 长度越小,就不能得到平滑的短时信号。所巳上要选择合适的窗函数长度。本文采丰1 = 频率 为8 k h z ,所以n 在1 0 0 - 2 0 0 量级比较合适( 也就是1 0 m s 一2 0 i n s 持续对问) 。如图2 5 为 数字9 ,加窗分帧效果图。 233 端点检测 0 5 0 旬5 - 1i ll _ rl 0 5 0 1 0 01 5 。2 强2 5 数字“9 ”加宙分帧效果图 端点检测就是通过某种方法找到语音的起点和终点。找到起点和终点才能采集到 真正要识别的语音信号,这样就能减少运算量和存储量,也能提高识别率t “】。端点检测 算法主要是利用能量和过零率这些特征参数来判别清音、浊音和噪音i “l 。常用的有以下 几种端点检测方法。 ( 1 ) 短时能量 清音段相对于浊音段能量小很多,短时能量方法利用这一点对两者进行区别,清音 比浊音的幅度小很多因此可以在高信噪比的情况下,用短时能量来判断有没有语音。 清音和浊音的变化时刻可以用能量函数大致定出。n 时刻语音信号忙0 h 短时能量的定 义如下: e :宝i x ( m ) 叫一) 2 :主【j ( m ) h n - m ) z ( 26 ) + 】 西北大学硕士学位论文 式( 2 6 ) 中m 是窗长,以,l m ) 是窗函数。窗函数可以选任一种,但窗函数长度对 语音信号幅度变化的反映起着决定性作用。在特殊情况下,当语音段的开始和结束都是 短时能量很小的弱摩擦音、爆破音或鼻音时,只依靠短时能量来进行语音段的起止点检 测往往就会漏掉语音信号起始和末尾的这些音素1 7 1 。图2 6 为汉语“背景”的短时能量 函数图。 删 口口 d 皿! i , 蜊 图2 6 汉语“背景一的短时能量 ( 2 ) 短时平均过零率 过零率指单位时间内过零的次数,离散信号相邻样值符号不同时,便是过零现象; 而对于连续语音信号,时域波形通过时间轴即意味着过零。高频过零率高,低频过零率 就低。而语音产生模型表明,浊音能量主要集中在3 k h z 以下低频部分,清音能量集中 在高频上。就是说,过零率高的语音信号是清音;过零率低的信号是浊音。短时平均过 零率定义为【1 7 】: 乙= is g n x ( n ) - s g n x ( n - d 1w ( n - m ) ( 2 7 ) 式( 2 7 ) 中,s g n 】是符号函数,定义为: s g n x ( n ) ,= 器磊冀 短时平均过零率只能粗略的区分清音和浊音。图2 7 为语音“背景 的短时平均过 零率函数图。 ( 3 ) 双门限法 双门限端点检测法是一种基于能量一过零率的两级判决法【1 8 1 ,基于双门限的端点检 测的工作原理是:用短时能量和短时过零率共同进行端点的检测。利用短时能量检测浊 1 3 第二章语音识别系统概述 _ 1 ; 脚 捌 轷 阱 1 , 蜊 图2 7 汉语“背景”的短时平均过零率 音,利用短时过零率判断清音。因为语音信号在开始时能量都比较大,所以先设一个较 高的短时能量门限用来确认语音的开始,然后再取一个较低的短时能量门限巨来确 认语音真正的起点和终点;同时采用一个较低的过零率门限乙来判断语音的间隔。图 2 8 为双门限法示意图。 z c lb ia l a 2b f 2 图2 8 双门限法示意图 根据高门限毋可判定a l 和a 2 之间是语音段。根据较低门限& 可以判断b l 和b 2 之间可能是语音段,同时结合过零率的门限乙确定,语音的精确起始点为c i 、c 2 点。从 图2 8 可以看出, c l b l 、b 2 c 2 段由过零率检测出为清音段而b l b 2 段由能量检测出为 浊音段。 双门限端点检测的流程图如图2 9 所示。 1 4 西北大学硕士学位论文 图2 9 双门限端点检测的流程图 如图所示,端点检测分为四段:静音段、过渡音段、语音段、结束。如果语音的能 量或过零率超过了低门限,就进入过渡音段。在过渡段中,两个参数中的任何一个超越 了高门限,就标记起点,确信进入语音段。如果两个参数都降低到低门限以下,就将当 前状态恢复到静音状态。如果当前状态之前是语音段,此时能量和过零率这两个参数的 数值均降到低门限以下,并且持续时间大于设定的最长时间门限,那么就认为语音结束 1 5 第二章语音识别系统概述 了,返回到参数数值降低到低门限以下的时刻,标记结束点。一些突发性的噪声如物体 的碰撞,门窗的开关等也可以引起短时能量或过零率的值变高,但是常常不能持续足够 长的时间,这些都可以通过设定最短时间门限来判断。 本文采用双门限法,图2 1 0 是连续汉语数字“5 2 1 7 的端点检测运行结果。 2 釜 2 墨1 。: 乱: 。 i i f 。一ff ill i l i r lil i 、 乞 o - 。 瑚4 0 0 2 4 特征参数提取 图2 1 0 汉语数字。5 2 1 7 ”的端点检测运行结果 特征参数提取是语音识别系统的主要步骤。它是去除语音信号中的冗余信息,提取 出对语音识别有用的特征参数的过程。其实质是起着降维的作用。 特征参数的选取对识别效果有很大的影响,是成功的关键。选取特征参数的标准是: ( 1 ) 能有效的表征语音的特性,包括听觉特性和声道特性;( 2 ) 计算要方便,最好有高效 的计算方法,以保证实时性;( 3 ) 各阶参数之间应有良好的独立性,而且在保证高识别 率的前提下维数要尽可能小。 语音特征包括高层特征和低层特征。高层特征有幅度、清澈度、活跃度和沙哑度【1 9 】 等,目前还没有好的方法将这些特征定量化,因此高层特征还没有得到很好的应用。现 在主要依靠低层特征进行语音识别2 0 1 。比较常用的语音特征参数有线性预测系数( l p c ) 、 线性预测倒谱系数( l p c c ) 和m e i 频率倒谱系数( m f c c ) 。 2 4 1 线性预测分析( l p ) 线性预测分析( l p ,l i n e a rp r e d i c t i o n ) 是语音处理中的核心技术,是一种对语音信号 1 6 西北大学硕士学位论文 的分析技术。其基本思路是去掉语音信号中的冗余部分,提取出能代表语音的参数,利 用语音信号之间的内在特征,使能通过过去的样点值来预测未来的样点值2 1 1 。对实际语 音和线性预测进行抽样,计算两者之间的均方误差,均方误差最小值便能唯一决定所需 的线性预测系数。 人从喉咙到嘴这一段的发音腔用若干个前后连接的声管来模拟,这些声管组成声管 模型2 2 1 。全极点线性预测模型( l p c ,l i n e a rp r e d i c t i o nc o e f f i c i e n t ) 是声管模型的一种。 人的发音是非平稳的时变信号,但在l o r e s 到3 0 m s 内可看作是平稳变化的,能得到一 组近似平稳的语音信号。 在声管模型中,信号的激励源由肺部气流的冲击而产生,浊音( v o w e l ) 对应于周期 信号对声管的激励,清音( c o n s o n a n t ) 对应于无规律的白噪声对声管的激励。每一个极点 对应一段声管。为了比较清晰地描述所要识别的语音信号的特征,一般选取1 2 1 6 个极 点。l p c 模型如图2 1 l 所示。 基音频率 1r 数字脉冲序 声门脉冲 a 模型g ( z )弋y 尸 辐 列发生器 清音浊音1 久 道 射 开关 i vr 模 模 型 型 伪随机噪 声发生器 ,c。久 弋y s ( n ) 语音信号 图2 1 l 语音信号的声管模型 下面是l p c 系数的计算过程【2 3 】: 在线性预测编码- 器( l p c ) 系统中,可以用前p 仑样本的线性组合表示采样点行的输 出s ( n ) : s ( ,1 ) a l s ( n 一1 ) + 口2 ( 万一2 ) + + 口p s ( n p ) ( 2 9 ) 其中,口,口:口p 是常数,若考虑冲击化响应,式( 2 9 ) 改写为: s ( 刀) 杰q s o j i ) + 劬( ,1 ) ( 2 1 0 ) 上l 1 7 第二章语音识别系统概述 式( 2 1 0 ) q b ,p 表示极点的个数,g u ( n ) 表示增益系数与归一化冲击响应的乘积。 式( 2 1 0 ) 的z 域表达式为: s ( z ) :羔吼z t s ( z ) + g u ( z ) k = l 设系统的传递函数2 4 】为: 一器2 面1 2 丽1 ( 2 1 1 ) ( 2 1 2 ) l p c 模型的参数分别为:浊音的音调周期、清音浊音判断、增益常数g ,这些参 数在短时间内可以看作是稳定的常数,但实际上是缓慢变化的。图2 1 1 中,h ( z ) 是 由辐射模型和声道模型连接组成的,是一个短时平稳的滤波器。由清音浊音开关对 h ( z ) 的激励进行控制:当为清音语音时,受白噪声序列的激励的影响,激励信号是增 益系数g 和白噪声的乘积,n ( z ) 由随机数发生器完成;当为浊音语音时,受冲击序列 影响,各冲击之间的间隔为基因周期。 定义信号输出估计为: p s ( 万) = akj ( 刀一k ) ( 2 1 3 ) f 1 3 式( 2 1 3 ) 得出估计误差: p ( 刀) :s ( 以) 一;( 忍) :s ( 玎) 一圭口。s ( 力一七) ( 2 1 4 ) 相应的误差传递函数为: 特等小鼢- ( 2 1 5 ) 若s ( n ) 完全由图2 1 l 线性系统产生,则线性预测误差等于增益与激励的乘积。 p ( 刀) = g u ( n ) ( 2 1 6 ) 定义起点为r l 的误差信号( m ) 和短时语音信号( m ) 分别为: 巳( 聊) = p + 坍) 瓯( 聊) = s 伽+ m ) 1 8 ( 2 1 7 ) 西北大学硕士学位论文 则误差的平方和为: e :( m ) : ( m ) 一圭吼已( 聊一七) 】z ( 2 1 8 ) m肘k = 1 分别对式( 2 1 8 ) l p c 各阶系数口。,a 2 ,4 p 求导,令其分别等于零。 磐:o ,七:1 2 印 ( 2 1 9 ) 呶 可得: ( m f ) ( 职) :圭反( m f ) ( m 一七) ( 2 2 0 ) j nk = l“ 本文中函数吮( f ,七) 定y y g - 可得: 丸( f ,七) - - e ( 掰一f ) ( 扰) k = l ,2 ,p ;i = l ,2 ,p ( 2 2 1 ) 妒。( f ,o ) :兰口:九( f ,七)汪1 2 ,p ( 2 2 2 ) k = i 式( 2 2 2 ) 是个方程组,由p 个未知数和p 个方程构成,求解后可得到线性预测系数。 求解方程组的方法主要有协方差法、自相关法【1 9 ,2 习等。 2 4 2 线性预测倒谱系数( l p c c ) 由于l p c 系数的极小变化都会造成极点位置极大的变化,所以一般不直接用l p c 系数作为特征参数,而是使用另一种参数:线性预测倒谱系数( l p c c ,l i n e a rp r e d i c t i o n c c p s t r a lc o e f f i c i e n t s ) ,它是由l p c 系数推导出的 2 6 1 。 线性预测系数( l p c ) 在倒谱域的表示即为线性预测倒谱系数( l p c c ) ,倒谱是一种同 态信号处理方法。线性预测倒谱系数( l p c c ) 是假定语音信号为自回归信号,通过线性 预测分析得到的倒谱系数。式( 2 2 3 ) 是l p c c 与l p c 的递推关系【2 7 1 。 l p c c 参数不是由原始信号x ( 刀) 直接求得的,而是由l p c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学《信息工程-电路原理》考试参考题库及答案解析
- 2025年大学《经济与金融-金融经济学》考试备考试题及答案解析
- 2025年大学《海关检验检疫安全-食品化妆品检验》考试参考题库及答案解析
- 2025年大学《工程造价-工程招投标与合同管理》考试备考题库及答案解析
- 转让工程建设用地合同
- 其他车位买卖合同
- 2025年大学《蜂学-蜜蜂生物学》考试参考题库及答案解析
- 任丘加油站合同
- 蔬菜基地采购合同
- 2025标准版瓷砖购销合同样本
- 铁路工程线安全管理办法
- 通信光缆线路工程安全技术交底
- 《医学美容技术》课件-实训3:二氧化碳激光祛赘生物技术
- 降温毯的使用及护理
- 博士组合物使用指南
- 麻醉专业医疗质量控制指标解读
- 护理不良事件及法律法规
- 《精准化教学指导》课件
- 2025年贵州盐业集团有限责任公司招聘笔试参考题库含答案解析
- 《消防检查指导手册》(2024版)
- 隧道渗水、漏水、排水处治方案
评论
0/150
提交评论