（通信与信息系统专业论文）基于模糊理论的语音关键词识别.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：70 大小：1.62MB 积分：0 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

（通信与信息系统专业论文）基于模糊理论的语音关键词识别.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要关键词识别是语音识别研究中的一个重要领域，其目的是从连续语音中检测并确认给定的若干个特定关键词。连续语音识别与之相比，资源耗费大，速度馒，抗噪能力不强，这导致连续语音识别短期内难以突破。本文对关键词识别算法进行了深入研究。针对聚类过程中出现的类间交叠现象，本文采用模糊模式识别，很好地解决了此问题，并对仿生模式识别算法进行了一些改进。本文的工作主要集中在以下几个方面：本文以汉语音节作为识别基元，为了准确地检测出每一个音节，采用一种基于能频积的 = 次端点检测方法，能很好地检测出单个音节。简单介绍了所提取的特征，其中时域特征能量和过零率用来进行端点检测，而在建模过程中采用频域特征m e l 倒谱系数和短时谱i 临界带特征矢量，因为频域特征跟时间无关，所以从特征提取的角度避免了动态时问规整的复杂计算。完善了仿生模式识别过程中高维超椭球建模的方法，推导出了高维超椭球的方程和判别函数，考虑到其实现的复杂性，用小超球链来代替超椭球，大大简化了算法。另外对仿生模式识别中所存在的类间交叠现象进行了分析，并提出了解决办法 1 ) 提出了类内隶属度的概念，通过比较类内隶属度的大小来判别落入交叠区域的样本的归属： ( 2 ) 在超球和超椭球两种情形下，提出了基于距离、基于体积和基于判别函数的隶属函数，并从可行性和算法的复杂度两方面进行了比较，确定了一个最优的隶属函数，而且给出了完整的判别算法； ( 3 ) 对识别结果的确认进行了详细的说明，因为有了类内隶属度的概念，所以直接用隶属度跟阈值进行比较就可实现对结果的确认。实验表明，采用模糊模式识别算法以后，系统拒识率降低了1 1 个百分点。关键词：关键词识别，语音识别，仿生模式识别，模糊模式识别，端点检测，隶属函数 a b s t r a c t f y w o r ds p o t t i n gi sa l li m p o r t a n ta r e ai ns p e e c hr e c o g n i t i o n i t so b j e c t i v ei st oi d e n t i f ya n d v e r i f y af e ws p o c i f i e dk e y - w o r d si nc o n t i n u o u ss p e e c h c o m p a r i n gw i t hk e y w o r ds p o t t i n g ， c o n t i n u o u ss p e e c hr e c o g n i t i o nn e e dm o r er e s o u r c e sa n di t sp r o c e s ss p e e di sl o w e r , a n di t sm o r e v u l n e r a b l et on o i s e s oc o n t i n u o u ss p e e c hr e c o g n i t i o ni sn o ts u i t a b l ei nm a n ya p p l i c a t i o n sa n d k e y w o r ds p o t t i n gi sp r e f e r r e d t h i sp a p e rc o n d u c t sa ni n - d e p t hs t u d yo fk e y w o r ds p o r i n ga l g o r i t h m ，f o rt h eo v e d a p p i n g b e t w e e nc a t e g o r i e si nc l u s t e r i n gp r o e e a s , af u z z yp a t t e r nr e c o g n i t i o na l g o r i t h mi sp r o p o s e da n d s u c c e s s f u l l ys o l v e st h ep r o b l e m , m o r e o v e r , i tm a k e ss o f t i ei m p r o v e m e n t si nb i o n i cp a t t e r n r e c o g n i t i o na l g o r i t h m t h em a i nw o r ko ft h i sp a p e rf o c u s e so nt h ef o l l o w i n ga s p e c t s ： c h i n e s es y l l a b l ei sr e c o g n i t i o nu n i ti nt h i sp a p e r i no r d e rt od e t e c te v e r ys y l l a b l ea c c u r a t e l y , at w i c ed e t e c t i o nm e t h o db a s e do nt h ee n e r g y - f r e q u e n c y - v a l u ei sp r o p o s e d ，a n di tc a nd e t e c ts i n g l e s y l l a b l e f e a t u r e se x t r a c t e di sb r i e f l yf o r m u l a t e d f o re x a m p l e ，s h o r t - t i m ee n e r g ya n dz e r o - t t o s sr a t e a r eu s e df o re n d p o i n td e t e c t i o n ，m e l - f r e q u e n c yc e p s t r o mc o e f f i c i e n ta n dc r i t i c a l b a n df e a t u r e v e 斌o ri su s e f u li nt h em o d e l i n gp r o c e s s a sf e a t u r e si nf r e q u e n c yd o m a i nh a v en o t h i n gt od ow i t h t i m e c o m p l e xc a l c u l a t i o no fd y n a m i ct i m ew a r p i n gi sa v o i d a b l e m o d e l i n gm e t h o do fm u l t i d i m e n s i o n a lh y p e r - e l l i p s o i dh a sb e e np e r f e c t e di nb i o n i cp a t t e r n r e c o g n i t i o n ，e q u a t i o na n dd i s c r i m i n a n tf u n c t i o no fm u l t i d i m e n s i o n a lh y p e r - e l l i p s o i di se d u c e d c o n s i d e r i n gt h ec o m p l e x i t yo fr e a l i z a t i o n ，s m a l lc h a i no fh y p e r s p h e r ei n s t e a do fh y p e r - e l l i p s o i d c a ng r e a d ys i m p l i f ya l g o r i t h m i na d d i t i o n ，t h i sp a p e ra n a l y s e st h eo v e r l a p p i n gb e t w e e nc a t e g o r i e s a n dp r o p o s e ds o l u t i o n s ( 1 ) ac o n c e p to fd e g r e eo fm e m b e r s h i pw i t hc a t e g o r yi sp r o p o s e d t h ea t t r i b u t i o no f s a m p l e sf a l l si n t ot h eo v e r l a p p i n gr e g i o ni sd e t e r m i n e db yc o m p a r i n gt h ed e g r e eo fm e m b e r s h i p ( 2 ) m e m b e r s h i pf u n c t i o n sb a s e do nd i s t a n c e , v o l u m ea n dd i s c r i m i n a n tf u n c t i o na r e p r o p o s e di nh y p e r s p h e r ea n dh y p e r - e l l i p s o i dc a s e $ , a f t g rc o m p a r e dt h e s em e m b e r s h i pf u n c t i o n s f r o mf e a s i b i l i t ya n dc o m p l e x i t yo fa l g o r i t h m ，t h i sp a p e rc o m p st oa no p t i m u mm e m b e r s h i p f u n c t i o nf m a l l ya n dp r o p o s e saw h o l er e c o g n i t i o na l g o r i t h m 1 1 ( 3 ) t h ec o n f i r m a t i o no ft h ei d e n t i f i c a t i o nr e s u l t si sd e t a i l e d l yd e s c n i b e a b e u o ft h e d e g r e eo fm e m b e r s h i p ，t h ec o n f i r m a t i o ni sr e a l i z e db yc o m p a r i n gt h ed e g r e eo fm e m b e r s h i pw i t h t h r e s h o l d t h ee x p e r i m e n t ss h o wt h a tt h er e j e c t i o nr a t er e d u c e s1 1p e r c e n tb ya p p l y i n gf u z z yp a t t e r n r e c o g n i t i o na l g o r i t h m k e y w o r d s ：k e y w o r ds p o t t m g ，s p e e c hr e c o g n i t i o n 。b i o n i cp a t t e r nr e c o g n i t i o n ，f u z z y p a t t e r nr e c o g n i t i o n ，e n d p o i n td e t e c t i o n ，m e m b e 洲pf u n c t i o n 1 t l 论文独创性声明本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谢的地方外，不包含其他人或机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表示了谢意。作者签名：衔数e t g q ：叼j ) 三论文使用授权声明本人完全了解上海师范大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此规定。作者繇瓴孙师躲陬期：叨川第一章引论 1 1 什么是关键词识别关键词识别( k e y v o r dr e c o g n i t i o n ，k 职) 或关键词检出( k e y w o r ds p o t t i n g ，k w s ) 就是在连续的、无限制的自然语音流中识别出一组给定的词关键词。关键词识别应用于一些具有特定要求的场合，由于速度、高检出率或其它特定的要求，人们并不需要系统识别出整个句子，更不需要理解整个句子，而只关注那些包含特定词( 称为“关键词”) 的句子。比如，对一些特殊人名、地名和词语进行电话监听，又比如通过人名进行自动分机接驳服务等等。根据一些应用的特殊需要，关键词识别有区别于其它自动语音识别的地方。有的应用需要限定或假设一个句子只能含有一个关键词( 如自动分机接驳) ，而有的应用则不希望有这样的限定( 如电话监听) 。有的应用希望“宁错勿漏”( 如电话监听) ，而有的则希望“宁漏勿错”( 如自动分机接驳) 。关键词集内的词没有被检出，称为。漏识( a m i s s ) ”，而将关键词集外的词识别成一个集内的词，称为“误警( f a l s ea l a r m ) ”或“虚报”。对于一个特定的关键词识别器，漏识率和误警率不可能同时达到晟低。因而相对于其它的语音识别器，关键词检出需要在漏识率和误警率之间找到平衡点。一个较为理想的关键词识别系统应该具有如下特征： 1 ) 任意人。关键词识别系统对不同人的说话有一定的适应能力。 2 ) 词表可随意定制。开发者可以利用应用程序接口( a p p l i c a t i o np r o g r a m m i n g i n t e r f a c e ，a p i ) ，方便地提供词表定制工具，使得使用者无需具备专业知识就可以方便地定义自己的词表；对新定义的词表，系统无需重新训练，立刻可以使用。 3 ) 单选或多选性。句中关键词个数可以设定，使用者可以根据具体的应用情况，方便地指定一句话中是仅含该关键词，还是含多个关键词 4 ) 良好的拒识性能。利用其良好的拒识性能，识别系统将根据具体情况报出所识别出的关键词，不会因使用者设定的句子中可以含有的关键词数目而强行虚报。 5 ) 关键词识别应具有很低的漏识率和误警率。 6 ) 良好的折中性。可以根据具体应用需要，方便地调整，以在漏识率和误警率之间达到很好的平衡。 1 2 连续语音识别与关键词识别的关系关键词识别是语音识别的一个研究方向，与连续语音识别( c o n t i n u o u ss p e e c h r e c o g n i t i o n ，c s r ) 之间存在着密切的关系首先，关键词识别的任务是在连续的无限制的自然语音流中识别出给定的词，因而它首先是一种连续语音识别；但它又不要求把整个语音流全部识别出来，因此可以说关键词识别是连续语音识别的一个分支。其次，它无法对发出自然语音流的发音人提出任何要求，因此关键词识别又不同于连续语音识别。由于存在下列差异，基于词识别的k w s 与c s r 常常被当作两个完全不同的问题来处理： 1 ) 模型的训练问题：c s r 模型往往要用不同发音人( 可以包括使用者在内) 的大量数据进行训练；k w s 则无法由被识别的人对模型进行一定的训练。 2 ) 词表问题：c s r 要求每个待识别的词是一个有限词表中的一个；而k w s 允许输入语音流包含任何词，它的词表是开放的。 3 ) 语法或词法问题：c s r 要求输入语音中的词的序列受限于一个有限状态语法网络；而k w s 则无此要求。 4 ) 发音人的态度：一般地讲，c s r 系统的使用者能够意识到他们正与机器进行交流，他们希望自己所说的话被机器识别，因此他们一般持合作的态度；但在k w s 系统中，说话人常常是毫无觉察的。 5 ) 环境：c s r 系统由于用户的配合往往在比较好的环境中使用，而k w s 的环境则有可能有很大噪音。 1 3 关键词识别的意义 1 3 1 应用实例关键词识别的特殊性决定了研究k w s 问题的重要性。在此先看一个实例。 8 0 年代，美国a t & t 的b e l l 实验室在c a l i f o r n i a 的h a y w a r d 进行了一个大规模的非特定人孤立词语音识别实验哪，要求打电话的用户孤立地说出c o l l e c t 。c a l l i n g - c a r d , p e r s o n , t h i r d n u m b e r 及o p e r a t o r 五个词中的一个。如果用户精确地按要求说了，那么识别率可以达 2 到9 9 口j 。但实际情况并非如此，大约2 0 的发音夹杂有词表外发音和诸如气流声等非语音发音，比如“a 1 1 ，1w a n tt o k eac o l l e c tc a l lp l e a s e ”。大多数的识别算法没有顾及和解决这样的问题，因此必须修改现有的算法使其能够识别出嵌入在语音中的某些特定词，这就是关键词识别。a t t 的b e l l 实验室在假定用户所说的一句话是“背景信号、其它语音、一个关键词、其它语音、背景信号”这样的序列的前提下，采用新的识别算法即k w s 算法。使得嵌入语音流中的关键词识别率可以高达8 7 1 。 1 3 2 应用背景 k w s 有着广泛的应用领域。一个重要的应用是国防监听。在出于国家安全的考虑对电话网络进行监听时，要耗费大量的人力和时间；再者，由于人的精力是有限的，有时也会把极其重要的内容忽略掉。而关键词识别器( k e y w o r ds p o t t e r 或k e y w o r d r e c o g n z e r ) 可以日夜监控着电话网络，一旦发现有某些关键词出现，及时预警，跟踪目标。这可以节省人力，同时高性能的k w s 真正密切监控。另外一个重要的应用是语音信箱的消息分类( m e s s a g ec l a s s c i f i c a t i o n ) 。当接收到语音消息时，通过对其关键词的检索与识别，把它们按关键词的性质分类，r o s e 等人的技术正是为了这一目的的伪。按内容检索( c o n t e n t - a d d r e s s e d ) 是关键词识别的又一重要应用。随着计算机硬件和多媒体技术飞速发展，信息的存储将采取越来越自然的方式，比如以声音和图像的形式存储，但所需的代价是存储量大和检索缓慢。在硬件成本日益降低的前提下，存储量问题很容易得到解决；但人工检索却是一个令人头疼的问题。k w s 可以解决这一问题。我们可以列出自己所关心领域的一组关键词，k w s 就可以把所有相关的存储语音都调出来。如果关键词的输入再由检索者以语音命令的形式给出，那么信息的按内容检索就能够以完全自然的方式进行。早在2 0 世纪7 0 年代，美国军方和国家安全局即将关键词识别技术同说话人识别相结合共爵应用于检测系统。随着语音识别技术的进一步发展和普及，2 d 世纪8 0 年代中期以后，关键词识别技术已延伸到通讯领域、计算机语音检索系统、自动化控制方面，并已有实用系统问世，如智能转接系统、语音信箱的消息分类等。 k w s 的应用远不止这些。几乎可以说，在所有语音识别的应用中都会用到关键词识别 3 的一些技术。比如先识别出关键词，再根据语法或词法进行其它语音的识别，最终达到自然语音理解；又如通过某些关键词识别中的预处理和后处理技术，提高语音识别的顽健性。 1 4 国内外发展动态 1 4 1 算法进展对关键词识别的研究最早始于7 0 年代美国军方的战场检测系统。1 9 7 3 年，b f i d l e 的文章揭开了关键词研究的序幕1 4 1 。但那时只是“给定词”的识别，“关键词”的提法是1 9 7 7 年由c h r i s t i a n s e n 首先采用的田，他利用信号的线性预测编码( l p c ) 表示对连续语音中的关键词进行检测和定位，没有使用语法或词法信息，该方法对四个词和十个数字的词表取得了很好的效果。真正的关键词识别研究是在8 0 年代。美国h t ( 国际电话电报公司) 国防通讯部的h i g g i n s 与w o h l f o r d 、a t & t 的b e l l 实验室w i l p o n 以及美国b b n 系统和技术公司的r o h l i c e k 等对关键词识别的研究做出了重大贡献。 9 0 年代以后，关键词识别技术的研究重点是结合其它模式识别方法，进行性能提高和方法改进，以及改进搜索识别算法提高速度等。最新的进展有使用韵律特征( p r o s o d i cf e a t u r e ) 闽、改进语言模型忉卿、结合中文特点嘲嗍、拒识集外词( o u t o f v o c a b u l a r y ) 叫1 等方面。特别是在中文语音识别中，韵律特征尤为重要。韵律特征主要包括；音长、能量、基音、音调。从采用的核心算法来看，关键词识别主要基于以下三种框架： 1 动态时间规整( d y n a m i ct i m ew a r p i n g ，d t w ) 算法这是一种基于模式匹配的方法，该方法在早期的关键词识别系统中经常采用。m y e r s 等入利用基于d t w 的局部最小算法对关键词识别和连接词识别进行了研究嘲，但没有系统的实现。h i g g i n s 与w o h l f o r d 用模板连接的方法实现了k w s 嗍，并提出了补白( f i l l e r ) 模板的概念，结果表明，如果词表的显式知识没有那么重要的话，则使用补白模板就很重要。随着对隐马尔可夫模型( h i d d e nm a r k o vm o d e l ，简称h m m ) 和人工神经网络研究的深入。 d t w 算法越来越不受重视，但是将d t w 与神经网络相结合还是有着较好的应用前景。 2 h m m 框架用删【m 来描述语音信号的产生是8 0 年代语音信号数字处理的一项重大进展，目前基于 i h 4 【m 的语音识别技术运用相当广泛，其中以美国a t & t 实验室的l r r a b i n e r 为首的一 4 组科学家对h m m 的研究尤为细致嗍 1 5 1 。实验证明。基于i m 蹦算法的关键词识别系统具有较高的识别率和较高的抗噪能力，因此它的使用范围也十分广泛，许多公司、研究机构都采用m o 讧作为语音的研究方法。 3 人工神经网络关于用人工神经网络进行关键词识别的研究，从8 0 年代中期开始陆续有介绍，通常采用的是常规系统与神经网络的混合系统，有的是多个神经网络构成的系统，还有的是用各种不同的神经网络构成的系统。其中美国卡内基梅隆大学计算机科学院研究的混合神经网络动态规划关键词识别系统1 0 采用多状态延时神经网络( t u n e - d e l a yn e u r a ln e t w o r k ) 作为基本结构。该系统对宽带语音测试的优度指数( f i g u r eo fm e r i t ，f o m ) 为8 2 5 ，对电话频带语音的f o m 值为8 1 3 。由于该系统对宽带语音和电话语音两者性能比较接近，说明它在低质量有噪声的语音环境下也能很好地进行关键词识别。目前国外语音研究机构对关键词识别的研究相当重视，不少公司，如b e l l 实验室、 m i t 的l i n c o l n 实验室m 、c m u 的计算机科学学院、d r a g o n 系统公司i “、m i c r o s o f t 、i b m 以及日本的t o s h i b a 公司1 ”等，都在不断地推陈出新他们的研究成果。许多国家的大学，针对自己国家的语音特点也都在进行这方面的研究，包括美国、德国、韩国和日本等等。国内对关键词识别研究很少，发表的文章更是寥寥无几，直至9 0 年代中期，国内两年一次的全国人机语音通讯学术会议n c m m s c 上还没有一篇关于k w s 的文章i z e l 。大约从9 7 年以后对关键词识别的研究才逐渐全面展开，目前像中科院自动化所、声学所、清华大学、上海交通大学 2 1 1 、哈尔滨工业大学、浙江大学脚、南京大学等科研院校以及科大讯飞、炎黄新星、捷通华声等公司都开展了这方面的研究，在理论研究和实用化方面都取得了可喜的成果，其中走在最前列的要数清华大学。如清华大学的郑方等提出了一个中心距离连续概率模型( c e n t e rd i s t a n c ec o n t i n u o u sp r o b i l i t ym o d e l ，c d c p m ) 嘲，它是一种改进的h m m 。 1 4 2 现有语音检索系统在现有的语音检索系统中，很多都是利用语音识别技术，但是早期的系统在词汇、语音限制方面比较强，在实际应用中往往有很强限制，下面列举几个有代表性的系统： 1 zb r o a d c a s tn e w sr e t r i e v a l l u l 该系统通过语音识别的方法，基于i m 伽模型，但它只能是特定人的。该系统可以采取自然语言查询，通过文本口语，系统把这些发音通过词典映射为音素描述，然后跟每个语言 5 文档计算获取状态值( r e t r i e v a ls t a t u sv a l u e ) 来检索。也可以通过输入文本关键词进行检索，然后输出一个检索的列表，如文件名和起止时间。 2b r i d g ev i d e om a i lr e t r i e v a l ( v m r l 9 9 6 ) 嘲系统用3 5 个预选定的关键词做检索，在一个很好的关键词识别器下，识别率接近9 0 该系统也是基于l 珈m 关键词识别技术，用h t kt o o l 对这1 5 个人建立特定说话人的整词模型和单音子填充模型，删为3 状态模型。 3 s p e e c h b o t 搜索引擎( c o m p a qi i pl a b ) 陶 s p e e c h b o t 是一个基于内容检索的音频视频搜索引擎，语言识别器是建立在c m u 的 s p h i i l x - 3 语言识别系统的基础上的。它将音频转为标注( t r a n s c r i p t i o n ) ，在这个基础上进行关键词的检索。能够将包含特定主题和内容的音频视频文件搜索出来，主要是广播新闻。该系统即使在t r a n s c r i p t i o n 不是很准确的情况下，仍然能够得到比较好的查询性能。 4 最新成果 l & h 公司的s p a r k 和v o i c c e x p r e s s 、i b m 公司的v i a v o i c e 系列、d r a g o n 系统公司的 n a t u r a l l y s p e a k i n g 、p h i l i p s 公司的f r e e s p e e c h 、中国科学院自动化研究所国家模式识别实验室( n l p r ) 的n y m gt a l k - x 、声硕科技股份有限公司的说亦通、m i c r o s o f t 新推出的w i n d o w s v i s t a 也安装了语音识别系统，还有n u a n c e c o m m u n i c a t i o n s 公司的n a t u r a l l y s p e a k i n g ，这可以说是世界上最先进的语音识别软件了。 1 5 性能评价问题美国国家安全局( n a t i o n a l s e c u r i t y a g e n c y ，n s a ) 曾提出了一个时序协议：若x 是假设关键词( h i g g i n s 嘲称之为假想命中) 而y 是正确的( 即实际的) 关键词，如果x 的中间帧落在y 的边界之内，则称x 的时序是可接受的。a t & t 的b e l l 实验室根据这个协议，做了如下的定义删： 1 如果x 的时序是可接受的并且x 等于y ，则x 是识别正确的； 2 如果x 的时序是可接受的并且x 不等于y ，则x 是识别错误的； 3 。其它所有情况下，称x 是一个误警且称y 为潺识。定义识别正确率( a c c u r a c yr a t e ) 为正确识别的关键词数占关键词总数的百分比，通常称为检测正确率，简记为b 。定义误警率( f a l s ea l a r mr a t e ) 为每小时每个关键词的误警数，简记为f a k w h r 或f a k w - h r 。 6 然而系统的性能并非仅通过上面的参数孤立地加以评价。事实上，后处理中的拒识 ( r e j e c t i o n ) 也是一个评价参数。在一定的误警率下，拒识率与正确率中间有一个折中的问题，拒识越多，虽然误识会越少。但正确率也就降低。而拒识率、正确率以及误识率均是在一定的误警率前提下讨论的( 这称为系统的一个操作点) ，r o c ( r e c e i v e ro p e r a t i n g c h a r a c t e r i s t i c ) 曲线可以很好地描述它们之间的关系嗍。r o c 曲线是关键词的检测正确率与与误警率f a k w h r 之间的关系曲线，显而易见该曲线是一条单调不降的阶梯型曲线。 b b n 系统和技术公司的r o h l i c e k 等人把系统的质量因数( f o m ，f i g u r eo f m e r i t ) 定义为某一特定的误警率范围内( 通常为o l o f a k w h r ) r o c 曲线的平均值，即在某一特定的误警率范围内的平均关键词检测正确率。这一性能评价标准被大多数关键词识别研究者所认同和接受。虽然后来m a r c u s 提出了更复杂的评价方法m i ，但基本的思路与上面的f o m 定义一样。 1 6 关键词识别的基本问题 1 特征提取众所周知，未经处理的语音信号的数据量非常之大，这就需要去除语音信号的相关性，用较少的数据最有效的表征语音信号。正如许多系统需要将时域信号变换到频域后再对其进行分析一样，识别系统首先需要将语音信号变换到特征空间中，然后再针对特征矢量序列进行训练和检测。因此，通过变换可以去掉语音信号中的大量冗余，使其所携带的语义信息集中映射到特征空间，其次可以将在时域空间很难分开的模式样本变得更加线性可分踟 2 模式划分模式划分问题即选用什么样的参考模板，选择什么样的模板参数。如同人类学习语言一样。要想让机器理解人类口述的语言，识别系统首先需要机器通过某种方式认识它们。最直接的途径就是让机器记住关键词和填料所对应的所有语音波形，因为存储量的原因这神方法显然是无法实现的。即使是经过特征抽取后的语音信号数据量仍然很大，于是，人们很自然地想到可以结合人的发声机理用少数几个参数来描述它们，即对关键词和填料建模来有效表征语义信息，同时减少存储量。 3 时间对准在关键词识别中，对于同一个词，由于发音速度不同，使得每一次所存储的语言对于时间轴而言并不是一一对应的，即存在时间对不准问题，因而无法直接通过计算它们之间的欧 7 氏距离得到其相似度( 或失真测度) 。同样，在识别系统中计算识别语音与参考模型之间的失真测度时也存在这个问题，因为首先说话人在训练和识别阶段的说话速度不可能保持一致，其次通常采用的参考模型并没有消除时间变量，而仍是一个与时间密切相关的序列或模型目前，对于以特征模板作为参考模板的识别系统主要采用动态规整嗍的思想解决该问题，此外，h m m 通过状态分割也可以解决时间对准问题。 1 7 论文工作本论文的工作是进行语音关键词识别的研究，采用仿生模式识别与模糊模式识别相结合的方法，仿真实现一个小词汇量的语音关键词识别系统。作者做了如下工作：( 1 ) 对语音的识别基元进行了分析，确定了以汉语音节作为识别基元。( 2 ) 为了准确地划分汉语音节，采用了一种二次检测的端点检测方法，提高了端点检测正确率。( 3 ) 针对建模过程中出现的类问交叠现象，；入模糊理论，构建了一个类内隶属函数，较好地解决了类间交叠这一问题。( 4 ) 在仿生模式识别的实现中采用球链代替椭球，大大减少了算法的复杂度。本文篇章安排如下：第二章介绍特征提取与选择：第三章介绍模式划分方法；第四章介绍模糊模式识别；第五章为系统结构介绍及实验结果分析；第六章进行工f 色总结和展望。 8 第二章特征提取与选择 2 1 语音识别的基元语音识别基元的选择在语音识别尤其是连续语音识别中是很重要的环节。识别基元的选择应该基于如下两个原则： 1 ) 具有灵活性，用它可以组成其它的语音或语法单位； 2 ) 具有稳定性，它应该在不同的语音环境和语言环境中相对稳定。灵活性希望基元尽可能地小，如音素；而稳定性贝i j 希望基元尽可能地大，如词甚至词组。此外基元的选择还需考虑搜索时间和模型存储开销。汉语的语音识别和关键词识别必须考虑汉语的特点。汉语是一种音节性强的语言，一个汉字对应一个音节，而且音节的结构是比较典型的声韵( i n i t i a l f i n a l ，i f ) 结构，声母和韵母又可以分为更细的音素。语音识别单元有单词( 句) 、音节( s y l l a b l e ) 和音素( p h o n e m e ) 3 种，具体选择哪一种，由具体研究任务决定。 1 ) 单词( 或简称词) 单词是有意义的语言的最小单元，比一个单词要小的东西只是声音。单词是由声音组成的，对这些声音组成的理解称作语言，组成语言的声音就是语音。单词单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。 2 ) 音节( 或音节字) 音节是说话时自然的发音单位，可以从听觉上把它们分开。在物理上，以发音器官肌肉紧张度的增减为依据，每一次肌肉紧张度增而变减就造成一个音节。汉语一般是一字一音节，少数例外的两音节一字( 如“碰”) 和两字一音节( 如“花儿”等) 。汉语一个音节就是汉语一个字的音，即音节字。由音节字构成词( 其中主要是两音节字构成的两字词，约占 7 4 ) ，最后再由词构成句子。汉语音节一般由声母、韵母和声调三部分组成，韵母又分为韵头、韵腹和韵尾，韵腹是主要部分，其发音较强( 舌位低、口腔开度大) ，韵头只能由元音i i 】、i u 】、【廿】组成，韵尾只能是【f 1 、【u 】、i n 、【n g 】，前边两个可以作为韵母独立存在。2 1 个声母( b 、p 、1 3 1 、f 、d 、 t ，n 、l 、g 、k 、h 、j 、q 、x 、z h 、c h 、s h 、r 、z 、c s ) 和3 8 个韵母( a 、a i 、a l l 、a n g 、a o 、 e 、e i ，e f t ，e n g 、e l - 、o ，o n g 、o u 、i 、i l 、i a 、i a n g 、i a o ，i e 、i n 、i n g 、l o n g 、i n u 、a 、u a 、 9 u a i 、u 、u a n g 、u e i 、u c i i 、u e n g 、u o 、v 、v c 、v i i 、i o ) 共约配合成4 0 0 个音节，再加上四调组成1 6 0 0 个左右带调音节。另外有的音节没有字，经统计，结果是基本无调音节字4 1 2 个。有调音节字1 2 8 2 个。但并不是任何声母和韵母都能组合拼成音节的。它们的配合具有很强的规律性。表1 列出了声韵母拼合简表。表中“”表示相应的韵母与对应的声母不能相拼。分析比较可以看出拼合规律与发音方式直接有关。表l声韵母拼合简表之耋开口呼合口呼齐齿呼撮口呼双唇音 b p m 只与u 拼唇齿音 f 只与u 拼只有n u ，舌前面音 d t l l l h u e 1 n 。l u e 舌面音 jq x 舌根音 gxh 舌尖前音 z csx 舌尖后音 z hc h s h f 零声母音节单元多见于汉语语音识别，主要因为英语是多音节，而汉语是单音节结构的语言，音节数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元是可行的。 3 ) 音素音素是语音发音的最小单位。任何语言都有语音的元音( v o w e l ) 和辅音( c o n s o n a n t ) 两种音素。汉语的主要音素可以分为辅音、单元音、复元音和复鼻尾音4 种。汉语由音素构成声母和韵母。有时，将含有声调( 汉语通常认为有五个声调) 的韵母称为调母。由单个调母或由声母与调母拼音成为音节。音素单元以前多见于英语语音识别的研究中，目前中、大词汇量汉语语音识别系统也在越来越多地采用这种单元。原因在于汉语音节仅由声母和韵母构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究 2 2 端点检测在语音识别中，如何有效地进行端点检测具有非常重要的作用。有研究表明，即使是在安静的环境下，语音识别系统一半以上的错误来自端点检测嗍。常用的端点检测算法可以分为2 类嘲：一是基于模型的方法，主要有基于h m m 的废料模型，这类方法是对各种不同的噪声分别训练出相应的噪声模型。另一种是基于特征提取的门限判决法，这类方法需要考虑两方面的问题：( 1 ) 提取能够正确反映不同类型语音信号 ( 清音、浊音和噪声) 的特征：( 2 ) 对不同信噪比的信号能计算出合理的判决门限。 2 2 1 基于能频积的二次端点检测前己述及，本文所选识别基元为汉语音节，即单个的汉字，因此在进行端点检测时，务必将每一个汉字的端点检测出来。但是对于某些连接比较紧密的词( 例如：“医院”、“西安”等) 。在一次检测完毕后，并不一定能将之完全分开，如图1 所示：图1 “医院”的语音波形为解决这一问题，本文的端点检测分两次进行。所提取特征为短时能量、短时过零率、短时频带方差以及短时能频积( 短时能频积是短时能量与相应的短时过零率的乘积) ，这几种特征将在下一节“特征提取”中详细讲述。传统的端点检测方法是利用短时能量和过零率，实验发现，短时过零率对噪音比较敏感，而频带方差具有一定的抗噪能力，所以一次检测利用能量和频带方差作为特征参数，如图2 所示。很明显，一次检测不能将语音中的“医院”二字区分开来，甚至“我想”两个字也无 1 1 法区分，这样的情形在连续语音流中很普遍( 特别是在语速较快的时候) ，因此有必要进行二次检测，其方法如下：图2 语音。我想去医院”一次端点检测首先判断一次检铡所得到韵各段语音的长度，相同的采样率下，单个字的样本点的长度在某个范围之内，所以如果一段语音的长度在单个字长度的倍数左右，则认为需要二次检测。由于这段语音内的字连接非常紧，所以利用能频积对其进行分割。两三个字连在一起往往是因为某个字是轻音引起的，轻音的能量比浊音低，但过零率很高。这样，在两个字的中间非语音部分，其能频积小于两侧，由先验知识可知，两个字的分割点应该在两字中间附近，所以，可以设定一个阅值l 在两字的中间分别向左右各搜索l 个帧，以能频积最小帧作为两字的分割点。图3 为二次检测后的结果圈3 语音“我想去医院”二次端点检测本文用频带方差取代过零率作为一次提取的特征，实验表明，在低噪音环境下，对语音有很好的分割效果，但是在强噪音环境下效果不够理想。今后还将探寻更具抗噪能力的特征。 2 3 特征提取特征提取与选择是语音识别的一个重要环节，通过选取有益的特征为模式划分提供数据。特征提取与选择的好坏直接影响到识别器的性能。语音信号的特征主要有时域和频域两种。时域特征如短时能量、短时过零率、共振峰、 1 2 基音周期等；频域特征有傅立叶频谱等现在还有结合时间和频率的特征，即时频谱，充分利用了语音信号的时序信息。倒谱( c e p ) 是语音信号的又一个特征，有基于线性预测分析( l p c ) 的倒谱即l p c c ，有基于m c l 频率弯折的倒谱即m f c c 。基于听觉模型的特征参数提取，如感知线性预测( p l p ) 分析，试图从不同于声道模型的另一个方面进行研究。所有这些特征都只包含了语音信号的部分信息。为了充分表征语音信号，人们尝试综合各种特征，并取得了一定的效果。但由于目前语音识别分类器的限制和数学模型描述的局限性，人们尚未充分利用已有的部分信息，于是特征的变换与取舍、特征对序信息的使用等成了重要的研究课题。有关特征研究的另外一个课题是鲁棒性研究。由于语音识别的最终目标是在现实世界中使用，不同人的特点，地方口音的变换、背景噪音的干扰等成了不可忽视的音素，因此必须研究一种方法。使得特征的提取尽可能不受这些因素的影响。 2 3 1 语音信号短时分析和基本特征参数虽然语音信号是非平稳信号，但在一个小的时间段内具有相对的稳定性，因此，在对语音信号进行分析时，我们总是假定语音信号在一个时闻帧( f x a m e ) 内是平稳信号。这就是语音信号的短时分析假设。通常一帧大约在2 0 m s 左右。对一帧信号通过加h a m m i n g 窗、 h a n n i n g 窗或矩形窗后荐进行特征分析就可以得到相应的一组特征，然后通过把分析窗移动一个帧移( f i a

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）基于模糊理论的语音关键词识别.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）基于模糊理论的语音关键词识别.pdf

文档简介

温馨提示

最新文档

评论

相关文档