已阅读5页,还剩83页未读, 继续免费阅读
(检测技术与自动化装置专业论文)非特定人连续语音识别的理论、分析和实验.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
非特定人连续语音识别的理论、分析和实验 摘要 非特定人连续汉语数字语音识别在电话语音网关、家电遥控、工业 控制、信息查询系统等领域有着广泛的应用,无论在小词表语音识别 系统还是大词表语音识别系统中都具有重要的理论意义和实用价值。 由于汉语具有发音短、混淆性高、方言多的特点,汉语数字语音识别 比英语数字语音识别难度更大,成为目前汉语语音识别领域的热点和 难点问题。 以隐马尔可夫模型为典型代表的统计方法,对动态时间序列有很 强的建模能力,在参数、结构和训练方法的选择上有很大的灵活性, 成为目前主流的语音识别方法。然而,由于隐马尔可夫模型是基于统 计的方法,模型的训练需要大量的样本,采集样本和训练模型的工作 量大,对样本数据的信息利用率不高;出现概率少的样本容易得不到 充分的训练而引起误识。 本文主要研究连续汉语数字音节的建模问题,提出一种新的人机 结合的数字音节特征提取方法,从连续数字语音中提取出建模和测试 用的数字音节样本集,把高维空间点覆盖理论应用于非特定人连续语 音识别,建立各数字音节的高维空间点覆盖神经网络模型,并使用测 试集进行建模正确性验证,验证结果正确率达到9 7 以上。该模型用 于一种基于高维空间点覆盖动态搜索理论的非特定人连续数字语音识 别的新算法。 本文比较了在不同数量的建模样本下,h n i 模型和高维空间点覆盖 神经网络模型对数字音节的建模能力,实验结果表明,样本数量较少 时,高维空间点覆盖神经网络模型的识别率明显高于h m m 模型,高维 空间点覆盖神经网络模型能较合理地描述样本在特征空间的分布,对 样本的信息利用率高。 高维空间点覆盖神经网络通过对原构网样本和识别错误的样本的 重新学习,能明显提高识别率,表明高维空间点覆盖神经网络有较强 的学习能力;通过对识别错误的样本单独构建的高维空间点覆盖神经 网络,与原来的高维空间点覆盖神经网络之间进行有机结合,识别率 显著提高,证明高维空间点覆盖神经网络有较强的即时学习能力以适 应环境。这种不同模型之间易于集成的能力可以用在多语种多方言的 语音识别系统综合集成方面,为语音识别系统的广泛应用提供了光辉 的发展前景。 关键词连续语音识别单词音节隐马尔可夫模型高维空间几何高 维空间点覆盖神经网络 t h e t h e o r y , a n a l y s i s a n de x p e r i m e n t s a b o u tt h es p e a k e r - i n d e p e n d e n t c o n t i n o u ss p e e c hr e c o g n l t i o n a b s t r a c t s p e a k e r - i n d e p e n d e n t c o n t i n u o u sm a n d a r i nf i g u r es p e e c hr e c o g n i t i o n s y s t e mh a sw i d ea p p l i c a t i o n i nm a n yf i e l d ss u c ha st e l e p h o n es p e e c h g a t e w a y , r e m o t e c o n t r o lo fh o m e a p p l i a n c e s ,i n d u s t r y c o n t r o la n d i n f o r m a t i o ni n q u i r ys y s t e m i th a st h e o r e t i c a la n dp r a c t i c a li m p o r t a n c ei n b o t hf e wv o c a b u l a r ya n dl a r g ev o c a b u l a r ys p e e c hr e c o g n i t i o ns y s t e m s o w i n g t oi t sc h a r a c t e r i s t i c ss u c h a ss h o r t e r p r o n u n c i a t i o n ,e a s i e r c o n f u s i o na n dm a n ym o r ed i a l e c t s ,m a n d a r i nf i g u r es p e e c hr e c o g n i t i o ni s m o r ed i f f i c u l tt h a ne n g l i s hf i g u r es p e e c hr e c o g n i t i o na n db e c o m e sa c h a l l e n g i n gt o p i ci nt h es p e e c hr e c o g n i t i o n f i e l d h i d d e nm a r k o vm o d e l ( h m m ) w h i c h i sb a s e do ns t a t i s t i c sb e c o m e s t h em a i ns p e e c h r e c o g n i t i o nt e c h n i q u e n o wd a y sb e c a u s ei t s s t r o n g c a p a b i l i t y i nm o d e l i n gt h ed y n a m i ct i m es e q u e n c ea n df l e x i b i l i t yi nt h e s e l e c t i o no ft h ep a r a m e t e r s ,s t r u c t u r e sa n dt r a i n i n gt e c h n i q u e s h o w e v e r , i n h m mn o to n l yn e e d sag r e a td e a lo fs a m p l e st ot r a i n i t sm o d e lw h i c h m a k e st h es a m p l ec o l l e c t i o na n dt r a i n i n gab i gw o r k a n dh a sl o wu s a g e r a t eo fs a m p l ei n f o r m a t i o n ,b u ta l s o c a n tt r a i nt h e s a m p l e o fl o w p r o b a b i l i t ys u f f i c i e n t l yw h i c h m i g h t l e a dt of a l s er e c o g n i t i o n t h i s p a p e r i s m a i n l y t o s t u d y t h e f i g u r es y l l a b l e m o d e l i n g f o r s p e a k e r - i n d e p e n d e n t c o n t i n u o u sm a n d a r i nf i g u r es p e e c h a n e w h u m a n c o m p u t e rc o m b i n e df i g u r es y l l a b l ef e a t u r ee x t r a c t i o nt e c h n i q u ei s p r o p o s e d t h et r a i n i n gs e ta n d t h et e s ts e to f f i g u r es y l l a b l ea r ee x t r a c t e d f r o mt h ec o n t i n u o u sf i g u r es p e e c h g u i d e db y t h eh i 曲d i m e n s i o n a ls p a c e c o v e r i n gt h e o r yt h eh i g hd i m e n s i o n a ls p a c ec o v e r i n g n e u r a ln e t w o r kf o r e v e r yc l a s so ff i g u r es y l l a b l e i sc o n s t r u c t e d t h er e c o g n i t i o nr a t eo f t h e l t e s ts e tr e a c h e s m o r et h a n9 7 t h i sm o d e l i s a p p l i e d t oan e w , s p e a k e r - i n d e p e n d e n t c o n t i n u o u s f i g u r es p e e c hr e c o g n i t i o n t e c h n i q u e b a s e do nh i g hd i m e n s i o n a ls p a c ec o v e r i n gd y n a m i cs c a n n i n g t h e o r y e x p e r i m e n t s s h o wt h e h i g h d i m e n s i o n a l s p a c ec o v e r i n g n e u r a l n e t w o r ko u t p e r f o r m st h eh m m w h e nt h en u m b e ro fs a m p l e si sf e w t h e h i g h d i m e n s i o n a ls p a c ec o v e t i n gn e u r a ln e t w o r kc a n d e + s c r i b e t h es a m p l e d i s t r i b u t i o ni nh i g hd i m e n s i o n a lf e a t u r es p a c em o r e r e a s o n a b l y a n dm a k e b e g e ru s et h es a m p l ei n f o r m a t i o n t h e h i g hd i m e n s i o n a ls p a c ec o v e r i n g n e u r a ln e t w o r kc o n s t r u c t e db y t h ef o r m e r s a m p l e s e ta n dt h ef a l s e r e c o g n i z e ds a m p l e s h a s h i g h e r r e c o g n i t i o nr a t et h a n t h ef o r m e rh i g hd i m e n s i o n a ls p a c ec o v e r i n gn e u r a l n e t w o r k ,w h i c hs h o w sh i g hd i m e n s i o n a ls p a c ec o v e t i n gn e u r a ln e t w o r k h a sl e a r n i n gc a p a c i t y f u r t h e r m o r e ,t h r o u g hi n t e g r a t i n gt h ef o r m e rh i g h d i m e n s i o n a ls p a c ec o v e r i n gn e u r a ln e t w o r ka n dt h eh i g hd i m e n s i o n a l s p a c ec o v e r i n gn e u r a ln e t w o r kc o n s t r u c t e do n l yb yt h ef a l s er e c o g n i z e d s a m p l e s ,t h er e c o g n i t i o n r a t ec a na l s ob eh i g h l yi m p r o v e d t h i sn o to n l y s h o w st h eh i g hd i m e n s i o n a ls p a c ec o v e t i n gn e u r a ln e t w o r kh a sq u i c k l e a r n i n gc a p a c i t yw h i c hm a k e s t h es p e e c hr e c o g n i t i o ns y s t e mc a ne a s i l y a d a p t t ot h e e n v i r o n m e n t ,b u t a l s os h o w sd i f f e r e n tk i n d so fh i g h d i m e n s i o n a ls p a c ec o v e r i n gn e u r a ln e t w o r k sc a l lb ei n t e g r a t e de a s i l ya n d t h i s c a p a b i l i t yp r o v i d e s a p r o m i s i n gw a y f o rt h e i n t e g r a t i o n o f m u l t i l a n g u a g e ,m u l t i d i a l e c ts p e e c hr e c o g n i t i o ns y s t e m s ,w h i c h w i l ll e a d t ot h ew i d eu s eo f s p e e c hr e c o g n r i o ns y s t e m k e y w o r d s c o n t i n u o u s s p e e c hr e c o g n i t i o n ,s i n g l es y l l a b l e ,h i d d e n m a r k o vm o d e l ,h i g hd i m e n s i o n a ls p a c eg e o m e t r y , h i g hd i m e n s i o n a l s p a c ec o v e r i n g ,n e u r a l n e t w o r k v a g l ,x :,- ,) 爿b 嘲 弼粥) 矿8 ,2 燃1 皆 榜鼍说明 淡拳n 维空间中的点摹1 矢撤,g l ,x 2 ,x 。) 为坐标值 矢量4 和嚣的点积 矢塞者魏鼯黉蕊数 基三点鬈、数,戳为琰纛嗣戏戆蠢疆空阕, 患茗弱空瓣黩憋躐裹 歹为最小的秘蹶对应的下标 v i l l ,。7 4 9 7 7 8 ;i 浙江王业大学 学位论文原铹性声麟 本人郑慧声骧:所撬交斡学使论文是本人在黪烀蛉措露下,独立避抒 戮究工 螯掰彀褥熬掰究残杀。豫文孛糕经翻竣檬浚零l 用憝斑容努,本论文 不包含熬德个人或繁体融经发表或撩笃过静研究成果,也不含为获得积 鼗工业大学或其它教窝蜣梅的学缀诞书嚣使题过豹材料。对本文鲍研究佟 瞧重要嚣献瓣今天秘浆转,均邑痰文孛滋聪淤方式括鞠。本久承挺本声鞠 的法律责任。 睾卷签褒; 、务囊乙 , 嚣期:弘妒苹,毒嚣p 鞭 学位论文版权使用授投书 零学位论文终者宠叠了解学校窍关傺餐、馕瓣学藏论文瓣蠖定,弼意 学狡爨整黪藏毽家鸯哭部门蕺掇拣送交论文熬笈露 孛嚣惫子敝,完诲论文 被查阅和借阅。本人授权浙江工娥大学可以将本学位论文的全部或部分内 器编天鸯关数据库逡磐稔索,可滋采煺影窝、缤鼙躐l 曼搭等簧裁手段缳存 弱汇编零举像论文。 本学位论文属于 l 、缳密舀,在年躺窭慧逶鼹零授投 砉。 2 、不豫密黼。 ( 请谯以上相应方框内打“4 ”) 谗者签名:疼蠢燕露辩“钟挥砧嚣 秘 导师链:乡苛移 圈嬲国矽悔胆月二护疑 浙江工业大学硕士毕业论文 第一章绪论 1 1 语音识别的发展历史及现状 语音识男u ( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 的研究工作起始于上个世纪5 0 年代,1 9 5 2 年贝尔实验室的d a v i s ,b i d d u l p h 和b a l a s h e k 建立了一个与说话人有 关的孤立英文数字语音识别系统i l l 。在说话入和麦克风距离保持不变的情况下, 该系统正确识别率达到了9 8 。1 9 5 9 年,美国l i n c o l n 实验室的r o r g i e 和f o r g i e 首次采用数字计算机识别英文的元音和以摩擦音开头的孤立字,这标志着计算机 语音识别时代的开始【2 】。 6 0 年代末7 0 年代初,一系列里程碑似的基础性突破为语音识别的发展奠定 了基础。在语音学方面,瑞典通信工程师f a n t 发表了蔫名的博士论文语音产 生的声学理论。在信号处理方面,线性预测编码( l i n e a r p r e d i c t i o nc o d i n g ,l p c ) 技术在7 0 年代被日本学者i t a k u r a 成功地应用于语音识别【3 】,使语音信号的特征 提取有了一次飞跃。前苏联科学家v i n t s y u k 在6 0 年代将动态规划应用于模式识 别,成为语音识别方法的重要基础【4 】。日本学者s a k o e 和c h i b a 提出了动态时间 归整( d y n a m i c t i m ew a r p i n g ,d t w ) 技术用来解决语音识别中不等长语音的对整 问题【5 】。语音信号线性预测编码技术和动态时间归整技术,结合模板匹配原理, 有效地解决了特定人、小词汇表的孤立词语音识别问题。美国于7 0 年代实施了 美国国防高级研究项目计划( u sd e f e n c ea d v a n c e dr e s e a r c hp r o g r a ma g e n c y , d a r p r ) ,对语音识别研究给予很大支持,d a r p a 采用有多个说话人发音的1 0 0 0 词的语料库,作为参加d a r p r 计划的大学和公司研发的语音识别系统的性能评 估语料库。 8 0 年代以后,语音识别的任务开始由特定人孤立词语音识别转向非特定人、 中等词汇量的连续语音识别,识别的方法也逐渐从模板匹配方法转变到统计模型 方法。以隐马尔可夫模型典型代表的统计方法,由于其在参数、结构和训练方法 的选择上有很大的灵活性,逐渐成为语音识别技术的主流。h m m 的理论基础在 浙江工业大学硕士毕业论文 19 7 0 年前后由b a u m 等人建立起来 6 1 ,随后由c m u 的b a k e r 和m m 的j e l i n e k 等人应用于语音识别之中 7 , 8 1 ,h m m 模型的广泛应用归功于a 1 、& tb e l l 实验室 r a b i n e r 等科学家的努力 9 , 1 0 , 1 1 ,他们把原本艰涩的h m m 纯数学模型工程化,使 世界各国从事语音处理的的研究者所了解和熟悉,进而成为公认的一个研究热 点。 人工神经网络( 址州) 1 2 , 1 3 】在语音识别中的应用研究的也在这一时期兴起。 在此期间,美国国防部的d a 心慷计划对语音识别研究起了巨大的推动作用, 当时d a r p a 的相应评估语料库为1 0 0 个带不同方言的说话者、词汇量为一千的 r e s o u r c em a n a g e m e n t ( r m ) 语料库【,参加d a r p a 计划评测的各研究机构都推 出了各种识别系统,如c a r n e g i e m e l l o n 大学用v q h m m 的方法实现了s p h i n x 系统,这是第一个高性能的非特定人、大词汇量连续语音识别系统。b e l l 实验室 以r a b i n e r 为首的小组对英语数字串识别作了大量的研究,成为小词表语音识别 的典范。 9 0 年代语音识别转向大规模、非特定人自然语言的识别。1 9 9 3 年,d a r p a 采用华尔街杂志语料库( w a l ls t ? e e tj o u m a lc o r p u s ) 进行语音识别系统评估,该语 料库包含两万个词汇。另外还有s w i t c h b o a r d 语料库,它是个含有2 6 万个词汇 的自然电话交谈语音数据库。1 9 9 8 年,d a r p r 用广播新闻语料作评估,这些语 料来自英语电台和电视新闻节目录音,背景噪声、说话人口音和失真等情况复杂, 因此识别难度大。其中低噪声部分评测结果剑桥大学的h t k 系统正确识别率最 高,字错误率为7 8 ,自然发音部分法国国家实验室的l i m s i 正确识别率最高, 字错误率为1 4 4 。 美国国家标准和技术协会( n a t i o n a li n s t i t u t e o fs t a n d a r d sa n dt e c h n o l o g y , n i s t ) 最近的语音识别系统评测是2 0 0 1 年的电话交谈语音识别,英语测试集合 为: ( 1 ) s w i t c h b o a r d 1 ,2 0 个5 分钟对话,4 0 人,说话人语音在公共语料库中 出现过。 ( 2 ) s w i t c h b o a r d 2 , p h a s e 3 ,2 0 个5 分钟对话,说话人在美国南方,说话人 未在公共语料库中出现过。 ( 3 ) s w i t c h b o a r d - 4 ,p h a s e 3 ,2 0 个六分钟对话,移动电话。 2 浙江工业大学硕士毕业论文 共有8 个语音识别系统参加评测,其中剑桥大学的h t k 系统正确识别率最高, 三个测试集的字错误率分别为1 9 8 、2 4 5 、2 9 2 。 这次评测还有中文系统的评比,评测语料库为2 0 个c a l l h o m e 语料库的对话, 只有b b n 公司参加,字错误率为4 9 ,而b b n 公司系统的英文识别率测试为 第三名,可见汉语识别难度比英文识别难度大得多。 目前语音识别已经达到了一个相对高的水平,在稳健语音识别、自适应等方 面也取得了丰硕的成果,正在从试验室研究中走出来,进入了一个实用化的阶段。 语音识别研究水平的最重要的标志之一是非特定人大词汇量连续语音识别的性 能。目前对于理想环境下的语音数据,英国c a m b r i d g e 大学的h t k 系统的误识 率已达到5 以下;对于广播语音,c a m b r i d g e 大学的h t k 系统正确误识率达到 1 6 2 ;而对于大词汇量的电话语音的识别,美国c a r n e i g i e m e l l o n 大学的系统 词误识率为4 5 1 。这些系统代表着目前语音识别的最高水平。小词汇表语音系 统也具有广泛的应用价值,英语数字语音识别的串识别率已达到9 9 以上;而具 有高混淆度的英语字母的识别率也达到了9 7 以上。 一些有限词汇量的语音识别系统已经在实际中得到应用,如a t & t 的通用信 用卡语音系统能识别英文发音的信用卡号。i b m 公司推出的v i a v o i c e 系统标志 着非特定人大词汇量连续语音识别的实用化,在合适的麦克风距离和充分的训练 后,能进行大词汇量的听写工作。在小词表语音识别领域中,各公司也纷纷推出 了单片机的语音识别系统,其中较为典型的是美国s e n s o r y 公司的语音识别芯片 r s c x 6 4 系列。各种电子产品上也加入了语音识别的功能,如p h i l i p 和s a m s a n g 的手机即加入了特定人人名识别的功能。 互联网和移动通讯技术的成熟给语音识别技术的发展和应用带来新的契机。 i b m 、l u c e n t 、m o t o r o l a 和a t & t 四家公司于2 0 0 0 年用于语音浏览i n t e m e t 的标 记语言v o i c e x m s l ,现己被w 3 c 组织接受为国际工业标准,在这个标准确立之 后,许多厂家相继推出语音门户网站。这样人们就可以通过电话来上网,利用语 音来代替键盘输入。 国内的语音识别研究开始于七十年代,从1 9 8 7 年起国家8 6 3 智能计算机主 题专家组为语音识别立项,经过二十余年的发展,汉语语音识别也获得了丰富的 成果。越来越多的大学、科研院所加入到语音识别的研究中来t 1 5 - 2 0 ,比较著名的 浙江工业大学硕士毕业论文 有清华大学电子工程系、计算机系、中科院自动化所、中科院声学所、北京航空 航天大学、北京邮电大学、西部工业大学、哈尔滨工业大学、复旦大学等等。1 9 9 8 年的8 6 3 测试评比中,清华大学电子工程系以王作英教授为首的课题组完成的汉 语连续语音识别系统的字识别率达到9 0 以上i 2 1 。2 3 1 ,代表了目前国内的先进水 平,在汉语小词表语音识别及应用方面,清华大学电子工程系以刘润生教授为首 的课题组已推出了基于非特定人汉语数码语音识别的语音拨号电话机,并在从事 语音识别专用芯片的设计研究 2 4 彩】。 1 2 语音识别的难点 经过5 0 多年的发展,语音识别技术经历了从特定人、小词汇量、孤立词的 语音识别到非特定人、大词汇量、自然语音识别的发展过程,取得了辉煌的成就。 但是,现有的语音识别系统还面临着许多困难,远远达不到广泛实用化的要求, 具体来讲,主要表现在: ( 1 ) 语音识别系统的适应性差。全世界有近百种官方语音,每种语音有多达几 十种的方言,随着语言环境的改变,系统性能会严重下降。 ( 2 ) 噪声问题:目前的语音识别系统大多只能工作在安静的环境下,在受环境 噪声干扰时,语音识别系统性能变差。 ( 3 ) 端点检测:连续语流中语音单元( 如词、音节、音素) 间存在协同发音 ( c o - a r t i c u l a t i o n ) ,且各语音单位之间不存在明显的边界,因此很难分割。语音 信号的端点检测是进行语音识别的重要部分,研究表明f 2 6 ,即使在安静的环境下, 语音识别系统一半以上的识别错误来自端点检测。 ( 4 ) 对大词汇量语音识别系统的训练工作量巨大,识别速度有待提高。 ( 5 ) 由于对人脑的记忆、听觉的神经生理学机理还没有彻底的认识,使语音识 别技术没有突破性进展。 汉语语音识别除具有一般语音识别系统的特点外,还有其独特的方面,因为 汉语发音与英语发音比较: ( 1 ) 汉语字以单音节( s y l l a b l e ) 为单位,发音时间短,而英语以多音节为主。 ( 2 ) 汉语有大量的同音字,由6 0 个左右的声母和韵母组成4 0 多个无调音节和 4 浙江工业大学硕士毕业论文 1 2 0 0 多个有调音节,音节与音节之间相似性大、易混淆。英语则不存在这方面 的问题。 ( 3 ) 中国民族众多,不同地区之间发音变化很大,方言多。 基于以上原因,与较成熟的英语语音识别相比,汉语语音识别仍是一个富 有挑战性的课题。 1 3 本文选题的依据和意义 连续汉语数码识别般特指十个数字( o 9 ) 连接而成的多位数字识别,在 电话拨号系统、家电遥控、工业控制、信息查询系统等领域有广泛应用,属于 小词表的连续语音识别,但非特定人汉语数码识别无论对于小词表识别系统还是 大词表语音识别系统都具有重要的意义。本文主要研究连续汉语数字音节的建模 问题。 隐马尔可夫模型( h m m ) 是功能非常i 默的随机过程模型,巧妙地将统计 理论和动态规划相结合,以相当简练的参数和灵活的结构实现了时变信号的建 模,成为主流的语音识别方法。然而h m m 是基于统计学方法,通过统计某类样 本出现的概率来认识该类事物,因此,模型的训练需要大量的数据。对训练样本 集中,出现概率大的情况识别较好:出现概率少的样本容易得不到充分的训练而 引起误识。显然,在训练样本集中,出现概率大的样本对应样本数量多,从而每 个样本包含的平均信息量少,而出现概率少的每个样本包含的平均信息量大,因 此基于统计学的学习方法对样本数据的信息利用程度不高。 基于统计方法的模型很难对出现概率少的情况有很好的学习,这是统计学方 法一个明显的弱点。统计学的方法是当一个事物出现很多次时,才对它有很好的 认识。而入对新鲜事物是很敏感的,碰到新情况、新问题,极易感兴趣,通过观 察、认识、记忆、联想等一系列的思考,对新事物进行学习,达到掌握新事物的 目的,这是长期以来人类对自然界适应的结果。人脑对于出现少的情况能很快地 进行学习的能力,是统计学的方法不具备的。 王守觉院士经过多年的对神经网络、模式识别的潜心研究,从高维空间几何 新江工业大学硕士毕业论文 分析的角度 2 7 】,来分析一般的神经网络如b p 神经网络、r b f 神经网络 2 8 - 3 0 , 并提出了双权值和多权值神经网络理论p 卜4 ”。从人类认识事物的角度出发,提出 了“仿生模式识别” 4 2 , 4 3 】的理论,认为人在认识事物时是一类一类地来认识事物, 重视同类事物之间的联系。假设特征空间中同类样本具有连续性规律,对一类事 物的“认识”,实质上就是对这类事物的全体在特征空间中形成的无穷点集合的 “形状”的分析和认识。仿生模式识别的实现方法是“高维空间点覆盖” 2 7 , 4 2 - 4 4 方法,以最佳覆盖在特征空间中一类事物样本点的分布区域作为目标,达到认识 事物的目的。即使对出现概率少的样本也能在特征空间中把它有效地覆盖,因此, 学习的效率高,对样本信息的利用程度大,在少量的训练样本下就能达到很好的 识别效果。用一定数量的多权值神经元f 4 2 删具体实现对某类事物所占据的特征空 间的覆盖,每一个多权值神经元覆盖特征空间的一小部分,整个神经网络是各个 神经元的简单合并,覆盖特征空间的一定区域。所以它是一种逐步构造型的易于 训练的神经网络。当有新的样本需要加入网络时,只要用新的神经元对它进行覆 盖,把这个新的神经元加入原来的神经网络,原来的神经网络的的各个神经元的 内容不用进行调整。因此它又是一种易于扩充的神经网络。仿生模式识别理论、 高维空间点覆盖方法在实物识别、人脸识别、说话人识别、语音识别、手写体识 别等方面 4 5 - 5 1 1 都取得了很好的效果。 本文把高维空间点覆盖理论应用于非特定人连续汉语数字音节的建模,提出 一种新的人机结合的数字音节特征提取方法【5 0 】。从连续数字语音中提取出建模和 测试用数字音节样本集,依据高维空间点覆盖方法,建立各数字音节的特征空间 覆盖区神经网络模型,并使用测试样本进行建模正确性验证。验证结果表明,正 确率达到9 7 9 6 以上。该模型将用于一种基于高维空间点覆盖动态搜索理论的非特定 人连续数字语音识别的新算法【5 1 】。 在不同数量的建模样本下,对h 嘶模型和高维空间点覆盖神经网络模型对数字 音节的建模能力进行测试,实验结果表明,样本数量较少时,高维空间点覆盖神 经网络模型的识别率明显高于h 删模型。实验还证明高维空间点覆盖神经网络模 型对识别错误的样本进行再学习的能力强,从而使系统有适应多变的语音环境的 潜力。不间的高维空间点覆盖神经网络模型之间易于组合,为实现多种语音识别 系统的有机结合提供了发展方向,有光辉的发展前景。 6 浙江工业大学硕士毕业论文 1 4 本文的内容安排 全文具体安排如下: 第一章绪论,介绍了语音识别的发展历史及现状,语音识别的难点,本文选题 的依据和内容安排。 第二章介绍了隐马尔可夫模型的基本理论及在语音识别中的应用。 第三章提出一种新的人机结合的连续数字语音中数字音节的特征提取方法。 第四章从形象思维和高维空间几何的角度介绍了高维空间点覆盖理论,并把它 应用于非特定人连续数字语音识别中数字音节的建模。 第五章对不同数量样本下h 和高维空间点覆盖方法对连续数字语音中数字音节 的建模能力进行比较,样本数量较少时,高维空间点覆盖神经网络模型的识别率明显 高于h m m 模型。把识别错误的样本加入原来的建模样本重新建立高维空间点覆盖神经 网络后,识另d 率大大提高。单独对识别错误的样本重新建立高维空间点覆盖神经网络, 与原来的高维空间点覆盖神经网络进行有机结合,也达到较高的识别率,说明不同的 高维空间点覆盖神经网络易于集成。 第六章进行总结和展望。 7 浙江工业大学硕士毕业论文 第二章隐马尔可夫模型( h m m ) 的基本原理及其在语音识别 中的应用 2 1 h m m 基本原理 2 1 1 马尔可夫链 马尔可夫链。“描述一个有限状态自动机在时间t 内的状态变化,在任一离 散时刻f ,只能处于有限状态s 中的某一状态,s = 矗,s :,s 。 。用 j z 。,x :,研表示自动机在f = 1 , 2 ,t 时刻所处的状态。这一条状态链产生的 概率满足: 如b 而) ;p b ) j = i p k 协z ,柏) ( 2 1 ) 这样产生的一条状态链z = 薯,z :,x t 称为马尔可夫链。 假设在任何时刻t ,这个自动机的状态t 为有限状态集s 中的某个状态的概 率只取决于它在前一个时刻( f 一1 ) 的状态x 。,与比0 一1 ) 时刻吏早的任何时刻的 状态无关。这个假设就是“马尔可夫假设”( b t a r k o va s s u m p t i o n ) ,由此产生的状 态序列x 构成了一个离散时域的一阶马尔可夫链,( 2 1 ) 式变为 p b z ,而) = p k ) l = j 尸( x t i ( 2 2 ) 设在疗2 1 时刻,自动机所在的状态工,取决于一个初始状态概率矢量 石= ( 巧,乃,“) ,它的每一个分量乃表示t 等于曲的概率,即 ,r t = p ( x l s ) ,= 1 ,n ( 2 3 ) 再用个维的4 = k j 来表示在相邻两个时刻中已知前一个时刻的状 态为s 。,后一个时刻状态为j ,的概率 口= p k “一s ,jx ,;只) ,f ,= l , ( 2 4 ) r 浙江工业大学硕士毕业论文 用初始状态石和转移矩阵4 就能表示出一个离散一阶马尔可夫链的状态变 化全过程。 2 1 2 隐马尔可夫模型( h m m ) 对于上节提到的自动机,如果在任何时刻f ,外界都无法观测到系统所在的 状态,而只能得到与这个状态有关的一个随机输出矢量0 ,这就构成了一个一阶 隐马尔可夫模型( h m m ) 。状态x t 隐藏在系统内部,外界无法直接看到。输出 矢量0 。可以具有连续分布或者离散分布,相应的概率密度函数或概率分布只取 决于x ,为何种状态,而与t 无关。个概率密度函数构成了一个矢量 b = 6 。( 0 x 6 :( 。卜,b 。( o ) ; 6 ,( o ) ;巴。o ,) = p ( o , 一= q ) = 置( o ) ,i = 1 , ( 2 5 ) 这也被成为“输出独立性假设”( 0 u t p u t i n d e p e n d e n ta s s u m p t i o n ) 。输出 独立性假设和上节提到的马尔可夫假设是一阶隐马尔可夫模型的两个前提假设。 初始状态概率矢量疗、状态转移概率矩阵爿以及概率输出矢量占一+ 起构成 了删的三个特征参量。因为4 、b 、厅的元素都是概率,它们必须满足: 0 互,口。,b ,( o ) s l ,i ,j 一1 ,一,n ( 2 ,6 ) 酗 2 - 7 唧一l ( 2 - 8 ) f 6 ,o ) 一1 , i ;l ,n ( 2 9 ) 一 隐马尔可夫模型通常可以表示成五= ( 以一,b ) 。 2 2h m m 的三个基本问题 给定一个删:五;( 石,彳,丑) ,有三个基本问题需要解决,它们是: ( 1 )评价问题 给定一个观察序列o = 0 1o :,o ,和一个 d 删模型丑一( 万,爿,占) ,如何计 9 浙江工业大学硕士毕业论文 算由五产生观察序列0 的概率户( o j 旯) 。 ( 2 )解码问题 给定一个观察序列o = 0 1d 2 ,叶和一个h m m 模型兄一( 丌,a ,矗) ,如何找到 一条最佳的状态序列,使它产生观察序列。的概率最大。 ( 3 )学习问题 给定一个观察序列d = o ,o :,唧和一个初始h m m 模型五;( 石,a ,b ) ,如何 调整川约参数使得a 产生0 的概率p ( o | ) 达到最大值。 2 2 1h m m 评价问题一前向后向算法 由兄产生观察序列o = 0 1d :,o ,的概率等于所有可能状态序列 _ ,x :,坼的概率的总和,薯取状态集合s 一。,s :,如) 中的一个,i 一1 , 2 ,r e ( o l 旯) = 罗户( i 五) p ( o i ,z ) ( 2 i 0 ) 熊 其中 r v ( x i 丑) = 盹i 兄) u p ( x ,i x t - i 五) s 疗 。 ( 2 1 1 ) f - 2 p ( 。| x ,名) 2 珥t p j 五,曲2 以。( 。琏( 。:) ( 卟) ( 2 1 2 ) 结合( 2 1 0 ) ,( 2 1 1 ) ,( 2 ,1 2 ) 有 p ( d i 五) = g p ( x i 兄) p ( o i x ,五) 所百x 2 弘拍k t t 6 t ( d : a x r ,x , b x r ( 。一) 2 1 3 式( 2 1 3 ) 的计算量为d ( 2 7 ) ,为了减少计算最,定义前向概率 甜,( f ) = p ( o 。,o :,一,d ,一qi 五) ( 2 1 4 ) 上式表示给定模型五,从时间1 到f 观察到值0 ,d :,0 ,且f 时刻状态停 留在只的概率a 建立式( 2 - 1 5 2 - 1 7 ) 所示的岱“到a r 递推关系,计算量减少到 o ( n 2 r 1 。前向算法的过程如下。 初始化:q ( f ) = 互岛( 。) ,1 s i s n ( 2 1 5 ) 浙江工业大学硕士毕业论文 递推:口,+ ( ,) 2 誊口,( z ) 口“b j ( o t “) ,t s r s 丁一,s j s ( z s ) 结束:p ( o l 五) 2 ( f ) ( 2 1 7 ) 与前向概率相对应,还有后向概率。定义后向概率为: 屈( f ) = 尸( 。o 。卟,t 一0i 旯) ( 2 1 8 ) 表示给定h m m 模型参数丑,观测序列在f 时刻处于状态s ,系统输出部分观 察序列o t + l o m 0 r 的概率。 后向概率也有类似的递推公式计算: ( 1 ) 初始化屏( f ) = 1 ,1 s i = n ( 2 1 9 ) ( 2 ) 迭代计算届( f ) 一“况+ t d ) ,1 sr s ,一1 ,l s ,s ( 2 利用前向概率和后, 善向a 概o b 率j ( 公。式巧妙地将整个观察序列对h 姗模型的输出2 概0 ) 率分成两个部分观察序列的输出概率的乘积,而且它们各自都有相应的递推公 式,可以大大简化计算。输出概率计算公式为: p ( d i 五) 2 酗( i ) f l t ( i ) 2 善口,( f ) ,1 蚍n ( 22 1 ) 它的另一种常用的形式是: 尸( o r a ) 3 善善q ( i ) a g b j ( 。f + t 搬+ ( _ ,) ,1s f 丁_ 1 ( 2 2 2 ) 实际计算中首先计算出对于每个,和每个状态s 。的前向概率和后向概率,然 后套用上面的公式,计算出该观察序列对模型的输出概率。这两个公式也就是全 概率公式。 2 2 2h m m 解码问题_ v i t e r b i 算法 v i t e r b i 算法是一种广泛应用于通信领域的动态规划算法,利用v i t e r b i 算 法,不仅可以找到一条足够好的状态转移路径,还可以得到该路径所对应的输出 概率。同时计算量比全概率公式小得多。定义v i t e r b i 概率: 浙江工业大学硕士毕业论文 k ( _ ,) = m a x p b 。,x :,x ,一。,x 。一s ,o 。;,。,ia ) ( 2 2 3 ) x h ? 一i i + 表示在t 时刻,最后一个为状态5 ,的所有状态序列中,产生d ,o :,。,的概 率最大的那条状态序列所对应的概率。v i t e r b i 算法如下: ( 1 ) 初始化:k ( f ) - x , b ,0 1 ) ,b 1 = o ,1 s i s n ( 2 2 4 ) ( 2 ) 递推:”+ 。( ,) = 雹蓊e ( f k 上,( 0 r + ,) ,1 s fs ,1s ,s n( 2 2 5 ) e o ) 2 a r g 器紧k ( f k 口多,( 。“) ,1 s fs r ,1 s ,s ( 2 2 6 ) ( 3 ) 结束:最佳路径概率为罂骛峙( f k j (227)nl ,4 。 最佳状态为x ;2 a r g 蛋弘r 0 ) , ( 2 - 2 8 ) ( 4 ) 最佳路径回溯:x 产e “b - ) ,t = t - 1 ,t 一2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 10394.2-2025收获机械饲料收获机第2部分:技术特征和性能
- 2025年视觉识别技术应用项目可行性研究报告及总结分析
- 2025年电动两轮车共享系统可行性研究报告及总结分析
- 机械制造技术基础:金属切削原理培训课件
- 2025年企业碳交易额度协议合同
- 2025年企业内部培训师聘用协议
- 2025年室内空气净化科技产品开发项目可行性研究报告及总结分析
- 2025年企业并购合同协议
- 2025年户外运动用品研发项目可行性研究报告及总结分析
- 2025年智能化宠物产品研发项目可行性研究报告及总结分析
- 《小额贷款公司监督管理暂行办法》测试竞赛考试练习题库(附答案)
- (一模)新疆维吾尔自治区2025年普通高考第一次适应性检测 文科综合试卷(含答案)
- 第四讲大力推进现代化产业体系建设-形势与政策
- MOOC 跨文化交际通识通论-扬州大学 中国大学慕课答案
- 大桥结构健康监测系统项目监理规划
- 腹腔镜胃癌根治术护理教学查房
- DB23T 2334-2019 装配式混凝土渠道应用技术规范
- 酒店公寓物业管理规约
- 通透(杨天真重磅新作)
- DB32-T 4281-2022 江苏省建筑工程施工现场专业人员配备标准
- 区块链技术及应用PPT完整全套教学课件
评论
0/150
提交评论