(信号与信息处理专业论文)基于孤立字词的扬州方言语音识别研究.pdf_第1页
(信号与信息处理专业论文)基于孤立字词的扬州方言语音识别研究.pdf_第2页
(信号与信息处理专业论文)基于孤立字词的扬州方言语音识别研究.pdf_第3页
(信号与信息处理专业论文)基于孤立字词的扬州方言语音识别研究.pdf_第4页
(信号与信息处理专业论文)基于孤立字词的扬州方言语音识别研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(信号与信息处理专业论文)基于孤立字词的扬州方言语音识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1ll l l r r l l l ir l l l l l ir l l l l l l l l t l l l l l l f l l i i y 2 2 5 8 0 8 6 r e s e a r c ho n y a n g z h o u d i a l e c ts p e e c h r e c o g n i t i o nb a s e d o ni s o l a t e dw o r d s ad i s s e r t a t i o ns u b m i t t e dt oy a n g z h o uu n i v e r s i t yf o r m a s t e r sd e g r e e c a n d i d a t e :t a oz o u s u p e r v i s o r :x u e l o n gh u m a jo r :s i g n a l i n f o r m a t i o np r o c e s s i n g s c h o o lo fi n f o r m a t i o ne n g i n e e r i n g y a n g z h o uu n i v e r s i t y y a n g z h o u ,j i a n g s u ,r r c h i n a a p r i l2 0 1 2 目录 摘要i a b s t r a c t i i i 1 绪论1 1 1选题的背景及意义1 1 2语音识别技术的发展历史及现状2 1 3语音识别系统概述5 1 3 1 语音识别系统的构成5 1 3 2 语音识别系统的分类6 1 3 3 语音识别系统的评价标准7 1 4本文的主要研究内容及结构安排7 1 5本章小结8 2语音信号的预处理和特征参数提取,9 2 1语音信号的特性及产生原理9 2 1 1 语音信号的特性9 2 1 2 语音信号的产生原理1 0 2 1 2语音信号的数字化及预处理1 1 2 2 1语音信号的采样和量化1 l 2 2 2 语音信号的预滤波和预加重1 2 2 2 3 语音信号的分帧和加窗1 2 2 2 4 语音信号的端点检测15 2 3语音信号的特征参数提取1 9 2 3 1 线性预测倒谱系数( l p c c ) 2 0 2 3 2 梅尔频率倒谱系数( m f c c ) 2 1 2 3 3m f c c 的差分混合系数2 3 2 4本章小结2 5 3扬州方言语音语料数据库的建立2 6 3 1语音语料数据库概述2 6 3 2构建扬州方言语音语料数据库2 7 3 2 1 构建语音语料数据库的一般步骤2 7 3 2 2 设计扬州方言语料库2 9 3 2 3 录制扬州方言语音3 0 3 3本章小结3 2 4 基于动态时间规整和隐马尔科夫模型的识别算法3 3 4 1 动态时间规整技术3 3 4 1 1 动态时间规整技术的基本原理3 3 4 1 2 动态时间规整的路径选择限制条件3 4 4 1 3 动态时间规整的路径搜索算法3 5 4 1 4 动态时间规整技术的特征模板训练3 6 4 1 5 动态时间规整技术的优缺点3 8 4 2 隐马尔科夫模型简介3 8 4 2 1 马尔科夫链3 9 4 2 2隐马尔科夫模型的定义3 9 4 2 3隐马尔科夫模型的结构和类型4 1 4 3 h m m 的算法实现4 3 4 3 1 涉及h m m 算法的三个基本问题4 3 4 3 2 输出概率的计算4 3 4 3 3 最佳状态转移路径的求解4 5 4 3 4 模型的参数优化4 6 4 4 h m m 的算法改进4 7 4 4 1 计算数据溢出问题4 8 4 4 2 多对象训练问题4 8 4 5 算法仿真实验与分析4 9 4 5 1 d t w 算法仿真4 9 4 5 2 h m m 算法仿真5 0 4 6本章小结51 5 扬州方言语音识别系统的仿真与分析5 2 5 1 扬州方言语音识别系统简介5 2 5 2非高斯噪声下的系统优化5 5 5 3 系统仿真实验与分析5 6 5 3 1 方言孤立字语音识别5 7 5 3 2 方言孤立词语音识别5 7 5 3 3 非高斯噪声下的方言语音识别5 8 5 4本章小结5 9 6 总结与展望6 0 6 1 总结6 0 6 2 展望6l 致谢6 3 参考文献6 4 已发表论文6 8 扬州大学学位论文原创性声明和版权使用授权书6 9 邹韬:基于孤立字词的扬州方言语音识别研究 摘要 近年来,伴随着语音识别技术的迅猛发展,各种成熟的语音识别产品层出不 穷,很大程度上改变了过去极不方便的人机接口模式,让许多过去操作复杂的电 子设备变得容易使用,极大地推动了电子信息、计算机等多个相关领域的发展。 然而在实际应用中,由于受到复杂外部环境以及使用者自身因素的影响和制约, 比如背景噪音和方言口音等,语音识别技术的精确性和系统的鲁棒性也面临着严 峻的挑战。如何在各种复杂环境下,提高语音识别系统对方言口音的自适应性是 个世界范围内仍未被解决的难题。我国语音识别技术的发展起步较晚、基础薄弱, 但发展十分迅速,在国家“8 6 3 ”计划的支持下,各类科研成果丰硕。然而,汉语 言中方言种类繁多,包含八大方言语系共8 0 多种不能互通的地区方言,客观地增 加了汉语语音识别的难度。扬州方言属江淮官话语系,在苏中地区具有广泛的群 众基础,具有一定的代表性,为解决方言语音识别问题提供了较高的参考价值。 本文在国家语言文字应用“十一五”科研项目委托项目江苏语言资源有 声数据库建设子项目的资助下,着重对语音信号的预处理、特征参数提取以及识 别算法进行了研究,并结合使用扬州方言有声数据库,构建了基于孤立字词的扬 州方言语音识别系统,主要内容包括: ( 1 ) 阐述了本文的选题背景和意义,语音识别技术的发展历史和现状,介绍了 语音识别系统的构成、分类以及评价标准。 ( 2 ) 简述了语音信号的特性和产生原理,阐述了语音信号的预处理过程,着重 分析了端点检测的步骤和方法,介绍了l p c c 和m f c c 这两种语音特征参数 的计算和提取方法,在此基础上进一步引入了m f c c 差分混合系数,并进行 了仿真。 ( 3 ) 概述了世界范围内语音预料数据库的发展,简述了构建语音语料数据库的 一般步骤,进而介绍了构建扬州方言有声数据库的过程。 ( 4 ) 分别介绍了d t w 和h m m 两种经典的语音识别算法,在阐述它们基本原 理、算法实现、以及参数估计的基础上,分析了d t w 算法的优缺点,提出了 i i 扬州大学硕士学位论文 h m m 算法的改进方案,以解决其实际计算过程中遇到的数据溢出等具体问 题。在实验仿真阶段,采用扬州方言单字“1 1 0 为例,先用d t w 算法进行 特定人方言语音识别实验,而后采用h m m 算法进行非特定人识别实验,并 选取m f c c 差分混合系数为特征参数,以获取更高的识别率。 ( 5 ) 介绍了基于h m算法的扬州方言语音识别系统,阐述了分数低阶统计量 以及非高斯信号处理的相关理论,并选取l m p 算法对系统在非高斯噪声环境 下进行优化。在实验仿真阶段,分别采用扬州方言数字“1 1 0 ”以及5 0 个典 型方言词汇进行测试,证明该系统具有较高的识别率,并且在非高斯噪声环 境下具有一定的适应性。 关键字:语音识别;扬州方言;差分混合系数;动态时间规整;隐马尔可夫模型; 非高斯噪声 邹韬:基于孤立字词的扬州方言语音识别研究 i i i a b s t r a c t i nr e c e n ty e a r s ,a l o n gw i t ht h er a p i dd e v e l o p m e n to fs p e e c hr e c o g n i t i o nt e c h n o l o g y , av a r i e t yo f d e v e l o p e ds p e e c hr e c o g n i t i o np r o d u c t sh a v eb e e nc o n t i n u o u s l yi n v e n t e d t o al a r g ee x t e n t ,t h i sh a se x t r e m e l yc h a n g e dt h ei n c o n v e n i e n ti n t e r f a c eb e t w e e np e r s o n a n dc o m p u t e r , m a d ei te a s i e rt oo p e r a t et h o s ec o m p l e xe l e c t r o n i cd e v i c e si nt h ep a s t , a n dg r e a t l yp r o m o t e dt h ed e v e l o p m e n to fe l e c t r o n i ci n f o r m a t i o n ,c o m p u t e ra n do t h e r r e l a t e df i e l d s h o w e v e r , i nt h ep r a c t i c a la p p l i c a t i o n s ,d u et ot h ef a c t o r sa n dc o n s t r a i n t s o ft h ec o m p l i c a t e de x t e m a le n v i r o n m e n ta n du s e r st h e m s e l v e s ,s u c ha st h eb a c k g r o u n d n o i s ea n dt h ed i a l e c ta c c e n t ,t h ea c c u r a c yo ft h es p e e c hr e c o g n i t i o na n dt h er o b u s t n e s s o ft h es y s t e ma r ea l s of a c e dw i t hs e v e r ec h a l l e n g e s i ts t i l lr e m a i n sa nu n r e s o l v e d p r o b l e ma l l a c r o s st h ew o r l dt h a th o wt oi m p r o v et h ea d a p t a b i l i t yo ft h es p e e c h r e c o g n i t i o ns y s t e mo i lt h ed i a l e c ta c c e n ti nav a r i e t yo fc o m p l i c a t e de n v i r o n m e n t s t h e d e v e l o p m e n t o ft h es p e e c hr e c o g n i t i o nt e c h n o l o g yi nc h i n as t a r t sl a t e ,a n dt h e f o u n d a t i o ni sr e l a t i v e l yw e a k ,b u ti th a sd e v e l o p e dv e r yq u i c k l y w i t ht h es u p p o r to ft h e 8 6 3 ”n a t i o n a lp r o g r a m ,t h e r ea p p e a r sm a n yk i n d so fs c i e n t i f i cr e s e a r c ha c h i e v e m e n t s h o w e v e r ,t h e r ea r em a n yd i f f e r e n tt y p e so fd i a l e c t si nc h i n e s e ,w h i c hc o n t a i n se i g h t m a j o rd i a l e c tl a n g u a g e s i n c l u d i n gat o t a lo fm o r et h a n8 0k i n d so fr e g i o n a ld i a l e c t st h a t t h e yc a nn o tc o m m u n i c a t ew i t he a c ho t h e r , t h u si n c r e a s i n gt h ed i f f i c u l t yo ft h es p e e c h r e c o g n i t i o no fc h i n e s ef r o mt h eo b j e c t i v ep e r s p e c t i v e y a n g z h o ud i a l e c tb e l o n g st ot h e o f f i c i a ll a n g u a g ef a m i l yo fj i a n g h u a ia r e a s ,a n dh a se x t e n s i v em a s sb a s i si nt h em i d d l e p a r to fj i a n g s u i th a sc e r t a i nr e p r e s e n t a t i v e n e s s ,a n dc a nb eu s e da sa ne x a m p l eo fa h i g h e rv a l u et os o l v et h ep r o b l e mo fd i a l e c ts p e e c hr e c o g n i t i o n t h i sp a p e rw a ss u p p o r t e db yn a t i o n a ll a n g u a g ea p p l i c a t i o n “ll t hf i v e - y e a rp l a n r e s e a r c hp r o j e c t - - j i a n g s up r o v i n c el a n g u a g er e s o u r c ea u d i od a t a b a s ec o n s t r u c t i o n s u b p r o je c t i tf o c u s e so nt h er e s e a r c ho ft h es p e e c hs i g n a lp r e t r e a t m e n t ,f e a t u r e p a r a m e t e r se x t r a c t i o na n dt h er e c o g n i t i o na l g o r i t h m c o m b i n e dw i t ha u d i od a t a b a s e d i a l e c ti ny a n g z h o u ,w eh a v ec o n s t r u c t e dt h es p e e c hr e c o g n i t i o ns y s t e mo fy a n g z h o u d i a l e c to nt h eb a s i so ft h ei s o l a t e dw o r d s a n dt h em a i nc o n t e n t si n c l u d e : ( 1 ) d e s c r i b e dt h eb a c k g r o u n da n ds i g n i f i c a n c eo ft h i sr e s e a r c h ,t h eh i s t o r ya n d c u r r e n ts i t u a t i o no ft h e d e v e l o p m e n to fs p e e c hr e c o g n i t i o nt e c h n o l o g y , a n dt h e c o m p o s i t i o n ,c l a s s i f i c a t i o na n de v a l u a t i o nc r i t e r i ao ft h es p e e c hr e c o g n i t i o ns y s t e m ( 2 ) d e s c r i b e dt h ef e a t u r e sa n dg e n e r a t i o np r i n c i p l eo ft h es p e e c hs i g n a l ,t h e p r e t r e a t m e n to ft h es p e e c hs i g n a l t h i sp a p e rp a y sg r e a ta t t e n t i o nt oa n a l y z et h es t e p s a n dm e t h o d so fe n d p o i n td e t e c t i o n i n t r o d u c e dt h ec a l c u l a t i o na n de x t r a c t i o nm e t h o do f t h ef e a t h e rp a r a m e t e r so fl p c ca n dm f c c o nt h i sb a s i s w eh a v ef u r t h e ri n t r o d u c e d t h ed i f f e r e n t i a lm i x i n gc o e f f i c i e n to f t h em f c c ,a n dm a k et h ee x p e r i e n t i a ls i m u l a t i o n ( 3 ) d e s c r i b e da no v e r v i e wo ft h ed e v e l o p m e n to ft h ew o r l d w i d es p e e c hc o r p o r a d a t a b a s e ,o u t l i n e dt h eg e n e r a ls t e p st oc o n s t r u c tas p e e c hc o r p u sd a t a b a s e ,a n df u r t h e r i n t r o d u c e dt h ec o n s t r u c t i o np r o c e s so ft h ea u d i od a t a b a s eo f y a n g z h o ud i a l e c t ( 4 ) i n t r o d u c e dt h et w oc l a s s i cs p e e c hr e c o g n i t i o na l g o r i t h mo fd t wa n dh m m b a s e do nt h e d e s c r i p t i o no ft h eb a s i cp r i n c i p l e s ,t h ea l g o r i t h mr e a l i z a t i o n ,a n dt h e p a r a m e t e re s t i m a t i o n ,w eh a v em a d ea na n a l y s i so ft h ea d v a n t a g e sa n dd i s a d v a n t a g e so f t h ed t w a l g o r i t h m a n dp u tf o r w a r dt h ei m p r o v e m e n to ft h eh m ma l g o r i t h mt os o l v e t h es p e c i f i cp r o b l e m ss u c ha st h ed a t at r a n s f e rb a n d w i d t hi nt h ec a l c u l a t i o np r o c e s s o n t h ep e r i o do fe x p e r i m e n t a ls i m u l a t i o n ,w eh a v et a k e nt h ei s o l a t e dw o r d s ”1 10 ”i n y a n g z h o ud i a l e c ta sa ne x a m p l e a tf i r s t ,w em a d eas p e a k e r - d e p e n d e n td i a l e c ts p e e c h r e c o g n i t i o ne x p e r i m e n tu s i n gt h ed t wa l g o r i t h m t h e nw em a d eas p e a k i n d e p e n d e n t r e c o g n i t i o ne x p e r i m e n tt h r o u g ht h eh m ma l g o r i t h m ,a n ds e l e c t e dt h ed i f f e r e n t i a l m i x i n gc o e f f i c i e n to fm f c ca st h ef e a t h e rp a r a m e t e r st oo b t a i nah i g h e rr e c o g n i t i o n r a t e ( 5 ) i n t r o d u c e dt h ey a n g z h o ud i a l e c ts p e e c hr e c o g n i t i o ns y s t e mo nt h eb a s i so f h m m a l g o r i t h m ,t h ef r a c t i o n a ll o w e ro r d e rs t a t i s t i c sa n dt h er e l a t e dt h e o r i e so ft h e n o n - g a u s s i a ns i g n a lp r o c e s s i n g s e l e c t e dt h el m p a l g o r i t h mt oo p t i m i z et h es y s t e mi n t h en o n - g a u s s i a nn o i s ee n v i r o n m e n t o nt h e p e r i o do fe x p e r i m e n t a ls i m u l a t i o n ,t h e n u m b e r ”1 10 ”i ny a n g z h o ud i a l e c ta n d5 0t y p i c a ld i a l e c tw o r d sw e r et e s t e dt op r o v e t h a tt h es y s t e mh a sah i g h e rr e c o g n i t i o nr a t ea n dac e r t a i nd e g r e eo f a d a p t a b i l i t yu n d e r t h en o n g a u s s i a nn o i s ee n v i r o n m e n t k e yw o r d s :s p e e c hr e c o g n i t i o n ;y a n g z h o ud i a l e c t ;d i f f e r e n t i a lm i x i n gc o e f f i c i e n t ; d t w ;h m ;n o n g a u s s i a nn o i s e 邹韬:基于孤立字词的扬州方言语音识别研究 1 绪论 1 1 选题的背景及意义 在现在社会,人们已越来越习惯借助计算机来完成各种日常事务,通过鼠标、 键盘等物理输入设备进行人机交互成为现代人不可缺失的一项基本技能。然而, 在实际的社会生产实践活动中,有时受到各种外部因素的制约,物理输入方式显 得不够灵活、快捷,比如人们在驾车的时候用按键拨打电话会降低行车的安全性, 给司机朋友带来不便。语言是人们相互交流最自然、最习惯的手段和工具,是人 类获得信息的主要来源之一,它通常包括语音和文字两种形式,语言经计算机处 理以后可以变成语音信号,通过语音直接与计算机进行交流,让计算机能“听懂 人话“一直是人们梦寐以求的愿望。用语音来实现人与计算机之间的交互,主要 包括三项技术,即语音识别、自然语言理解和语音合成,语音识别作为人机接口 设计的一项重要技术,在语音信号处理中占有非常重要的地位。经过近6 0 年的研 究发展至今,语音识别技术已经在计算机、办公自动化、通信、国防、机器人等 诸多领域得到了应用,促进了工业、军事、医学、交通、民用等多个领域相关学 科的发展。 然而,一项技术是否成熟,其发展前景如何,主要体现在它能否较好地服务 于应用。虽然现有语音识别技术在实验室环境下具有较高的识别率,但在投入量 产和使用以后,就会暴露出一些实际问题: ( 1 ) 方言口音对语音识别的影响。每种语言都有属于自己的方言体系,不同 的方言往往具有巨大的差异,对汉语而言更是如此。汉语被认为是世界上最复杂 的语言之一,它包含八大方言语系,分别是官话方言、吴方言、湘方言、赣方言、 客家方言、闽北方言、闽南方言、粤方言,每个语系中又囊括若干种不同的地方 方言口音。因此,这些方言口音的存在极大地增加了语音识别技术的复杂性,降 低了识别率。 ( 2 ) 环境的噪声和干扰对语音识别的影响。人类能够在信噪比很低甚至在有 2 扬州大学硕士学位论文 较强干扰噪音的情况下正确识别语音信息,这归功于人耳特殊的声音接收能力, 其机理目前尚未完全研究清楚。然而,训练语音库中的语音模板大多具有较高的 信噪比,其环境噪音比平时小。因此,使用这种相对“纯净的语音进行训练, 在噪声或干扰较大的环境中使用时,会使得语音识别的性能下降,识别率降低。 ( 3 ) 口语化表述对语音识别的影响。任何语言都有其规范化和口语化的表达 方式,人和人的日常交流以口语化表述为主,而语音识别的最终目标就在于实现 人与计算机无隔阂的信息互动,使得“人机对话”与人们日常交谈一般。口语化 表述经常包含一些不规范的语法、颠倒的语序以及方言化口头语,这些在我们人 耳听来再正常不过的语句,通过计算机从声学角度来理解却十分困难。 方言作为语言的一种变体,在某种意义上来说,是一种传播更为广泛、使用 更为普遍的语言。在语音识别的基础上研究方言语音识别,也是我们对语音识别 这项技术的一个具体应用。扬州方言是江淮官话的代表方言,至少存在有三四百 年的历史,它曾经是明朝时期的官话,至今还有很多古汉语词汇,以及一些生动 的、有意思的口头语。以扬州方言为载体的曲艺有扬州清曲、扬州评话、扬剧等。 这些曲艺已经被列入国家非物质文化遗产。因此,扬州方言语音识别是个非常有 价值、有意义的课题,可以被广泛应用于社会生产生活中。 综上所述,要彻底解决语音识别技术中存在的所有问题是一个庞大而艰巨的 任务,结合扬州方言来研究语音识别技术旨在为解决以上实际问题抛砖引玉,提 供一个可行性方案。若要将语音识别技术应用于实际并取得满意的效果,还有一 段很长的路要走。 1 2 语音识别技术的发展历史及现状 语音识别技术的研究开始于2 0 世纪5 0 年代,至今已有近6 0 年的历史。1 9 5 2 年a t & t 贝尔研究所的k h d a v i s ,b i d d u l p h 和b a l a s h e k 通过使用带通滤波器对 语音信号频谱进行分析和匹配,成功研制出了世界上第一个能识别l o 个英文数字 发音的实验系统,识别率达到9 8 左右【1 1 。1 9 5 9 年,美国林肯实验室的r o r g i e 等 人首次采用电子计算机来识别英语中的元音和摩擦音,1 9 6 0 年,p d e n e s 等人成功 研制了第一个计算机语音识别系统,标志着语音识别技术的发展全面进入了计算 机时代。同年,瑞典人gf a n t 发表了经典的语音学方面论文语音产生的声学原 邹韬:基于孤立字词的扬州方言语音识别研究 3 理,不但从声学角度详细阐述了语音如何产生,而且还提出了声源的滤波器模型, 为语音识别技术的发展奠定了基础。 2 0 世纪7 0 年代,语音识别技术进入了大规模发展阶段,小词汇量、孤立词语 音识别的研究取得了一些实质性的进展,这一时期的语音识别技术以传统的模式 识别方法为主,涌现出许多具有代表性的研究成果。前苏联科学家v e l i c h k o 和 z a g o r u y k o 提出将动态规划( d p ) 的思想应用于模式识别,后来成为语音识别的重 要方法之一。6 0 年代末到7 0 年代初,日本学者i t a k u r a 进一步地将d p 思想融入语 音识别,成功地把动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 技术引入语音信 号处理领域,展示了如何使用该方法在待识语音和标准语音之间进行非线性时间 匹配,解决了由于语音时长不同而造成的模式匹配不对整问题【2 】。在特征参数方面, 日本学者板仓在7 0 年代成功地将线性预测编码( l i n e a rp r e d i c t i o nc o d i n g ,l p c ) 技术加以扩展并将其应用于语音识别,取得了非常好的效果,使语音信号的特征 提取技术有了一次质的飞跃【3 1 。d t w 技术可以解决孤立词识别中说话速度不均匀 的难题,而l p c 技术较好地解决了语音特征提取的问题,结合这两种方法开发的 语音识别系统可以针对特定发音人,有效地解决小词汇量、孤立字词的语音识别 问题,这一系列技术的成功应用引领了当时语音识别技术研究的热潮。除了亚洲 地区,7 0 年代初在美国由国防部高级研究计划署( a d v a n c e dr e s e a r c hp r o j e c t s a g e n c y ,a r p a ) 制定了一个为期十年的语音理解系统研究计划,资助并支持了多 个著名的研究机构进行相关方面的研究工作,包括麻省理工大学( m i t ) 、卡内基畸每 隆大学( c m u ) 、i b m 、a t & t 等,该项目在1 9 7 6 年成功开发了面向限定领域和 有限词汇的h a r p y ( c m u ) 语音识别系统,它改变了之前只利用语音声学信息进 行识别的状况,开始探讨如何应用高层次语言学知识进行识别,目前在大词汇语 音识别方面处于领先地位的m 语音研究小组,也是在当时的环境下开始了它的 大词汇语音识别研究工作。著名的美国a t & t 贝尔研究所从7 0 年代开始,在d t w 技术解决了特定发音人语音识别问题的基础上,进行了一系列有关非特定人语音 识别的实验,这一研究历经十年,最终确立了制作用于非特定人语音识别标准模 板的方法。7 0 年代末,由l i n d a 、b u z o 、g r a y 和m a r k e l 等人提出将矢量量化( v e c t o r q u a n t i z a t i o n ,v q ) 这种信号压缩手段用于语音识别,首次解决了v q 码书生成的 方法,并将v q 技术用于语音编码获得成功1 4 j 。从此,v q 技术不仅在语音信号处 理中得到应用,而且很快推广到图像信号处理等众多领域中去。 4 扬州大学硕士学位论文 2 0 世纪8 0 年代以后,语音识别技术逐渐从研究领域走向应用阶段,由此带来 了语音识别技术产品化的热潮。1 9 8 5 年由m m 公司成功研发制造的t a n g o r a - 5 型 英语听写机能准确识别5 0 0 0 个英语单词,而后在8 0 年代末推出的同类型升级产 品t a n g o r a 2 0 具有2 0 0 0 0 个英文词汇量,识别率高达9 4 6 ,并且具有快速自适应 于发音者的功能。在算法和技术方面,8 0 年代中期,美国贝尔实验室的眦i n e r l 5 】 等人在b a u m 、b a k e r 和j e l i n e k 的理论基础上对隐马尔科夫模型( h i d d e nm a r k o v m o d e l ,、心压) 进行了深入浅出的介绍,为其应用于语音识别奠定了基础。直到现 在,基于h m m 的语音识别仍然是各国专家、学者研究的热点课题。8 0 世纪中期, 人工神经元网络( 6 心n ) 被应用于语音识别领域,基于反向传播( b p 算法) 的多 层感知网络具有区分复杂分类边界的能力,这样的特性十分有助于模式划分【6 】。伴 随着v q 、h m m 、a n n 等技术的不断发展并走向成熟,人们开始关注具有更大挑 战性的连续语音识别,为达到使用语音进行人机互动的最终目标又更近了一步。 2 0 世纪9 0 年代以后,大词汇量连续语音识别已经成为该领域的主流研究课题, 国外许多研究机构都研制出词汇量达到几万的语音识别系统,如d r a g o nd i c t a t e 词 汇翻译系统能识别7 0 0 0 0 个词,并且识别率达到8 0 以上;c m u 研制的s p h i n x 系统能识别包括9 9 7 个词汇的连续语句,识别率达到9 5 8 ;还有i b m 公司于1 9 9 7 年推出的汉语听写机产品,为语音识别技术在汉语输入方面的实际应用开辟了崭 新的道路【7 1 。除此以外,随着电子通讯技术的迅猛发展,为电话语音识别技术开创 了广泛的应用空间,使其成为当时语音识别应用方面研究的热点。另外,面向个 人用途的连续语音识别系统也日趋完善,最具代表性的是i b m 公司开发的v i a v o i c e 系统,该系统具有说话人白适应能力,新用户不用重新训练所有词汇,可以在使 用过程中适应发音人,因而不断提高识别率。 进入2 1 世纪以来,随着计算机硬件水平的不断提高和网络技术的极大提升, 语音识别技术逐渐民用化,语音识别系统也应用到了个人终端设备中,例如智能 手机、笔记本电脑等。美国微软公司从w i n d o w sx p 开始,在其个人电脑操作系统 中添加了语音识别功能,并在最新推出的w m d o w s7 中进一步完善了这一功能, 用户可以在不使用键盘鼠标的情况下,通过固定的语音指令对计算机进行简单的 控制,例如通过语音打开浏览器、电子邮箱等。2 0 0 8 年,美国谷歌公司发布了英 文语音搜索服务控件v o i c es e a r c h ,它可以应用于诺基亚、黑莓和i p h o n e 等多个品 牌系列的智能手机,并通过英文语音在不同应用程序中搜索用户所需的相关信息, 邹韬:基于孤立字词的扬州方言语音识别研究 5 例如在手机导航软件中通过语音来搜索地名。2 0 1 0 年4 月,美国苹果公司收购了 手机语音搜索厂商s i r i 公司,并在其最新推出的智能手机i p h o n e4 s 上植入了s i f t 语音控件,利用s i f t 用户可以通过手机读短信、介绍餐厅、询问天气、语音设置 闹钟等,它还能够不断学习新的声音和语调,提供对话式的应答f 8 】。与传统的语音 识别系统相比,s i f t 具有跨时代的意义,它抛弃了传统语音识别需遵循复杂语法结 构的模式,可以在语句顺序混乱的情况下,结合上下文结构去理解,它还能从人 类语言史的角度出发,利用人工智能系统去分析,保证在绝大多数情况下领会用 户的意思。 前微软公司总裁比尔盖茨在9 7 年世界计算机博览会( c o m d e x ) 主题演讲时 曾经预言说下一代操作系统和应用程序的用户界面将是语音识别。如今,语音识 别技术已经应用到了社会生产生活的各个领域,相关产品也越发智能化、便携化 和实用化。未来语音识别技术的发展仍然拥有巨大的潜力,在自然语言( 包括口 语、方言等) 的理解、背景噪声的适应等方面还存在提升的空间,尤其是汉语语 音识别和理解方面,依然有很多问题等着我们去解决。 1 3 语音识别系统概述 1 3 1 语音识别系统的构成 语音识别从本质上来说属于模式识别的一种,其系统的基本构成如图1 1 所 示,主要包含了语音信号的预处理、特征参数提取、语音库建模( 包括训练模板 库和测试模板) 以及识别结果判决四个步骤9 1 。 铡试模板 图1 1 语音识别系统的基本原理框图 这样的一个语音识别系统主要包括训练和识别两个阶段。在训练阶段,我们 6 扬州大学硕士学位论文 将提取的语音特征参数进行一定的处理之后,为每一个词条得到一个模型,保存 为语音训练模板,再将所有的训练模板集中在一起便形成了语音训练模板库。同 理,在识别阶段,语音信号提取特征参数后生成测试模板,对比训练模板库中匹 配分数最高的参考模板就是识别结果。 不管是训练过程还是识别过程,所用的原始语音都必须先经过预处理并且提 取出相应的特征参数。当原始的语音声波通过计算机变成电信号以后,首先进入 预处理模块,对语音信号进行分帧加窗、预滤波、预加重和端点检测等步骤。分 帧加窗是计算机处理语音信号的前提和基础,预滤波是为了滤除信号中不重要的 信息以及背景噪音等,预加重则是将对语音识别更重要的高频部分频谱进行提升。 端点检测是预处理阶段最重要的部分,其作用主要是检测语音从哪里开始到哪里 结束,这对于识别结果的精确性至关重要。 特征参数提取模块负责计算语音信号的声学参数。在语音识别系统中,常用 的特征参数有幅度、能量、过零率、线性预测系数( l p c ) 、线性预测倒谱系数 ( l p c c ) 、梅尔频率倒谱系数( c c ) 、短时自相关函数、线谱对参数( l s p ) 、 短时频率、共振峰频率以及基音周期等。特征参数的选择和提取是构建语音识别 系统的关键,不同的特征参数在系统中的功能也是不一样的,有些用于相似度匹 配,有些则用于预处理阶段。 1 3 2 语音识别系统的分类 语音识别系统的种类较多,根据其研究角度和使用要求的不同,有以下几种 不同的分类方法i l o l : ( 1 )根据说话方式来看,可以分为孤立字词语音识别系统、连

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论