(模式识别与智能系统专业论文)基于hmm和小波的中英文语音的自动切分研究和实现.pdf_第1页
(模式识别与智能系统专业论文)基于hmm和小波的中英文语音的自动切分研究和实现.pdf_第2页
(模式识别与智能系统专业论文)基于hmm和小波的中英文语音的自动切分研究和实现.pdf_第3页
(模式识别与智能系统专业论文)基于hmm和小波的中英文语音的自动切分研究和实现.pdf_第4页
(模式识别与智能系统专业论文)基于hmm和小波的中英文语音的自动切分研究和实现.pdf_第5页
已阅读5页,还剩98页未读 继续免费阅读

(模式识别与智能系统专业论文)基于hmm和小波的中英文语音的自动切分研究和实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

同济人学博十论文 中文摘要 摘要 本文,“泛深入地研究、分析了当前国内外各种语音切分方法,并对各种方法的切分准确 率进行了分析、比较。在此基础上,将小波理论和语音分析相结合,提出了基于小波包变换 的语音特征参数用于语音的自动切分;在实现自动切分过程中,运用基于隐马尔可夫模型 ( h m m ) 的基本理论和算法,完成了h m m 的建模、训练和切分:并对可能遇到的各种实 际问题,提出了相应的解决方法;最终实现了基于隐马尔可夫模型( h m m ) 的语音自动切 分系统。通过各种实验比较,给出了优化的模弛配置,使切分性能得到明显的提高。 本论文的主要贡献和创新为以下几点: 1 、提出了基于小波包分解的语音特征参数用于语音的自动切分。 将小波理论与语音感知特性相结合,运用小波包变换对语音进行变换,再按照类似于语 音感知频带划分来选取小波子带,这种划分与人耳的临界频带相似,从而建立了基于小波包 分解的语音特征参数w p p ( w a v e l e tp a c k e tp a r a m e t e r s ) 。实验证明w p p 优于传统的语音特征 参数m f c c ( m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t s ) ,使得语音切分的准确性得到了提高。 2 、将r a s t a 滤波器用于改进语音参数。 在对基于小波包分解的语音特征参数w p p 的求解过程中添加了r a s t a ( r e l a t i v e s p e c t r a l ) 滤波器,对每个子带的能量谱进行滤波后,通过滤波后获得的语音参数用丁二语音自 动切分。r a s t a 滤波处理是用一个低端截j 卜频率很低的带通滤波器对语音信号进行滤波处 理。经过处理后,频谱中的常量或者变化缓慢的部分被抑制,动态成分被增强。通过r a s t a 滤波来增强小波子带参数的动态特性,实验证明改进的语音参数提高了语音切分的准确率。 3 、通过主成份分析( p c a ) 方法获得时间过滤器用于改进语音参数。 采用主成份分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 方法获得时间过滤器( t e m p o r a l f i l t e r ) ,这种滤波器有着和r a s t a 滤波器相同的特性,增强了小波子带参数的动态成分。通 过详细的比较分析,已证实通过主成份分析( p c a ) 方法获得时间过滤器对语音参数的改进可 以提高语音切分的准确性。 4 、 采取有标记初始化的方法来初始化h m m 的模型。 h m m 模型初始化的好坏直接影响h m m 模犁的训练和最终的切分结果。我们比较了有 标记和无标记的h m m 模型初始化,发现通过有标记初始化的h m m 模型的语音切分结果的 准确性明显高于无标记初始化的h m m 模型的语音切分结果。我们分析了语音初始化实验结 果,可以看出在连续语流中选取语音样本用作h m m 模型初始化训练切分,比参考种子字从 同济人学博i :论文 中文摘要 语料中提取典型单音数据作为初始化样本来训练切分的准确性要高。因此,我们在语音切分 中都采取从连续语流中选取语音作为h m m 模型初始化训练样本的方法。 5 、根据所建立的语音库语音特点和差异,对中英文语音模型进行了修正和优化。 每种语言语音库都有各自的特点,而且不同人朗读的语音也是有差异的,这些特点和差 异直接影响到模型的建立和选取。所以需要根据不同的语音发音特点和朗读差异,对模型进 行了修正和优化。在英文中我们对辅音连缀t r , d r , d z ,t s 分别建立了模型。这些辅音连缀在发 音过程中出现了比较明显的协同发音,与单独发音的t 、r 、z 、s 有着明显的不同,并根据英 文发音中的欠爆现象对词内的两个爆破音相连的第一个爆破音另建失爆模型:同时我们对中 文中y , w 相关的声韵模型进行了合并优化,因为在实际发音中y 和w 都存在不发音的现象。 通过模型的修正和优化,使得语音切分的准确性得到了提高。 6 、 提出了一种静音自动鉴别和处理的方法,以提高语音切分的止确性。 在通过录音建立语音语料库的过程中,经常会出现一些停顿和呼吸,我们将这些能量很 小的静音段、噪音和呼吸声统称为静音。而这些静音如果未标注在所对应的文本之中,这将 直接影响到语音自动切分的准确性。因此,需要将这些静音以约定的标记( s i l ) 添加到文本 中。本文提出了一种静音自动鉴别和处理的方法,在经过语音粗切分后,通过规则设定、短 时能量、短时过零率和算法修正几个步骤,将静音寻找出来,从而提高了语音切分的准确性。 关键词:小波包交换,语音感知,r a s t a ,主成分分析,隐马尔可夫模型,自动切分, 静音 2 垒旦! ! 塑竖! ! 1 2 1 竺! 竺! ! ! ! ! ! ! 塑里墅! 坚! ! ! ! 堡韭羔墅! 虫! 里! 星堡! ! ! ! 坚里 垒! ! ! 堡! ! a b s t r a c t i nt h i sd i s s e r t a t i o n ,ad e e ps t u d yi ni m p r o v i n gt h ea c c u r a c yo fa u t o m a t i cs e g m e n t i n ga n d l a b e l i n ga c o u s t i cu n i t so fb i l i n g u a l ( c h i n e s e & e n g l i s h ) s p e e c hc o r p u si s c a r r i e do u ta n da n a u t o m a t i cs e g m e n t a t i o ns y s t e mb a s e do nh m mi sb u i l tu p w ec o m b i n eb a s i ck n o w l e d g eo f w a v e l e tt h e o r ya n dp h y s i o l o g i c a la s p e c t so fs p e e c ha n dp r e s e n ts p e e c hf e a t u r ep a r a m e t e r sb a s e d o nw a v e l e tp a c k e ta n a l y s i s i nt h ep r o c e s so fa u t o m a t i cs e g m e n t a t i o n ,w ei n i t i a l i z ea n dt r a i nh m m m o d e lb a s e do nh m mt h e o r y w em o d i f yh m mm o d e l sw i t he x p e r i m e n t st oi m p r o v et h e a c c u r a c yo fa u t o m a t i cs e g m e n t i n g t h em a i nc o n t r i b u t i o n so f t h i st h e s i sa r c : 1 w a v e l e tp a c k e tp a r a m e t e r sa r ep r e s e n t e df o ra u t o m a t i cs e g m e n t a t i o n i nt h i sp a p e r , w ed e s c r i b ei nd e t a i lt h eb a s i ck n o w l e d g eo fw a v e l e tt h e o r y , s t u d i e st h e a p p l i c a t i o no fw a v e l e ta n a l y s i s t os p e e c hs i g n a lp r o c e s s i n ga n dp r e s e n t ss p e e c hf e a t u r e p a r a m e t e r sb a s e do nw a v e l e tp a c k e ta n a l y s i s w eu s ew p p ( w a v e l e tp a c k e tp a r a m e t e r s ) f o r a u t o m a t i cs e g m e n t a t i o n w p pa r eb a s e do naf r e q u e n c yb a n d sd i v i s i o no ft h es p e e c hs i g n a l b yc o m b i n i n gt h ew a v e l e tt r a n s f o r ma n dw a v e l e tp a c k e tt r a n s f o r m ,t h i sd i v i s i o nm e t h o di s s i m i l a rt oc r i t i c a lb a n d so fh u m a nb e i n g sc a l e x p e r i m e n t sr e s u l t si n d i c a t et h a tw p pi sb e t t e r t h a nm f c c 2 t a k i n ga d v a n t a g eo fr a s t af i l t e rt oi m p r o v es p e e c hf e a t u r e s r a s t a ( r e l a t i v es p e c t r a l ) t a k e sa d v a n t a g eo ft h ef a c t ,t h a tt h el i n g u i s t i cm e s s a g ei s c o d e di n t om o v e m e n t so ft h ev o c a lt r a c t i ts u p p r e s s e st h es p e c t r a lc o m p o n e n t st h a tc h a n g e m o r es l o w l yo rm o r eq u i c k l yt h a nt h et y p i c a lr a n g eo fc h a n g eo fs p e e c h t h el o wp a s s c h a r a c t e ro fs u c hf i l t e ra l l o w sr e m o v i n gf a s te n e r g yc h a n g e sw h i c hc a n n o tb ep r o d u c e db y t h eh u m a na r t i c u l a t o r yt r a c t w ea p p l yr a s t at o f i l t e r i n gt h et i m et r a j e c t o r yo fe a c h s u b b a n df e a t u r e ,w h i c hc a ni m p r o v et h ea c c u r a c yo fa u t o m a t i cs e g m e n t a t i o n 3 ap c a - d e r i v e dt e m p o r a lf i l t e ri su s e dt oi m p r o v es p e e c hf e a t u r e s i n t h i sp a p e r , w ep r o p o s e dt h a tt h ep r i n c i p a lc o m p o n e n ta n a l y s i s ( p c a ) c a na l s ob e u s e di nt h eo p t i m i z a t i o np r o c e s st oo b t a i nt h et e m p o r a lf i l t e r s d e t a i l e de x p e r i m e n t sa r e p r e s e n t e d a n dd i s c u s s e d ,w h i c hc a nb et e s t e dt h a tt h ep c a - d e r i v e dt e m p o r a lf i l t e r s s i g n i f i c a n t l yi m p r o v et h ea u t o m a t i cs e g m e n t a t i o np e r f o r m a n c ej u s ta sr a s t a f i l t e r a d i s s e r t a t i o n 竺! 竺! ! ! ! ! ! ! 旦! 查! 望旦! :! 竖! 堡塑! ! ! ! 旦! g 坚! 竺! 坚2 垒堡! ! ! ! 生 - - _ _ _ _ - _ _ i _ - _ _ _ _ _ _ _ _ _ - i - _ _ _ _ _ - _ _ _ _ - _ _ - - _ _ _ - _ _ _ _ _ i 一一一一 4 i n i t i a l i z a t i o nw i t ht r a n s c r i p t i o ni su s e dt oi n i t i a l i z eh m m m o d e l s t h ei n i t i a l i z a t i o no fh m mi si m p o r t a n tt o t r a i nh m ma n da f f e c tt h ea c c u r a c yo f s e g m e n t a t i o n w ec o m p a r e t w oi n i t i a l i z i n gm e t h o d s :i n i t i a l i z a t i o nw i t ha n dw i t h o u t t r a n s c r i p t i o n s e x p e r i m e n t ss h o wt h a t t h es e g m e n t a t i o nr e s u l t sb a s e do ni n i t i a l i z a t i o nw i t h t r a n s c r i p t i o n si sb e t t e rt h a nt h o s eb a s e do ni n i t i a l i z a t i o nw i t h o u tt r a n s c r i p t i o n s w ea l s of i n d t h a ti n i t i a l i z a t i o nw i t ht r a n s c r i p t i o nb a s e do nc o n t i n u o u ss p e e c hs a m p l e c a ng e tm o r e a c c u r a t es e g m e n t a t i o nr e s u l tt h a ni n i t i a l i z a t i o nw i t ht r a n s c r i p t i o nb a s e d o nm o d e lw o r d s 5 w em o d i f ya n di m p r o v em o d e l sa c c o r d i n gt ot h ec h a r a c t e r i s t i c so f e a c hs p e e c hc o r p u s e a c hl a n g u a g es p e e c hc o r p u sh a se a c hc h a r a c t e r i s t i c ,a n ds p e e c ht h a td i f f e r e n tp e m o n s r e a da l s oi sd i f f e r e n t 。t h e s ec h a r a c t e r i s t i c sa n dd i f f e r e n c ea f f e c tt h ee s t a b l i s h m e n ta n dt h e s e l e c t i o no ft h em o d e l sd i r e c t l y s oa c c o r d i n gt ot h ed i f f e r e n ts p e e c hp r o n u n c i a t i o n c h a r a c t e r i s t i c s w ec h o o s et h eb e s tm a t c h e dh m mm o d e lt oi m p r o v e t h e a c c u r a c yo f a u t o m a t i cs e g m e n t a t i o n 6 a na u t o m a t i cs i l e n c ed e t e c t i o na n dp r o c e s sm e t h o di sp r e s e n t e dt or a i s et h ea c c u r a c yo f a u t o m a t i cs e g m e n t a t i o n i nc o n s t r u c t i n gas p e e c hc o r p u s ,m a n yu n e x p e c t e ds i l e n c es y m b o l sa r ei n s e r t e d t h e y d i r e c t l ya f f e c tt h er e s u l t so fa u t o m a t i cs e g m e n t a t i o n i n t h i sp a p e ra i ia u t o m a t i cs i l e n c e i n s e r t i o na l g o r i t h mi sp r o p o s e d t h ee f f e c t i v e n e s so ft h ep r o p o s e dm e t h o dh a sb e e np r o v e n t h r o u g he x p e r i m e n t a lr e s u l t s k e yw o r d s : w a v e l e tp a c k e tt r a n s f o r m ,h u m a np e r c e p t i o n ,r a s t a ,p c a ,h m m ,a u t o m a t i c s e g m e n t a t i o n ,s i l e n c e 2 声明尸明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取 得的成果,撰写成博士学位论文:基王h 丛丛塑丛! 遮的虫墓塞蚤童鲍 自动切佥受究塑塞现= = 。除论文中已经注明引用的内容外,对论文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论 文中不包含任何未加明确注明的其他个人或集体已经公开发表或未 公开发表的成果。 本声明的法律责任由本人承担。 学嚣茎麓铲 护争年7 1 月日 同济人学博卜论文 第1 章绪言 1 1 课题研究背景及意义 第1 章绪言 众所周知,言语是人类进行相互通信和交流的最方便快捷的手段。在高度发达的信息社会 中用数字化的方法进行语音的传送,储存,识别,合成,增强是整个数字化通信网中最重 要、最基本的组成部分之一。 计算机的高速发展即对语音信号数字处理提出了越米越高的迫切要求( 如语音识别,语音 合成等等) ,同时也提供了效率不断提高的软、硬件实现手段。 另一方面,语音也是人类赖以进行思维的主要工具,言语作为人类交流的最重要的手段, 自然也是人机通信最理想的方式,让计算机像人一样会说话和能听懂话是人们长期追求的目 标。语音合成技术和语音识别技术是这个问题中的两个关键部分。语音合成技术在信息发布、 信息咨询、残疾人帮助系统、文字校对、城市交通疏导系统等诸多方面有,“阔的应用前景。 当前,语音合成和识别对语音语料库的依赖日益增强。国外许多国家从8 0 年代就开始了 语音语料库的建设。如美国、日本、芬兰、瑞典,都已经建立了用于语音识别、语音合成和分 析的本国语言的语音语料库。建立语音语料库就要对语音进行标注,与语音表达的文字一一对 应,并将语音的声学特征包含其中。 但是以往对语音语料库的标注都是采用手工的方法。由于手工进行大数据量语音库的标注 是件费时而义枯燥的:l 作长时间的连续1 作又会造成标注人员生理、心理的疲劳从而在切 分过程中引入不可预测的随意性误差;同时标注人员对语音学的理解和把握的不一致,经常是 标注人员对自己的判断更为认同,认为自己的标注结果“更准确”。随着语音语言科学与技术 的发展,对大型语料库的需求将愈加迫切。从提高:t :作效率、减少人为误差,保证切分标注信 息的可靠性,发展语音自动标注系统是必须的。语音自动标注系统可有两条技术路线:一是基 于统计学模型的,其基础是数据量足够大的并具有语音学标注信息的话料库;另一条是基于语 音学模型的其出发点是由语音学知识所总结的先验性规则。 近年来,自动选择和切分拼接合成单元的方法成为研究热点。所有的选择和切分合成单元 的方法都需要了解训练语音的音素序列注释( t r a n s c r i p t i o n ) 。传统上,这种注释由专家生成。 然而,由于人: 注释非常缓慢,而且因人而异,所以这种注释方法也不理想。在书写时,不受 限制的音素识别无法提供注释问题的理想解决方法。其它一些自动方法,诸如从发音词典中获 得拼接发音。或者使用r r s 系统的t e x t t o p h o n e m e ( 文本一音素) 转换算法,仍然不能精确 1 周济大学博0 花女 第1 章绪言 引埘语料库中的声学数据。 冈此,根据语音自动切分的重要性、宴刚性以及目前的研究现状报有必要对其进行更为 泛而深入的研究。 1 2 语音切分方法综述 1 2 1 人工切分方法 人【切分方法大多采刚专业的语音人士逗川一些语音分析t 具,通过分析语音的特征,根 据本身的经验米判断语音的切分点。但是不同 对同一句语音的切分结果会有所不同, o s i b l j 的报告显示了二位业人j 一对1 0 句惫大利语句于的切分结果,平均切分误差允许 范用在6 m s 内5 5 的切分误差允许范罔杠5 m s 以内,9 5 的切分误蔗允许范用在2 0 ns 队内。 l j o l j e m l 分析了两恃专业人士1 0 0 旬意人利语的手1 标注,与c o 得到了类似的结论。l e u n g 和z u e 【“1 评价了5 句由2 f t 专业人士手丁标注的美式英语语句也得到了上述的结果8 0 的 切分误蔫允许范围在l o r e s 以内8 7 f f 0 切分谩差允许范嗣在1 5 m s 以内,酆的切分误差允许 范同在2 0 m s 以内。 总豹来说对不同语言和环境录制的语音不同专业八十的手】标注结果的差异范围人都比 较一致。9 37 8 同意2 0 m s 的切分误差范围。手1 :切分准确率如图1 - 1 所示。 图1 - 1 手j 切分准确牢 囵 1 2 2 基于隐马尔可夫模型( h m m ) 的自动切分方法 w i g h e m a n 和lt a i k f 9 1 建立了一个破名为 t h ea l i g n e r 的以h m m ( h i d d e nm a , k o v m o d e l s ) 为基础的系统使jh t k f 埘】| 具精来实现语音模型的训练和切分,该系统使片jk 度为 1 0 m s 的畸k 和每个h m m 状态由5 个高斯模刑坌f l 成。在对t i m l t 语音数据库的测试结果显示 8 0 切分酲莘允许范罔在2 0 1 3s 以内。 h 济凡学博i 论立第1 帝绪j b r u g n a r a ”设计了基于h m m 基础的切分系统葭系统的语音参数使用了谱变化参数和 倒谱参数。使州这些参数提高了2 的切分止确率。而且在经垃v i e r b i 的强制切分( f o r c “j a l i g n m e n t ) 后采用了频谱变化值来调整语音的切分点。同样b m g a a r a 采埘对t i m i t 语音数据 库的切分实验结果来评价切丹结果:7 53 的切丹误差允许范围在1 0 r a s 以内。8 4 4 的切分误 差允许范丽在1 5 m s 以内8 89 的切分误差允许范围在2 0 m s 以内。 p e l l o m l s l $ 1 采用了一系,0 语音增强算法米实现基丁h m m 基础的切分系统该系统采州5 m s 的帧速,每个h m m 模型的状态数为5 每个状态由1 6 个高斯模硎灌台而成。对1 1 m r r 语音 数据库的切分实验结果显示8 6 2 的切分误若允许范围在2 0 m s 以内。 还柏_ l j o l e 和r i l e y i ”7 6 1 、s v e n d s e n 和k v a l e 埘1 等等没计了许多基于t t m m 的语音自动切分 系统所有这些系统都是对传统的h m m 训练方法进行了优化和提高,但是基本使圳h m m 的 算法步骤都是相类 以的。比较这些切分系统的精确性报难办到闲为每个系统或采取不同的语 音采样率域粟碳不同的切分单元或采用不同的语音发音模型,冀能给“一个扔步的评价,就是 基丁h m m 的语音切分系统在8 0 左右的切分误差允许范围在2 0 m s 以内。 基于i m m 的自动切分准确牢如目1 - 2 所示。 幽1 - 2 摹丁h m m 的自动切分准确率 1 2 3 基于动态时间规划( d t w ) 的自动切分方法 渚血口m a j f r e ;1 b “s v e n d s e n i 脚f a l a v l g n a l 3 2 】采h j 基r d t v ,( d y n a m i c f f m e w a r p l n g ) 的语 音自动切分系统,但切分效果背遍不如基fh m m 的语音自动切分系统像c a m p b e l l 技计的 切分系统的实验结果显示,3 2 的切分误筹允许范周著在1 5 m s 以内,7 2 的切分误差允许范 围住3 0 m s 以内9 2 的切分误莘允许范雨在4 2 m s 以内。 忑篇兰 | 言黧器一 _-i, 【i 翮 i f d 济大学博十论文 第1 章绪言 1 2 4 其他方法 s a n t e n 和s p r o a t 【6 2 】设计的系统采取在不同频率带的能量信息和频谱域的边界检测来切分语 音。实验结果显示针对同一个人的测试语音库,5 0 的切分误差允许范围在2 m s 以内,9 5 的 切分误差允许范围在6 m s 以内和9 0 的切分误差允许范同在2 0 m s 以内。 k a r j a l a i n e n ,a l t o s a a r 和h u t t u n e n t 6 7 1 同样提出了与s a n t e n 和s p r o a t 的类似的边界检测方法 用于切分语音。 1 2 5 总结 由于语音的自动切分源于语音识别,而在语音识别中,基于h m m 的方法的语音识别系统 的识别率很高,所以很多语音自动切分系统都采用基于h m m 的语音自动切分方法,通过大量 实验结果显示,基丁h m m 的语音自动切分系统的准确性较高。 1 3 语音自动切分的相关技术 语音自动切分的人致流程如图1 3 所示。 至曼网网娑舒沾啜 i 。一i 。一 图1 3 语音自动切分流程 语音的自动切分和语音识别技术类似主要包括特征提取技术、模式匹配准则及模型训练技 术三个方面。此外,还涉及到语音切分单元的选取。 1 3 1 语音切分单元的选取 选择切分单元是语音自动切分研究的第一步。语音切分单元有单词( 旬) 、音节和音素三 种,具体选择哪一种,由具体的研究任务决定。单词单元广泛应用于中小词汇语音识别系统, 但不适合适合作为切分单元,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂。 音:1 j 单元多见于汉语语音切分,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉 语虽然有大约1 3 0 0 个音节,但若不考虑声调,约有4 0 8 个无调音节,数量相对较少。 因此,对于中、犬词汇量汉语语音自动切分系统来说,以音节为切分别单元基本是可行的。 音素单元以前多见于英语语音切分的研究中,但目前中、大词汇量汉语语音自动切分系统也在 4 同济大学博:卜论文 第1 章绪言 越来越多地采用。原因在于汉语音节仅由声母( 包括零声母有2 2 个) 和韵母( 共有3 5 个) 构 成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这 样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响。音素单元不 稳定,所以如何获得稳定的音素单元,还有待研究。 1 3 2 特征参数提取技术 语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢? 特征提取就是 完成这项j i :作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响 语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息, 尽量减少说话人的个人信息( 对特定人语音识别来讲,则相反) 。从信息论角度讲,这是信息 压缩的过程。 线性预测( l p ) 分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采 月j 基于l j p 技术提取的倒谱参数。但线性预测模氆是纯数学模型,没有考虑人类听觉系统对语 音的处理特点。 m e l 参数和基于感知线性预测( p l p ) 分析提取的感知线性预测倒谱,在一定程度上模拟 了人耳对语音的处理特点。应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技 术,语音切分系统的性能有一定提高。 也有研究者尝试把小波分析技术应用于特征提取,利片j 小波的时频特性,可以更好地分析 语音的时频,建立更能体现语音特征的语音参数。 1 3 3 模式匹配及模型训练技术 模氆训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数, 而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。 语音切分所应用的模式匹配和模型训练技术主要有动态时间归正技术( d t w ) 、隐马尔可 丈模型( h m m ) 和人:i 二神经元网络( 削州) 。 d t w 是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号 特征参数序列比较时时跃不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连 续语音大词汇量语音识别和切分系统,目前已被h m m 模型和a n n 替代。 h m m 模型由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的( 不 可观测的) 具有有限状态的m a r k o v 链,另一个是与m a r k o v 链的每状态相关联的观察矢量 5 硎济人学博i j 论文 第1 章绪言 的随机过程( 可观测的) 。隐马尔科夫链的特征要靠可观测到的信号特征揭示。这样,语音等 时变信号某一段的特征就由对应状态观察符号的随机过挥描述,而信号随时问的变化由隐蔽 m a r k o v 链的转移概率描述。模型参数包括h m m 拓扑结构、状态转移概率及描述观察符号统 计特性的一组随机函数。按照随机函数的特点,h m m 模型可分为离散隐马尔可夫模型( 采用 离散概率密度函数,简称d h m m ) 和连续隐马尔可夫模型( 采用连续概率密度函数,简称 c h m m ) 以及j 仁连续隐马尔可夫模型( s c h m m ,集d h m m 和c h m m 特点) 。一般来讲,在 训练数据足够的,c h m m 优于d h m m 和s c h m m 。h m m 模型的训练和识别都已研究出有 效的算法,并不断被完善,以增强h m m 模型的鲁棒性。 人:f :神经元网络也逐渐运用于语音切分中。a n n 本质上是一个自适应非线性动力学系统, 模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是h m m 模型不具备的,但a n n 又不具有h m m 模型的动态时间归正性能。因此,现在已有人研究如 何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。 1 4 本文的研究内容及安排 本文为了建立一个准确的语音自动切分系统,研究了实现语音自动切分一般性方法,并就 本论文中采片! | 的基本模型和基本方法进行了讨论,对语音自动切分中存在的一些问题,提出了 自己的解决方法。论文的主要贡献如下: l 、提出了基于小波包分解的语音特征参数用于语音的自动切分。 我们将小波理论与语音感知特性相结合,运用小波包变换对语音进行变换,再按照类似予 语音感知频带划分来选取小波子带,这种划分与人耳的临界频带相似,从而建立了基于小波包 分解的语音特征参数w p p ( w a v e l e tp a c k e tp a r a m e t e r s ) ,w p p 优于传统的语音特征参数m f c c , 使得语音切分的准确性得到了提高。 2 、将r a s t a ( r e l a t i v es p e c t r a lt r a n s f o r m ) 滤波器用于改进语音参数。 我们在对w p p 的求解过程中添加了r a s t a 滤波器对每个子带的能量谱进行滤波后,通 过滤波后获得的语音参数用于语音自动切分。r a s t a 滤波处理是用一个低端截止频率很低的 带通滤波器对语音信号进行滤波处理。经过处理后,频谱中的常量或者变化缓慢的部分被抑制, 动态成分被增强。我们通过r a s t a 滤波米增强小波子带参数的动态特性。实验证明改进的语 音参数能够提高语音切分的准确率。 3 、将通过主成份分析( p c a ) 方法获得时间过滤器( t e m p o r a lf i l t e r ) 用于改进语音参数 我们采用p c a ( p r i n c i p a lc o m p o n e n ta n a l y s i s ) 方法获得时间过滤器,这种滤波器有着和 6 同济人学博l :论义第1 章绪言 r a s t a 滤波器相同的特性,增强y 4 , 波子带参数的动态成分。通过详细的比较分析我们可以证 实通过p c a 方法获得时间过滤器对语音参数的改进可以提高语音切分的准确性。 4 、采取有标记初始化的方法来初始化h m m 的模型。 h m m 模型初始化的好坏直接影响h m m 模型的训练和最终的切分结果,我们比较了有标 记和无标记的h m m 模型初始化,发现通过有标记初始化的h m m 模型的语音切分结果的准确 性明显高于无标记初始化的h m m 模型的语音切分结果。我们分析了语音初始化实验结果,可 以看出在连续语流中选取语音样本用作h m m 模型初始化训练切分比参考种子字从语料中提取 典型单音数据作为初始化样本来训练切分的准确性要高,所以我们在语音切分中都采取从连续 语流中选取语音作为h m m 模型初始化训练样本的方法。 5 、根据所建立的语音库语音特点和差异,对中英文语音模型进行了修正和优化。 每种语言语音库都有各自的特点,而且不同人朗读的语音也是有差异的,这些特点和差异 直接影响到模型的建立和选取。所以需要根据不同的语音发音特点和朗读差异,对模型进行了 修正和优化。在英文中我们对辅音连缀和失爆建立了相应的语音模型;同时我们对中文的声韵 模型进行了合并优化。通过模聚的修正和优化,使得语音切分的准确性得到了提高。 6 、提出了一种静音自动鉴别和处理的方法,以提高语音切分的正确性。 在通过录音建立语音语料库的过程中经常会出现一些停顿和呼吸,我们将能量很小的静音 段、噪音和呼吸卢统称为静音。而这些静音朱标注在所对应的文本之中,这将直接影响到语音 自动切分的准确性。所以,我们需要将这些静音以约定的标记( s i l ) 添加到文本中,否则将影 响到语音的切分结果。本文提出了一种静音自动鉴别和处理的方法。在经过语音粗切分后,通 过规则设定、短时能量、短时过零率和算法修正几个步骤,将静音寻找出来,从而提高了语音 切分的准确性。 本论文共分八章,内容编排如下: 第l 章绪言 第2 章语音切分基元的选取 第3 章隐马尔可夫模型( h m m ) 第4 章小波多分辨率分析和小波包分析 第5 章基于小波的语音感知特征参数提取 第6 章h m m 模型的初始化与训练 第7 章模型提高 第8 章总结与展望 7 r d 济人学博l :论文 第2 章语音切分悬冗的选取 第2 章语音切分基元的选取 切分单元的选取是语音自动切分研究工作中很重要的一步,直接影响到模型的选择、切分 中采取的模型训练和初始化策略及最终语音切分的准确性。切分单元的选取的是基于语音学基 础知识,通过分析语音学基础知识,选择合理的语音切分基元,有助于作正确的语音分析,更 有助于提高语音切分的准确性。 2 1 英语语音学基础 英语【1 2 6 】中将语音分为元音和辅音两大类。元音的特点是声道没有i 泪d - 或阻塞,且所有的 元音都是有声音的。元音是一类音素,它在词和其他语言结构中具有类似的位置。一般说,语 音有5 个( a 、e 、i 、o 、u ) 。而从语音学角度来说,就有1 9 个元音冈t 元音音素、它们和1 4 个辅 音一共4 3 个音素,足以正确地描述英语。元音的产生相对于辅音有根本的不同。最重要的不 同点在于:产生辅音时,从肺部出来的气流由于发音器官的接触而受到某些限制,或者是由于 声道变窄而受到限制,因而所有的辅音并不是都有声的,这就使元音和辅音有不同的分类系统。 已经证明:发音器官的位置大大地有助于语音的声学分析。 元音发音时。因舌位的高低和前、中、后的差异,牙床开合的程度的不同和唇形扁、圆的 不同分为前元音、后元音和中元音。 前元音:i :l 茁e 后元音:i o oo :uu : 中元音: a :a 英语双元音是有两个音合而为一,英语双元音分为两大类: ( 1 ) 合口双元音:e i 叫a ia uo i ( 2 ) 集中双元音:i ae au a 英语的辅音共有2 4 个,可以分成两大类:一类是清辅音,另一类是浊辅音。气流从肺部 经气管由口腔或鼻腔而出,声带部振动的辅音是清辅音,声带振动的辅音是浊辅音。列表如下: 清辅音:向tkfs f et t f 浊辅音:b dg 丫z36 屯r 】r - n1 ,j 英语辅音都受剑发音器官某一部位的阻碍;按照发音方式,辅音可以分为六类,列表如下: 8 同济人学博一l j 论文第2 章语音切分幕元的选取 爆破音:pbtdkg 摩擦音:f1 r s zf 了ebrh 破擦音:t la z 鼻音: mnq 舌侧音:1 半元音:vj 2 2 汉语语音学基础 2 2 1 音素和音节 从音色( 声音的特色) 的角度对语音进行分析,可以得到最小的语音单位一音素 ( p h o n e m e ) 。不同音素之间的差异,是发音器官本身的活动变化带来的。划分音素时。不考虑 不同的人的声音的筹别。 一个或多个音索结合起来,就形成了最自然的语音单位音节。音节是人们听觉上能够很 自然地感受到并且能很容易区分的语音片段。划分音节应以发音器官肌肉紧张程度的增减为依 据,发音时每紧张一次就是一个音节。例如。“b ia n ( 彼岸) ”和“b i a n ( 变) ”,前者是两个音 节,而后者就是一个音节。 一个音节由元音和辅音构成。元音构成一个音节的主干,无论从长度看还是从能量看,元 音在音:霄中都占主要部分。所有的元音都是浊音。辅音则出现于音节的前端、后端或前后两端。 在汉语普通话中,每个音节都是由“辅音元音”构成的( 只有元音没有辅音的称为0 辅音) , 这种结构成为“c 一v 结构”。在其他语系中还可以出现“、,c 结构”或“c - 一v c 结构”。 在汉语中辅音也称为声母,元音也称为韵母。 2 2 2 元音和辅音 音素可以按照发音器官状态和气流通过方式分成元音和辅音两类。二者的区别在于;发 元音时声带一定会发生振动,气流比较弱,通过口腔时不受阻碍;发音器官的各个部位的紧张 稗度基本保持一致:而发辅音时声带不一定振动:气流比较强,在口腔里会受到阻碍,发音器 官中除了形成阻碍的部位特别紧张外,其他器官不紧张。此外,元音一般听上去比较响亮,清 晰,而辅音| l ! i j 没有这个特点。汉语中有1 0 个元音和2 2 个辅音。 9 同济人学博十论文 第2 章语音切分基元的选取 2 2 3 声母与韵母 汉语【t 2 7 一矧的音节一般可以划分为声母和韵母两部分:每个声母只包含一个辅音;韵母可 以由一个或多个元音构成,也可以由元音和辅音组合构成。 2 2 3 1 声母 汉语的声母全部由辅音充当,而辅音的一个重要特点是发音时声道处于某种受阻碍状态, 气流变克服阻碍才能通过。气流受剑阻碍的部位称为发音部位,气流受到阻碍以及克服阻碍的 方式称为发音方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论