(信号与信息处理专业论文)基于统计模型的韵律结构预测研究.pdf_第1页
(信号与信息处理专业论文)基于统计模型的韵律结构预测研究.pdf_第2页
(信号与信息处理专业论文)基于统计模型的韵律结构预测研究.pdf_第3页
(信号与信息处理专业论文)基于统计模型的韵律结构预测研究.pdf_第4页
(信号与信息处理专业论文)基于统计模型的韵律结构预测研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(信号与信息处理专业论文)基于统计模型的韵律结构预测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于统计模型的韵律结构预测研究 摘要 随着计算机技术的进步和其他相关学科的发展,在过去的几十年间, 语音合成技术有了迅猛的发展,涌现出了大量的新理论和新技术。在现 阶段,语音合成技术主要是以文语转换系统( t e x tt os p e e c h , t t s ) 为研 究重点,这是一种将输入的文本转换为语音输出的技术。t t s 系统一般 由文本分析、韵律处理、语音合成三个模块组成。这三个模块并不是相 互孤立的,每一个模块的性能都对最终输出语音的质量有很大的影响。 对合成系统输出语音音质的评价是多方面的,但主要集中在输出语 音的可懂度和自然度两个方面。当前,t t s 系统的输出语音在可懂度方 面已经达到了比较高的水平,而在语音的整体自然度方面还有待提高, 其根本问题就是不能对自然语流中的韵律进行有效的模拟。韵律处理的 研究主要有以下几个方面:韵律预测,韵律规则,韵律描述和韵律建模。 本文主要研究了韵律结构预测模板,希望通过对此模块的研究与改进来 提高合成语音的自然度。 韵律预测与文本分析之间有着紧密的联系,这是因为t t s 系统的输 入是无限制的文本,从文本中只确定读音是远远不够的。为了提高语音 的自然度,还需要从文本中提取更多的与韵律相关的信息,其中包括文 本的韵律结构、重音和语调等信息。研究表明,在t t s 系统中引入韵律 层级结构可以显著提高合成语音的质量,特别是合成语音的自然度。如 何提高韵律结构预测的正确率是本文研究的重点。 本文从汉语的声学特点和韵律特征出发,分析和研究了汉语的韵律 特征、停顿、重音以及韵律边界之间的关系,分析并对比了汉语韵律层 级结构,同时分析了韵律边界的声学特征。对传统的韵律结构预测的方 法进行了综述和比较,指出传统韵律结构预测方法的优缺点,然后重点 研究了基于统计机器学习的韵律结构预测,特别是条件随机场( c i 心s ) 和最大熵( m e ) 模型在韵律结构预测中的应用。 在基于条件随机场的韵律结构预测系统的研究中,理论上,本文详 细阐述了条件随机场的定义,条件分布以及参数估计。在应用上,本文 重点研究了条件随机场的特征模板,并讨论了窗长的选取,复合特征的 作用等问题。 在基于最大熵模型的韵律结构预测系统的研究中,在理论上,本文 详细阐述了最大熵模型模型的定义,条件分布以及参数估计。在应用上, 本文重点研究了最大熵模型的特征模板,并讨论了窗长选取和动态特征 的作用等问题。此外,本文提出了基于最大熵模型的多遍韵律结构预测 系统,并和基于c r f s 的预测系统进行了性能上比较和分析。在韵律短 语预测上,前者的性能好于后者。 关键词:韵律结构预测条件随机场最大熵特征模板 r e s e a r c ho np r o s o d i cs t r u c u t r e p r e d i c t i o nb a s e do ns t a t i c a lm o d e l a b s t r a c t d u r i n gt h ep a s tf e wd e c a d e s ,w i t ht h ed e v e l o p m e n to fc o m p u t e ra n d o t h e rr e i a t e ds u b j e c t s ,t h es p e e e hs y n t h e s i st e c h n i q u ep r o g r e s s e dal o t t t si s at e c h n i q u et h a te a nc o n v e r tt h ei n p u tt e x tt os p e e c ho u t p u t g e n e r a l l y s p e a k i n g ,at t ss y s t e mc o n s i s t so ft h r e em o d u l e s ,i n c l u d i n gt e x ta n a l y s i s , p r o s o d yp r o c e s s i n g ,s p e e e hs y n t h e s i s h o w e v e r , t h et h r e em o d u l e sa len o t i n d e p e n d e n t t h eq u a l i t yo fo u t p u ts p e e c hi si m p a c t e d gr e a t l yb ye v e r ys i n g l e m o d u l e w ec a l le v a l u a t et h eo u t p u ts p e e c hi nm a n ya s p e c t s ,b u tm a i n l yi nt h e o u t p u ts p e e c hi n t e l l i g i b i l i t ya n dn a t u r a l n e s s a tp r e s e n t ,t h ei n t e l l i g i b i l i t yo f t t sh a sr e a c h e dah i g hl e v e l ,b u tt h en a t u r a l n e s ss t i l ln e e d st ob ei m p r o v e d t h e r ea l ef o ra r e a si np r o s o d i ct r e a t m e n tr e s e a r c h :p r o s o d yp r e d i c t i o n , p r o s o d yr u l e s ,p r o s o d yd e s c r i p t i o na n dp r o s o d ym o d e l i n g t h i sp a p e rm a i n l y s t u d i e dt h ep r o s o d i cs t r u c t u r ep r e d i c t i o n ;h o p et oi m p r o v et h em o d u l et o i m p r o v e t h en a t u r a l n e s so fs y n t h e s i z e ds p e e c h t h e r ea l ec l o s er e l a i t i o nb e t w e e np r o s o d yp r e d i c t i o n sat e x ta n a l y s i s i t i sf a rf r o ms u f f i c i e n tt od e t e r m i n et h ep r o n u n c i a t i o nf r o mt h et e x t ,b e c a u s e t h ei m p o r t a t i o no ft t ss y s t e m si su n l i m i t e dt e x t i no r d e rt oi m p r o v et h e n a t u r a l n e s so fs p e e c h ,i ti sn e c e s s a r yt oe x t r a c tm o r ep r o s o d yi n f o r m a t i o n f r o mt h e t e x t ,i n c l u d i n g t h ep r o s o d i cs t r u c t u r e ,a c c e n ta n di n t o n a t i o n i n f o r m a t i o n s t u d i e sh a v es h o w nt h a tt h ep r o s o d i cs t r u c t u r ec a l ls i g n i f i c a n t l y i m p r o v et h eq u a li t yo fs y n t h e s i z e ds p e e c h ,e s p e c i a l l yt h en a t u r a l n e s so f s y n t h e s i z e ds p e e c h t h i sp a p e rf o c u s e so nh o wt oi m p r o v et h ep r o s o d i c s t r u c t u r ep r e d i c t i o n t h i sp a p e ra n a l y z e dt h e r e l a t i o n s h i pa m o n yt h e c h i n e s e p r o s o d i c f e a t u r e s ,p a u s e ,a c c e n t ,弱w e l l a st h er p r o s o d i cb o u n d a r y , a n a l y z e da n d c o m p a r e dt h ec h i n e s ep r o s o d i ch i e r a r c h y , w h i l et h ea c o u s t i cc h a r a c t e r i s t i c s o fp r o s o d i cb o u n d a r y t h ep a p e rr e v i e w da n dc o m p a r e dt h et r a d i t i o n a l p r o s o d i cs t r u c t u r ep r e d i c t i o nm e t h o d s ,p o i n t e do u tt h a tt h et h ea d v a n t a g e s a n dd i s a d v a n t a g e so ft r a d i t i o n a lp r o s o d i cs t r u c t u r ep r e d i c t i o nm e t h o d s ,a n d t h e nf o c u s e do ns t a t i s t i c a lm a c h i n el e a r n i n gb a s e dp r o s o d i cs t r u c t u r e p r e d i c t i o n ,e s p e c i a l l yc r fa n dm e m o d e l i nt h es t u d yo fc l 江sb a s e dp r o s o d i cs t r u c t u r ep r e d i c t i o ns y s t e m ,t h e p a p e rd e s c r i b e dt h ec i 江sd e f i n i t i o na n dp a r a m e t e r e s t i m a t i o n a n dt h i sp a p e r f o c u s e do nt h ef e a t u r et e m p l a t eo fc i 心s ,d i s c u s s e dt h es e l e c t i o no ft h e f e a m r ew i n d o wa n dc o m b i n e df e a t u r e s i nt h es t u d yo fm a x i m u me n t r o p y - b a s e dp r o s o d i cs t r u c t u r ep r e d i c t i o n s y s t e m , t h i sa r t i c l ed e s c r i b e dt h em ed e f i n i t i o na n dp a r a m e t e re s t i m a t i o n t h e ni tf o c u s e do nt h ef e a m r et e m p l a t eo fm a x i m u me n t r o p ym o d e l ,a n d d i s c u s s e dt h es e l e c t i o no ff e a t u r ew i n d o wa n dd y n a m i cf e a m r e s i na d d i t i o n , t h i sp a p e r , c a m eu pw i t hm a x i m u me n t r o p yb a s e dm u l t i p a s sp r o s o d i c s t r u c t u r ep r e d i c t i o ns y s t e m , a n dc o m p a r e dw i t ht h ec r f s - b a s e dp r e d i c t i o n s y s t e m i nt h ep r o s o d i cp h r a s ep r e d i c t i o n ,t h ef o r m e r sp e r f o r m a n c ei sb e t t e r t h a nt h el a t t e r k e yw o r d s :p r o s o d i cs t r u c t u r ep r e d i t i o n ,c o n d i t i o n a lr a n d o m f i e l d s ,m a x i m u me n t r o p ym o d e l ,f e a t u r et e m p l a t e 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:j 盈土奢擤 日期:冱与乙上l 监一 1| 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 本人签名: 导师签名: 适用本授权书。 日期: 日期: 北京邮电大学硕士研究生学位论文基于统计横互的韵律结构预涓研究 1 1 引言 第一章绪论 语音是人际交流最习惯、最自然的方式。将文字输入转成语音输出称为文语转换或 语音合成( t e x tt os p e e c h , t r s ) 技术【l 】。其主要功能是把文本文件通过一定的软硬件转 换后由计算机或其他语音系统输出语音,并尽量使合成的语音有较高的可理解度和自然 度。它涉及声学、语言学、数字信号处理、多媒体技术等多个领域,是中文信息处理领 域的一项前沿技术【2 1 。 语音合成系统与传统的声音回放系统有着本质的区别。传统的声音回放系统如磁带 录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内 容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过语音合成则可以 在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开 口说话。 语音合成技术有多种用途,其中最主要的是用于计算机口语输出。即制造一种会说 话的机器,并最终与语音识别技术相结合,形成全新的人机对话系统。而t t s 系统实 际上是个人工智能系统,同时也具有跨学科的性质。为了合成出高质量的语音,除了依 赖于各种规则,包括语义学规则,词汇规则,语音学规则外,还必须对文字的内容有很 好的理解。它首先接受键盘或文件按一定格式所输入的文本信息,然后按照给定的语言 学规则决定各字的发音基元序列以及基元组合时的韵律特性,从而决定了为合成整个文 本所需的言语码;再用这些代码控制机器在语音库中取出相应的语音参数,进行合成运 算,得到语音输出。这个过程包含从输入文本到语音信号的各种计算,要满足这些计算 需求,t t s 系统必须具备从对话结构的抽象语言学分析到语音编码的众多功能组件。 国内外对语音合成技术的研究已有几十年的历史。近1 0 多年来,“微软”、“i b m ”、 “m o t o r o l a 等国际巨头纷纷看好语音市场,投入巨大的人力和财力进行研究,陆续出 北京邮电大学硕士研究生学位论文 于统计棋量的韵律结构预测研究 现了英语、日语、西班牙语和法语等语种的t t s 产品尤其是英语1 1 i s 系统的研究开 发时间较长,其成果已应用在多语种语音翻译系统中。例如,m m 公司开发的智能词典 2 0 0 0 ,采用了m m 公司先进的t t s 技术对英文单词、短语、句子乃至整篇文章进行准 确发音;美国a t & t 开发的真人1 - r s 系统,它模拟的英文发音几乎让用户无法分辨出 真假;微软公司开发的s a p i s d k 语音应用开发工具包,对英语和汉语的语音合成提供 了强有力的支持。而近些年,国内在汉语语音合成方面也取得了令人瞩目的成就,研发 出了一系列汉语语音合成系统,例如科大讯飞公司研发的i n t e r p h o n i c5 5 语音合成系统, 采用超大语料库技术和参数化合成相结合的方法,大幅提高了语音合成系统的可懂度和 自然度;捷通华声公司研发的t t s 掌上计算机,推动了语音合成技术在嵌入式中应用 的发展;华建机器翻译有限公司出品的华建多语译通v 3 0 ,配备了先进的语音合成技术。 随着语音合成技术的进步,应用领域不断扩展,对语音合成技术本身也提出了更高 的要求。在一些特殊领域需要不同的发音风格,某些地方还需要本地方言,带有某种情 感的语音合成等。就t t s 目前的合成效果来说,对于一般的提示用语、新闻类等比较 规范的文字合成的效果比较理想,而对其他那些蕴含着升降缓急,抑扬顿挫情感韵律信 息的文本,其合成效果则很一般。也就是说,目前的t t s 系统虽然在可懂度上基本满 足我们的要求,但在自然度方面却离人们的要求相差甚远,合成输出的语音带有明显的 机器味道。真正能够代替人来阅读的1 t s 系统还没有出现,从而也制约着t t s 系统在 更大的范围内的使用。这就需要进一步的提高t t s 的性能,以适应越来越广泛的市场 需求。 1 2 语音合成技术 按照人类言语功能的不同层次,语音合成可以分成三个层冽3 】:从文字到语音的合 成( t e x t t os p e e c h ) ;从概念到语音的合成( c o n c e p t t os p e e c h ) ;从意向到语音的合成 ( i n t e n t i o nt os p e e c h ) 。这三个层次反映了人类大脑中形成说话内容的不同过程,涉及 人类大脑的高级神经活动。目前,人们对人类大脑的高级神经活动了解甚少,语音合成 还只限于从文字到语音的转换层面上,即文语转换( t e x t t os p e e c h ,t t s ) 。 文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除 了依赖于各种规则,包括语义学规则、词汇学规则、语音学规则外,还必须对文字的内 2 北京邮电大学硕士研究生学位论文 基于统计模丑的均律结构预测研究 容有很好的理解,这也涉及到自然语言理解的问题。文语转换过程一般是将文字序列转 换成音韵序列,再由语音合成器生成语音波形。其中第一步涉及文本分析处理,即按照 语义、语法等规则对文本进行分词和标注,将文字序列转换成字的音节序列:第二步根 据语境、韵律规则和韵律模型,为每个音节或词组调整韵律参数,将音节序列转换成音 韵序列;第三步采用先进的语音合成技术,按要求实时地合成出高质量的语音流。 因此一般说来,文语转换系统需要一套复杂的文字序列到音韵序列的转换程序【4 】。 文语转换系统在结构上整体可分为文本分析处理、韵律处理和语音合成三大模块,见图 1 - 1 。 图l - l一般t t s 系统示意图 文本分析处理模块在文语转换系统中起着重要的作用,主要模拟人对自然语言的理 解过程,使计算机对输入的文本能完全理解并给出后两部分所需的各种发音提示,具体 来说就是对系统要处理的文本进行分词、注音,输出与文本对应的语音标注序列。韵律 处理模块的主要功能是为合成语音规划出音段特征,如音高、音长和音强等,使合成语 音能正确表达语意,听起来更加自然。因此,它是合成语音音质好坏的关键。韵律处理 模块将根据语调、重音和节奏,对每个发音单元进行韵律调整,调整后的输出是包含“韵 律信息的音韵序列。语音合成模块利用音韵序列中的相应参数,从语音数据库中选取 合适的语音基元拼接成句,再经过韵律修饰,就可以输出自然连续的语音流。其中,文 本分析和韵律处理两个模块的处理结果直接影响着合成模块的语音输出是否具有较高 的自然度,而不是“浑身都是机器的味道 。 北京邮电大学硕士研究生学位论文 于统计横盈的韵律结构预测研究 1 2 1 文本分析 文本分析( t e x t a n a l y s i s ) 是文语转换系统( t r s ) 的前端,它的主要内容是对输入 的文本进行分析理解,给后端语音合成器提供必要的信息,比如读音、停顿等信息。就 目前语音合成的现状来看,文本分析是制约着合成语音自然度提高的一个重要因素。文 本分析器可以按照模块化的方法构建,每个模块中的问题可以相对独立地研究,尝试用 不同的算法去解决每个子问题,并可以方便地把新的方法或者模块添加到系统中来。模 块化框图如下图1 2 所示。 图1 2 文本分析的模块化 虽然不同文本分析系统的内部结构和模块接口千差万别,但它们基本上都遵循类似 的方法。各个模块之间协调工作,顺序进行,最终输出韵律模型需要的语境参数。 4 北京邮电大学硕研究生学位论文基于统计模型的韵律结构预测研究 1 2 2 1 文本正则化 真实文本中含有大量非标准词( n o n s t a n d a r dw o r d s ,n s w s ) ,这些词在词典中查 不到,它们的读音也不能通过正常的拼音规则得到。在中文文本中,非标准词是指包含 非汉字字符( 如阿拉伯数字、英文字符、各种符号等) 的词,其中的非汉字字符需要转 换成对应的汉字,这个转换过程称为文本正则化。文本正则化是语音合成的关键环节, 也是语音识别的必要步骤。由于非标准词往往是用户关注的焦点,如日期、价格、电话 号码、机构名等,因此文本正则化直接影响语音服务的质量。 文本正则化的典型方法是基于规则的,如l d c ( l i n g u i s t i cd a t ac o n s o r t i u m ) 的t e x t c o n d i t i o n i n gt o o l s 。这种方法的缺点是明显的:规则难于书写、维护,推广性差。作为 一个歧义消解问题,机器学习方法被大量采用并显示出了优势,如决策树【5 】,支持向量 机【6 】和最大熵模型【。7 】等。 1 2 2 2 词语分析 词是最小的、能够独立活动的、有意义的语言成分。但汉语是以字为基本的书写单 位,词语之间没有明显的区分标记,因此中文词语分析是中文信息处理的基础与关键。 在基于字的自然语言词法分析中,最主要的是分词和词性标志,通常两类处理方法,一 类是将分词和词性标注分别处理,另一类是将分词和词性标注一体化处理。 如果将分词和词性标注分别处理,则需要对分词和词性标注分别研究单独的算法。 单独的分词算法可分为三类:基于规则的分词方法、基于理解的分词方法和基于统计的 分词方法。 基于规则的分词方法又叫做机械分词方法。它是按照一定的策略将待分析的汉字串 与一个“充分大的 机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配 成功。常用的机械分词方法有:正向最大匹配法;逆向最大匹配法;最少切分等。 基于理解的分词方法通过让计算机模拟人对句子的理解,达到识别词的效果。其基 本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现 象。这种分词方法需要使用大量的语言知识和信息。 基于统计的分词方法利用了字与字相邻共现的频率或概率信息,能够较好的反映成 词的可信度。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阂 值时,便可认为此字组可能构成了一个词。可以对语料中相邻共现的各个字的组合的频 度进行统计,计算它们的互现信息。这种方法只需对语料中的字组频度进行统计,不需 北京邮电大学硕士研究生学位论文基于统计模盈的韵律结构预测研究 要切分词典,因而又叫做无词典分词法或统计取词方法。 单独的词性标注算法主要有两类:基于规则的词性标注方法和基于统计模型的词性 标注方法。基于规则的词性标注方法难以书写维护,不值得提倡。而如今h m m 、c r f s 等统计模型在词性标注中获得了广泛应用。 如果将分词和词性标注一体化处理,则需要在算法中同时考虑词串和词性双重信 息。分词和词性标注的一体化处理算法的主要思路是在挑选候选词的时候,将拥有n 个 词性的同一词串作为n 个候选,最后充分利用统计模型挑选出出最优候选。 1 2 2 3 韵律结构预测 韵律结构预测是本文研究的重点,将在后面几章中,对汉语的韵律特征和韵律预测 方法给出详细的阐述。 1 2 2 4 字音转换 在汉语语音合成系统中,字音转换的任务就是将文字序列转换为对应的拼音序列。 大多数情况下,字音转换都是在词典中检索当前词,配以对应的拼音。然而,汉语中有 的字对应多个拼音。如“干 字在“干衣服 中读“g a n l ,而在“干重活 中读“g a n 4 。 字音转换的关键和难点就是如何解决这种一字多音的问题。对多音字的读音进行消歧通 常有两种主流方法: 1 ) 基于手工规则的方法:由语言专家总结出多音字消歧的规律,并将这些规律写 成计算机可以理解的规则形式,且仅涉及计算机可以获取的信息。计算机发现多音字时 就按规则逐条进行条件匹配和消歧处理。 2 1 基于统计机器学习的方法:把多音字消歧问题视为机器学习中的分类问题,首 先收集包含多音字的语料库并标注多音字的正确读音,然后分别对每个多音字抽取字 词、词性等上下文信息,通过机器学习的方法完成多音字消歧。 最初绝大多数语音合成系统都是采取手工规则的方法来进行多音字消歧。然而随着 规则数目的增加,某一个多音字的上下文环境可能被多条规则所匹配,这就产生了规则 冲突,这是基于规则的方法难以解决的问题之一。随着大语料库在语音合成研究领域的 蓬勃发展,很多研究者着手用统计方法来进行多音字消歧。 6 北京邮电大学硕研究生学位论文 基于统计模型的均律结构预测研究 1 2 2 韵律处理 韵律是一个听觉感知的概念。它是语言交际的必要手段,它能帮助听者更好地理解 话音所携带的信息。目前,合成语音的自然度还不是很理想,其根本问题就是不能对自 然语流中的韵律进行有效的模拟。在自然语流中,人们使用语调、节奏和重音等方式来 表达说话者的意向和情感,这些韵律特征是自然语流的重要组成部分。而语音合成系统 的基元库不可能把反映所有韵律变化沟不同基元都存储进去。因此,语音合成系统要想 取得高质量的语音,就必须具备韵律处理和模拟的功能。 从听觉的角度出发,常常使用音长、音强、音高和音色这四个语音听觉特征来描述 韵律。从声学角度出发,它们对应为时长、能量、基频和频谱等声学特征。韵律首先是 听觉特征,它们是心理量,而声学特征都是可以测量的物理量,在分析时多用后者。而 对于韵律的调整,也是通过调整语音信号中这些可测量的物理量来实现的。对韵律处理 的研究主要有以下几个方面:韵律预测,韵律规则,韵律描述和韵律建模。 韵律预测与文本分析之间有着紧密的联系,这是因为t t s 系统的输入是无限制的 文本,从文本中只确定读音是远远不够的。为了提高语音的自然度,还需要从文本中提 取更多的与韵律相关的信息,其中包括文本的韵律结构、重音和语调等信息。图1 3 展 示了一个汉语句子的韵律结构。可以看到韵律结构是一个非递归的层级结构。 u i p pp p 广t 一j l t 厂j _ r p wp wp wp wp wp wp w ilii 厂l 广l i 他像长辈一样给予我特别的关照 u :语调短语p p :韵律短语p w :韵律词 图1 - 3 韵律层次结构 虽然不同的研究人员对于具体将韵律结构分为几层还有争议,但对于这种分层结构 北京邮电大学硕士研究生学位论文基于统计模型的韵律结构预测研究 思想大都表示赞同。实验表明,在t t s 系统中引入韵律层级结构可以提高合成语音的 质量【引。对于重音和语调的研究目前也己经取得了一些成果【9 】【l o 】,但由于重音和语调的 声学表现较为复杂,现在还没有一个比较一致的结论,尤其是它们在语音合成系统中的 作用,还有待进一步的研究。 韵律规则主要研究人在发音过程中各种声学参数的变化规律。利用这些规律可以改 进语音合成系统的整体性能,尤其是在语音合成阶段提供调整韵律变化的声学参数。目 前,对汉语发音的研究己经取得了较多的成果,例如汉语中对二字词,三字词组音节声 调变调的研究及普通话自然话语中的下倾研究等【1 1 】【1 2 】。 韵律标注的目标是将韵律的变化进行符号化的描述。国外的韵律标注研究开展的较 早,现有的韵律标注系统以t o b i ( t o n e sa n db r e a ki n d i c e s ) 为代表【1 3 】。t o b i 是基于美 国英语的标注系统,是现在国际上得到广泛认可的最为流行的韵律标注系统。到目前为 止,以t o b i 为蓝本,已有德语、瑞典语、法语、意大利语等语言的韵律标注系统。国 内也根据汉语的特点提出了一种汉语韵律标注系统c - t o b i 。近年来,随着x m l 技术的 流行,出现了一种基于x m l 的韵律标注语言s s 池( s p e e c hs y n t h e s i sm a r k u p l a n g u a g e ) 1 4 】。s s m l 的优点是用户可以根据自己系统的需要自定义韵律标签,这极大 的方便了用户的使用。我们构建的语音合成系统就采用了由清华大学语音合成语料库提 供的基于s s m l 的韵律标注文件。 韵律建模的作用是找出韵律特征与声学参数的映射关系,给出定量的数学描述,建 立可计算模型。如用于反映基频变化的基频模型、反映时长变化的时长模型等。 1 2 3 语音合成 综观语音合成技术的研究历史,真正有实用意义的语音合成技术是随着计算机技术 和数字信号处理技术的快速发展而逐步发展起来的,即让计算机能够产生高清晰度、高 自然度的连续语音。近几十年来,国际和国内的研究主要集中在按规则的文语转换。语 音合成技术【1 】【3 】【4 】大致可以归纳为: ( 1 ) 基于共振峰和l p c 的参数合成法:调整灵活,但音质差。 在语音合成技术的发展中,早期的研究主要基于模拟人的发音器官的思想,即采用 信号处理的办法,用信号源和滤波器去模拟人的发音器官,只要调整滤波器的参数就等 效于改变了人的口腔及声道的形状,达到控制发出不同音的目的,而改变信号源脉冲序 列的周期或强度,就相当于改变了合成语音的音调和重音等,其物理意义十分明显。 北京邮电大学硕士研究生学位论文基于统计模量的韵律结构预测研究 值得提及的是h o l m e s 的并联共振峰合成器( 1 9 7 3 年) 和k l a t t 的串并联共振峰合 成器( 1 9 8 0 年) ,只要精心调整参数,这两个合成器都能合成出非常自然的语音。最具 代表性的文语转换系统当数美国d e c 公司的d e c t a l k ( 1 9 8 7 年) 。但是,经过多年的研 究与实践表明,参数合成的方法依赖于一个完善的语音生成模型,而目前语音学的发展 尚不能提出很完善的语音生成模型。此外,共振峰合成器控制非常复杂,控制参数往往 多达几十个,实现起来十分困难。虽然利用共振峰合成器可以得到许多逼真的合成语音, 但是整体合成语音的音质难以达到文语转换系统的实用要求。 l p c 技术( 线性预测编码技术) 是一种时间波形的编码技术,优点是简单直观。合 成过程实质上是一种简单的译码和拼接的过程。由于合成基元是语音的原始波形资料, 它保存了语音的全部信息,所以对于单个合成基元来说能够获得很高的自然度。但是, 一个汉字在自然语流中的发音与它在孤立状况下的发音有很大的不同,如果只是简单的 把各个孤立的语音基元生硬地拼接在一起,则合成后的整个语流的音质将大打折扣。因 此,l p c 合成技术必须和其它技术结合才能够明显改善l p c 技术语音合成的质量。 ( 2 ) 基音同步叠加方法( p s o l a ) :受调整算法限制,只能作有限调整。 自上个世纪八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠 加( p s o l a ) 方法的提出( 1 9 9 0 年) ,使基于时域波形拼接方法合成的语音音色和自然 度得到大幅度的提高。九十年代初,基于p s o l a 技术的法语、德语、英语、日语等语 种的文语转换系统都己经研制成功。这些系统的自然度比以前的基于共振峰合成器或 l p c 技术的文语转换系统的自然度要高,并且合成器的结构简单、易于实时实现,具有 很大的商用前景。 p s o l a 技术的主要特点是:在对语音波形片断拼接之前,首先根据上下文的语境 要求,用p s o l a 算法对拼接基元的韵律特征进行调整,使得合成后的语音波形既保持 了原始语音的主要音段特征,又能使拼接基元的韵律特征符合上下文语境的要求,从而 获得很高的清晰度和自然度。 p s o l a 技术的优点是简单直观,运算量小,韵律参数调整方便,可以合成出连续 自然的语流。然而,p s o l a 技术也有其缺点。首先,p s o l a 技术是一种基音同步的语 音合成技术,需要准确的基音周期及其起始点的判定,特别是基音周期或其起始点的判 定误差将直接影响p s o l a 技术的效果。其次,p s o l a 技术是一种简单的波形拼接合成, 这种拼接是否能够保持平稳过渡以及它对频域参数有什么样的影响等并没有得到很好 的解决,因此在合成时会产生不理想的结果,例如,处理后的语音和音色和原始语音不 9 北京邮电大学硕研究生学位论文 基于统计横量的韵律结构预测研究 完全一致,有回声和机器声。 ( 3 ) 基于l m a 声道模型技术的语音合成方法:可灵活调整韵律参数。 然而实践证明,对于基音同步叠加方法( p s o l a ) ,当韵律参数的改变幅度超过一 定范围时,基音同步叠加技术的合成音质将会有较大幅度的下降,同时它也很难处理协 同发音现象。针对这一难题,提出了一种基于对数振幅近似理论的声道模型的语音合成 方法,它不仅保留了传统参数合成技术的可灵活调整韵律参数的优点,而且还具有比波 形拼接合成更高的音长。采用这种方法基本可以高音质地实现语音学规则所需要的各种 参数调整。 ( 4 ) 基于语音数据库的语音合成方法:音质好,自然度高,可以实现无限词汇的 语音合成。 最近几年,一种新的基于大语料库的时域波形拼接语音合成技术成为新的潮流。在 这个方法中,合成语句的语音单元是从一个预先录下的、庞大的自然语音的语料库中挑 选出来的。所谓庞大是指语料库的大小基本覆盖了绝大多数上下文语境中各种发音情 况,针对不同的上下文语境,系统将根据使某种代价函数值最小为原则,直接从这个庞 大的语料库中筛选最佳合成单元或片段来加以拼接。不难想象只要这个语料库足够大, 理论上讲有可能拼接出任何语句。由于合成的语音基元都来自于自然的原始发音,或是 一个音节,或是一种不定长的语言片段,如多字词或韵律短语,它们已经超越了音节的 层次。因此,合成后语音的清晰度和自然度都非常高。这种方法避开了对语音作韵律调 整,基本上不用对信号作时域或频域的变换处理。 语音合成方法经历了从参数合成到波形拼接合成的发展历程。早期的语音合成系统 一般采用参数合成方法,包括发音器官参数合成与声道模型参数合成方法。这类方法的 优点在于占用的存储空间小,合成的语音具有较高的可懂度,并能够较为灵活地控制合 成语音的音色;主要缺点是合成语音的自然度较低。 随着计算机存储容量和运行速度的提高,波形拼接合成方法逐渐发展起来。它直接 把语音波形数据库即基元库中的波形拼接在一起,并输出为连续语流。这种语音合成方 法用原始语音波形代替参数,由于这些语音波形取自自然语音的词或句子,它们本身就 隐含了声调、重音等细微韵律特征,这就使得合成语音清晰自然,其质量普遍高于参数 合成的输出语音。这种方法存在的缺点是语音的韵律特征较难修改。针对这一问题,人 们己经提出了许多算法,其中最为著名的是p s o l a ( p i t c hs y n c h r o n o u so v e r l a p a d d ) 基音同步叠加算法。这一方法较好的解决了语音拼接中基频与时长的修正问题,从 l o 北京邮电大学硕士研究生学位论文基于统计模量的韵律结构预测研究 而推动了波形拼接合成技术的发展与应用。 目前的语音合成系统普遍采用波形拼接合成方法,并且己经有很多研究机构和公司 推出了比较成熟的产品,如微软的木兰,1 1 s 系统,a t & t 的n a t u r a lv o i c e 语音合成系统, 国内比较著名的公司有捷通华声,和科大讯飞等。 1 3 本文研究的内容和意义 1 3 1 本文研究的内容 目前,有限词汇的语音合成技术己经成熟,无限词汇的语音合成也已研制成功。然 而如今的语音合成系统合成的句子及篇章的语音自然度和可懂度仍然相对较低,“机器 味一太浓,人们听起来感觉并不是很舒服,不能达到用户可以广泛接受的程度,其原因 是:至今在语音合成的韵律控制方法上还没有取得令人满意的成果,从而制约了这项技 术大规模地进入市场。 语音合成系统的核心技术主要体现在文本分析和合成语音时的韵律控制。其中文本 分析在t t s 系统开发中占了几乎一半的工作量,但从目前大量有关合成的论文来看, 一些合成团队并没有十分关注文本分析。而韵律控制的过程直接决定了合成语音的自然 度和可懂度,韵律预测则是整个韵律控制的前提,因此在整个语音合成系统中,韵律预 测的地位也异常重要。 本文将对汉语中的韵律特征进行详细描述,特别是韵律层次结构的概念、作用及预 测进行分析讲解。从理论上和应用上充分阐述统计模型在韵律层次结构预测作用,特别 是条件随机场( c l u s ) 和最大熵( m e ) 两大模型的应用,并改进了韵律结构预测系统, 使韵律结构预测结构得到显著提升。 1 3 2 本文研究的意义 如今英语的语音合成技术已经成熟。但是汉语不同于其它西方语系,表现在语法结 构、语法规则、声学特性、韵律特征等多个方面。首先,汉语是一字一音( 儿化音除外) , 即单音节字;其次,汉语是声调语言,声调具有辨意作用,每个字都有固定的音调( 基 频形状) 。而且,字与字之间的音调前后彼此互相影响会发生变异,甚至失去了原有的 北京邮电大学硕士研究生学位论文 薹于统计模型的韵律结构预测研究 调型,即出现协同发音现象。这也是为什么人说话时有连续感,而不是一个字一个字地 “蹦字一发音。同时,连续语句的发音中间还会有短暂的停顿,这又体现了人说话的节 奏感。每个人说话都有一个基本频率,称作基频,它体现了说话人的音调高低,此外, 人们说话还有声音大小的区别等等。在汉语的文语转换( t t s ) 系统中,对语音基频、 时长、幅度等韵律信息的预测、分析和控制称作韵律控制。 韵律控制在系统前端建立从文本到韵律特征的预测模型以指导语音合成,使文语转 换( 1 1 s ) 系统能够合成像人一样说出具有高度自然和智能的语音。这就需要两种常见 的合成方法如参数合成和语料库合成都利用韵律特征预测的结果提高合成语音的自然 度。韵律特征包括韵律结构和重音等多方面的内容。一般在汉语语音合成器中,韵律结 构会是考虑的重点,因为停顿的长短更能体现合成语音的自然度。 本文重点研究韵律结构预测算法,目的在于提高韵律结构预测的精度,最终能有效 提高中文语音合成的自然读。 1 4 论文的内容安排 本文的章节划分如下: 第一章,简单介绍了语音合成技术的概念、原理和发展现状及趋势,阐述了研究汉 语语音合成技术的意义。 第二章,主要研究了汉语的韵律及其层级结构,对韵律边界进行了声学特性分析与 预测。 第三章,对韵律结构预测方法进行了综述,分析了传统韵律结构预测方法存在的缺 点。 第四章,阐述了条件随机场( c l 讧s ) 的理论和优势,研究模型的特征集,建立基 于条件随机场的韵律结构预测系统,并给出实验结果。 第五章,阐述了最大熵( ) 模型的理论,提出一套新的基于最大熵模型的韵律 结构预测系统,并给出实验结果和分析。 第六章,总结了汉语语音合成系统中韵律结构预测模块的难点,并对未来的工作提 出了建议。 1 2 北京邮电大学硕士研究生学位论文基于统计模型的韵律结构预测研究 2 1 汉语的韵律特征 第二章汉语的韵律分析 汉语是以音节为基元,由音节组成词,由词构成句子,而这一过程恰好也是汉语语 音合成的一种有效方法。由于语音信号具有音高、音长、音强和音色四个特征参量,其 中音高、音长、音强被称之为语音合成中常说的韵律参数或韵律特征。同一个汉语音节 出现在不同的语流环境中,由于发音器官中轨迹的连续性和众多发音习惯的制约,这四 个特征参量都会发生相应的改变。连续语流中韵律特征( p r o s o d yf e a t u r e ) 是通过音高、 音长和音强的变化,即“超音段特征”( s u p e rs e g m e n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论