




已阅读5页,还剩80页未读, 继续免费阅读
(信号与信息处理专业论文)中文语音合成系统中的文本正则化和韵律结构预测方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
r i j f l l l lilllllip i j i r i f f i f i j l l lr j l l lr l l l j l jr l l y 17 5 8 7 3 0 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,i i p - 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 本人签名; 导师签名: 适需榔。加q ,日期: ! :! :! ! ! 日期: j , p 电 ,、 中文语音合成系统中的文本正则化和 韵律结构预测方法的研究 摘要 随着计算机技术的进步和其他相关学科的发展,在过去的几十年 间,语音合成技术有了迅猛的发展,涌现出了大量的新理论和新技术。 t t s ( t e x t t o s p e e c h ) 中文语音合成技术,又称为文语转换技术, 是将文本转换成为语音的一项核心c t i 技术。可以通过输入文本,让 计算机像人一样说出具有高自然度和智能的语音。这项技术已经被广 泛应用于电信服务,嵌入式移动设备和娱乐增值服务等各个方面。 对合成系统输出语音音质的评价是多方面的,但是主要体现在输 出语音的可懂度和自然度上。当前,田晤系统的输出语音的可懂度主 要体现在前端文本处理的模块上,现在技术已经达到了不错的水平, 但是在处理中文文本的非标准词上还有所欠缺,尤其是阿拉伯数字 串,各种非标准符号等。而语音的自然度则重点体现在韵律结构预测 模块中,当前中文语音合成输出语音的整体自然度方面还有待提高, 其根本问题就是不能对自然语流中的韵律进行有效的模拟。韵律处理 的研究主要有以下几个方面:韵律预测,韵律规则,韵律描述和韵律 建模。本文主要研究了中文语音合成系统前端的文本正则化模块和韵 律结构预测模块,希望通过对以上两个模块的研究与改进来提高合成 语音的可懂度和自然度。 t t s 系统的输入是无限制的文本,从文本中只确定读音是远远不 够的。为了提高语音的可懂度和自然度,还需要从文本中提取更多的 与文本和韵律相关的信息。研究表明,t r s 系统如果能够对各种非标 准词作出正确的识别,将对合成语音的可懂度有很大的帮助;同时, 引入韵律层级结构可以显著提高合成语音的质量,特别是合成语音的 自然度。如何提高文本正则化和韵律结构预测的正确率是本文研究的 重点。 本文从中文语言的特点出发,分析和研究了中文文本中经常出现 的非标准词,对其中的日期、电话号码、机构名称以及网络用语等进 行了分析归类,对这些读音不能通过正常拼音规则得到的非标准词的 读音生成方式进行了重点研究。对传统的中文文本正则化的方法进行 了总数和比较,指出了传统中文文本正则化方法的优缺点,然后重点 研究了基于最大熵模型的文本正则化方法,并应用于实际的中文语音 合成系统中。 同时,本文从汉语的声学特点和韵律特征出发,分析和研究了汉 语的韵律特征、停顿、重音以及韵律边界之间的关系,分析并对比了 汉语韵律层级结构,同时分析了韵律边界的声学特征。对传统的韵律 结构预测的方法进行了综述和比较,指出传统韵律结构预测方法的优 缺点,然后重点研究了基于条件随机场模型的韵律结构预测方法,并 应用于实际的中文语音合成系统中。 在基于最大熵模型的韵律结构预测系统的研究中,在理论上,本 文详细阐述了最大熵模型模型的定义,条件分布以及参数估计。在应 用上,本文重点研究了最大熵模型的特征模板,并讨论了窗长选取和 动态特征的作用等问题。 在基于条件随机场的韵律结构预测系统的研究中,理论上,本文 详细阐述了条件随机场的定义,条件分布以及参数估计。在应用上, 本文重点研究了条件随机场的特征模板,并讨论了窗长的选取,复合 特征的作用等问题。并与传统的文本正则化和韵律结构预测方法进行 了性能上比较和分析,在性能上有显著的提高。 关键词:文本正则化韵律结构预测最大熵条件随机场 t h eo t h e rh a n d , t h ep r o s o d ys t r u c t u r ep r e d i c t i o nm o d u l ei sm a i n l yr e s p o n s i b l ef o rt h e n a t u r a l n e s so ft h es y n t h e t i cs p e e c h ,w h i c hi ss t i l lf a rf r o mt h eh u m a n i t yl e v e l t h e e s s e n t i a lp r o b l e ms h o u l db et h ee f f e c t i v ea n a l o go ft r u ev o i c ep r o s o d y t h er e s e a r c h o fp r o s o d yp r o c e s s i n gm a i n l yf o c u s e so nt h ef o l l o w i n ga s p e c t s :p r o s o d yp r e d i c t i o n , p r o s o d yr u l e s ,p r o s o d yd e s c r i p t i o na n dp r o s o d ym o d u l i n g n er e s e a r c hi nt h i sp a p e r m a i n l yc o n t a i n st h et e x tn o r m a l i z a t i o nm o d u l ea n dp r o s o d ys t r u c t u r ep r e d i c t i o n m o d u l ew h i c ha r eb o t hi nt h ef r o n te n do f 邢s y s t e m n ev o i c ei sn o td e f i n e d a st h eu n k n o w na n di n f i n i t et e x ti n p u to fr r ss y s t e m f o rt h ei m p r o v e m e n to ft h ei n t e l l i g i b i l i t ya n dn a t u r a l n e s s ,m o r ei n f o r m a t i o na b o u t t c x ta n dp r o s o d ys h o u l db ee x t r a c t e df r o mt h ei n p u t r e s e a a r c hs h o w s 。t h ev e r i f i c a t i o n o fn o n es t a n d a r dw o r d sw i l lp r o v i d eg r e a th e l pi ni m p r o v i n gi n t e l l i g i b i l i t y , a sw e l la s t h ec e r t a i np r o s o d i cs t r u c t u r ef o rt h en a t u r l n e s s m p a p e ri sb a s e do rt h er e s e a r c ho ft h em a n d a r i nf e a t u r e ,e s p e c i a l l yt h ed a t e , p h o n en u m b e r , f a c i l i t yn a m e ,a n ds oo n ,w h i c ha l ec o m m o n l yo c c u r r e di nd a i l y c o m m u n i c a t i o n sa n dc a n n o te a s i l yg e tt h er i g h tv o i c et h r o u g hs i n g l em a p p i n gp i i l y m r u l e s w i t ht h es t u d ya n dc o m p a r a t i o no ft h et r i d i t i o n a i m e t h o d sf o rn e x t n o r m a l i z a t i 佃t h i sp a p e ru s e st h em a xe n t r o p ym o d e lb a s e dm e t h o di nd e a l i n gw i t h t e x tn o r m a l i z a t i o na p p l i c a t i o n s w i t ht h ef e a t u r eo fa c o u s t i c sa n dp r o s o d yi nm a n d a r i n ,f u ur e s e a r c hi sm a d ei n r e l a t i o n s h i pu p o np r o s o d yf e a t u r e ,p a u s e , a c c e n ta n dp r o s o d yb o u n d a r y c o m p a r i n g w i t h 也eo l dm e t h o d , t h i sp a p e rh o l d sac e r t a i nm o t h e di nt h ep r o s o d ys t r u c t u r e p r e d i c t i o n , b a s e df i l lt h ec o n d i t i o n a lr a n d o mf i e l dm o d e l i nt h er e s e a r c ho ft e x tn o r m a l i z a t i o nw i t hm a xe n t r o p ym o d e lb a s e dm e t h o d t h i s p a p e rt h e o r e t i c a l l yg i v e sac l e a r d e f i n i t i o no fm a xe n t r o p ym o d e l ,a sw e l la s c o n d i t i o n a ld i s t r i b u t i o na n dp a r a m e t e re s t i m a t i o n a p p l i c a t i o n a l l y , t h ep a p e rp a y s m u c he m p h a s i s e so nt h ef e a t u r ed e s i g n ,e x t e n t i o ns e l e c t i o na n dd y n a m i cf e a t u r e t h ep a p e rm a k e sak e y n o t eo nt h et h e o r yo fc o n d i t i o n a lr a n d o mf i e l dm o d e l , w i t ht h ep r o b l e mo fc o n d i t i o n a ld e s t r i b u t i n ga n dp a r a m e t e re s t i m a t i n g ,i nt h er e s e a r c h o fp r o s o d ys t r u c t u r ep r e d i c t i o nw i t hc o n d i t i o n a lr a n d o mf i e l dm o d e lb a s e dm e t h o d f e a t u r e d e s i g na n dc o m p o s i t i o n a r ea l s o p r e s e n t e di n t h i s p a r t e x p e r i m e n t d e r f o r m a n c cs h o w st h a tc o n s i d e r a b l ei m p r o v e m e n ti sm a d ei nb o t ht e x tn o r m a l i z a t i o n a n dp r o s o d ys t r u c t u r ep r e d i c t i o na n dw o r k sw e l li nr e a lm a n d a r i nt r ss y s t e m k e yw o r d s :t e x tn o r m a l i z a t i o n , p r o s o d i cs t r u c t u r ep r e d i c t i o n ,m a x i m u m e n t r o p ym o d e l ,c o n d i t i o n a lr a n d o mf i e l dm o d e l a 知 2 2 1 阿拉伯数与艺1 7 2 2 2 各种符号。1 8 2 2 3 其他非标准词1 8 2 3 非标准词分类1 9 2 4 非标准词正则化2 0 2 4 1 非标准词识别2 1 2 4 2 非标准词消岐2 3 2 4 3 中文读音生成。2 4 2 5 文本正则化方法综述2 6 第三章韵律结构预测分析2 7 3 1 中文的韵律结构2 7 3 2 中文的韵律结构特征2 7 3 3 中文的韵律层次结构2 8 3 3 1 韵律词3 0 3 3 2 韵律短语3 0 3 3 3 语调短语3 1 3 4 韵律的声学特性3 l 3 4 1 重音3 2 3 4 2 语调3 3 3 4 3 停顿3 4 3 5 中文韵律结构预测。3 5 3 6 韵律结构预测方法综述3 6 第四章基于最大熵模型的文本正则化3 8 4 1 最大熵模型。3 8 4 1 1 最大熵原理。3 8 4 1 2 算法定义3 9 4 1 3 约束条件4 0 4 1 4 参数估计。4 0 4 1 5 类型选取4 1 4 1 6 特征模版4 4 4 2 实验方法4 4 4 2 1 语料准备4 4 4 2 2 实验工具4 5 4 2 3 实验设计4 5 4 2 4 评测标准4 6 4 3 实验结果4 6 4 3 1 结果分析4 7 4 3 2 错误分析4 7 第五章基于条件随机场模型的韵律结构预测4 8 5 1 条件随机场4 8 5 1 1 算法定义4 8 5 1 2 条件分布。4 9 5 1 3 参数估计1 0 5 1 4 参数优化。5 2 5 1 5 特征选取。5 3 5 1 6 特征格式5 4 5 2 错误驱动的规则学习方法5 5 5 2 1 方法定义5 6 5 2 2 特征选取5 8 5 2 3 模板设计5 8 5 2 4 规则设计5 9 5 3 实验方法6 0 5 3 1 预料准备6 0 5 3 2 实验工具6 1 5 3 3 实验设计6 l 5 3 4 评测标准6 4 5 4 实验结果。6 5 5 4 1 结果分析。6 5 5 4 2 错误分析6 6 第六章总结与展望6 7 差参爿亨文甫定。6 9 致谢7 2 攻读硕士学位期间发表的论文一7 3 语音是人际交流最习惯、最自然的方式。将文字输入转成语音输出称为文语 转换或语音合成( t e x tt os p e e c h ,t r s ) 技术【。其主要功能是把文本文件通过一 定的软硬件转换后由计算机或其他语音系统输出语音,并尽量使合成的语音有较 高的可理解度和自然度。1 陷技术涉及声学、语言学、数字信号处理、多媒体技 术等多个领域,是中文信息处理领域的一项前沿技术阁。 随着信息技术、语言技术以及计算机技术的发展,语音合成技术已经越来越 多的受到人们的关注。语音合成技术可以通过输入文本,让计算机像人一样说出 具有高自然度和智能度的语音。这项技术已被广泛应用于电信服务,嵌入式移动 设备等各方面。 语音合成系统与传统的声音回放系统有着本质的区别。传统的声音回放系统 如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话的。这种方 式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而 通过语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真 正实现让机器“像人一样开口说话。 语音合成技术有多种用途,其中最主要的是用于计算机口语输出。即制造一 种会说话的机器,并最终与语音识别技术相结合,形成全新的人机对话系统。而 t = 陷系统实际上是个人工智能系统,同时也具有跨学科的性质。为了合成出高质 量的语音,除了依赖于各种规则,包括语义学规则,词汇规则,语音学规则外, 还必须对文字的内容有很好的理解。它首先接受键盘或文件按一定格式所输入的 文本信息,然后按照给定的语言学规则决定各字的发音基元序列以及基元组合时 的韵律特性,从而决定了为合成整个文本所需的言语码;再用这些代码控制机器 在语音库中取出相应的语音参数,进行合成运算,得到语音输出。这个过程包含 从输入文本到语音信号的各种计算,要满足这些计算需求,t t s 系统必须具备从 对话结构的抽象语言学分析到语音编码的众多功能组件。 语音识别和语音合成技术是实现人机语音通信,建立一个有听、说能力的口 语系统所必需的两项关键技术。作为智能计算机研究的主导方向和人机语音通信 的关键技术。语音合成技术愈来愈受到各国科学界的广泛关注。随着语音合成技 术的研究发展,它对计算机发展和社会生活的重要性日益显现出来。目前,语音 合成广泛的应用于基于p c 的办公、教学、及娱乐等智能多媒体软件和声讯服务 领域内的智能电话查询系统中。 一个成功的语音合成系统输出的语音应当音质清晰、自然流畅。语音的自然 度取决于起发音声调的变化,而在连续语流中,字的发音不仅与这个字本身的发 音有关,而且还受到它相邻字发音以及语气表达的影响。所以在语音合成系统中, 必须事先对文本进行分析,根据上下文的关系确定每个字发音的韵律变化,然后 用这些韵律变化参数控制语音的合成。因此,语音合成系统的核心应包括文本分 析、韵律控制、语音合成模块。 随着语音合成技术的进步,应用领域不断扩展,对语音合成技术本身也提出 了更高的要求。在一些特殊领域需要不同的发音风格,某些地方还需要本地方言, 带有某种情感的语音合成等。就t r s 目前的合成效果来说,对于一般的提示用 语、新闻类等比较规范的文字合成的效果比较理想,而对其他那些蕴含着升降缓 急,抑扬顿挫情感韵律信息的文本,其合成效果则很一般。也就是说,目前的 1 瞎系统虽然在可懂度上基本满足我们的要求,但在自然度方面却离人们的要求 相差甚远,合成输出的语音带有明显的机器味道。真正能够代替人来阅读的t r s 系统还没有出现,从而也制约着1 邗系统在更大的范围内的使用。这就需要进 一步的提高1 晤的性能,以适应越来越广泛的市场需求。 综观语言合成技术的研究已有二百多年的历史,但是真正有实用意义的近代 语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要 是让计算机能够产生高清晰度、高自然度的连续语音。近几十年来国际和国内的 研究主要集中在按规则文语转换,即将书面语言转换成口头语言。在语音合成技 术的发展中,早期的研究主要是采用参数合成方法。值得提及的是h o l m e s 的并 联共振峰合成器( 1 9 7 3 ) 和l 【l a n 的串并联共振峰合成器( 1 9 8 0 ) ,只要精心调 整参数,这两个合成器都能合成出非常自然的语音。而最具代表性的文语转换系 统数美国d e c 公司的d e c t a l k ( 1 9 8 7 ) ,该系统采用k l a t t 的串并联共振峰合成 器,可以通过标准的接口和计算机连网或单独接到电话网上提供各种语音信息服 务,它的发音清晰,并可产生七种不同音色的声音,供用户选择。但是经过多年 的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器 可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统 的实用要求。自八十年代末期至今,语言合成技术又有了新的进展,特别是基音 同步叠加( p s o l a ) 方法的提出( 1 9 9 0 ) ,使基于时域波形拼接方法合成的语音 2 度、清晰度达到了很高的水平。然而同国外其它语种的文语转换系统一样,这些 系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的 程度,从而制约了这项技术的大规模进入市场。 1 9 9 8 年中国科技大学在国家8 6 3 计划和国家自然科学基金委支持下,研制 成功k d 8 6 3 汉语文语转换系统。和采用国内外流行的p s o l a 技术的系统相比, 在输出语音的音质和自然度上有了突破性的提高。k d 8 6 3 采用了一种全新的基 于语音数据库的语音合成方法,该技术的基本思想是将实际语流中汉语音节千变 万化的音变进行听感上的量化归并,设计出多样本的汉语语音基元库,这个库蕴 涵了汉语韵律变化信息,合成时只要通过对基元库样本的选取便可实现韵律控 制。同时语音基元库中的样本是直接从自然语音中截取,避免了采用信号处理技 术获取音变单元对音质的损害,因而合成语音具有接近自然语音的音质。k d - 8 6 3 文语转换系统一经推出,就因其合成语音的高清晰度与高自然度引起了社会各方 的重视。先后应用于为深圳华为技术公司设计的“1 1 4 自动电话报号系统 ,和 为国家工商总局设计的“工商企业语音( 传真) 查询系统 。使得汉语语音合成 技术走出实验室,向市场应用迈出了重要的一步。k d 8 6 3 系统参加了在1 9 9 8 年4 月国家科委组织的全国汉语语音合成系统的性能评测,其输出语音的自然度 居同类系统之首,是唯一达到用户可以接受程度的系统。k d - 8 6 3 还在日本,新 加坡,香港的有关研究所和大学进行过演示,均得到了有关方面专家的认同。最 近中国科技大学又推出了k d 2 0 0 0 汉语文语转换系统,不仅在语音合成技术方 3 面有进一步的发展,特别是在文本预处理中围绕层次化结构思想,运用大量的统 计和规则的方法,较好地解决了三个大的处理环节:特殊符号处理,分词处理和 拼接处理,使得汉语文语转换系统的整体性能有很大提高。以k d - 2 0 0 0 文语转 换为核心的“畅言2 0 0 0 智能汉语平台软件已开始进入市场。 1 2 中文语音合成技术 语音合成技术是实现人机语音通信,建立一个有口语能力的系统所必需的关 键技术。使电脑具有类似于人一样的说话能力,是9 0 年代信息产业的重要竞争 市场。语言合成的技术相对成熟,是该领域中近期最有希望产生突破并形成产业 化的一项技术。 语言合成或者让计算机说话包含着二个方面的可能性:一是机器能再生一个 预先存入的语音信号,就象普通的录音机一样,不同之处只是采用了数字存储技 术。简单地将预先存入的单音或词组拼接起来也能作到“机器开口,但是“一 字一蹦 ,机器味十足,人们很难接受。然而如果预先存入足够的语音单元,在 合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,也有可能生成高自 然度的语句,这就是波形拼接的语音合成方法。为了节省存储容量,在存入机器 之前还可以对语音信号先进行数据压缩。另一种可能是采用数字信号处理的方 法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特 性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带振 动,或者是随机噪声序列,代表不出声的清音、调整滤波器的参数等效于改变口 腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期或强度, 将改变合成语音的音调、重音等。因此,只要正确控制激励源和滤波器参数( 一 般每隔1 0 - - 3 0 m s 送一组) ,这个模型就能灵活地合成出各种语句来,因此又称 作为参数合成的方法。根据时变滤波器的结构形式不同,又有l p c 合成和共振 峰合成器等之分。 一个成功的语音合成系统输出的语音应当音质清晰、自然流畅。语音的自然 度取决于起发音声调的变化,而在连续语流中,字的发音不仅与这个字本身的发 音有关,而且还受到它相邻字发音以及语气表达的影响。因此,语音合成系统 的核心应包括文本处理、韵律处理、语音合成模块。图1 1 显示了一个完整的中 文语音合成系统示意图。 4 图i - i中文语音合成系统示意图 1 2 1 文本处理 文本处理是1 - 】瞎系统的前端。主要作用是对输入的文本文件进行分析,为 后面的韵律结构晕车及语音合成等步骤提供必要的文本和信息。就目前的语音合 成技术来说,文本处理是决定合成语音自然度的一个重要因素。 语音合成系统首先处理的是文字,也就是它要说的内容。文本分析的主要功 能是使计算机能从这些文本中认识文字,进而知道要发什么音、怎么发音,并将 发音的方式告诉计算机。另外,还要让计算机知道,在文本中,哪些是词,哪些 是短语或句子,发音时应该到哪里停顿及停顿多长时间等。如图1 2 所示,其工 作过程主要包括一下几个步骤: 1 文本预处理 2 文本正则化 3 文本分词 4 文本词性标注 文本分析器可以按照模块化的方法构建,每个模块中的问题可以相对独立地 研究,尝试用不同的算法去解决每个子问题,并可以方便地把新的方法或者模块 添加到系统中来。虽然不同文本处理模块的接口和内容千差万别,但是只要在各 个模块之间保持数据格式的一致性,在本文描述的中文语音合成系统的哥哥模块 之前均采用语音合成标注语言( s p e e c hs y n t h e s i sm a r k u pl a n g u a g e ,s s m l ) 的 形式进行数据传输f 3 j 。这样,各个模块就能协调工作,并最终输出韵律结构预测 和语音合成所需要的参数和信息,便于后续模块进一步处理并生成相应的信息。 6 产 图1 - 2 文本处理的模块结构 1 2 1 1 文本预处理 预处理模块是中文语音合成器前端文本处理的第一部分。主要任务是对输入 文本进行格式上的统一和规范化,对一些非标准字符进行处理,比如全角半角的 转换,宽字符的处理等,同时也负责把输入文本按照句子的格式进行初步切分。 在这个过程中,要查找拼写错误,并将文本中出现的一些不规范或无法发音的字 符过滤掉。由于本文设计的语音合成器的各模块之间数据都是以s s m l 格式传输 的,所以预处理模块会对输入文本按格式读取,如果判断输入文本不是s s m l 格式,而只是简单的文本格式,就是自动对文本以句子的形式进行格式转换,统 一为s s m l 格式,同时给出相应的段落,句子等标注信息。 1 2 1 2 文本正则化 中文文本正则化是把非汉字字符串转化为汉字串以确定其读音的过程【4 】。该 工作的难点: 7 1 正则化对象非汉字串形式复杂多样,难于归纳; 2 二是非汉字串有歧义,需要消歧处理。 对输入文本进行分析,把输入文本中的数字、符号等字符转化为规范的文本, 并给出相应节奏和轻重读等韵律信息的过程。文本正则化是文本分析过程中一个 重要处理环节,其处理效果直接影响着文本的拼音信息的正确性,而且对文本韵 律也有一定的影响。 文本正则化过程的困难是因为计算机目前不可能理解输入文本的准确语义, 无法通过句子或词语的意思来指导计算机识别特殊符号并给出拼音信息。所以我 们必须从特殊符号出发,提取有用的、足够的上下文信息,归纳出在特定环境下 的各种处理策略。 本文中将中文字符以外的字符均称为非标准词,主要包括英文字符、数字字 符和符号字符【5 l 。扩展缩写词和数字字符正确识别是文本正则化中两个最有代表 性的内容,由于中文自身的特点,中文正则化过程和其他文字的标准化过程有很 大不同。如今世界信息交流十分频繁,汉语在发展过程中产生了很多与其他语言 结合的新词,这些词也属于中文标准化的处理范畴。中文缩写词不常见到,主要 还是中英文混读的句子中的英文词的缩写,如“他的成绩总是n o 1 。数字的 中文读法通常有很多种,可以按值读,如“8 6 3 名工人 ,也可按串读,如“8 6 3 计划等,除此之外,还有多种读法。这些非标准词在字典中查不到,他们的读 音也不能通过正常的拼音规则得到。其中的非汉字字符需要转换成对应的汉字。 文本正则化是语音合成的关键环节,也是语音识别的必要步骤。由于非标准词往 往是用户关注的焦点,如日期、价格、电话号码、机构名等,因此文本正则化直 接影响语音服务的质量。 非标准词的消岐是本文中文本正则化的重点,也是难点【6 l 。而且非标准词类 型多种多样,因此也是语音合成系统中的难点。在著名的n u a n c ev o c a l i z e r 语音 合成引擎中,“2 0 以上的核心代码是用来处理文本正则化的,随着新的非标准 词的不断出现,代码还会继续增加 川。 文本正则化是本文研究的重点,在后面几章中将给出详细的阐述。 i 2 1 3 文本分词 中文分词( c h i n e s ew o r ds e g m e n t a t i o n ) 指的是将一个汉字序列切分成一个一 个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中 文分词,可以达到电脑自动识别语句含义的效果。对于一句话,人可以通过自己 的知识来明白哪些是词,哪些不是词。但如何让计算机也能理解,其处理过程就 是分词算法。 目前中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方 8 法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文 信息处理的基础,语音合成只是中文分词的一个应用。其他的比如机器翻译 ( m i ) 、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需 要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算 机处理技术要想进入中国市场,首先也是要解决中文分词问题。 1 2 1 4 文本词性标注 词性标注即在给定的句子中判定每个词最合适的词性标记。词性标注的正确 与否将会直接影响到后续的句法、语义的分析,是中文信息处理的基础性课题之 一。常用的词性标注模型有n 元模型、隐马尔科夫模型、最大熵模型、基于决 策树的模型等。其中,隐马尔科夫模型是应用较广泛且效果较好的模型之一。 汉语作为一种孤立语,其特点是缺乏严格意义上的形态标志和形态变化,汉 语词性标注的困难在于: 1 汉语缺乏词的形态变化,不能像印欧语那样,直接从词的形态变化上来 判别词的类别; 2 常用词的兼类现象严重。兼类词使用频度高,兼类现象复杂多样,覆盖 面广,又涉及汉语中大部分词类,使得词类歧义排除的任务困难重重; 3 研究者本身的主观因素也会造成兼类词处理的困难。 如何高效地进行兼类词排歧是目前词性标注面临的主要困难之一。 1 2 2 韵律处理 韵律是一个听觉感知的概念,是语言交际的必要手段,能帮助听者更好地理 解话音所携带的信息 8 1 。目前,合成语音的自然度还不是很理想,其根本问题就 是不能对自然语流中的韵律进行有效的模拟【9 l 。在自然语流中,人们使用语调、 节奏和重音等方式来表达说话者的意向和情感,这些韵律特征是自然语流的重要 组成部分。而语音合成系统的基元库不可能把反映所有韵律变化沟不同基元都存 储进去。因此,语音合成系统要想取得高质量的语音,就必须具备韵律处理和模 拟的功能。 从听觉的角度出发,常常使用音长、音强、音高和音色这四个语音听觉特征 来描述韵律。从声学角度出发,它们对应为时长、能量、基频和频谱等声学特征。 韵律首先是听觉特征,它们是心理量,而声学特征都是可以测量的物理量,在分 析时多用后者。而对于韵律的调整,也是通过调整语音信号中这些可测量的物理 9 量来实现的。对韵律处理的研究主要有以下几个方面:韵律预测,韵律规则,韵 律描述和韵律建模。 韵律生成的一个主要障碍在于如何从文本中自动确定韵律的层级,而韵律的 层级划分现在并没有一个统一的标准,一般来说,一个句子的韵律结构可划分为 三层:韵律词、韵律短语、语调短语。其中韵律词可以看作是基本节奏单元,主 要是双音节和三音节组块,相当于韵律音系学上的标准音步和加强音步( 超音 步) ;而韵律短语是中等的节奏组块,可以看作一个气群,研究表明每个气群中 的音节从左向右存在调域收缩的规律;语调短语则是由若干韵律短语组成,虽然 语调短语末尾的音节调域也要发生变化,但是它更侧重于决定句子的句调。 韵律结构预测是本文研究的重点,在后面几章中将给出详细的阐述。 1 2 3 语音合成 综观语音合成技术的研究历史,真正有实用意义的语音合成技术是随着计算 机技术和数字信号处理技术的快速发展而逐步发展起来的,即让计算机能够产生 高清晰度、高自然度的连续语音。近几十年来,国际和国内的研究主要集中在按 规则的语音合成【枷。语音合成技术大致可以归纳为:。 1 基于共振峰和l p c 的参数合成法:调整灵活,但音质差。 在语音合成技术的发展中,早期的研究主要基于模拟人的发音器官的思想, 即采用信号处理的办法,用信号源和滤波器去模拟人的发音器官,只要调整滤波 器的参数就等效于改变了人的口腔及声道的形状,达到控制发出不同音的目的, 而改变信号源脉冲序列的周期或强度,就相当于改交了合成语音的音调和重音 等,其物理意义十分明显。 值得提及的是h o l m e s 的并联共振峰合成器( 1 9 7 3 年) 和k l a t t 的串并联共 振峰合成器( 1 9 8 0 年) ,只要精心调整参数,这两个合成器都能合成出非常自然 的语音。最具代表性的文语转换系统当数美国d e c 公司的d e c t a l k ( 1 9 8 7 年) 。 但是,经过多年的研究与实践表明,参数合成的方法依赖于一个完善的语音生成 模型,而目前语音学的发展尚不能提出很完善的语音生成模型。此外,共振峰合 成器控制非常复杂,控制参数往往多达几十个,实现起来十分困难。虽然利用共 振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文 语转换系统的实用要求。 l p c 技术( 线性预测编码技术) 是一种时间波形的编码技术,优点是简单直 观。合成过程实质上是一种简单的译码和拼接的过程。由于合成基元是语音的原 1 0 始波形资料,它保存了语音的全部信息,所以对于单个合成基元来说能够获得很 高的自然度。但是,一个汉字在自然语流中的发音与它在孤立状况下的发音有很 大的不同。如果只是简单的把各个孤立的语音基元生硬地拼接在一起,则合成后 的整个语流的音质将大打折扣。因此,u c 合成技术必须和其它技术结合才能够 明显改善u c 技术语音合成的质量。 2 基音同步叠加方法( p s o l a ) 。受调整算法限制,只能作有限调整。 自上个世纪八十年代末期至今,语言合成技术又有了新的进展,特别是基音 同步叠加( p s o l a ) 方法的提出( 1 9 9 0 年) ,使基于时域波形拼接方法合成的语 音音色和自然度得到大幅度的提高。九十年代初,基于p s o l a 技术的法语、德 语、英语、日语等语种的文语转换系统都己经研制成功。这些系统的自然度比以 前的基于共振峰合成器或l p c 技术的文语转换系统的自然度要高,并且合成器 的结构简单、易于实时实现,具有很大的商用前景。 p s o l a 技术的主要特点是:在对语音波形片断拼接之前,首先根据上下文的 语境要求,用p s o l a 算法对拼接基元的韵律特征进行调整,使得合成后的语音 波形既保持了原始语音的主要音段特征,又能使拼接基元的韵律特征符合上下文 语境的要求,从而获得很高的清晰度和自然度。 p s o l a 技术的优点是简单直观,运算量小,韵律参数调整方便,可以合成 出连续自然的语流。然而,p s o l a 技术也有其缺点。首先,p s o l a 技术是一种 基音同步的语音合成技术,需要准确的基音周期及其起始点的判定,特别是基音 周期或其起始点的判定误差将直接影响p s o l a 技术的效果。其次,p s o l a 技术 是一种简单的波形拼接合成,这种拼接是否能够保持平稳过渡以及它对频域参数 有什么样的影响等并没有得到很好的解决,因此在合成时会产生不理想的结果, 例如,处理后的语音和音色和原始语音不完全一致,有回声和机器声。 3 基于l m a 声道模型技术的语音合成方法:可灵活调整韵律参数。 然而实践证明,对于基音同步叠加方法( p s o l a ) ,当韵律参数的改变幅度 超过一定范围时,基音同步叠加技术的合成音质将会有较大幅度的下降,同时它 也很难处理协同发音现象。针对这一难题,提出了一种基于对数振幅近似理论的 声道模型的语音合成方法,它不仅保留了传统参数合成技术的可灵活调整韵律参 数的优点,而且还具有比波形拼接合成更高的音长。采用这种方法基本可以高音 质地实现语音学规则所需要的各种参数调整。 4 基于语音数据库的语音合成方法:音质好,自然度高,可以实现无限词 汇的语音合成。 语音合成方法经历了从参数合成到波形拼接合成的发展历程。早期的语音合 成系统一般采用参数合成方法,包括发音器官参数合成与声道模型参数合成方 法。这类方法的优点在于占用的存储空间小,合成的语音具有较高的可懂度,并 能够较为灵活地控制合成语音的音色l 主要缺点是合成语音的自然度较低。 目前的语音合成系统普遍采用波形拼接合成方法,并且己经
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论