




已阅读5页,还剩89页未读, 继续免费阅读
(信号与信息处理专业论文)中文tts系统中若干关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学博l :学位论文中文1 t s 系统中若干关键技术研究 中文t t s 系统中若干关键技术研究 摘要 t t s 系统是一项非常有用的技术,它可以将任意文本信息转换为 语音信号。它可以被用于不同的用途,如汽车导航,电信的呼叫服务, 列车站名播报,e m a i l 阅读等等。现有的基于大语料库的t t s 系统已 经能够产生高清晰度和自然度的合成语音,并已得到较大的发展和应 用,但是还存在着一些问题。尤其引人注目的是其音库巨大,无法将 其应用到存储空间受限的设备上去,这就严重地制约了语音合成技术 的发展。目前大致有两类解决办法:一类是采用新的参数合成技术, 如基于h m m 的语音合成系统,另一类是在保持合成语音自然度和清 晰度的前提下,降低大语料库中的声学冗余度,从而实现高效率的压 缩( 小音库t t s 系统) 。以上两种方法都可以大幅降低t t s 系统的存储 容量,比较而言:在存储容量方面参数合成方法更有优势,但在合成 语音的质量方面,后一类方法更好。 本文针对后一类合成系统中的若干关键问题进行了深入的研究, 具体的工作成果与创新如下: l 、对小音库的t t s 系统而言,合成基元库和韵律模型是两个重要的 组成部分,而它们的构建都依赖于一个带韵律标注的大语料库。其中 连续语音的准确切分和标注是一项十分重要的工作,并且费时费力。 为了解决这个问题,本文提出了一种统计与规则相结合的语音自动切 分和标注方法。具体的步骤是:首先以两种h m m 模型对连续语音做 北京邮电人学博士学位论文 中文r r s 系统中若干关键技术研究 粗切分,然后再针对不同的音素边界类型,采用不同的后处理方法, 对 玎m 的切分结果进行调整,从而实现精确切分。这些后处理的方 法将被分别用于检测静音和语音,清音和浊音,以及在谱域上的时间 突变点。这种方法不仅简单而且还可以获得较高的切分和标注精度。 2 、针对实际音节基频包络长度的不同,提出了一种非定长包络的聚 类方法,并将其用于以基频为特征的语音库裁减。这种方法首先利用 d p 的思想,在两个基频包络之间寻找一条最佳路径,然后再沿这一 路径进行两包络的相似度计算,若两包络形状类似,距离测度的值会 很小,将会被聚在一类。在聚类的基础上,利用调域分层的概念,进 行样本挑选,最后再结合现有的语音编码技术,就可以构建出一个小 存储容量多样本的带调音节语音库,来满足小音库或嵌入式t t s 系 统对合成语音清晰度和自然度的要求。 3 、本文还利用统计的方法,对小音库的t t s 系统的韵律模型进行了 研究,给出了一组能够预测句子基频包络的方法。句子的基频包络是 音节基频包络加静音段形成的。为了预测音节的基频包络,我们首先 通过聚类获得音节典型的基频包络( 基频包络模板) ,再采用决策树 方法来学习句中音节语境参数到音节基频包络模板的映射规则。然 后,利用训练语料,统计计算不同带调音节在不同语境下的基频包络 模板控制参数( 基频均值、音节时长和声母时长) ,并建立对应音节 的声学参数索引树。最后利用语境参数、基频包络模板预测模型和声 学参数索引树就可以产生音节的基频包络,进而得到句子的基频包 络。 关键词:t t s 系统、语音的自动切分和标注、语音库裁减、韵律建模 北京邮电大学博士学位论文中文t t s 系统中若干关键技术研究 r e s e a r c ho nc r u c 眦t e c h m q u e si n c h i n e s et e x tt os p e e c hs y s t e m a b s t r a c t t e x t t o s p e e c h ( t t s ) i sau s e 如1 t e c h n o l o g ) rt h a tc o n v 嘶sa r b i t r a 巧 t e x ti n t oas p e e c hs i g n a l i tc a nb ea p p l i e dt ov 撕o u sf i e l d s ,e g c a r n a 讥g a t i o n ,砒m o u n c e m e n t si nr a i l w a ys t a t i o n s ,r e s p o n s es e n ,i c e s i n t e l e c o m m u n i c a t i o n s ,a n de - m a i lr e a d i n g a l t h o u g hl a 略ec o 印u sb a s e ds y s t e m sh a v eb e e na b l et og e n e r a t e h i g hs p e e c hq u a l 咄b u tt h e r ea r es t i l ls o m es h o r t c o m i n g s i np 砌i c u l a r ,i t c a nn o tb ea p p l i e dt od e v i c e sw i t hl i 蚵t e dr e s o u r c e s ,d u et ot h eh u g e s t o r a g ed e m a n d a tp r e s e n t ,t h e r ea r eg e n e r a l l yt w ot y p e so fs o l u t i o n s , o n ei st ou s en e wm e t h o d ss u c ha sh m mb a s e ds p e e c hs 州h e s i ss y s t e m , a n dt h eo t h e ri st or e d u c et h er e d u n d a n c yo fc o 印u sg r e a t l yu n d e r 也e p r e m i s eo fm a i n t a i n i n gh i g hs p e e c hq u a l i t y ( s m a l lc o 巾u st t ss y s t e m ) b o t ho ft h et 、v om e t h o d sc a nb eu s e dt or e d u c et h es t o r a g ed e m a n d s i g n i f i c a n t l y t h e1 a t t e rm e t h o dc a no b t a i nb e t t e ro u t p u ts p e e c hb u tt h e s t o r a g ed e m a n di sal i t t l eb i g g e r c o i n p a r i n gw i t ht h ef o m l e rm e t h o d i nt h i sp a p e r s o m ec r i t i c a l i s s u e sa r e 如r t h e rr e s e a r c h e df o rt h es m a l l c o 印u st t ss y s t e m t h er e s e a r c ha n di n n o v a t i o n sa r ed e s c n b e di nd e t a i l s a sf o l l o w s : 1 d e s i g no fs y n t h e s i su n i ti n v e n t o 叫a n dc o n s t r u c t i o no fp r o s o d i cm o d e l a r et w ok e yi s s u e sf o rs m a n c o 叩u st t ss y s t e m b u tt h e ya r e 北京邮电大学博士学位论文中文t t s 系统中若干关键技术研究 d e p e n d e n to nal a r g ec o 印u sw i ml a b e l i n gi n f o r m a t i o n a m o n gt h e l a b e l i n gt a s k ,p r e c i s es p e e c hs e g m e n t a t i o na n dl a b e l i n g a r ev e u i m p o r t a n t t o s o l v et h ep r o b l e m ,a na u t o m a t i cs e g m e n t a t i o na n d l a b e l i n gm e t h o dt h a tc o m b i n e ss t a t i s t i c s 印p r o a c h e s w i t hr u l e si s p r o p o s e d t 、ot y p e so f 卜d 订mm o d e l sa r eu t i l i z e dt op r o d u c et h e 肿t i a l f i n a la n ds y l l a b l eb o u n d a r i e s t h r e ef - e a t u r ed e t e c t i o n a l g o r i t h m sa r ea p p l i e d t ob o u r l d a 巧r e f i n e m e n tf o rs p e e c hb o m l d a r i e so f v o i c e d u l w o i c e 彤s i l e n c e e x p e r i m e n t a lr e s u l t ss h o wm a tt 1 1 ep r o p o s e d m e t h o dc 2 u 1 i m p r o v et h ep e r f o m a n c eo ft h es e g m e m a t i o ns y s t e m s i g n i f i c a n t l y 2 t h ec l u s t e r i n gp r o b l e mo fs y l l a b l ep i t c hc o n t o u r si ss c u d i e d b yd o 访g c l u s t e r i n ga n dr e a s o n a b l es a j l l p l es e l e c t i o n ,t h es i z eo fm el a r g es p e e c h c o 印u sc a nb es i g n i f i c a n t l yr e d u c e d b e s i d e s ,b yi n t r o d u c i n gt h es p e e c h c o d i n gt e c h n i q u e , as m a l l s i z e m u l t i s a m p l e t o n a l m o n o s y l l a b l e c o 印u sc a nb eb u i l tt os a t i s 矽t h ed e m a n d so fc l a r i t ya n d n a t u r a l n e s sf o r s m a l lc o 印u st t ss y s t e mo re m b e d d e dt t ss y s t e m s f o rp i t c h c o n t o u r sw i t hd i 日e r e n tl e n 舀h s ,an o n - f i x e d - l e n 鲈hc o n t o u r sc l u s t e r i n g a d d r o a c hi sd r o d o s e d t h i sa p p r o a c hi n 仃o d u c e st h ei d e ao fd y n a m i c a p p r o a c hl sp r o p o s e d jn l sa p p r o a c nl n 廿o d u c e sm el a e ao iq y n a m l c p r o 伊锄m i n g ( d p ) i 1 1 t oc l u s t e r i n g f i r s t l y ,t h ep i t c ho fc o n t o u r s i s n o r m a l i z e d ( z e r 0 m e a n ) t h e n ,t h eb e s tp a t hi s f o u n db e t 、v e e n 似o c o n t o u r su s i n gm ed pm e t h o d f i n a l l y ,t h ed i s t a n c em e a s u r eo ft w o c o n t o u r sa l o n gt h i sp a t hi sc a l c u l a t e d i ft h es h 印e so ft h et 、v op i t c h c o n t o u r sa r es i m i l a r t h ed i s t a j l c em e a s u r ev a l u ew i l lb ev e 拶l o w i nt h e s t a g eo fs a m p l es e i e c t i o n ,t h et o n ed o m a i no fs y l i a b l e si sd i v i d e db y p i t c hm e a n sa n dm e nm et y p i c a ls a m p l e sa r ei d e n t i f i e da c c o r d i n gt o t h e i rl e v e l sa n dc l u s t e r s c l u s t e r i n ge x p e r i m e n t ss h o wt h a tb e t t e r c l u s t e r i n gr e s u l t sc a nb ea c h i e v e db yt h i sa p p r o a c hc o m p a r e dw i t ht h e t r a d i t i o n a la p p r o a c h e s a n dn e wc l u s t e r i n g 印p r o a c hi sa l s ov a li d a t e d b ys y n t h e s i se x p e r i m e n t s i v 北京邮电大学博士学位论文 中文t t s 系统中若干关键技术研究 3 ap i - o s o d i cm o d e li sp r o p o s e d i tc a nb eu s e dt op r e d i c tt h ep i t c h c o n t o u r so fs e n t e n c e 7 r h em e t h o do fd o i n gt h a ti sa sf 0 1 l o w s :( 1 ) t h e p i t c hc o n t o u rt e m p l a t e sa r eo b t a i n e d b yc l u s t e r i n g ;( 2 ) t 1 1 ed e c i s i o n 订e em e t h o di su s e dt oc o n s t m c tap r e d i c t i o nm o d e l 丘d mc o n t e x t u a l i n f o 咖a t i o no fs y l l a b l et op i t c hc o n t o u rt e m p l a t e s ;( 3 ) a c c o r d i n gt o d i 岱暑r e n c ec o n t e x t s ,m ec o n t r o lp a r 锄e t e r so fs y l l a b l ep i t c hc o n t o u r t e m p l a t e sa sp i t c hm e a n ,t h es y l l a b l ed u m t i o na n dm ei n i t i a l d u r a t i o nw i l lb ec o m p u t e dr e s p e c t i v e l ya n dt h ea c o u s t i cp a r a m e t e r s i n d e x 骶e sw i l lb ec o n s t r u c t i e df o re a c hk i n do ft o n a ls y l l a b l e ( 4 ) t h ep i t c hc o n t o u r so fs e n t e n c ew i l lb eo b t a i n e dv i as y l l a b i cc o n t e x t s , p i t c h c o n t o u rt e m p l a t e sa n di t s p r e d i c t i o nm o d e l , m ea c o u s t i c p a r 锄e t e r si n d e x 仃e e s ,a n ds i l e n c ed u i n i o n s k e y w o i s :t e x t - t o s p e e c hs y s t e m ,s p e e c ha u t o m a t i cs e g m e n t a t i o n a n dl a b e l i n g ,s p e e c hc o 删sr e d u c t i o n ,p r o s o d i cm o d e l i n g v 北京邮i u 人学博:l 学位论文 中文t t s 系统中若干关键技术研究 创新性声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:盔歪坠日期:建! ! ,! 兰:! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。 本学位论文不属于保密范围,适用本授权书。 本人签名:青寻沙 剔磁名印罨 同期:疹- , ,z 砂 f 1 期:2l ,口争f 。, 北京邮电大学博士学位论文中文t t s 系统中若干关键技术研究 第一章绪论 语言是人类最普通、最常用的信息交流方式,而且它还可以传达一些其它的 信息,如:人的情感、说话时的态度以及说话人的个性,等等。因此,可以说语 言是最自然、便利和有用的通信方式。 随着计算机技术的飞速发展,计算与处理速度越来越高,计算机设备逐步向 小型化、便携式、智能化方向发展。人类也开始迫切希望计算机和人之间,也能 象人与人之间一样通过语言来交流。因此,如何利用语言来很好地实现人机交互 也就成为了当今世界的研究热点。通常,这将涉及到两个方面的技术,一个是语 音识别,另一个是语音合成。语音识别是一种信息输入技术,它需要解决的问题 是怎样能够从输入到计算机的语音中准确地提取有用的信息,而语音合成正好与 语音识别相反,它需要将输出信息转换成语音再传达给人。它所追求的目标是不 仅声音清晰( 清晰度) ,还要有很好的韵律( 自然度) ,让听的人感觉很舒服。 语音合成作为人机交互的关键,涉及到诸多学科,包括:声学、语言学、数 字信号处理、人工智能和模式识别等,已成为中文信息处理领域的一项前沿技 术。而且相关的一些产品目前也得到了成功应用,如:汽车导航,电信的呼叫服 务,列车站名播报,e m a 订阅读等等。 1 1 语音合成的研究历史 语音合成,又称文语转换( t e x tt 0s p e e c h ) 技术,它能将任意文字信息转换 成语音,相当于给计算机装上了人工嘴巴。对它的研究与开发,在国外起步很早。 这可以上溯到1 8 世纪的1 7 7 9 年,俄罗斯彼得堡的教授c l l r i s t i a nk 阳t z e n s t e i n 从 语音学角度解释了5 个长元音( ,e ,i o ,m ) 的差别,并制成了能够产生这几 个音的仪器,只不过这个仪器是机械的。第一个完整的电子合成装置是由s t e w a j t 于1 9 2 2 年提出的,它以蜂鸣器做激励,采用两个谐振电路去模仿声道的声音谐 振现象,可以产生具有两个共振峰的单元音。第一个可以被称为语音合成器的是 美国贝尔实验室的h o m e rd u d l e y 在1 9 3 9 年纽约世界博览会上展出的v o d e r ( v o i c eo p e r a t i n gd e m o n s t r a t o r ) ,它可以合成连续语音。 北京邮电人学博十学位论文中文r r s 系统中若干关键技术研究 五、六十年代,共振峰合成器( f o n n a n ts y n t l l e s i z e r ) 和发音器官( a n i c u l a t o r y s ”t h e s i z e r ) 合成器开始出现。1 9 6 8 年,在日本的电工实验室里,由n o r i k ou i n e d a 开发成功了世界上第一个t t s 系统,它实际上就是一个a n i c u l a t o r ) r 合成器,另 外还带有一个语法分析模型。后来的美国麻省理工学院d e 疵sk l a t t 等人的研究 工作,对语音合成这个领域产生了巨大的影响。1 9 7 9 年,d e i u l i sk l a t t 和他的同 事开发了m i t 系统,两年后又推出了著名的抛l k 系统,这个1 v r s 系统使用 了一种新颖的、可靠的声源激励模型。8 0 年代初期开始出现的许多商用t t s 系 统,都是以这个t t s 系统为基础搭建的。 最早的拼接语音合成工作是由r e xd i x o n 和d a v i dm a x e y 于1 9 6 8 年完成的, 他们使用双音素( d i p h o n e ) 做拼接单元,用共振峰频率来描述双音素。1 9 8 5 年, 法国人t e l e c o m sc h a r p e n t i e r 和m o u l i n e s 提出了著名的韵律修改算法p s o l a ( p i t c h s y n c h r o n o u so v e r l 印a d d ) ,这大大推动了语音合成技术的发展,基于 p s o l a 的拼接技术也就成为了t t s 的主流方法。 国内对语音合成研究的起步较晚,一直到8 0 年代才开始介入。通过2 0 多年 的努力,我国已在中文t t s 领域,取得了长足的进步并占有重要的一席之地。 比较有代表性的单位有中国科大、清华大学、中科院声学所、台湾大学、台湾交 通大学等,有些研究成果也已经转化为产品并得到了实际的应用。如清华大学的 s o n i c 系统,中国科技大学的d k 8 6 3 汉语文语转换系统,捷通华声的嵌入式t t s 系统,科大讯飞的i 2 0 0 0 汉语文语转换系统,等等。鉴于中国庞大的市场,国 外也非常重视汉语语音合成的研究,而且研究成果已达到相当高的水平。比较有 代表性的公司有美国的i b m 、微软,同本的a 1 限公司等。 1 2 语音合成中的一些应用问题 语音合成所要解决的最基本的问题是输出语音的质量。从理论上讲,参数合 成技术是合理的,它多以音节、音素为合成单位,按照语音学理论,对所有合成 单元做语音分析,分帧提取特征参数,再经编码后形成语音库;合成语音时,根 据待合成的信息,从语音库取出相应的合成参数,经参数合成器合成出语音。只 是这种技术过分依赖语言学和语音学的发展,如果言语生成模型不够完善,合成 北京邮电大学博士学位论文中文t t s 系统中若干关键技术研究 语音的音质是比较差的,难以达到文语转换系统的实用要求。不过,这类系统需 要的存储容量低,易于实现韵律修改。 波形合成以语句、短语、词或音节为合成单位,经录音、编码压缩后形成语 音库;合成语音时,根据待输出的信息,从语音库中取出相应单元的波形数据, 经拼接解码后输出语音。这种语音合成技术用原始语音波形替代参数,而且这些 语音波形又取自自然语音的词或句子,它隐含了声调、重音等细微特性,合成出 的语音清晰自然,其质量普遍高于参数合成。 目前,基于语料库的t t s 系统,特别是基于大规模真实语音数据库( 大语 料库) 的合成系统已经成为语音合成的主流技术,并且得到了越来越多的应用。 这种系统采用一种基于真人自然发音、多样本、不等长言语片段的波形直接拼接 技术,不需要韵律修改,因而也就避免了由此带来的波形重建的失真,能够产生 高质量( 高清晰度和高自然度) 的输出语音。但这种系统在另一方面是需要付出 代价的,首先它需要大容量的存储器( 几百m b 到几个g b 之间) ,另外对计算 机的处理速度要求也高,因为它存在一个海量搜索和选音的过程。 很显然,大语料库的订s 系统虽然能够产生高质量的合成语音,但因其音库 规模大而无法应用到存储空间受限的小型嵌入式设备上( 如掌上电脑、p d a 等) , 这就制约了语音合成技术的发展。要想实现向嵌入式平台下的移植,需要解决的 问题是:在尽量降低语音输出质量的前提下,考虑如何降低音库中的声学冗余度, 从而实现高效率的压缩。这将涉及到两方面的工作,一是需要对大语料库进行裁 减,二是要对裁减后的音库进行语音编码压缩。另外还要考虑算法的复杂度不能 太高。 1 3 论文的研究意义、工作内容 近几年来,语音合成技术取得了突破性的进展,汉语语音合成的质量有了较 大的提高,已经走出实验室,丌始进入市场的实用阶段,其中一个重要的发展趋 势就是把语音合成系统小型化,使其可以运行在掌上电脑、p d a 和手机等资源 受限设备上。 目自订在这方面有很多研究,采用的解决办法大致有两类:一类是采用新的参 数合成技术,如基于h m m 的语音合成系统,另一类是在保持合成语音自然度和 北京邮r 乜人学博i j 学位论文中文t t s 系统中若干关键技术研究 清晰度的前提下,对大语料库进行裁减,然后再结合语音编码技术,来构建小存 储容量多样本的合成语音基元库( 小音库) 。这两类方法都可以大幅降低t t s 系 统的存储容量,比较而言:在存储容量方面参数合成方法更有优势,但在合成语 音的质量方面,后一类方法更好。 本文的工作重点是研究中文小音库1 v r s 系统( 在8 6 3 语音评测大纲中界定 合成引擎执行代码和语音库大小不超过1 6 m ) 中的若干关键技术,主要完成三 个方面的工作: ( 1 ) 为了解决连续语音的准确切分和标注,提出了一种统计与规则相结合的语 音自动切分和标注方法:首先以两种h m m 模型对连续语音做粗切分,然后再针 对不同的音素边界类型,采用不同的后处理方法,对h m m 的切分结果进行调整, 从而实现精确切分。这些后处理的方法将被分别用于检测静音和语音,清音和浊 音,以及在谱域上的时间突变点。这种方法不仅简单而且还可以获得较高的切分 精度。 ( 2 ) 针对实际音节基频包络长度的不同,提出了一种非定长包络的聚类方法, 并将其用于以基频为特征的语音库裁减。这种方法首先利用d p 的思想,在两个 基频包络之间寻找一条最佳路径,然后再沿这一路径进行两包络的相似度计算, 若两包络形状类似,距离测度的值会很小,将会被聚在一类。在聚类的基础上, 利用调域分层的概念,进行样本挑选,最后再结合现有的语音编码技术,就可以 构建出一个小存储容量多样本的带调音节语音库,来满足小音库或嵌入式t t s 系统对合成语音清晰度和自然度的要求。实验表明这种方法是可行的。 ( 3 ) 本文还利用统计的方法,对小音库的1 v r s 系统的韵律模型进行了研究,给 出了一组能够预测句子基频包络的方法。句子的基频包络是音节基频包络加静音 段形成的。为预测音节的基频包络,我们首先通过聚类获得音节典型的基频包络 ( 基频包络模板) ,再采用决策树方法来学习句中音节语境参数到音节基频包络 模板的映射规则。然后,利用训练语料,统计计算不同带调音节在不同语境下的 基频包络模板控制参数( 基频均值、音节时长和声母时长) ,并建立对应音节的 声学参数索引树。最后利用语境参数、基频包络模板预测模型和声学参数索引树 就可以产生音节的基频包络,进而得到句子的基频包络。 论文的内容安排如下:第二章在介绍基于语料库( 语音库) t t s 系统基本框 1 4 北京邮电大学博士学位论文中文t t s 系统中若干关键技术研究 架的基础上,比较完整地叙述了系统各个模块的功能、主要问题及相关的技术, 并对一些基本的、重要的方法给出了较详细地论述和推导。 第三章论述了一种统计与规则相结合的语音自动切分和标注方法。在h m m 粗切分的基础上,针对音素边界的不同类型,采用不同的后处理策略来实现精确 切分。 第四章讨论的是语音库裁减问题。分两个方面的工作,一是提出一种以基频 为特征的非定长包络的聚类方法,二是在聚类分析的基础上给出了一个语音库裁 减方案。 第五章研究的是语音合成系统的韵律控制问题,即t t s 系统的韵律建模。 利用句中音节的语境参数来预测音节的基频包络模板、基频均值和相关的时长信 息,从而最后可以得到句子的基频曲线。 第六章将对论文的所有工作进行总结,并对以后进一步研究提出一些想法。 北京邮电大学博士学位论文中文t t s 系统中若干关键技术研究 第二章基于语料库的t t s 系统 基于语料库( 语音库) 的t t s 系统是近年来t t s 系统的主要研究方向,和 早期的基于规则的t t s 系统相比,合成语音的自然度明显提高。在这一章,我 们介绍基于语料库1 v r s 系统的基本框架和每一模块中所涉及到的不同技术,并 对一些基本的、重要的方法给出了较详细地论述或推导。 2 1 引言 早期的t t s 系统是基于规则构建的,这些规则是从对大量语音现象的研究 和实验中获得的。此类t t s 系统被称为基于规则的t t s 系统。研究人员采用分 析一综合的方法【l 】,从对语音产生的机理研究中提取规则。在分析一合成方法中, 通过迭代过程调整刻画语音产生模型的参数,以使实际观测值和模型产生值的误 差为最小。规则的确定需要专业知识,而且合理、一致规则的提取也是相当困难 的。因此,不同研究人员开发的基于规则的t t s 系统也就经常会有不同的性能。 另外,这种t r s 系统合成出的语音的自然度也比较差,因为语音是由语音模型 产生的,而目前的模型也只是对人类复杂语音发生机理的近似模拟。象共振峰合 成器和发音器官合成器就是基于规则的t t s 系统。 目前大多数的语音合成系统都是基于大量的语音数据和统计过程建立的 【2 3 】,这类系统通常被称为基于语料库的t t s 系统。在基于语料库的t t s 系统中, 大量的语音数据被存储作为语音库。合成时,从语音库中挑选最佳单元,输出语 音时拼接最佳单元并调整它们的韵律。和基于规则的t t s 系统相比,基于语料 库的t t s 系统可以合成出高质量的语音,这种系统是通过单元选择来提高合成 语音自然度的。单元选择时需要注意以下问题: ( 1 ) 尽量保证语境的一致; ( 2 ) 减少韵律信息的差异; ( 3 ) 避免拼接时造成的不连续。 如果挑选的语音单元和目标值差异小,无需韵律调节,直接拼接各单元就可 以获得很自然的语音。 1 7 北京邮电人学博七学位论文中文t t s 系统中若干关键技术研究 2 2 基于语料库t t s 系统的基本框架 通常,基于语料库的t t s 系统由五个部分组成,它们是:文本分析、韵律 产生、单元选择、波形合成和语音库。组成示意图如图2 1 所示。 2 2 1 文本分析 重音等) 时长、能量等) 图2 1 基于语料库t t s 系统的基本框架 文本分析的功能在于认识文字,进而知道要发什么音,怎样发音,哪些是词、 哪些是短语或句子,以及判断何处有停顿等。它的输入可以是任意的文本,输出 则是带有上下文信息( 标注信息) 的音素或音节串。这些输出信息,在合成语音 质量方面,扮演着重要的角色,它们是否准确将影响后续所有部分。 文本分析部分可以细分为以下几个模块: 2 2 2 1 文本结构检测 主要是根据标点符号进行断句,并可以确定句子的语气,如:陈述句,感叹 句,疑问句等。 2 2 2 2 文本的规范化 文本规范化就是将文本中的非发音符号变成可发音的文字过程。这些非发音 符号包括: 北京邮电入学博j :学位论文中文t t s 系统中若干关键技术研究 ( 1 ) 数学符号:2 3 ,1 2 3 ,1 2 , ( 2 ) 日期和时间:0 8 1 0 1 ,1 2 :o o , ( 3 ) 量词:g ,k m ,m s , ( 4 ) 其它符号:$ , 2 2 2 3 分词和词性标注 这一步是采用自然语言处理技术,对规范化的文本进行语法词分词和词性标 注。在汉语中,形式上一样的汉字串,在不同的语境下,会有不同的语义, 甚至发不同的音,这将导致分词时产生歧义。歧义字段的情况比较复杂,主 要有两种典型情况:交集型歧义字段和组合型歧义字段4 1 。 首先是交集型歧义字段。假设a 、b 、c 分别代表由一个或多个字组成的字 串,如果在a b c 字段中,a ,a b ,b c ,c 分别都是词表中的词,则称该字段为 交集型歧义字段。显然如果仅根据词表的知识,那么a blc 和alb c 都是合理 的切分结果。如果不向分词系统提供进一步的句法一语义知识,系统很难从这两 种切分结果中做出正确的抉择。比如:句子“美国会通过一项新法案”中的“美 国会”就属于交集型的,它可能产生“美i 国会”和“美国l 会”两种切分结果。 据统计,交集型歧义字段占全部字段的8 5 以上,是自动分词系统需要重点加以 解决的疑难问题。 其次是组合型歧义字段。在字段a b 中,如果a ,b ,a b 分别都是词表中 的词,则称a b 为组合型歧义字段。例如:句子“明天i 她i 将i 来i 北京”中 的“明天 和“将来 就属于组合型歧义字段。 汉语中还存在着许多未登录词。未登录词来源于两个方面,一是社会上的 新词不断涌现,二是专有名词虽然不新,但不可能完全收录,如人名、地名、机 构名、译名等。由于许多分词算法都是在词表完备的假设下设计的,所以未登录 词的存在,会使得词表不完备,从而导致分词时的错误。 对中文的词性标注而言,最大的困难是对兼类词词性的标注。汉语中存在着 大量的兼类词,同一个词在不同的语法结构和语境中会有不同的词性。如果仅从 直观角度感觉,当然可以根据语法规则来进行词性标注。但是,一方面中文的语 法规则相当复杂,很难完全归类;另一方面,很多情况下,有时两种词性又都能 符合语法规则。在这样的情况下,就应该使用基于统计学方法的词性标注技术。 1 9 北京邮电人学博上学位论文中文t t s 系统中若干关键技术研究 可以说,歧义字段、未登录词和兼类词是影响中文分词和词性标注正确率 的主要因素,也是中文分词和词性标注的研究重点。 在中文分词领域,有两种基本的分词方法,一是最大匹配法( m a ) 【i m u m m a t c l l i n gm 刮h o d ,简称m m 法) 【5 1 ,一是最短路径法【6 1 。这两种方法在思路上比 较直接,也比较简单,在有的场合下能够取得比较好的切分准确率。 m m 法【5 1 是一种得到广泛应用的机械分词算法。说它机械,是因为它在分词 过程中除了要依靠一个分词词表以外,不再使用其它词法、句法和语义知识或概 率学方法。根据对当前字串的扫描方向,m m 法又分为正向最大匹配法( f m m ) 和反向最大匹配法( b m m ) 。 利用f m m 和b m m 法切分同一文本,可以起到核对切分结果的作用。以下 分别列出四种情况: a :f m m 和b m m 的切分结果不同,但都不正确。 以新的姿态出现在世界东方 ( 误) 以i 新i 的i 姿态l 出现i 在世i 界i 东方( f m m ) ( 误) 以l 新i 的i 姿态l 出l 现在i 世界i 东方。( b m m ) b :f m m 和b m m 的切分结果不同,其中有一种正确。 使节约粮食进一步形成风气 ( 误) 使节i 约i 粮食l 进一步i 形成i 风气( f m m ) ( 正) 使l 节约i 粮食i 进一步l 形成i 风气( b m m ) c :f m m 和b m m 的切分结果相同,但不正确。 反映了一个人的精神面貌 ( 误) 反映l 了l 1 个人i 的l 精神i 面貌( f m m ,b m m ) d :f m m 和b m m 的切分结果相同,而且正确。 美国加州大学的科学家发现 ( 正) 美国i 加州i 大学i 的i 科学家i 发现( f m m ,b m m ) 观察这四种情况,可以得出以下观点: ( 1 ) 对比f m m 和b m m 的切分结果可以作为一种简易可行的方法来判断 切分是否正确。从情况d 可以看出,当两种方法的切分结果相同时,可以认为 切分结果是正确的。而从情况b 可知,当两种方法的切分结果不同时,也可以 认为其中有一种切分结果是正确的。当然要判断哪一种是正确的,并非m m 法 2 0 北京邮电大学博t 学位论文中文t t s 系统中若干关键技术研究 所能解决,要依赖于其它知识。 ( 2 ) 虽然情况a 和情况c 出现的次数很少,但它说明m m 法存在着切分 的盲区,即不管f m m 和b m m 的切分结果相同与否,它们可能都没有找到正确 的切分。这正是m m 法的一个致命弱点。 最短路径法【6 】是从图论的角度出发,把整个句子看成是一个有向无坏图,在 图中寻找一条最短的路径。其具体做法是这样的,我们假设句中每两个字之间都 有一个间隔( 包括第一个字之前和最后一个字后) ,我们把这些“间隔看成是 一个个节点,一个n 字的句子就有n + 1 个节点。根据词库,若任何几个相邻的 节点之间的汉字串成词,则认为从首间隔节点到尾间隔节点之间有一条边,反之 则没有。这样,一个句子就形成了一个有向无环图,如图2 2 所示。而从句子的 首间隔节点到尾间隔节点之间,一般会有很多条路径。这时,设法从所有的路径 中选出一条最短的路径,然后由这条路径遍历整个图,就得出了最短路径法的切 分结果。 图2 2 切分词图 ( 两个节点之间是否有边代表这两个节点连线所划过的字串是否成词) 为了在一个图中找到一条最短路径,可以使用d i j k s 仃a 算法【7 】( 简称d 算法) 。 d 算法是一种用于在图中找到所有节点到一个固定节点的最短路径的算法。我们 只需用d 算法找出第一个节点到最后一个节点之间的最短路径即可,其时间复杂 度为o ( n 2 ) ,n 为句子的字数。 更好的分词方法是在全切分【8 1 ( 列出所有可能的分词结果) 的基础上确定最 好的n 个结果一n 最短路径方法【9 】,然后再通过后续处理进一步优选排错【1 0 1 。 2 2 2 4 停顿处理 在1 v r s 中,停顿也是韵律的表现,它反映发音时的节奏。如果合成语音中没 有停顿,或者在错误的地方有停顿,将会导致音质的不自然,甚至会造成句子理 解上的错误。如:“大熊猫想吃# 苹果若变成“大熊猫想# 吃苹果 ,由于停顿 位置不对,造成了句子表达上的错误。再比如:“张三看见# 李四很高兴”,和 2 l 北京邮电人学博上学位论文中文t t s 系统中若干关键技术研究 “张三看见李四# 很高兴”,停顿不同,句子表达的含义也不同。由此可以看出, t t s 中停顿的处理也是很重要的。 语音的停顿一般是指语流的结束或间歇,也即出现在语流中的无声段( 不包 括塞音和塞擦音前的无声段) 。但实际上,听感上的停顿不仅仅如此,它还具有 其它的声学表现形式。中国社科院的熊子瑜、林茂灿等人,对自然语音中语流间 断处的韵律表现【i l 】进行了详细的研究,指出感知上的停顿( 语流间断) 有多种声 学表现,而且与汉语的韵律结构层次密切相关。他们的研究结论是:无声停顿、 语音拉长、基频重设和边界调是感知上停顿的韵律表现;根据有无基频重设来确 定韵律词边界;对韵律词边界,再考察是否发生语音拉长,来确定韵律小短语边 界;对韵律小短语边界,若出现较长的无声停顿,则可确定是韵律大短语边界; 对韵律大短语边界,根据边界调来确定韵律句边界。 实际上,中文t t s 中停顿的处理和语言韵律结构层次的确定大体是同一个问 题【l2 1 。关于汉语韵律层级,各家的说法不一致,所用术语也不统一。但通常认识 相对一致的是将汉语句子分为三个韵律层级:韵律词、韵律短语和语调短语【l 2 1 。 韵律词,有的文献称之为语音词。它可以理解为“口语中紧密连在一起发音 的几个音节的组合 【1 3 】。有的和语法词相同,如“飞机”,“拖拉机”,有的 是几个语法词的组合,如“小老鼠”,“我们的”,“数十年来”。韵律短语则 由几个韵律词组成,具有相对的短语调模式,即音高音阶的逐步下倾走势。语调 短语则相当于语法上较短的句子或
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 稀土永磁材料工突发安全事件处置考核试卷及答案
- 公司井下配液工岗位合规化技术规程
- 公司汽车发动机装调工工艺技术规程
- 地毯整修工设备安全技术规程
- 汽车变速器装调工数字化工具应用考核试卷及答案
- 2025年亳州市涡阳县中医院校园招聘94人考前自测高频考点模拟试题及答案详解(新)
- 公司轴承制造工工艺技术规程
- 2025湖南益阳市市直事业单位引进紧缺(急需)专业人才62人考前自测高频考点模拟试题附答案详解(模拟题)
- 2025北京京工健康服务有限责任公司招聘2人模拟试卷及一套参考答案详解
- 粮食进出口贸易合同协议2025
- 2025浙江杭州建德市乡镇(街道)辅助性岗位集中招聘工作人员47人备考考试题库附答案解析
- 思政家乡课件
- (2024版)小学道德与法治 一年级上册 教学设计
- 高考生物必修2遗传与进化知识点填空(每天打卡)
- 2024年中煤第七十一工程处有限责任公司招聘笔试冲刺题(带答案解析)
- 20G520-1-2钢吊车梁(6m-9m)2020年合订本
- 装饰装修工程监理细则
- 某地区地质灾害-崩塌勘查报告
- 我的家乡德州夏津宣传介绍模板
- 基于人工智能的个性化学习路径设计
- 关于节后复工复产方案
评论
0/150
提交评论