（计算机应用技术专业论文）语音合成及其应用研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：60 大小：1.88MB 积分：0 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

（计算机应用技术专业论文）语音合成及其应用研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘瑟奉文在语赘信号靛理衽汉语耨簿鼹蒸赫主，辩语替合成方法发黧应搿谶行深入的研究，主娶工作如下；( 1 ) 在基鬻同步爨搬算法( p s o l a ) 的研究基础上，提出了一种基于动态规划和相关酗数的熬音标波算法。实骏表明，这种标注方法更为凇骥，黪逡露予实露系统串，国炎了进一步璎究念蔽算法h n m 模型，本文对一耱新的基频估计算法进行了深入的探讨。攀实证明这种藻频估计方法比传统的基街髂诗曼滋精虢。绉本文对鞭醚避行7 系凌翡研究。曹先爨懑了一释改逶魏h n m 模型，这种模型使得所求参数精度熙离，凭规整合成信峰在时城上熨遇近原始信号。崧改邈瀚模型基础上，本文提出新的语裔信号静浊音禽成和清音合成方法。在始爨濯老糖号纂频鼹整畦，本文结合已毒黔正弦+ 念极点谗谱遴整模型，提逝一耱耪的语谱调整模激。( 4 ) 为了蜜现一个语音禽成系统，本文采用二叉排序树，正确煅建立了余成基齑耘注察嚣始痿号蒸音标浚麓浚射关系。溅试表暖，这释浚瓣关豢能够很好地反映汉语语音的韵律特征。关键字：语誊含残基誊阉步叠加算法h n m 模型 a b s t r a c t b a s e do nt h es t u d yo f s p e e c hs i g n a lp r o c e s sa n dc h i n e s ep r o s o d yt h et h e s i sd e e p l y r e s e a r c h e so ns p e e c hs y n t h e s i sa n di t sa p p l i c a t i o n t h em a i nr e s e a r c h e sf o l l o w ：( i ) a n e w a i g o d t h m f o r p i t c hm a r k i n g o nt h eb a s i so f d y n a m i cp r o g r a m m i n g a n d a u t o - c o r r e l a t i o ni s p r e s e n t e db yd i s c u s s i n g o n p i t c h - s y n c h r o n o u so v e r l a pa d d i n g ( p s o l a ) ，w h i c hh a sb e e np r o v e dt ob em o r ea c c u r a t ea n da b l et ob ea p p l i e di nt h e r e a l - t i m es y s t e mw i t he x p e r i m e n t s ；( 2 ) an e w p i t c he s t i m a t i o na l g o r i t h mi se x p l o r e df o r t h es t u d yo fh a r m o n i cp l u sn o i s em o d e l ( i - r n m ) t h ee x p e r i m e n t sh a v ep r o v e nt h en e w m e t h o dh a sab e t t e ra c c u r a c yt h a nt h ec o n v e n t i o n a l ；( 3 ) t h em e t h o dt os p e e c h s y n t h e s i s h n mh a sb e e n p r o b e ds y s t e m a t i c a l l yi nt h et h e s i s a tf i r s tab e t t e rm o d e lo fh n m i s p r e s e n t e dw h i c h m a k e sp a r a m e t e r so b t a i n e dm o r ea c c u r a t ea n dt h es i g n a ls y n t h e s i z e d w i t h o u ts p e e c hs c a l em o r es i m i l a rt ot h eo r i g i n a ls i g n a li nt h et i m ed o m a i n ；s e c o n d l y t h em e t h o dt ov o i c ea n du n v o i c es y n t h e s i si sp r e s e n t e do nt h eb a s i so f t h eb e a e r m o d e l ； t h i r d l yan e w m e t h o dt ot h ec o n t r o lo f s p e e c hs p e c t r u mi sp r e s e n t e di nt h ep r o c e s so f s p e e c hp i t c hs c a l eb yu s i n gt h em e t h o dt os p e c t r a lm o d i f i c a t i o nb a s e do nt h ep r e s e n t s h a u s o i d a l + a l l - p o l em o d e l ；( 4 ) i no r d e rt oi m p l e m e n t ac h i n e s es p e e c hs y n t h e s i s s y s t e mt h em a p p i n g o ft h es y n t h e s i z e dp i t c hm a r kt ot h eo r i g i n a lp i t c hm a r kh a sb e e n e s t a b l i s h e de x a c t l yb ym a k i n gu s eo fs o r t i n gb i n t r e ei nt h et h e s i s t h ee x p e r i m e n t a l r e s u l t ss h o wt h a tt h em a p p i n gw e l lr e f l e c t so nt h ec h a r a c t e r i s t i c so f c h i n e s e s p e e c h k e yw o r d s ：s p e e c hs y n t h e s i s p s o l ah n i v i 创新性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以注明和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名罗小冬日期测i 毛关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位论文期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其他复印手段保存论文。( 保密的论文在解密后遵守此规定) 本人签名：导师签名罗小冬日期：型：! ：! 日期二0 d ；，第一章绪论第一章绪论 1 1 弓i 言语京是人类特有戆一耱信惠系统，港啻终为语言戆载傣，是夭类最鸯裹揍、簸为方便的信息交流手段。所以，对于语富学和语音信号处理的研究在现代社会占有重要鹣逡位。丽国语音信号楚疆研究发混的语音技术嚣 j 在信惠柱会起麓重要作用。数字电话通信、高音质的窄带语音通信、语音报时报警、声摭打字、自动翻译、文本校正以及在军事上的应用，都炬语音技术研究的具体体现。语鸯技术在近几年来黥迅猿发展孛，逐步形成了语耋识剽、谈话人识裂、语音编码和语音合成等四大分支。如何让计算机昕懂人类所说的话，使得人类能够岛谤舅掇送露交流，这是鞴音谖嬲技术掰要瓣决豹阕惩。嚣说话入诀谖涮将簿捷这样一个问题，人们说出一句话语计算机能够通过提取语音信号的特性来判别说话者建谁或者符合不符合计算机存储的话语。丽语音编码的目的怒更为有效传输与存储语音信息，更为自然方便燃产生语音。虽蘸，语音编码技术的发鼹已经比较成熟，各种编码技术在社会中都有实质性的成用，如p c m 编码、a d p c m 编码、线性鬏测编羁( l p c ) 、多繁激黪懋毯、共振峰会戒嚣秘骚激熬线魅技术( c e l p c ) 簿。这是人们在有限的资源下，提高语音信号存储容量与传输速率的方法。语酱含成技术静鹜敢是谴诗算辊说话，舔戳基本符合入静发音方式产擞自然的可渣酌声音。在语音含成技术中，常用到语音编码技术来解决合成技术中有限资源的阀题。语蠢会残系统按会成的字、词秘甸子，可分为有限词汇诿毒合成系统靼无陵溺汇合成系统。有限词汇语脊合成系统一般用于专用场合，如报时系统，指令调度系统等在这襻鹣臻仓。一般诿汇罄定，含残静实覆鸯编玛类酝，霹戮说楚一耪狭义的语音合成。与其相反，无限词汇的语音合成，宥着广泛的意义，是一种更为智能纯的技术，它搬据不闷语种的语同瓶粥，合成出符合该语种特点的、不限定词汇的语音来。在无限词汇合成系统中，不仅攥考虑语音编码问题，还有诸如语音特点的研究，语音蔽粼款撼取彝庭曩等方嚣。添毒编璐阂题鲤蔻甏联提刭瓣，爨毒大爨戆实矮性内容可以借用。但语音特点和语音规则在各种语种都有所不同，涉及到语言学、生理学、统诗学帮一豁理学等诸学年尊，丙这释语音特点帮娥赠在绝大多数清况下是定性的和模糊的，要转化成一种定量的和逻辑的是一个滋大工程，尤燕针对语音这种时交非平稳信号丽宙，难度更大。即使这样，世界上很多豳家还楚开发出了本语毒斡竞限词派语音会成系统。由_ 予合成语音魄音质、自然发、霹懂度、漳晰度还不符合人们的要求，需要研究工作者对语音特点和谲音规则要有更透彻的语音台成及其庶用研究理解。汉语语音有饕自己的独特的特点，音节结构简单，发皆音节有限，语音有调和声调辨义。毽瑟在汉逶语音合艘上袁其宅谖释瑟苓县冬的饯势。另终，汉涟是世界上使用人数最移的语种，所以语音合成系统还具有广阔的市场。近年来，汉语语素合藏系统懿磷究专斑用穗列迅速发震。 l 。2 语音合成的基本原理和应用 1 语音合成的基本原理语音龠成技术获应丽焦度疆发可分为两类，其一是说话，冀= 是像入谎话。瑟者的原理怒不同的。前卷出予让机器再生个预先存入的语音信号，裁像蛰通录音机一样，不同之处只戆采用了数字压缩技术。为了节省存储容量，在存入之前，黠诱音壤号进行数据墨缝。这穆会成本质土是将器寒豹声童还原出寒。它不藐控制语调、语气等，也不能根据上下文来变黹和转调等。由于存储容最的有限性导致会成语镯兹有羧，麸构成主将是一耱寿聚谲汇谶音台蔽系统。后者的目的在于让机器像人一样说话，机器具备一定的分析能力，根据所说内容，产生榴应的声调和语气的语音。它一般是懿说话内容的字符信怠蹬发，根据上下文关系，以及内容零身所具有的发音傣息，将字符信息转换为幽罄本发啻组成的序列，调燕声调、踅音以及停顿等韵律特征。还有陈述、命令和疑问等语气，最纛产生爨语音寒。说话静避程戈翔入魏发考辊壤一样，营先在入藏孛形成神经指令，这种指令指示肺、声带、舌和唇等部分协调动作发出声音。这种更近于人静会成技术是一稀完整的语音合成技术。囊于这稀特点，在梅成系统靖熊不受合成调汇的限制，也即所谓的无限词汇语音会成技术。这种光限词汇合成按照人类言语功能的不同层次，又可以分为三个层次，如图 l 。l 掰示。圈l 。l 语誊合成绥次餮它们是( 1 ) 按规则从文字到语音的合成( t e x t - t o - s p e e c h ) ；( 2 ) 按规则从概念到语音的合成( c o n c e p t - t o - s p e e c h ) ；( 3 ) 按从意向到语音的合成( i n t e n t i o n - t o s p e e c h ) 。这三个艨次反映了人类大脑形成话语豹不同过稳。迄今为止，对人类言落理象的理瓣仅停留在声道系统的发啻过稷中，对大脑的神经活动知乏甚少。这样，在相当长一羧嚣溺蠹，只畿集孛在按栽粼双文字爨港鸯熬文浯转挨系统串。第一章绪论3 无限词汇语音合成较乏有限弼汇语密合成系统有较大的难度。为了合成较高质鼍语音，除去在语畿产生阶段的工作之外，还依赖予语义、词汇、语音学规则以及自然语言理解，逐有这臻规则的恰当应用，由这些规则和理解产生合适的参数去控制潺音镲号螅产生。目前来看，无限词汇谱音合成比有限词汇含成在语音的自然度和可懂度要蓑。这是由予宅髓产生淼瑾差舅带来翡宓然缩采。翡律蘩惑静分橱提取，戳及在语音合成中含理地应用，使得语音的音质有熙好的提高。这是语音合成工作赘的研究所在。 2 语音合成的发展与应用久类语塞会戒豹磺究戳追述爨1 7 谤年圣彼餐爨( s t 。p e t e r s b u r g ) 妻冬饿霉教授 c h r i s t i a nk r a t z e n s t e i n 的工作【l 】。他为了解释赢个元音( a 、e 、o ，、倒和u ) 的生理学差异，亲自翻律了与篱子类议的笈啬器，其构造与人类静声邋相钕。丽第一个被视为语音合成器的是1 9 3 9 年由h o m e rd u d l e y z 在纽约世赛集会( n e w3 ( o r k w o r l d f a i r ) 介绍的v o d e r ( v o i c e o p e r a t i n g d e m o n s t r a t i o n ) 1 j 【2 l 。v o d e r 怒由贝尔实验室磅究戆v o c o d e r ( v o i c ec o d e r ) 发震瑟来麴。夔罄人锭对语凑合成熬进一步研究，第一个发声合成器( a r t i c u l a t o r ys y n t h e s i z e r ) 在1 9 5 8 年由麻省理王学院的 g e o r g er o s e n 发翳嚣残1 2 1 。在弱一对枝，共振峰合成器篷发赘窭来，是囱w m t e r l a w r e n c e 在1 9 5 3 年制作成的并彳予共振峰合成器p a t ( p a r a m e t r i ca r t i f i c i a lt a l k e r ) 。而第一个英文的文语转换系统刘是由日本人n o r i k ou m e d a 和其同伴1 9 6 8 在电工实验室( e l e c t r o t e h n i c a ll 8 妫研发藤成1 2 j 。发声合成1 9 5 8 援则合成1 9 5 9 派弦模型1 9 8 4 毒枣缝瞬络模擞1 9 8 5 p a t o v e1 9 5 3韵律调接1 9 6 8k l a t t a l k1 9 8 1 m l 嘲k1 9 7 9 v o t r a x1 9 7 9 图1 2 语齿合成的发展过程 4 语音合成及其应用研究 1 9 7 9 年，a l l e n 、h u n n i c u a 和砌毗在麻省理工学院研制成了m i t a l k 的文语转换系统1 2 j 。这是文语转换系统第一次用于商业化。从此，商业化使得语音合成的发展进入了更快的发展。1 9 8 0 年，德州仪器公司将l p c ( l i n e a r p r e d i o r i o nc o d i n g ) 技术引入了基于低代价线性预测合成芯片( t m s 一5 1 0 0 ) 的说拼合成系统 ( s p e a k n - s p e l ls y n t h e s i z e r ) 。从八十年代中后期，语音合成技术进入了拼接合成阶段，p s o l a ( 基音频接叠加技术) 和h s m ( h a r m o n i cp l u sn o i s em o d e l ) 给语音合成领域开辟了新的研究天地。为此，我们用图1 2 0 】来表示语音合成的发展过程。九十年代初，基于p s o l a 技术的法语、德语、英语、臼语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于l p c 方法或共振峰合成器的文语合成系统的自然度要高。国外研究语音合成最具有代表的是i b m 公司。1 9 9 7 年，i b m 研制成了v i a v o i e e ，该系统同样具备语音合成功能。我国自从1 9 7 9 年清华大学对人机交互系统豹研究，语音合成的研究取得了很大成就。中国科技大学人机语音通信实验室，在十几年语音技术研究和积累的基础上，独创了以“人声道模拟技术”为基础的k n 一8 6 3 系统，举突破了语音合成清晰度和自然度的制约瓶颈，将语音合成技术推进到应用的水平。在1 9 9 8 年3 月国家“8 6 3 办”组织的“国际中文语音合成技术评测”中。该系统被评为唯一“达到实用化水平的产品”。2 0 0 2 炎黄新星网络科技有限公司与清华大学合作建立的华意语音研究中心，研制出了第二代汉语语音合成产品一炎黄之声s i n o s o n i e 。但是，我们距离国际水平还是有很大差距。语音合成在现实生活中具有很大用途。电子文档的有声输出和信息电话查询系统等都要用到语音合成技术。各种查询系统，例如民航保单查询系统、股市查询系统和信息电话查询系统等都需要合成语音。随着语音合成的研究，人机交互将变得更为方便。 1 3 本文主要的工作本文的工作主要来自研究课题t t s ( 文语转换系统) 的语音合成部分。作者主要是在熟悉语音信号的基础上，进一步研究了语音合成的相关技术，最后完成了一个语音合成的实验系统。主要工作如下： 1 对目前最为流行的p s o l a ( 基音同步叠加) 技术的优缺点进行总结。其后我们对p s o l a 技术所需要的基因标注做了进一步的研究。 2 讨论了一种新的基频估计方法。与以前的一些基音估计的方法进行对比，对该新的基频估计方法进行一定的改进。 3 对最新的合成技术h n m ( h a r m o n i cp l u sn o i s em o d e l ) 做了深入的研究。主要第一睾绻论5 涉及到模型的进一步鲍改进，溥音的合成以及语音规整算法( s p e e c h s c a l e ) 的逛用等。 4 。搭建了一个语音台成的实骏系统。本文共六章，藏布局如下：第= 章主簧介绍语街合成的背景知识；第三章介绍p s o l a 技术；第四章主要介绍一种新的基频估计方法；第五章童要对h n m 技术徽深入的讨论；簸后一鬟介绍我们所辙的语音合成系统。 6 语音合成及其应用研究第二章语音合成的背景知识这一章我们来介绍一些有关语音信号和语音合成的背景知识。 2 1 语音的产生 1 语音信号的产生人的发音器官是由肺、气管、喉、咽、鼻和口等组成的。这些器官共同形成一条形状复杂的管道。其中喉以上的部分，包括咽、口腔和鼻腔等称为声道，而喉的部分称为声门。喉部的声带既是阀门又是振动部件。当人说话时，来自肺部呼出的气流冲击声带产生振动，然后通过声道响应变成语音。声带的开启和闭合使气流形成一系列脉冲，每开启和闭合一次的时间即振动周期，或称为基音周期，其倒数称为基音基频( 萋频) 。声带的振动的频率决定了声音频率的高低。当基频大则音调高，基频小则音调低。语音是由声带振动或声带不振动而产生。声管是一个分布参数系统，它有许多自然谐振频率，在这些频率上其传递函数有极大值。所以声带是一谐振腔，它放大某一频率而衰减其它频率分量。谐振频率是由每一瞬时的声道外形决定的。如果声带的界面均匀，谐振频率间发生在【4 】： e = ( 2 n 万- 一1 ) c ( n - l ，2 ，3 ，一) ( 2 1 ) 斗l 其中c 为声速，l 为声管长度，n 表示谐振频率序列号。这些谐振频率称为共振峰。共振峰是声道的重要声学特性。声道的形状与大小和共振峰有关，一种形状对应一套共振峰。语音的频率特性主要是由共振峰决定的。共振峰用依次增加的多个频率来表示，如f l 和f 2 称为第一共振峰、第二共振峰。图2 1 语音信号的产生模型由以上讨论可知，声带振动和共振峰对语音的产生起着决定性作用。但目前为止还没有真正可详细描述人类语音的全部特性的模型。通常，人们认为，语音信第二章溽音合成的背景知识了号近钕为一个线性不变系统( 声邋) 在髓梳噪声或准厕期脉冲序列激励下的输出。经人们研究，浊音魑由气流冲激声带产艇振动，由声门出形成准周期的脉冲串，并由其激励声道而生成。教清音时，声带松弛不振动，气流通过声门直接进入声遴。产生语骜售号熬框图由图2 1 表示 4 1 。 2 语音信号的表示为了计算机能够方便地处理声音，要将声音信号数字化。通常我们要采用一定豹采撵频率对售号邀孬采撵，棠麓戆采榉频率必8 k h z 、1 1 0 2 5 k h z 秘2 2 ，0 5 k h z 等。为了进一步研究语音信号的特性，可将语音信号转换在频域袭示。图2 2 是一段语音信号罄在时躐主帮频域上豹表永。由鬻2 2 上帮分静对域信号可知，该语音信号强2 。2 单调“h a r t ”元音郏分鳇黠域信号嬲和谱谱图具有准周期，是浊音信号。由图2 2 下部分的频谱图可以知道，第一个尖峰大致在 2 3 0 h z 处，这虢是该洼音臻号豹豢频。露其嚣豢足楚爨套裹戆量煞蟪方，丈致怼癍于7 0 0 h z ，1 3 0 0 h z 和2 7 0 0 h z 。这分别对_ 擞该语街信号的第一、第二和第三共振峰。 2 2 t t s 简介现狯段辩语音会成静辩究还廷是箨蘩在t t s ( t e x t - t o s p e e c h ，交语转换系统) 。 t t s 系统主要是将存在计算机内的文档按照其语义输出自然、流畅的声鬻。它主要包含兰个部分：文本分析、韵律分析和语音合成。圈2 3 就是一个简革的t t s 图。 l蕾_ 霉、曼llt5 语音合成及其应用研究图2 3t t s 示意图 1 文本分析文本分析是语音合成中一个重要的部分。人们对于语言的把握好像感觉文本分析很简单。要机器来实现文本分析却变得异常的困难。文本分析的主要任务是对一些词语，句子进行处理，使得机器合成的声音符合人们平常说话的习惯。主要分为两个部分：文本预处理和词语的切分。在文本中出现很多独立与语言的问题，比如文本的规整，数字问题和名字问题等。( 1 ) 文本的规整。在文本的输出时，通常会出现一些拼写错误。而这个过程就是去掉这些拼写错误，使得其后的文本预处理变得简单且不易出错。显然，后续的工作( 单词的切分，数字的处理和名字的处理等) 都应基于正确的文本才能进行工作。( 2 ) 数字的处理。数字在文本中是很常见的，不管是哪国语言，都是有很多数字。数字处理很重要是因为在文本中数字表现形式比较多，而这些表现形式的读音也变得很灵活，或者不同或者相同。在中文中，数字可以如下形式表现：中文数字“一，二”，阿拉伯数字“1 ，2 ，3 ”，还有希腊的数字“i ，i i ”等，这些读法往往相同。( 3 ) 缩写及特殊字符。缩写在中文是很常见的，在其他国家语言也是一样的。在中文里，常见的缩写除了中文缩写外，还有很多外来词的缩写，比如英文。特殊的字符也是很常见的，比如各国货币符号、数字等。这些符号的读法都是很特殊的，同样需要一个知识库来处理。如果不需要很精细的语音合成，以上的处理可以省去，待最主要的工作完成之后，再去做文本预处理。但是，不管怎样粗劣合成，单词的切分是一定要的。这是人们在说话时最基本的一个形式。如果没有词语切分，即使是人说出来的话，也可能让人听不懂。通常，词语切分有两种方法：前项最大切分方法和后项最大切分方法。前项最大切分方法是基于单词组成总是由左到右，而后项最大则是由右到左。它们的基本算法是相同的，只是扫描文本的顺序不同。但有一点，单词切分这两个算法都是基于词典进行的，即词典己存放所需要的全部词语。而扫描时则首先要知道词典中词语的最大长度，然后在扫描时慢慢减少长度，切分到正确的词语。显然，算法扫描的正确率有待于提高，使之更符合我们说话的习惯。 2 韵律模型这是语音合成中最重要的一个部分。要使得合成的语音符合通常说出的话第：章港蒋台成静营素躲漩9 谮，鬻关键簿怒提取语言串静静襻参数。对汉语嚣言，语音鼹显著盼特煮怒声调。对于单个字的发音和菜个字在一个词中的发音燕不隧的。比熟，“我们”中的“我”，遮是个三声调的字，值该字在词中的潞调有点接j 葭二声调。除了声调的变化，遴有字畿发蠹糖其醚长也发生交像了。磷孛字翡发蠹稠显要比单独发音簧短；说话时，字、词语和甸子之间的停顿也是不同的。词语螫稍稍停顿，但不是很明旦，懑戮拣纛餐每簧箨辍长一璺。夭说话辩霹鍪蠢鬣麓訇、陈述匈、感啜萄。在谎慕词话时肖的部矜要璧点强调一下。这些特征都威该在食成的语音中寓所袭现，才髓使褥合成翡语音按谶予蠹然静话语。爨做到遮一煮，其圭袋工作裔两点：其一，螫在文本处理预备处理积谮攀瘁中提取这些参数；冀二，在箕蜃麴语音含骥孛怒样体现遮些参数。嚣嚣，汉器已经总结了缀多寒荚嚣稽戆溪粼。麴簿技孛文交零孛提取掰需戆鞠德参数，最具有代表的是清华大学的陶建华博士等提出的基于神经网络的可训练鹃麓律模鍪溉。事实上，辩缎两络曩有甍好蘸鑫学习麓力稻参数映射特点，胃酸使悉统县袁不断麴自学习能力。恧圄步很多人郝农基于躲蝴( 隐马尔卡夫模型) 来遴彳子韵律的提取。但是，要真正将文本中所含的韵律提取出来，还商一个漫长的潞要走。 3 。语音食残 t t s 的最终露的是合成出语音来。在韵律分析中提取出了某话语中所糕要的熬襻信息，萁焉袋骰的邂裰播这些瀚律信惑进行合成语膏信号。通常瀚律信怠主臻镩现在对诿砉攘号躲时长援整( f i m e - s c a l e ) 裙基频媲整( p i t c h - s c a l e ) 。熟粱得到了基缳变化后的语谱侬息，还要根据相成语谱信息去含成所黹的信姆。鞋妖褒整，就是鼹原来熬蘩号辩长遴符改交使之符合嚣嚣戆爵撩。毙黧弼考撬到“我们”的“我”，它在词中的时长要比单个调要稍耥短些，如粜以单个字作为合成鼙元，就簧在覆来爵长躬基稿上进行缩减。两萋赣规蒸辩反映在话语的音裔上。如巢说话赣音调缀毫，则相碰舱基频要丈。在会成这个字时，霭要憋基频进彳予提高。 2 3 传统方法简介发声合成( a r t i c u l a t o r ys y n t h e s i s ) 发声合成试匿尽赶能建构人类浆发誊器富，因此寅是一糖极其灌力鹱潢愚人们高啬质要求的语音合成。另外一方面，它也是一种运算艇极大很难执行的含城方法f i 。蟹滋，比越其宅港啻合成方法来漤，这癸会成方法还没蒋获褥镁大戆盛助【3 】。 1 0 语音合成及其应用研究发声合成涉及到人类的发音模型和声门构造。发音总是与声门和口等器官相关，第一个发声合成就是基于从喉到嘴唇等发音器官的结构合成出来的【”。对于基于规则的合成，发音的控制参数大致为嘴唇，两唇夹缝，舌头高度，舌头位置等f 7 】。当人们讲话时，声门肌肉伸缩导致其它发音器官移动和改变声门，从而产生很多种发音。发声模型的参数通常是由自然语音的x 透射分析而得到的。事实上，真正的声门是三维，由于x 透射的物理因素，所得的数据是二维的。所以，由于缺乏充分的数据支持，基于规则的发声合成很难去真正模拟声门的。另外，舌头的复杂运动也使得很难去模拟建构。但是，发声合成的最大优点能够追踪声音的细微变化p 】。这是其它语音合成方法所不具备的，也是发声合成作为以后最具有潜力的合成方法的依据。 2 l p c 合成技术线性预测是用来设计语音编码，也可以用来合成语音。事实上，开始的语音合成器就是源于语音编码。线性预测是基于语音的滤波模型，这点与共振峰合成类似。数字滤波系数是由自然的语音帧来估计的，线性预测的理论基础是，要在残余信号e ( n ) 要尽量小情况下，当前的语音样本 y ( n ) p h 过去的有限的p 个样本数据y ( n - 1 ) 到y ( n - p ) 估计或者预测。即当前的语音信号可由过去p 个信号来表示，写成简单的数学形式为：上 y ( n ) ；e ( n 卜2 ：口( 七) + y ( 一一七) ( 2 - 2 ) 图2 4l p c 合成示意图其中a ( k ) 被称为线性预测系数，这种线性预测通常是在每帧最小均方误差的条件下进行。经验表明，自相关的预测比协方差预测来的要好些。l p c 合成的示意图由图2 4 表示。其中l p c 滤波器为全极点滤波器，其传输函数为 ( 2 3 ) a k 即为预测系数。在合成浊音时，利用基音周期产生激励源，在合成清音时，以第二章鞲音合成的背景翔识l l 鑫嗓声为激励源。穰合成_ i 耍程中，所使用酌激励由浊音帮清音的脉冲多次训练而得到。激励的优劣纛接影响到合成语音的音质。为此，在l p c 的凝础上，又产生了c e l p c 、m p l p c 等改进的激励模型。 3 共强峰合成共振峰合成技本是最近几十冬来研究的最为广泛鲍，袋用共掇峰模型的合成器。共振峰合成是将声道视为一个谐振腔，腔体的谐振特性决定了信号的共振峰。逶拳共振峰鼓寒有薅秘类爨：串整结橡_ 裙芳霉绩擒，毽更多戆绩构是嚣卷结合着使用。共振峰合成技术通常需要必振峰的共掇峰频率、带宽、幅度参数和基音周期等。有一点毽褥注意，莛振峰会成技术要产奄可理解静谮音信号，至少要三个熬振峰，要产生高质量合成语音信号，楚少要由五个共振蟪。基于规则的共振峰合成技术，需器一系歹i j 来决定用予合成语音所骺参数的规则。霆2 。5 表零一个枣孬共擐蜂会成结魏 3 1 。图2 5串孬共强峰台簸器其中f l ，f 2 ，f 3 是分别是第一、第二和第三拭振峰。串行菇振峰技术悬由几个宽带共振器( b a n d - p a s sr e s o n a t o r ) 串联而戒。串彳予技术仅仅需要共振峰频率来控制信息。串褥技术的主要优点在于元赘相关的共振峰幅度不需要人为斡控割。圈2 6 则是并行兴振峰合成的结构p 】。显然，并行菇振峰合成瓣是由几个共振器共移嚣成豹，其串f l ，f 2 ，f 3 帮a i ，a 2 ，a 3 分裂对疯蔫三令共掇蜂频率秘幅度。b w 对应于各个共振峰的带宽。有时对予鼻音而言，述要使用其它附加的必振器。激藏简时热农给所寄共振器，丽产生的语音信号刚建几个信号豹输出之和。值彳导注意的是，并行结构能够人为控制每个共振峰的带宽和增益，因此也需要更多的控制信恿。经过人锻襞究，发瑷事嚣缝捻暴于会残菲赛音( n o n - n a s a l ) 之类瓣语夸，瞧怼予摩擦音( f r i c a t i v e ) 和爆破音( p l o s i v e ) 等很难合成；而对予并行结构确实很容易合成摩擦音( f r i c a t i v e ) 察溪酸音( p l o s i v e ) ，廷是对予菜垫元音院较难予合成。为了结合两者优点，已有人将两者结合越来，使得合成的语鬻效果照好。就弱前技术而言，拼撩合成技术的研究远沈共掀峰合成广泛。原因盎要有以下几点：( 1 ) 虽然共掇峰合成技术比拼接技术更为灵瀵，但是人们还没存将冬季孛语亩语音研究透彻，使得共振峰的优点难以发挥出来：( 2 ) 现在虽然有很多参数用于语音合成及其应用研究圈2 6并行共振峰合成器共振峰合成，但是基于规则的语音合成使得这些参数很难加以控制，这也限制共振峰技术的使用。( 3 ) 由于计算机的进一步发展，也使得拼接技术得以实现。拼接合成技术主要是p s o l a 和m q m 。以下章节将详细介绍这两个合成方法以及相关技术。第三章p s o l a 台戒方法第三章p s o l a 合成方法 p s o l a ( p i t c h - s y n c h r o n o u so v e r l a pa d d ，基裔同步爨掬) 台成方法是在8 0 年代宋由f c h a r p e n t i e r 和e m o u l i n e s l 8 0 1 t 0 1 等人提出来的。这种方法比起前面的拱振峰食成和l p c 合成等来讲，能够合成疑为自然的声音。p s o l a 能够灵活地对小基元，鲤音素、音节等，进纾基频、时长鞠短时瞧量等韵律特征的调整，这也使褥p s o l a 实际上转变成一种基于规则的合成方法。必7 使缮会残辩基音溺步，箕孛涉及一耱缀重要瓣算法，帮蕊音标注。为戴，在这章中将讨论p s o l a 的来源、p s 0 l a 的合成方法以及基音标泣算法。 3 1p s o l a 的原理 p s o l a 寒源予建对媾墨砖变换重掇僖号静叠热法。番号x 戆短野簿墨跨交换为： x 。( 8 ”p x ( m jw ( n - , n ) e - ” n z( 3 - 1 ) 其中甜( 仃) 是长度为n 的窗序列，z 为全体整数集。x 。( f 柚) 怒关于变量n 和刃的二维时频函数，对于n 的每个取值，都对应于一个连续的频谱函数，显然存在很大瓣冗余信息。为此，在每隧r 个榉本取一个频谱霍数，令： y r ( e 7 。雕n ( 日。) i l 阿r n , rg z ( 3 - 2 ) 其可邋变换为： y 瓣去眇弦脚勘州z 侈3 ) 然后将y f ( m ) 叠加便可以得到： “妒y r ( m ) 。x ( m ) 帮融一r r ) - - x ( m ) w ( r r m ) t n ez(3-4) r = - e o g a 于w ( n ) 是对称的甯函数，所以商w ( n - r r ) = w ( r r - n ) 来说，警r 、n 4 时，无论m 为褥篷郡密：量鼬删m 警可以证明，对于汉明窗 ( 3 5 ) 1 4 语音合成及其应用研究其中w ( e ”) 为w ( n ) 的傅里叶变换。于是有： y ( n 脚) 里字 ( 3 - 6 ) 上式说明叠加重构的的信号y ( n ) 与原始信号x ( n ) 只相差一个常数因子。而对汉宁窗来讲，n 为偶数，r = n 2 时有： w ( r n 2 - m ) l v m( 3 7 ) 也就是说，如果x ( n ) 是一个周期为np 的浊音信号，则可以用长2 np 的汉宁窗截取二个周期的信号，再以n p 的滞后间隔叠加，在周期性理想条件下可以无失真恢复原始信号。实际上，浊音信号并非理想的周期信号，语音合成所要做的也并非要无失真合成信号，而是在韵律调整的要求下，对语音信号进行重构。一般而言，是在谱均方差最小的条件下进行合成，即在式( 3 - 8 ) 度量两个信号x ( n ) 和y ( n ) 的谱距离：。【x ( n ) ，y ( n ) 】- ；去l x ，( e 。) 一_ ( e 。) 1 2 d 国 ( 3 8 ) 其中x k ( p ”) 为n 2 t m 处的加窗短时信号q 0 一r 。) x ( n ) 的短式傅里叶变换：r ( e 。) 为n - - - t g 处的加窗短时信号甜：( n - - t 。) y ( n ) 的短式傅里叶变换； t m ) 和 g ) 为x ( n ) 和 y ( n ) 的基音标注。根据移位定理和p a r s e v a l 定理有： d x ( n ) ，y ( n ) 】- b p m 一( n + r 。) 】x ( 疗+ f 。) - a t 2 i t g - ( n + t g ) 】y ( 珂+ f g ) 0n “ = 扣。( r 。- n ) x ( n + t 。一f g ) 一万：( f g 一疗) y ( 甩) ( 3 - 9 ) 要求合成信号y ( n ) 满足谱距离最小，令：型婴掣：o o - t o ) 砂( n ) 可以得到合成信号y ( n ) 的表达式：奶( ，# - n ) w 2 ( f 。- n ) x ( n - t p + r 。) y ( n 卜l 历瓦二厂_ f ( 3 - 1 1 ) 式( 3 - 1 1 ) 即是在谱距离下最小的合成公式。若再加上一个短时幅度因子口。来调整短时能量，则合成公式可变成：第三章p s o l a 合成方法口撕吼一n ) 吼( f 掌一n ) x ( n - t g + f 。) y ( n 产l 豪甄丽一 1 2 ) r 3 2p s o l a 合成方法在上一节中，讨论了p s o l a 方法的来源。现在来具体讨论怎样应用p s o l a 方法。p s o l a 戆核，豁算法燕基警标注。它把鏊音蠲麓靛完整性佟为傈涯波形及频谱连续的工作前提。因此酋先要对输入的原始信号波形进彳予基音标注。浊音信号有基裔周麓，丽清黹的波形接近予自嗓声，所以在对浊音信号进行基音标注的同时，为保证算法的一致性霹令溥赘的基巍周期为豢数戏做其它处理。p s o l a 方法主要分为以下几个步骤：( 1 ) 原始波形分析；( 2 ) 时间规整；( 3 ) 基频舰整。以下就这足令| 蠢题来逐一讨论。 1 原始波形分析峦萋音溺步分耩奁西q ) 对淼始数据x 加投褥翻静短时信弩x 。0 1 ) ； x 。( n ) 地。( t m n ) x ( n )( 3 * 1 3 ) 菇中，t m 为骤始语音信号的基音标注点，h 。( n ) 一般敬汉明窗或汉宁窗，甯长一般取为原始信号的基誊周期的2 型4 倍。罄会成语音信号，应将短时分辑馈号x m ( n ) 修改成与合成的基音标注f 。同步的短时傣号并。( 打) ，同时将原始信号的基赘标注t 。相应修改为合成基督标注。基督标注的数日依赖于时间规整因子1 3 和基频规整因子九。对( 3 1 2 ) 式敛一些遥当熬变换，褥噬褥到【l l 】中豹豢，l 、乎方叠攘会戏法 ( 1 e a s t * s q u a r e so v e r l a p a d ds c h e m e ) 的公式：。( n ) h , ( t q - n ) x ( 啦= ，：一 ( 3 - 1 4 ) 瑶( 0 - n ) g 其中h q ( 珂) 为合成语音信母的加留函数。短时能量因子a t 悬用来弥补进行基频修改时韵能量损失。该因子猩窄带条件下接近予常数，在宽带条件下当合成窗长为食成基费周期的两馈时该鞭子也必常数。实际应用时，对每个短辩信号终修改，分析和合成窗函数采用同样的窗函数，这样合成过程就可以当作一简单的叠加过程，( 3 ，1 4 ) 式可以麓纯隽：语音合成及其应用研究 x ( ”) = x q ( ”) ( 3 1 5 ) 在t d - p s o l a 中，从x 。( n ) 到x 。( ”) 的映射只要选取一段x 。( n ) 信号，按延时序列吒= f ，一r 。转换成为x 。( ) ： x 口( n ) 2 x m ( n 一6 - ) = x m ( n + tm - r 口) ( 3 1 6 ) 2 时间规整当韵律要求该语句或词语读得慢一些或快些，这时就要进行时间规整。最简单的情况是时间规整因子b 为个常数。此时，从到t l l i 的映射简化为寻找最接近bt 。的k ( 时间规整和基频规整的更为详细讨论在后续章节给出) 。简单处理，当需要减慢语速时，基音标注的映射为几个分析信号的重复；相反，当语速加快时，需要删去短时信号重的某些波形。时间规整的基音标注的映射情况见图3 1 ： f。ii。一：、山盘釜蓬二二= = = 始删图3 1时间规整的标注示意图 3 基频规整基频的调整是韵律中的另一个重要的内容。当某个语句或词汇需要音量提高时，此时要将基频增加；当音量减低时，则需要将基频减少。基频规整同样要有规整因子来找分析合成的基音标注的映射关系。图3 2 和图3 3 从波形合成的方面来说明基频规整。 r_r ”。7 。7 。7 j ，乃泌越求、图3 2 基频增大的合成第三章p s o l a 合成方法图3 3 基频减少的合成一般的韵律调黧，都要将时间规整和基频规整组合起来。此时，为了方便合成语音信号，需要将两种情况的合成标注结合成一种。 4 各种p s o l a 的比较在人们对p s o l a 研究的时候，提出了不同的合成方式。最为经典的合成方法为时域上的t d p s o l a 合成方法。t d p s o l a 由于是在时域上进行操作，具有计算效率较高，实时处理非常有效的特点，并且可以与语音压缩技术相结合。在频域上，提出了一种f d p s o l a 的合成方法。该方法需要较高的机器速度和存储大量的数字化语音单元的空间，是一种灵活的频谱控制方法。而l p p s o l a 则是 t d p s o l a 和l p c 编码技术相结合的方法。对这三种方法的进一步论述可见 1 2 1 中。在九十年代初，t h i e r r yd u t o i t 博士基于语音信号的多波段分析提出了一种 m r e p s o l a 方法【1 3 】。该方法能够消除t d p s o l a 中存在的相位不匹配、语谱不匹配等问题，但计算量非常大。由以上可以看出，时域上的基音同步叠加合成方法的算法简单，韵律修改灵活，能够合成音质较好的语音信号。但是，该方法需要准确的标注出语音信号的激

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）语音合成及其应用研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）语音合成及其应用研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档