(电路与系统专业论文)汉语嵌入式tts系统中的韵律建模和语音合成方法.pdf_第1页
(电路与系统专业论文)汉语嵌入式tts系统中的韵律建模和语音合成方法.pdf_第2页
(电路与系统专业论文)汉语嵌入式tts系统中的韵律建模和语音合成方法.pdf_第3页
(电路与系统专业论文)汉语嵌入式tts系统中的韵律建模和语音合成方法.pdf_第4页
(电路与系统专业论文)汉语嵌入式tts系统中的韵律建模和语音合成方法.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(电路与系统专业论文)汉语嵌入式tts系统中的韵律建模和语音合成方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

出券大筝矮士学应论文 摘要 随着计算税技术稻信息技术的飞速教震,弼籍霞人税养螽更魏鑫 然秘发鲑箴麓稳关撬擒瓣璎煮熟熹,箕审,添啻交互方式备受入靛关 注。诿蠹变踅中饕褰夔簧魏一城技术就燕诱鬻套成,本文潜重研究谮 鹰会成技零中的啻库设计,的德建模和合成算法。 语音会成农寒醚爨机器( 如大型机,王俸站等) 上的巍用已经非 常广泛,缳是自予嵌入式系统魏瓷漂隈制,篓子穴语秘疼貉语音会成 穷法潍戳农嵌入式系统童实臻。嚣忿,翔键乎餐尝瘁容囊帮台成鸯璇 之舞煞矛瓣倭娥7 勰题靛按心所在。本文投摆汉谶啻节骢特点,提也 7 一种嵌入式学瘁豹设计冀法。在对撵零之闽失真度的测量上采髑了 符合入珲感翔特性静瓣f c c 参数,测量最小失真度使惩了动态瓶划( d p ) 技术来优纯匿鬣过程。稚嚣对泼谮串寄调紊第戆爨瑶簇率豹分搿,确 定了裔霹黔最终络将。选取音繁搀搀基露,采籍改避驰k 均鏊聚类算 法( m k m 箨法) 。惩黠考臻裂基嚣黪嚣续处理,增热了候选基元,从恧 谯化了基元库葳量 在人们的交流过程中,韵律酪含着文字所不黼表达韵信惠,迸诧 在汉语语啻合硪系统中,韵律建模的豫粥福当重簧。耦对予穰率模鏊 秘决策树模型来说,糖缀弼络骞着强文懿裴线性酸射麓杰鼗鑫学习缝 宓,瓣憩,这爨选惩耱缝网络亲调练豁掺模鍪。阐终静输入参数主鬟 从文本中获缛,同牲为丁表达不同含义的需要加入了麓音及箕相关信 息。根据汉语漪节豹特点可以归纳出1 7 个宥用的参数,重酱参数不麓 壹接扶义本中获褥,因此参考糟关资料,提掰了谲域系鼗( t r r ) 释啻 繁对长缀合妻孽方法泉检测,实验袭臻缝释憾潺捡攀黪褥离露嚣搴。稷 据参数懿重要姓不鼹将参数趔分必秀维矢量,对熬要性较赢的矢鲎聚 蟋域攘撩投屡来提舞嬲终徐如的精度,从瓤构成了i 组输入矢壁神 经两络的孛阂艨采熠7 鬻辫径自基函数对辕入失爨进行映射,藏额蕊 数的中心为该予空掏鹃葳心,径离宽袭参数为该孑空羯孛搿蠢样零菇 出窳夫学硬士学袋谂交 质,豹平均筠方误蓑,该方法较大羧豢? 瓣终熬辕逡耩度。嚣终熬蘩 三部分为r 8 f 两络。谰练霹棘谴为麓纯豹声调模螯参数,为了使弼络 菱翻鬻箨,采鬻了将嚣标蓬离散纯翡方法,将褥标傻分解为若予伞神 经嚣,臻遮旌耱经元替裁鏊禄篷逡簿调练,安黼王捧嚣搴簸终静输滋为 这些棒经嚣豹袋心。实验袭爨霹默城乡鼗必辏入窝辕窭参数鹣隧辍黪 性蕊鼯数的输出误差。 黠于语毒会成方法,我假提出? 辨撩誊羚龄基考平滑技术。袭 蕊予波形拼接的语音念成中,一般使用t d p s o l a 算法进行基频帮暇长 鼢修教,僵燕稻檐统购t d p s o l a 算法避弦的基频修改是钟对片断整体 嚣富,掰戳爨然不能缀磐豹解捷谮鬻台成巾的拼接筚元乏简豹基颓不 连续闯题,特翘爨在黪断攘会处。囊予基元片聚取爨不麓语境戆港辩, 成语音昕起来明显感觉劐音商的不自然。本文对传统的t d - p s o l a 冀 法进彳予了改进,以萋音周期为间隔对语音片断信号进行分帧,通避指 数翻投襁纛帧翡方法来进行平滑憝舔。由予浊音箭准焉期往,常常导+ 羧鬻孛森豹漂穆超透。磐莱嚣懋鬻串心,鄂么滥蔫梭就会帮箕翦藉豹 涟誊竣撬涛起来,失魏采耀7 於零憋方法采遴毙混淆,怒醚稳定了鬻 审心。落了瓣决綦元逑爨嫂出现麴残缺峻熬越照,这里采用? 平均鸯 嬲豹方法。缀骣素测试,坡好豹艇决了拱接片叛阀黝不连续现象t 关键掌;嵌入式鸯库,魏绺摸邋,拿枣经阚终,p s o l a 冀法,重毒自动捻 涮 娃 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n t o fc o m p u t e rt e c h n o l o g y a n d i n f o r m a t i o nt e c h n o l o g y 。c u r r e n th u m a n m a c h i n ei n t e r a t i r e m a n 拜e r c a n n o ts a t i s f yh u m a n sr e q u i r e m e n t s :s oh o wt om a k e m a c h l “e i n t e l l i g e n t l yc o m m u n i c a t ew i t hh u m a na n dt h u sg e tm o r en a t u 。a i 鑫n df r i e n d l yi n t e r a c t i v ei n t e r f a c eh a sb e c a m er e s e a r c hh o t s p o t + s p e e c hs y 秘t h e s i si so n eo ft h em o s ti m p o r t a n ta r e ai nt h i sf i e l d t h i st h e s i s w i l l c o n c e n t r a t eo ni n v e n t o r yd e s i g n tp r o s o 镬1 嚣 m o d e l i n ga n ds y n t h e s i sa l g o r i t h m t t ss 了s t e 撼b a s e do nl a r g ec o r p u sh a sb e e nw i d e l ya p p l l e do n h i g h - p e r f o r m a n c em a c h i n e ,b u ti ti si n c o m p e t e n tf o r e m b e ds y s t 8 m 籍e e 鑫轻s e0 ft h eb o t t i e - n e c ko fs t o r a g e 。s ot h ec o t eo ft h ep r o b l e m i st ob a l a n c et h ec o n f l i c tb e t w e e ni n v e n t o r ya n do u t p u tq u a l i t y t h i st h e s isp r e s e n ta t r a d e o f fa l g o r i t h m f o re m b e d s y s t e m i n v e r t t o r 擎d e s i g n a c c o r d i n g t o m a n d a r i n s y l l a b l e s c h a r a c t e r i s t i c ,u s i n gm f c cw e l lp e r c e i v eb ye a rt om e a s u r et h e d i s t o r t i o n 譬t 髯e e 靠 e 3 c h t w o s y lt a b t e s , a n d u s i n g d y n a m i c p r o g r a m m i n g a l g o r i t h mt oo p t i m i z e t h em e n s n r e 瓣e n t 口r o c e s s a c c o r d i n gt ot h es y l l a b l e o c c u r r e n c ef r e q u e n c y ,t h e s t r u c t u r eo fi n v e n t o r yw a sc o n f i r m e d t h e n ,m o d i f i e d k - m e a n s e l u s t e r 糖i g o r i t h mw a se m p l o y e dt o s e l e c tt h er e p r e s e n to ft h e e g # r 霉s 登o n 娃主n 霉t o n e d s y l l a b l e l s i m u l t a n e i t yc o n s i d e r i n g t h e f 0 1 1 0 w i n gp r o c e s s i n g ,s e l e c ts e v e r a lc a n d i d a t et oo p t i m i z e h e i n v e n t o r y i nt h ep r o c e s so fc o m m u n i c a t i o nb e t w e e n h u m a n ,p r o s o d l c c o 擞p o n e n ti m p l ys p e c i a li n f o r m a t i o nt h a tc a n n o tb ee x p r e s s e db y i e t t e s ,t h u si ti sv e r yi m p o r t a n tt om o d e lt h ec o n t e x tp r o s o d i e m 山东大学硕士学位论文 i nm a n d a r i ns p e e c hs y n t h e s i ss y s t e m c o m p a r e dw i t ht h em o d e l b a s e do ns t a t is t i c a lp r o b a b i l i t yo rc a r tt r e e ,n nh a sm o r e p o w e r f u ln o n 一1 i n e a rm a p p i n ga n ds e l f s t u d ya b i l i t y ,s on nisv e r y s u i t a b l ef o rt r a i n i n gm o d e l m o s ti n p u tp a r a m e t e r so fp r o s o d i c n nm o d e lc a nb ec a p t u r e dd i r e c t l yf r o mt e x t ,a n dp r o s e d i ea c c e n t a n di t sr e l a t e di n f o r m a t i o nw h i c hi sd i f f i c u l tt od r a wd i r e c t l y a l s ob ea d d e dt oe x p r e s sc o l o r f u lt o n e t h u s1 7p a r a m e t e r si n w h i c ha c c e n tw a sd r a w nb yc o m b i n a t i o no ft r ra n dd u r a t i o n i n c r e a s ew e r ec o l l e c t e da c c o r d i n gt om a n d a r i ne h a r a e t e r i s t i e e x p e r i m e n ts h o w st h i sm e t h o dc a nd e c r e a s em i s sr a t ea n di n c r e a s e r e c a l lr a t e t h e np a r t i t i o nt h ei n p u ti n t ot w ov e c t o r sn a m e d t o n a lv e c t o ra n dc o n n e c tv e c t o ra c c o r d i n gt od i f f e r e n t i m p o r t a n c e ,a n da d da n o t h e rv e c t o rt ow e i g h tt h et o n a lv e c t o r g a u s sr b ff u n c t i o nw a se m p l o y e dt om a pt h ei n p u tm u l t i d i m e n s i o n s p a c ei n t or e q u i r e ds u b s p a c ei nm i d l a y e ro fw h o l en e t ,t h ec o r e o fg a u s sf u n c t i o ni st h ec e n t r o i do fs a m p l e si nt h es u b s p a c e , a n dt h ew i d t hi st h ea v e r a g eo fm s e ( m e a ns q u a r e de r r o r ) b e t w e e n e a c ht w os a m p l e t h el a s tl a y e ri sr b fn e t t h et a r g e tv a l u ei s s i m p l i e dt o n a lm o d e l ,i no r d e rt om a k en e tm o r er o b u s t ,d e c o m p o s e t h e t a r g e t i n t os e v e r a ld i s c r e t e e q u i d i s t a n tc o m p o n e n t s r e p r e s e n t e db yg a u s sf u n c t i o n ,t h e nt r a i nt h em o d e lb yu s i n g t h e s ed i s c r e t ec e l l si n s t e a do ft h et a r g e t ,t h eo u t p u ti st h e c e n t r o i do ft h e s ec e l l si nw o r k i n gs t a g e t h er e s u l ts h o w st h i s m e t h o dc a nd e c r e a s et h ee r r o r1 e db yt h es t o c h a s t i ct r a i to fi n p u t o ro u t p u t p a r a m e t e r s 。 f o rs p e e c hs y n t h e s i sa l g o r i t h m ,p r e s e n t s 鑫m e t h o do fp i t c h s m o o t h i n g f o ru n i t s e g m e n t s i ns p e e c hs y n t h e s i sb a s e d o n w a v e f o r mc o n c a t e n a t i v es y n t h e s i s t i m ed o m a i np i t c hs y n c h r o n o u s o v e r l a pa d d ( t d p s o l a ) a l g o r i t h mi so f t e nu s e dt om o d i f yp i t c h a n dd u r a t i o n ,h o w e v e r ,e e 珏v e 摊t 主。矬8 王t d p s o l aa l g o r i t h mw o r k so n t v w h o l es e g m e n ti np i t c hs m o o t h i n g ,i ti ss t i l lp o o rt or e s o l v e d i s c o n t i n u i t yb e t w e e nu n i ts e g m e n t s ,p a r t i c u l a r l ya tt h ej o i n t 。 b e c a u s et h eu n i ti ss e l e c t e df r o md i f f e r e n tc o n t e x tc o r p u s ,s o i t i sf e l to b v i o u s l yt h a td i s c o n t i n u o u sp i t c ha p p e a r sa si f s y n t h e t i cs p e e c hc o m e sf r o md i f f e r e n ti n t o n a t i o n t h i sp a p e rt r y t os m o o t hp i t c ha c c o r d i n gt oc o n t e x tb yw e i g h t i n ge x p o n e n t i a l f u n c t i o no ne a c h f r a m es p l i tb yp i t c hm a r k t h eq u a s i p e r i o do f v o i c e ds o u n dw i l l l e a dt oe x c u r s i o nf o rt h ew i n d o wc e n t e r ,t h u s c u r r e n tf r a m ew i l lb em i x e db yi t sp r e c e d i n ga n df o l l o w i n gf r a m e , s op a d d i n gm e t h o dw a se m p l o y e dt oa v o i dm i x t u r ea n d f i xt h e 霄i n d o w c e n t e r 。l i s t e n i n gt e s ts h o w st h a tt h i sm e t h o dc a nw e l lr e s o l v e d i s c o n t i n u i t yp r o b l e ma tt h ej o i n t k e y w o r d s :e m b e di n v e n t o r y p r o s o d i cm o d e l ,n e u r a l n e t w o r k , t d - p s o l a 。a c e e n ta u t o d e t e c t i o n v 豢锱链声镆 本人溱蕉声骥:鼹爨变煞学鬣论文,楚本人在导孵静撩导下,独立避 蠢疆究聪淑褥戆成巢。除文串基经注携等 爝的内容矫,奉论文不包含任何 冀链令太蔑囊诲已经发袭蠛攒写过黪释麟成袋。越本文豹磺究箨窭薰要雯 黻魏个入搬集体,稳基稚交皆戳鲻确方式拣明。本声鞠的法律费任巍本人 承挺。 论文律者签名;珥强期:逝 美予学鼗逡文使嚣授权缒零囊 本入完垒了解m 东文学有关保留、使爝攀使论文的瓣患,瓣意学校傺 餐或向豳家穰关部门戏椒麴送交论文的复印伴鄹电子碰,兔童年谂文被态篷 襄懋阕;本久授权函寒大学虿浚将零学盈谂文戆垒篓或辩分巍客凌久莓美 数据瘴避褥检索,可以蘩翅影簿、缭簿或蒸悠复制手段缳眷论文鹈汇编本 学键论文。 擦密论文在瓣密慧残遵守魏蔑定) 论文俸游签名;瑟垒怒 静拜签名0 兰! ! 量基麓;戮! 叁盛:撞 由东大学硕士学位论文 1 1 课题背景 第一章绪论 当懿,入援交霾最謦遽瓣工舆是键盘帮蔑檬。众掰璃鲡,谱音蹩 人际交流最习惯、最自然的方式,使用语音交互界嚣犍会成失人机交 互方式的发展趋势。因此,如何让计算机智能化地与人通信,使人桃 交互更加自然方便成为现代计算机科学的一个重要研究课题。在语音 处理孛,交语转换( t e x t t o - s p e e c h ,t t s ) 技术豹发腰改交了计算税 的输如方妓,从桔燥的文字输出转交刭涟考输出,著键进了售惠发蠢 系统、人机对话系统、语音呼叫中心、信息自动褒询系统、语音触发 的网站和语音邮件等实际应用的迅速发展。同时,大量的成用需求也 逢一步箍确了辩t t s 技术的研究。 男多 ,t t s 技术氇是一种数据嚣缩援术。对于要表达一句话的意思, 文字的存锉量凝小( 尽管要袭达瀵楚意思罴簧菲露大瓣文字囊,霾鸯 如果是人来说的话我们可以通过观察表情和说话的语气获穆额外的含 义) 。如果蒙传输某人的录音,那么用语音压缩方式就需要非常大的存 储窖囊。掰以,饭翔有这样一种系统,能够自动理解文本表达的感情 特征,或卷手动添麓文奉瓣囊嶷情感,群么程当今寸带寸金的两络里, 能更枣效地节劣带宽资源丽传输更多鲍壤息。从这个意义上谫t t s 技 术的威用前景非常广阔。 1 2 掰雯藕瑗袄 l 。2 。1 语赘舍威器黪发鬟麽变 人们一直渴望研制“会说话的机器”,很早就开始语啬合成的研究, 山东大学硕士学位论文 到现在大致经历了机械式的、电子式( 模拟) 的和数字式三个阶段。 早期的语音合成器都是基于机械式的,如y o nk e m p e l e n 在1 7 9 1 年展示的“说话机器”,它不仪可以产生元音,而且可以说出整个词语 靼甸子;1 8 4 6 冬j o s e p hf a b e r 设诗靛“发音器官”魏合成嚣,音质有 所改瓣。 第一台电予语音合成器在1 9 2 2 年蜒世。1 9 3 9 年b e l l 实验室戆 n d u d l e y 研制了第一台可以人工控制的电子语音合成嚣v o d e r ( v o i e e d e m o n s t r a t o r ) 船1 ,它基予共振峰原理,通过电子模拟方式实现对声音 靛共振秘敦大,搽撵者稳耀键盘控翻发裔,瓣踏税控制张驰振荡器以 改变声谗,扶蠢产生各转声音。 第一台模拟的并行共振蜂会成嚣( p a t ,p a r a m e t r i ca r t i f i c i a l t a l k e r ) 由w a l t e rl a w r e n c e 在1 9 5 3 年设计成功,1 9 6 2 年瑞典的g u n n a r f a n t 设计了一个级联的共振峰合成器( o v ei i ) 。从2 0 墩纪5 0 年代开 始,基于笈音器官参数的合成方法得到了普遍的应耀,标志是1 9 5 8 年 巍m i t 驰g e o r g er o s e n 设计熬会戒嚣d a v o 。1 9 8 0 年,m i t 静d 。k l a t t 教授设计的串并联混合型共振峰合成器,它躅串连透遘产生嚣音秘洼 辅音,并联通道产生轻辅音,还可以对声源做各种选择和调整来模拟 不同的嗓音,因此有可能合成出相当自然的语音。质来许多t t s 系统 都是基予装振蜂原理的珏珏”。值是由鼍:发鬻的复杂多交往,很难提取和 颓测共振峰参数,整体会泼效巢都不是缀好。 2 0 世纪8 0 每代寒e 。m o u l i n e s 帮f 。c h a r p e n t i e r 提燃基乎嚣域波 形修改的语啻合成算法p s o l a ( p i t c hs y n c h r o n o u so v e r l a pa d d ) “1 , 该方法较好地解决了语音拼接中的问题,从而推动了波形拼接语音合 成帮文语转换技零的发展和应用,目前是语音合成的主流方法。 1 2 。2 语音合成方法的研究概敬 语音合成技术有锻多分类方法。c a r l s o n 删提出的方法是繁于合成 模型,分失声学模型、发酱模蘩窥自然语鸯编玛模缀三炎。麸台戒所 出东大学硕士学像论文 在熬域讲胃分隽频潜遥近帮波形邋近本文获合成采用的技术角度分 为参数会成彝波形编辑会或鼹大类。参数会成方式基本上霹l ;1 分为发 音器官参数合成法( a r t i c u l a t o r ys y n t h e s i s ) 、线性预测参数禽成法 ( l i n e a rp r e d i c t i o ns y n t h e s i s ) 和共振峰合成法( f o r m a n t s y n t h e s i s ) 三类参数合成方法通常蒸于语音产生模蓬,优点怒占带 戆存姥空翅夺,与滠音绽妈鞠结含酵数璐率较低,嚣辩会藏语裔吴鸯 较高可懂度,并能灵活地控制合成语音的音色。缺点是合成语毒的自 然度低。波形拼接方法通过对来自自然语音的基元进行拼接来产生语 音,具有较高自然度。其缺点是基元瘁占用大量的存储空间,合成语 音静音色相对阖定。 1 2 2 1 发音器官参数合成法( a r t i c n l a t o r ys y n t h e s i s ) 。 这释方法主要楚壹接模羧久类发音器官静发声遭程。溺生瑷学静 知识可知,语蠹熬产生犬致经过羔个黔段:声滚激威、声邀滤波秘馨 鼻辐射宦直接利用声源参数( 声带张力、肺气压等) 、声邋参数( 舌 高度、舌位置等) 和辐射参数( 唇汗口度等) 来控制合成器输出语音。 最早的语膏合成系统 层,用来攒示每对词之间以及最后一个词与吉辞末尾的无声之间的接 含程度;越字( o r t h o g r a p h y ) 层用来指永语调中正确拼字的词( 如数 字的发音,缩略词以及一些语气词薅) 以及词问边界;混杂 ( m i s c e l l a n e o u s ) 豢精于疆示柽 茸豹注解或者记号( 蟊沉获、殍暖声、 笑、猊豫等) 。 其体的符号表示详见雎豇( 圭作者参照原文“们后整理职得) 本 文将在f o 曲线生成部分详细讨论该符号集和f o 之间的关系 1 0 凌东大学硕士学俊论文 1 2 4 2 汉语韵律标注体系c - t o b i3 0 社科院谗言研究所摄掇汉谖懿特点掇出7 汉谬魏律振没系绞 c - t o b i ,本文中参考的憋其第三版。c - t o b i3 中共分为8 个平行层; 拼音层,声母和韵母层,音调和语调层,停顿指示层,重音指示层, 鑫音瑟,话戆转换徭藕混杂麓。翼俸每层定义觅社科院两辩轻”。 1 2 5 语音基元库设计概述 对予基子拼按豹语裔合成器来说,需要基元霹提供拼搂所辩要的 基嚣。会成考矮基本上奄基嚣痒戆大冬残蓬魄。 县蘸,基乎裹性能机器的基元库设计鞋:较成熟。其中h a m o n 日等 人最早提出用d i p h o n e 作为英语食成器的基元;为了改变每个予词单 元只有一个样本对j 陂的情况,t a y l o r 似”又提出了根据青素上下文和韵 律上下文鑫动驮大添科撵中赞对每个子词单元提取着干样本的方法; 为7 改变答长器元鬻寒鹣是帮性麓恶纯羯题,兹敏担躬等久撩出了多豢 次音库样本结构,即根搬一定的傀化原则采用不等长予词髂先基元, 从而将语音合成方法从修饰韵律的不遗续转换到基元最优选取算法 上,不考虑音库容量的话,这种方法的自然液相当好 对嵌入式语音合成系统正在研究中,而艇自然度都不是太好 1 。3 研究曝标及质做的工作 整个t t $ 系统主要由三个部分组成:文本分析、韵律控制和语音 生残。整令系统的大致弦罄黧t : 山东大学硕士学位论文 图i - it t s 系统框图 本文涉及的内容主要集中在两个方面:韵律控制( 包括嵌入式系 统中酱库的设计) 和语音生成算法。 1 ) 韵律控制模块;韵律参数是语音合成模块的最重簧的输入参数, 对输出落音鹩音震窍着楚关鬟要黪影镌。在耨律方瑟豹工作蠹 容如下: 嵌入式t t s 系统的音库设计;现符合成效果较好鲍t t s 系统 都是基于火语料库的,在嵌入戏系统中就需要某种折中。在 选取裔节闻失真度量特征时,刘涛等社町提出采用基频包络作 为频谱深羹祷鬣参数,僮楚,基频特征并不施完全体现褥者 懿知擞特技,瞧并不能完全钱袭錾镣信怠。本文采鼹更佐熬 。特征,从感知上体现了不阄类别基元间的差别。本文综食考 虑了音库容量和合成音质,提出了一种算法,选用这种特征 度量失真发,设计出包含多个最异样本的音瘁,最大限度减 少君甏攒接过糕瑟带来的损失。 训练韵律援板。针对汉语特点,绘出了泼语懿律敷绞计建模 方法。模板所采用的赫本单元题音节,根据汉语的声调特点, 参考肖关资料,给出了影响韵律特征的若干个参数作为模型 输入参数,并同时用简化豹汉语声调模墅和音长作为模黧输 逛参数,采爱秘经瓣络遂往模型熬潮练,劳对模鍪本身渡及 模型输出参数傲了优化。 蘸音自动检测:重音是近蝗年来汉语韵律研究的热点,因为 汉语没有诩重音,所以必须依靠合邋的检测机制,研究照示 出东穴学磺圭学缆论文 诱装裒嚣孛长怒重裔所表现甾来最蓬要豹两个音素,茵诧本文 采用谡域移瓣长缀会梭溅鲍方法,取缮7 较好黪捡灏效鬃。 2 ) 。语音台成算法:本文进行了下两的工作: 对目前释语脊合成方法进行了比较,绘出它们的优缺点 给出了t d - p s o l a 算法的整个过程,尝试在最小均方差( m s e ) 准籍下撵导攒揍黎理,莽对箨法进行改进; 用l p - p s o l a 葵法来解决t d - p s o l a 算法孛露有弱缺陷 1 4 论文的内容安排 在本文的第= 章奔绥晷瞧强辫势撑持缝豹磷究,麓重奔绥汉语麓 律特点,以及荚语和汉谮的韵律标注标准;第三章主要研究嵌入式t t s 系统中音库的设计,对基元的可选择性和音库的容量避行折中,提出 一些有意义豹探索;第酒章滋行韵律模板的建立,根据统计信息给出 戆簿参数颈瓣援秘;第蠢章磷究篓予波形拼接翡语音合成算法;第六 章对以上备方蕊的研究进行总结。附录中绘出英谖兹棼标:;雯标准t o b i 和韵律模型的部分测试结果。 山东大学硕士学位谂文 第二章嵌入式音麾静设计 避年慕基予大话辩库瓣t t s 系绞发攫缀抉,宅秘普遍运行在大型 机或工作站上,因此没有硬件资源方面的瓶颈。众所周知,啻库豹规 模和韵律修饰稷度是成反比的,因此这类系统的基本原贝是尽量少地 藏根本不避行语音基元韵律特钲的修饰,郎尽可能从音库中选取最适 合熬簇元,鑫熬宅爨翡焦熹在鼍:潘辩痒豹建设主,使褥啻痒应尽胃能 多的覆盖备种啻变现象,劳且它们的基纛是嚣一致戆。但是黠予嵌入 式系统,有限的硬件瓷源严重制约了音熙的规模,因此,大语料麾在 嵌入式系统上几乎是不可能的,然而使用传统的韵律修饰算法又会损 失音色,戮蓝本文飙现实角度考虑,采取了这两者的折中,帮最优化 一蘩携基嚣音霉浆设计耪少量懿律嵇馋。 零文使用黪原戆语辩疼先漶华大学势算撬系入糗交露与媒俸集成 研究所设计的t l l c o s s ,其中女声音库有近l o ,0 0 0 旬语料,鸯4 1 7 令 笼调音节,1 6 2 5 个有调音节。 2 。i ,设诗鬈恕 由于入耳对不同频率的语音有不同的感知能力,研究表明,在l k h z 麸下,感知能力与频率成线性关系,而在i k h z 以上,感知能力则与频 率藏对数关系。所浚本文采瘸这种甏符合人耳豹骄觉特往韵特征参数 一m f c c ( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ) 来浏霪嚣个相辩有 调音节之间的距离。由于锤意鹾个样本之闻通紫是不等长的,所以本 文采用动态时间归整算法( d y n a m i ct i m ew a r p i n g ,d t w ) 测壤两个音 节之间的最小失真度,从而避免了由于长度因素而导致两个感知栩似 懿撵本被羯为不同靛炎裁。裰攒嵌入式系统静容量器求,采掰音节遗 现频攀越裹则霹选考警数越多的思想( 聚类数理霹摄援实鼯爨要淫 整) ,使用一种改进的k 均值聚类( m k m ) 算法对该有调音节进行分类, 一尘篓奎堂黧主堂壁鲨塞 在矮蓐输出菜类投表誊繁辩采焉多个拥有最小失真静候选样奉,狠循 实际嚣要进行选择。系统总的滚程零如下; 图:2 - 1 音节聚类算法流程图,图中dc x 。,x j 表示该有调音节中任 意嚣令音繁之阕翡最夺失真,其不等长匹配国d t w 算法给磁 2 2 基予知觉的不等长纂元频谱问的距离测置 本节首先瓣音节样率撬敬m f c c 参数,然衙采掰动态时间规整( d t w ) 算法来测霪撵本之耀豹遴失冀。 2 2 1 m f c c 参数提取 m e l 频率乓妨壤频率黪关系如下: m ( f ) = 2 5 9 5 1 珏( i + f l t 0 0 ) 2 一薹 拶 山东大学硕士学位论文 f ( m ) 。7 0 0 ( 矿7 嚣- 1 ) 2 - 2 式2 一l 为实际频率至m e l 频率的转换,其中f 为实际频率,式2 - 2 为w e l 频率至实际频率的转换,其中m 为m e l 频率。 m f c c 参数的提取过程如下所示: 鼬) 际i 习x n 厂p 氍t 森司|p 磊i 。( 8 ) 叫h d f t f f t 卜叫h 对数能量h 卜 l 壤,抽鸯llll 渡嚣缎llll 倒滋 l 图2 - 2m f c c 参数提取流程 各步骤计算过程如下: 1 ) 音节基元信好s ( n ) 首先进行预加重,嗣的是对语音的高频部分避行 热蓬( 离颓貔量通常较小) ,增糯语音鹣裔猿分辨率,翔筵选麓豹 滤波器懿下式; 王 ( z ) - - l - c z - 1 2 - 3 式中口为预加重系数,范围为0 9 c l 1 0 ,本文取0 9 8 。 由于语膏的短时平稳特性,可对基元进行分帧操作,本文选取 的帧长为2 0 m s ,帧移为l o m s 然后对每帧信号加窗处理,以减小 顿边养的吉布斯辩动,文中采焉h a m m i n g 窗: w ( n ) = 0 5 4 - 0 4 6 0 0 s 删( 0 _ n n - i ) 2 - 4 式中n 必窑长,本文取为语鹰帧长。这一步褥到每帧的时域信 号x ( n ) 。 2 ) 将时域信号x ( n ) 后补零以形成长为n = 5 1 2 的序列,然后经过离散 傅应辞变换 d f t ) 看得到线往颓谱x ( k ) ,交换公式翔下; x ( 1 【) * x ( n ) e - j 2 础,n ( o 站n 一1 ) 2 - 5 在实际过程中一般采用快速馋立时变换( f f t ) 计算,赦f f t 长 度取为2 的整数幂。 瘗东大学磺士学像论文 3 ) 。将线性菝谱x 承) 蓄先透遭m e l 颓率滤波嚣蕴( 在不褥颓率段入的黪 知是不一榉鲍,这撵每个滤波爨对廒一令参数) 褥裂疆e l 菝潜,基e l 频率滤波器组为在谢音频谱范围内( 频率下限为0 ,频率上限为 n y q u i s t 频率,即采样频率的一半) 设置的若干个带通滤波器h 。( k ) , 0 m m ,箍为滤波器的个数,一般在2 4 4 0 之阐,本文取 m = p k ( e ) ,箕孛袋撵擎e = 1 6 0 0 0 ,赦m = 2 9 。每令滤波器爨骞三 角形滤波器特性,中心频搴为f ( m ) ,当越僮小时楣邻f ( 擞) 的阕蹑也 小,随着m 的增加相邻f ( m ) 的间隔逐渐增大。每个借通滤波器的传 递函数如下: h 。( k ) = 赫器螂鹚f 面( m 而+ 1 ) - k f ( m ) s k f ( m + 1 ) ) 一十 其孛f 赞定义如下。 = ( 韵f ( w 细m ( f h ) - m ( f j ) , ) 纠 式中函数m ( f ) 和f ( x ) 如式2 - 1 和2 - 2 定义,e 为采样频率,是、 f h 为滤波器的频率应用范蹦的最低频率和最高频率,本文中;o , 磊= f , 2 ,n 秀f f t 密宽。为了使结栗对噪声和谮倍计误差有更好的 簧捧拨,一般将上述缎逑m e l 滤波器缀褥裂熬m e l 频率取瓣数麓垂, 搬下式; s 睡) :纽f 芝| x ( 袈) | 2 1 s 糙 的 2 8 k - o 这样就瓢线穗频谱x ( k ) 得到了对数频谱s ( m ) 。 1 7 山东大学硕士学位谂文 图2 3 典型的篓角带通滤波器( 图中滤波器数目为8 ) 4 ) 将上述对数频谱s ( m ) 经过离散余弦变换( d c t ) 变换到倒频谱域, 褥弼m e l 频率倒谱系数( m f c c 参数) c ( n ) : c ( n ) = 薹s ( m ) 。s ( ! 竺! - f ! ! ;i 塑) ( 。sm m ) 2 9 5 ) 。这样就德到了2 9 维m f c c 参数,不过骞实验表骧最 l 蓼露营半维 :乏及 最朦若千维的m f c c 参数对语音的区分性能较大,本文取前1 2 维参 数,并加入了反映语音时域特征信息的帧能量参数。另外,为了更 好静籀遗语音赖之阉的裙关往,本文弓i 入上述1 3 维参数的一阶差 分、二除差分等动态参数,最终季奄成3 9 维特薤参数。 2 2 2 动态时间归整算法( d t w ) , 垂手实际情凝孛每令有调誊节静撵零瘸长度不瀚,函蘧麴栗不采 取时域对齐接麓两壹接用躐离溅量垂数( 妇欧式距离) 诗算失真,那 么就会出现很多阅题,比如感知上相似的两个榉本妇于长度相差较大 从而失真较大,因此会被归到不同的类。为了解决这些问题。本文采 用渤态时简翔整( d t w ) 算法来“对齐”两个不同的样本,尽可能小地 弓l 入误差麸嚣达劐最毪戆效果。 d t w 算法德单搓述如下; 假设现在有两个脊调音节的样本峻序列x * ( x ;,x :,x # ) ( x 。为x 中第r l 帧的m f c c 参数向量,l n n ) 和y = ( y i ,y 2 ,y m ) ( 为y 中 出寒失镦磺士辫霞论文 篇m 帧诺裔钧m f c c 参数蠢豢,l s m 蒜) ,其中x 莛煮瓣嫉;¥共裔鞋 犊,群奉) ( 襄¥越浆躐离d ( x ,y ) w 瑷糟俸愚簸蹿谱( m e l 谱) 佚冀鬣,y 搬) 的函数,苓露样本简的时阊粥藏闻鼷实质土簸是襁两个棒搴黪“禧塑 塑藏”串罨魏袋夺裳袭戆弱题,瓣耪孛程旃一争交鬟纛瓤嗡裘承榉搴 x 国秽¥稳藏,著裁谈交叉杰援雀姣失褰度为黔 x 秘x 鞫臻嚣鳓下星 衢示; 戳2 - 4 动悫跨瀚畿麓葬法d t w 零最夺失冀 实黪主掇撰溪蠢黪蜜嚣发窘鸷狨,虽然发毒抉援骞瓣囊貔,键是 柱个帧酌j 啜寄举爵鼹麟铡,鞭j 愆土逑爨经繇然获麓下瓣魄发,枣斑予 蠢童煮;舅箨,魏辩建富霹装素,一觳瓣踌投审备熹潞径懿繇率鳇 豢大、最夺篷徽终桊,零文串最大瓣搴戈2 ,最小魁搴为0 。5 ,下躁说 孵了上述黪索麓擎稽勰逮澎搜索; 手静瓣避藩搜t 爨2 - 4 平行麟波形搜索范簿,最大斜攀秀2 ,最,l 、斜率凳0 。5 l 彗 山东大学硕士学位论文 d t w 鼹醺援累算法步骤如t : 算子符号说明;母 ( n ;,m 。叼袭示踌径上当前点( n 。,m t ) 的前一网格点, 即虻( n 。,m i ) = ( n m ) ;d ( n ;,m ,) 为路径代价函数,意义为从起始点 ( e l 0 , m o ) 出发到当前点( n l , m ;) 的各帧累计失真假:d x ( n ,) ,y ( m 1 ) 为当 藩患( n j , 甄) 对瘦游蛟x ( n 。) 箨y ( m i ) 熬椟失真。 1 ) ,枢戆诧:1 1 i = i i = 鼍2 ,n ) ,m t = l ,m n = 醚 | d x o ) ,y g ) 1 n m ) - - o ,1 ) d ( n ,m ) ;o( n ,m ) e r ,r 为平行四边形约荣 p( n ,m ) 赫r f n ,m i = ( o ,0 ) ,设定路径韧始关系为( 0 , 0 ) ,n = l ,2 ,n , 撒= 重 2 。m 。 2 ) 迭代对于i = l ,2 ,n ,r o d ( n i , m ) 和i ( n 。m 。) ; i ) 求所有可能的蛾,满足限定条 牛:n i = i 晟( n i , m 。) 莓r i i ) 遍历所有m l ,进行下列各步计算; n 。- = n i 一1 ,m - - - a r g 咒廿 d ( n t q ,m ) ,其中m = m t ,m ,斌。 十 ( n 1 1 1 ) = ( n ,l l l - q ) d ( n i ,1 1 1 。) 。d ( n i 。,) + d 【狲) ,y ( m ;) 】 3 ) 由d 【n m 】舔可得到路径的总失真 4 ) 壶i = n l 蝴煮( n ,酝) 鼙溺,静胃缮戮鬟饶路径: n i t , l 氇一) = 牵 ( 狂i ,毪冠( i = n ,n - i , ,3 ,2 ) 羞鳃瀑过程孛出瑷f h i _ 1 , = 够则终虚 2 3 纂于知觉的音节聚类算法 窳予汉语孛常建黪运较少,孛等菝凌熬邂数鬟孛等,大量黪是羝 频词,反映到语料库中音节数曙的露分比来看( 清华女生卺摩) ,魏2 4 个出现频率最搿的有调音节占总音节个数的2 0 。8 1 ,具体看下表; 瘗东大学硪士学僚论文 表2 - 1t h c o s s 牵女生音痒豹统计特穗 淤 音节数 占沈 候选基元情基元数目 毒节馈嚣 况 l l o6 0 6 3 7 。2 9 l 6 0 6 1 0 5 0 ( 包含1 0 ) 5 5 03 3 8 5 2 l l o o 5 0 1 0 0 ( 包含5 0 ) 2 0 81 2 8 3 6 2 4 1 0 0 “5 0 0 ( 截含1 0 0 ) 2 4 21 4 8 9 4 9 6 8 5 0 0 1 0 0 0 = 1 0 0 0 ( 3 7 9 6 。1 5 1 2 )2o 1 2 1 5 ,2 03 5 总计 1 6 2 51 0 0 1 0 0 n 3 4 1 8 注:共有1 6 2 5 个有调音节,9 3 3 1 8 个音节情况,共计3 4 i s 个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论