![(电路与系统专业论文)兰州方言语音生成方法研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/dbe8f2c4-6118-4f7c-928c-ffb62b866f19/dbe8f2c4-6118-4f7c-928c-ffb62b866f191.gif)
![(电路与系统专业论文)兰州方言语音生成方法研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/dbe8f2c4-6118-4f7c-928c-ffb62b866f19/dbe8f2c4-6118-4f7c-928c-ffb62b866f192.gif)
![(电路与系统专业论文)兰州方言语音生成方法研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/dbe8f2c4-6118-4f7c-928c-ffb62b866f19/dbe8f2c4-6118-4f7c-928c-ffb62b866f193.gif)
![(电路与系统专业论文)兰州方言语音生成方法研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/dbe8f2c4-6118-4f7c-928c-ffb62b866f19/dbe8f2c4-6118-4f7c-928c-ffb62b866f194.gif)
![(电路与系统专业论文)兰州方言语音生成方法研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/dbe8f2c4-6118-4f7c-928c-ffb62b866f19/dbe8f2c4-6118-4f7c-928c-ffb62b866f195.gif)
已阅读5页,还剩59页未读, 继续免费阅读
(电路与系统专业论文)兰州方言语音生成方法研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文提出了利用语音转换实现兰州方言语音的生成方法。在采用p i t c ht a f g e t 估计模型为声调模型的基础上,提出了采用线性修改模型( l m m ) 生成兰州方 言的方法和采用高斯混合模型( g m m ) 生成兰州方言的方法论文还提出了在 生成方言语音的基础上采用语音修改方法实现音色可变兰州方言的方法。 论文的主要工作及贡献如下: 1 提出了兰州方言的声调表示方法。在声调模型的选择上,论文讨论了现 今主要的声调模型。根据兰州方言语音的特点选择语音学模型中的p i t c ht a r g e t 估计模型作为声调表示模型。 2 提出了一种基于线性修改模型( i m m ) 的兰州方言生成方法。对于训练 集中的普通话语音和兰州方言语音利用p i t c ht a r g e t 估计模型提取特征参数,分 别用七维的矢量表示两种语音的声调曲线,然后利用线性回归的方法分别求得七 个特征参数的转换函数。在生成语音时,首先提取待转换普通话的七个特征参数, 然后利用转换函数计算出兰州方言对应的七个特征参数,生成基频f o 曲线,最 后利用s t r a i g h t 算法合成方言语音。 3 提出了基于高斯混合模型( g m m ) 的兰州方言变换方法,使得能够在大 语料库的基础上,基于统计学模型,实现普通话到兰州方言的变换。首先利用 p i t c ht a r g e t 模型提取源语音和目标语音的特征参数,构建方言变换的训练集; 然后构建普通话和兰州方言训练语音库,训练出g m m 的转换参数。根据转换参 数进行方言变换。得到兰州方言的f o 曲线,最后利用s t r a i g h t 算法合成出兰州 方言。实验结果表明,增加训练音库的规模,可以得到质量更好的合成语音。 4 提出了音色可变兰州方言语音的生成方法。影响语音听感的参数,主要包 括时域和频域参数:基频、时长、非周期指数和频谱。利用s t r a i g h t 语音修改算 法修改方言语音的基频、时长等时域参数和共振峰等频域参数,可以得到音色可 变兰州方言语音。实验结果表明,该方法能够得到较高质量的多音色兰州方言语 音。 关键词:兰州方言p i t c ht a r g e t 估计模型g m m 模型语音转换s t r a i g h t 算 法 a b s t r a c t t h i sd i s s e r t a t i o np r o p o s e dl a n z h o ud i a l e c t a ls p e e c hg e n e r a t i o n m e t h o d sb a s e do ns p e e c hc o n v e r s i o n t h ed i s s e r t a t i o na d o p tt h ep i t c h t a r g e te s t i m a t e sm o d e la si n t o n a t i o nm o d e l ,p r o p o s e dt h eg e n e r a t i o n m e t h o do fl a n z h o ud i a l e c t a ls p e e c hb a s e do nl i n e a rm o d i f i c a t i o nm e d e l ( l m m ) a n dg a u s s i a nm i x t u r em o d e l ( g 删) 。a n dp r o p o s e das p e e c hm o d i f i c a t i o n m e t h o df o rg e n e r a t i n g v a r i e t ys p e e c ht i m b r el a n z h o ud i a l e c t a ls p e e c h t h em a i nc o n t r i b u t i o n so ft h i sd i s s e r t a t i o na r el i s t e da sf o l l o w s : f i r s t ,t h ed i s s e r t a t i o np r o p o s e dt h ei n t o n a t i o nm o d e l i n gm e t h o do f l a n z h o ud i a l e c t a ls p e e c h t h ed i s s e r t a t i o nd i s c u s s e st h ep r e s e n tm a i n i n t o n a t i o nm o d e l a c c o r d i n gt ot h ec h a r a c t e r i s t i co fl a n z h o ud i a l e c t a l s p e e c h ,c h o o s et h ep i t c ht a r g e te s t i m a t em o d e la si n t o n a t i o nm o d e l s e c o n d ,t h ed i s s e r t a t i o np r o p o s e dt h eg e n e r a t i o nm e t h o do fl a n z h o u d i a l e c tb a s e do nl i n e a rm o d i f i c a t i o nm o d e l ( l m m ) i nt h i sm e t h o d ,w e p r e d i c tm o d e lp a r a m e t e r so nt h em a n d a r i ns p e e c ha n dl a n z h o ud i a l e c t a l s p e e c hi nt h et e s t i n gs e t ,a n du s ea7d i m e n s i o n sp a r a m e t e r sd e n o t i n gt w o s p e e c hf oc o n t o u r s t h e n , u s i n g1 i n er e g r e s s i o nm e t h o dc a l c u l a t e s c o n v e r s i o nf u n c t i o no f7d i m e n s i o n sp a r a m e t e r s a tt h es t a g eo fg e n e r a t i n g s p e e c h 。p r e d i c tm o d e lp a r a m e t e r so fc a n d i d a t em a n d a r i ns p e e c h ,c a l c u l a t e a c c o r d i n g l yl a n z h o ud i a l e c t a ls p e e c h7d i m e n s i o n sp a r a m e t e r s ,a n d g e n e r a t ei t sf oc o n t o u r s , a n ds y n t h e s i z et h el a n z h o ud i a l e c t a ls p e e c h u s i n gs t r a i g h ta l g o r i t h m t h i r d ,t h ed i s s e r t a t i o np r o p o s e dt h eg e n e r a t i o nm e t h o do fl a n z h o u d i a l e c t a lb a s e do ng a u s s i a nm i x t u r em o d e l ( g 删) t h i sm e t h o dc a nw o r ko n ab i gc o r p u sb a s e do ns t a t i s t i c sm o d e l f i r s t l y ,u s i n gp i t c ht a r g e tm o d e l p r e d i c tf e a t u r ep a r a m e t e r so ft h em a n d a r i ns p e e c ha n dl a n z h o ud i a l e c t s p e e c hi nt h et r a i n i n gs e t ,a n dt r a i ng m mc o n v e r s i o np a r a m e t e r s a c c o r d i n g t og m mc o n v e r s i o np a r a m e t e r s ,w eg e tc o n v e r t e df oc o n t o u r so fl a n z h o u d i a l e c ts p e e c h t h e ns y n t h e s i z et h el a n z h o ud i a l e c ts p e e c hu s i n gs t r a i g h t a l g o r i t h m t h er e s u l ts h o wt h a ti n c r e a s e st h es c a l eo ft r a i n i n gs p e e c h h i s e t ,w ec a ng e tb e t t e rs y n t h e s i z e ss p e e c h f o r t h ,t h ed i s s e r t a t i o np r o p o s e dt h eg e n e r a t i o nm e t h o do fv a r i e t y s p e e c ht i m b r el a n z h o ud i a l e c t a ls p e e c h t h ep a r a m e t e r sw h i c hi n f l u e n c e 1 i s t e n i n gs e n s ea r ep i t c h ,d u r a t i o n ,a p e r i o d i ce x p o n e n ta n df r e q u e n c y s p e c t r u m m o d i f y i n gt h ep i t c h ,d u r a t i o n ,a p e r i o d i ce x p o n e n ta n df r e q u e n c y s p e c t r u mo fd i a l e c ts p e e c hu s i n gs t r a i g h ta l g o r i t h m ,w ec a ng e tv a r i e t y s p e e c ht i m b r el a n z h o ud i a l e c ts p e e c h t h er e s u l t ss h o ww ec a ng e th i g h q u a l i t yl a n z h o ud i a l e c t a ls p e e c hb yt h i sm e t h o d k e y w o r d s :l a n z h o ud i a l e c t p i t c ht a r g e te s t i m a t e sm o d e lg 删m o d e l s p e e c hc o n v e r s i o n s t r a i g h ta l g o r i t h m 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包括其他人已经发表或撰写过的研究成果,也不包含为 获得西北师范大学或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 签名:盘壅垫日期:渔2 :堇 关于论文使用授权的说明 本人完全了解西北师范大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以 公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 ( 保密的论文在解密后应遵守此规定) 签名:盘犟丝导师签名:控查函日期:垒耳: 兰州方言语音生成方法研究 第1 章引言 1 1 选题背景及意义 语音合成技术已经冲出实验室走向市场,在各个方面都得到了广泛的应用 其中有限词汇的语音合成技术发展比较成熟,应用也比较广泛。相对来说,无限 词汇的语音合成技术还不够成熟,应用也比较少,原因之一是其输出语句的自然 度不够理想。目前国内已研制成功很多采用无限词汇语音合成技术的语音合成系 统,这些系统大部分都是以普通话为合成目标的,其它方言的语音合成系统还比 较少,这一趋势是与普通话的普及相适应的。但是汉语有非常丰富的地方方言, 虽然方言差异的消失是社会进步的必然趋势,但在目前阶段作为人机交互工具的 语音合成,其输出方言的多元化还是具有现实意义的,因为各个地方的人听到其 家乡话时,都感到非常的亲切。因此,研究方言语音的生成方法具有一定的实际 意义。 我国幅员广阔,汉语方言丰富复杂。按通行的说法,可以把汉语分成七种方 言,它们是北方方言、吴方言、湘方言、赣方言、客家方言、粤方言和闽方言, 其中北方方言又称为官话方言,北方方言区域占汉语地区的四分之三,使用人口 占说汉语人口的7 0 以上。北方方言根据语音特点,又可再分为各种地方官话。 北方方言内部的一致性很强,其具体特点为: ( 1 ) 不同地方官话的人进行普通话交谈没有多大困难,这说明不同地方官话 的每个音节的声韵母组合基本相同。 ( 2 ) 各地方官话的语法基本上是一致的。 ( 3 ) 各地方官话的词汇大同小异,特别是常用词汇都相当一致。 ( 4 ) 绝大多数地方官话有阴平、阳平、上声和去声四个调类,调类的分派情 况相当一致。北方方言的以上特点,决定了可以用普通话音库,采用语音转换的 方法,生成特定方言。 兰州方言语音生成方法研究 本文研究利用语音转换技术生成兰州方言语音的方法。“兰州方言”或者称 为“兰州话”,属于北方方言,与普通话差别不大,但在语音声调方面具有自己 的特点,因此在中国众多的方言中,兰州方言总受到中外语言学家的高度重视。 论文研究的目的是提出一种新的利用语音转换技术的方言生成方法。利用 p i t c ht a r g e t 模型表示基频,确定一套较完整的转换规则和方法。 研究有以下几方面的意义: 1 。有助于提高对方言发音机理的认识 方言语音作为人类交流信息的载体之一,包含了非常复杂的因素和特征。目 前对于代表个性特征的方言声调的认识目前还不十分深入。本研究试图从参数化 模型入手,分析方言声调差异的发生机制和根源,模拟声调转换的分析系统。 2 有助于提高文语转换系统的表现力,增加合成系统的个性化特征 目前国际上的下r s 系统采用波形拼接方法的占主流地位,虽然可以获得高 质量的声音,但是大部分都是以普通话为合成目标的,变换声调的能力极为有限。 如果需要合成出多种方言的语音,只能够录制多个音库。这将导致音库过于庞大, 选音过程过于复杂,以及大量的系统资源消耗和高昂的费用等问题。实际上,声 调转换可以很好地解决这一问题。对于多方言系统,从优秀的普通话发音人获取 原始声音,采用声调转换的方法定制生成目标方言。另一方面,对于同一种方言 的音库,声调参数化模型可以直接指导语音的合成过程,实现合成语音的多样化 或个性化。 3 对方言语音声学特征的分析和建模能够充实相关的研究结论,为方言语 音生成的理论研究提供依据。 4 在多媒体等方面的应用前景 在多媒体方面,音色变换系统能够广泛地应用于个性化入机交互、远程通信 等方面。能够提高特色语音生成的性能,使得人机之间的交互更加自然和有效。 具体的应用包括: ( 1 ) 语音信息服务系统( c a l lc e n t e r ) 。输出不同方言的语音可以使语音信 息服务更加多样化和人性化。 ( 2 ) 导游系统。在导游系统中加入方言服务。配以相应的普通话信息,可 以使游客更容易和旅游目的地的居民沟通,提高游客的游览兴趣。 2 兰州方言语音生成方法研究 ( 3 ) 娱乐。包括开发实现可以和用户进行方言交互的游戏,电子宠物,玩 具机器人等。也包括通过合成具有不同方言的声音增强虚拟场景 的真实感。 ( 4 ) 影视配音。在影视作品中为了刻画人物或增加艺术效果,越来越 多的采用方言作为人物语言,利用方言生成系统可以降低人工配 音的成本 1 2 语音转换技术及方言合成研究现状 1 2 1 语音转换的概念及意义 语音转换( v c ,v o i c ec o n v e r s i o n 或v t ,v o i c et r a n s f o r m a t i o n ) 是指改变一 种语音( 源语音,s o u r c :es p e e c h ) 的个性特征,使之具有另外一种语音( 目标语 音,t a r g e ts p e e c h ) 的个性特征【1 叼。语音包含很多信息,其中最主要的是语义 信息,另外一个很重要的信息为语音的个性化信息。语音转换就是要保留原有语 义信息不变,而改变语音的个性化信息,使一个人的语音经语音转换后听起来像 是另外一个人说的语音。 1 2 2 语音的个性化特征描述 表征语音个性化的语音特征可以分为以下三类: 音段特征:描述的是语音的音色特征。特征参数主要包括共振峰的位置、 共振峰的带宽、频谱倾斜( s p e c t r a lt i l t ) 、基音频率、能量等。音段特征主要与 发音器官的生理学和物理学特征有关,也与说话人的情绪状态有关 超音段特征:描述的是语音的韵律特征。特征参数主要包括音素的时长、 基音频率的变化( 音调) 、能量等。 语言特征( 1 i n g u i s t i cc u e s ) :包括习惯用语、方言、口音等。 超音段特征和语言特征都是语音的很重要的个性特征,但对于说话人来说, 超音段特征主要受社会和心理状况的影响【3 1 ,容易随意的改变,例如,放慢说 话速度、降低音量、说的更加柔软一些等;语言特征则与人的生活环境、成长过 程和个人习惯有很大关系,随意性很大,不易对其建模。而音段特征与语音发音 3 兰州方言语音生成方法研究 器官的生理学和物理学特征紧密相连,也与说话人的情绪状态有关,可以认为是 不可改变的。现在报道的语音转换系统,主要是对音段特征进行控制和转换;对 于超音段特征如基音频率轮廓、能量轮廓、和说话人速率等特征一般都是进行平 均值转换以与目标语音的平均特征值相匹配,之所以没有对超音段特征进行详细 的建模、控制和转换,主要是由于在现在语音技术水平下,很难对高层的语音特 征进行提取和操作。对于语言特征,在语音转换中几乎没有对其研究的报道。对 于各声学参数对语音的个性特征的贡献大小,m a t s u m o t o i s 研究得出的结论是基 音频率贡献最大,其次是共振峰频率,再次是基音频率的波动和声源频谱倾斜 ( v o i c es o u r c es p e c t r a lt i l t ) ;f u r u i 9 j 研究报道说由倒谱系数得到的长时平均谱包 络对语音的个性特征贡献最大,特别是2 5 3 5k h z 频率范围的谱包络,平均基 音频率为其次:而i t o h 加l 等则认为频谱包络对语音的个性特征影响最大,接着 是基音频率和它的时间轮廓结构。各个语音参数对语音的个性特征的贡献大小的 次序,虽然研究者们对此的结论不是完全相同。但可以肯定,无论哪个声学参数 都无法包含所有语音的个性化信息,语音的个性特征是许多声学参数共同作用的 结果, k u w a b 盯a 1 1 1 】认为声学参数的重要性因人而异,并且与实验的语音材料也 有很大关系。现在报道的语音转换系统中,用于转换的语音特征可以分为包含共 振峰频率、共振峰带宽、频谱倾斜的表征声道滤波特性的频谱包络特征和包含基 音频率、时长、能量的韵律特征两大类。 1 2 3 语音转换系统结构 语音转换的实现在总体上分为训练和转换两个阶段。 在训练阶段,系统基于某个语音模型对源语音( s o u r c es p e e c h ) 和目标语音 ( t a r g e ts p e e c h ) 进行分析并提取语音特征,将这些语音特征进行对齐,再进行 训练得到转换规则。图1 1 为语音转换系统结构图。 4 兰州方言语音生成方法研究 图1 1 语音转换系统结构图( 引自【1 2 1 ) 语音模型:选择的语音模型要能够准确提取语音频谱包络特征和韵律特征, 能够准确有效的实现频谱包络和韵律特征的控制和转换,现在语音转换的研究大 都采用声源滤波( s o u r c e f i l t e r ) 的语音模型,将语音分解为声源激励部分和声 道滤波部分,具体的说,所采用的语音模型主要有l p c 语音模型和基于倒谱包 络的语音模型。l p c 语音模型是应用较多的语音模型l j 刀,l p c 模型符合语 音产生原理,它可以将语音有效的分解为谱包络部分( 由l p c 系数表示) 和激 励部分( 由u c 的残差表示) 。对于谱包络部分,由l l c 系数得蓟的推演参 数l s f 可以与频谱包络的共振峰很好的对应,且控制和转换准确、有效、容易, 在文献 1 - 3 , 5 , 7 1 中就是通过转换l s f 的分布来实现频谱包络的转换;由l f c 系 数得到的伪对数面积l l ( p l a p s e u d ol o ga r c ar a f t “1 3 l 和p a r c o r 系数【l 4 l 可 以与声道的生理结构对应,通过对p l a r 和p a r c o r 的转换也可以实现对 l p c 频谱包络的转换;1 w a h 勰“6 】通过对l p c 倒谱和对数面积比的转换来实现 对频谱包络的控制转换;l e c i ”i 通过对l p c 倒谱的处理来控制和转换频谱包络; m i z u n o 1 6 l 则直接由廿c 系数提取共振峰频率和频谱倾斜参数通过向量量化码 书法来实现语音转换,n a r e n d r a n a t h 1 7 1 也是先由l p c 系数提取前三个共振峰频 率再用神经网络法来实现转换。基于倒谱包络的语音模型也是一种有效的语音转 换模型,s t y l i a n o u 4 j 和t u r k i 墙j 采用基于倒谱包络的语音模型来实现对频谱包络 的控制转换。对于韵律的转换,基于l p c 的语音模型,可以对l p c 残差进行 韵律转换。这样还可以实现对声门波的转换,以达到高质量的语音转换,也可以 5 兰州方言语青生成方法研究 通过在频域将分离掉谱包络部分所得的激励部分来实现韵律转换【1 8 1 。在训练阶段 都要先进行源语音和目标语音的分析和特征提取,提取语音的模型参数,源语音 和目标语音对应于相同语音内容的语音特征要进行对齐,采用的方法有动态时间 规整 * - 4 a 1 9 1 、非监督h m m 法1 5 , 7 1 等。通过这些对齐的参数来估计转换规则, 转换规则就是要捕捉源语音和目标语音特征之间的对应关系。在转换阶段,首先 对源语音进行分析并提取语音特征,再根据在训练阶段得到的语音转换规则进行 转换得到转换的语音特征,由这些转换的语音特征合成出最终的转换语音。 1 2 4 国内研究现状 国内学者对于语音转换的相关研究较多。左国玉等采用遗传径向基神经网络 捕捉语音频谱的映射关系,以实现不同说话人之间的声音转换l 刎。还采用遗传算 法训练网络以增强全局优化能力,从而使重建语音和目标语音之间的频谱失真减 小1 0 。陈一宁等发现基于g m m 的线性变换法可能会破坏相邻帧的特征矢量的 连续性。他们提出了基于平滑g m m 和最大后验概率自适应的变换方法,力图减 少重建语音的频谱跳变,从而改善重建语音的质量f 2 1 1 。 对于方言的生成和实现,国内研究的较少。王兵,苏恩泽利用普通话的无调 音节库合成了天津话、郑州话、济南话,武汉话四种方言1 2 2 j 。他们通过公式产生 方言统一的声调模式,合成方言。 1 3 语音转换算法 如前面介绍,表征语音个性化的特征有很多,而共振峰的位置、共振峰的带 宽和频谱倾斜都可以在频谱包络上体现出来,因此,下面语音特征的转换分为频 谱包络和韵律两类来分别介绍其所采用的方法和目前发展现状。 1 3 1 频谱包络转换 频谱包络的语音转换是语音转换中最重要的一个方面,因为与频谱包络相关 的共振峰位置、共振峰带宽和频谱倾斜对语音的个性特征贡献很大。频谱包络转 换的主要方法将在下面进行介绍。 对于基于l p c 语音模型的转换,l p c 系数都要先等效的转换为其推演参数 l s f 、伪对数面积比、对数面积比、p a k c o r 系数、l p c 倒谱等,然后再对这些l p c 的推演参数进行转换,来实现频谱包络的转换。而对于基于倒谱包络语音模型的 6 兰州方言语音生成方法研究 转换,则先要通过对语音进行频谱分析,得到倒谱系数或者m f c c 系数,再进行 转换。 1 3 1 1 向量量化法 a b e “阁较早采用基于向量量化的码书映射方法来进行频谱包络的转换, a r s l a n 弧”也采用这种方法。其实现过程如下: 首先对源说话人和目标说话人的语音频谱参数空间进行量化,使源语音和目 标语音的码向量一一对应,分别得到m 个源语音的码向量u 。k ( k = l 2m ) 和m 个 目标语音的码向量u 止( k = l ,2 ,。m ) 。 然后在训练阶段通过训练得到由每一个源语音码向量u 。k 到m 个目标语音码 向量t i e , ( k = l ,2 ,m ) 的映射码书h ,h 为m m 的矩阵。映射码书的建立过程如 下: ( 1 ) 由源和目标说话人产生学习单词集,然后所有的单词逐帧进行向量量 化。 ( 2 ) 用动态时间规整技术( o t w ) 对两个说话入的相同的单词向量进行对齐。 ( 3 ) 两说话人之间的向量对应关系累积成柱状图。应用柱状图作为加权系 数,映射码书就为目标语音向量的线性合成时的加权系数。 在转换阶段,先将源语音的谱包络系数量化为源语音向量空闻的第1 个码 向量。则转换的码向量y 由式( 卜1 ) 得到 萝2 薹k “硅 ( 1 一1 ) 其中,h l k 为映射码书h 的元素,满足 1 3 1 2 动态频率规整( d f w ) 荟m k l ,u 止为目标语音码向量。 v a i b r e t 1 9 j 还提出了用d f w ( d y n a m i cf r e q u e n c yw a r p i n g ) 法来实现频谱包络 的转换。实现过程为:首先应用标准的d t w 法将原语音和目标语音中提取的频 谱包络特征参数进行对齐;然后应用标准的非监督分类技术将源说话人的声学空 间分成非叠加的类;然后在每一类内计算源语音和目标语音的对数幅度谱,记录 幅度值;根据源语音和目标语音频谱得到频率规整函数,它满足( 1 2 ) 中的频率归 一化距离最小 7 兰州方言语音生成方法研究 瞩趵呻睁叫p ,】- l n 。2 其中,c 为频率规整路径c - 慨敝1 ,2 ,ap ) ,c k 一( f ) ,嘶 ) ) ) ;q 为加权 系数,用来对距离进行归一化;d ”( i ,) 一s ( f ) 一s ( ,) i 为频谱距离。 规整路径可以用规整曲线来表示。规整函数的数目等于类中的频谱向量对的 数目。对于每一类得到一个平均的规整函数,它可用一个三阶多项式来表示。 在转换阶段,首先将频谱包络参数归类,确定采用的转换函数;然后计算对 数幅度谱包络,去掉频谱倾斜,进行转换,然后将目标语音的频谱倾斜加上,即 得转换的频谱包络。 1 3 1 3 神经网络法 n a r e n d r a n a t h 1 7 i 提出用神经网络来实现共振峰的转换。首先进行共振峰提取, 采用最小相位群延迟函数( m i n i m u mp h a s eg r o u pd e l a yf u n c t i o n s ) 法来提取前三个 共振峰频率;对于三个共振峰频率的转换关系用神经网络来捕捉;在训练阶段将 源语音和目标语言的三个共振峰频率参数分别作为神经网络的三个输入和三个 输出,采用含有八个神经元的两个中问隐含层;在转换后合成时,将转换的共振 峰频率和平均基音频率通过共振峰合成器合成出最终的转换语音。 1 3 1 4 高斯混合模型法( g m m ) s t y l i a n o u l 4 l 采用高斯混合模型法来实现频谱包络的转换。 在训练阶段分别对源说话人和目标说话人的声学空间分q 类建模,如式 ( 1 - 3 ) 为对源说话人声学空间进行建模 似) 一静玑( ;q ,) ,静咖一 ( 1 3 ) 其中,似,z ) 。南c x 一( 一三仲一) 7 f 1 一) ) 吒表示x 由q 类产生的先验概率,) 表示具有均值向量f 和协方差矩 阵的 维正态分布。对于g m m 参数仁,i ,z 用传统的e m 法进行估计。 在转换阶段,首先求源语音特征向量x 由q 类产生的先验概率p ( c 。i d 其 计算可由贝叶斯准则得到,如式n - 4 ) 8 兰州方言语音生成方法研究 转换函数为 工) 一巧a 习q n ( 咏x i , q 瓦, y - - q 可) ,) 妻b + 1 b ( c 。,) 一k + 1 扣( c 。i 工) ( 1 - 4 ) ( 1 5 ) f e 【( ,一v x x f ) 1j z - e 【( 矗一x x x f ) 1 】 其中,v 为目标函数的均值向量。 1 3 2 韵律转换 韵律特征是表征语音个性化的重要特征,韵律转换也是语音转换的重要内 容,韵律的转换内容主要包括基音频率的转换、时长的转换和能量的转换等。 基音频率的转换也即改变基音频率,不仅是语音转换的重要内容,也是文一 语转换中得到高质量合成语音难度很大的一项关键技术。在文语转换中要改变合 成单元的基音频率,以使其具有不同的音调特性且要与包含这个单元的语音段的 基音频率变化轮廓相匹配,但在这个工作中,研究者们发现当基音周期改变较大 时,往往会导致合成语音听起来很机械或有回声和杂音,从雨导致语音质量的下 降。语音转换要转换源语音的基音频率为目标语音基音频率,基音频率改变常常 会较大,所以,有效的基音周期改变算法是得到高质量转换语音的保证。 对于时长的转换一般都是对基音周期的语音进行删除或复毒4 来实现,同时伴 随着幅度即能量的调整。在对韵律进行转换时,常常是同时进行基音周期、时长 和能量转换的。 1 4 论文工作 本文主要研究了利用语音转换实现兰州方言语音的生成方法。在采用p i t c h t a r g e t 估计模型为声调模型的基础上,分另l j 介绍了采用线性修改模型( l m m ) 生成兰州方言的方法和采用高斯混合模型( g m m ) 生成兰州方言的方法。论文 还介绍了在生成方言语音的基础上采用语音修改方法实现音色可变兰州方言的 方法。 9 兰州方言语音生成方法研究 第二章分析了兰州方言和普通话的特点,总结了兰州方言和普通话声调之间 的对应关系,讨论了通过声调转换生成兰州方言的可行性。 在讨论了现今主要的声调模型的基础上,第三章提出了采用p i t c h t a r g e t 估计模型作为声调表示模型,并对于训练集中的普通话语音和兰州方言语音提取 了特征参数,进行了对比,最后确定出了兰州方言的声调转换模式。 第四章在p i t e l l t a r g e t 估计模型的基础上,提出了基于线性修改模型( l m m ) 兰州方言生成方法。首先,对于训练集中的普通话语音和兰州方言语音利用p i t c h t a r g e t 估计模型提取特征参数,用一个7 维的矢量分别表示两种语音的声调曲线。 然后利用线性回归的方法分别求得七个特征参数的转换函数。在生成语音时,首 先提取待转换普通话的七个特征参数,然后利用转换函数计算出兰州方言对应的 七个特征参数,生成基频f o 曲线,最后利用s t r a i g h t 算法合成方言语音。在生 成的兰州方言的基础上,利用s t r a i g h t 语音修改算法,生成了音色可变的个性化 兰州方言语音。 第五章提出了基于高斯混合模型( g m m ) 的兰州方言变换方法,使得能够 在大语料库的基础上,基于统计学模型,实现普通话到兰州方言的变换。首先利 用p i t c ht a r g e t 模型提取源语音和目标语音的特征参数,构建方言变换的训练集。 然后制作普通话和兰州方言训练语音库。训练出g m m 的转换参数。根据转换参 数进行方言变换,得到兰州方言的f o 曲线,最后利用s t r a i g h t 算法合成出兰州 方言。实验结果表明,增加训练音库的规模,可以得到质量更好的合成语音。 最后是结论,总结归纳了论文的工作。 l o 兰州方言语音生成方法研究 2 1 语音学基础知识 2 1 1 语音的产生模型 第2 章基础知识介绍 语音声学参数的提取主要基于语音产生模型l 纠。该模型将语音信号视为激励 信号经过声道函数调制之后的输出信号。图2 1 显示了语音产生模型的框图。在 时域,语音信号为激励信号与声道函数的卷积;在频域,语音信号的频谱为激励 信号频谱和声道谱的乘积。在生理上,激励信号对应于从肺部发出,经过声门之 后的气流,它是语音信号的能量来源;声道函数描述了由咽、喉、口腔等组成的 声道对激励信号的调制作用。, 厂 激动f 矗譬z 卜l 声避函数j l ( 月) l _ ,滔爵优譬页田 柏| | | | l l | i ,一胁j 8 岫山山山山。一匕塑一 图2 1 语音产生模型的框图 根据发声过程中是否存在声带振动,激励源可分为两种类型: ( 1 ) 浊激励源。在元音和浊辅音的发声过程中,声带在肌肉和气流的 作用下以一定的频率振动,激励信号为准周期信号。声带振动的频率称为 基频。 ( 2 ) 清激励源。在清辅音的发声过程中,声带不振动;气流在通过声门的 过程中与之相摩擦,产生类似湍流的信号。 图2 1 同时显示了在浊激励源的情况下,典型的激励信号频谱、声道谱和语 音信号频谱。其中,激励频谱的声学特性主要表现在频谱幅度随频率提高而下降 的速度,即频谱下倾的大小【刎。频谱下倾与声带的振动方式相关。若发音时喉部 肌肉紧张,声带运动的加速度大,则导致激励频谱中具有较强的高频分量,频谱 下倾较小。相反,若发音时喉部肌肉放松,声带振动不充分,则激励频谱中高频 l 兰州方言语音生成方法研究 分量较弱,频谱下倾较大。此外,即使是在浊激励源的情况下,信号中也不可避 免地存在着非周期性的成分。气流在通过声门时会与之摩擦,产生噪音。同时, 声带的振动一般并不具有严格的周期性,相邻两个基音周期的激励信号往往在周 期长短和周期内信号幅度的最大值上存在抖动。因此,在激励频谱中同时包含着 周期性的谐波成分和非周期性的噪音成分,两者之间的相对强弱关系也影响了激 励频谱的声学特性。 声道函数反映了声道对激励信号的调制作用。声道的谐振频率称为共振峰频 率,它对应于语音频谱中的明显峰起。共振峰频率由低到高排列为第一共振蜂, 第二共振峰,第三共振峰,相应的频率由f 1 ,f 2 ,f 3 ,表示。其 中,前三个共振峰对于区别不同的音素至关重要。共振峰频率和舌位之间存在着 简单的对应关系。一般地,第一共振峰对应于舌位的高低,舌位低的元音( 如a ) 第一共振峰频率值高,而舌位高的元音( 如i ) 第一共振峰频率值低。第二共振 蜂对应于舌位的前后,舌位靠前的元音( 如彤) 第二共振峰频率值高,而舌位靠 后的元音( 如l e d 第二共振峰频率值低。图2 2 显示了不同元音发音时的舌位 位于中央位置的元音户被称为中央元音。 高 砍高 半高 由 半低 汝低 低 前央后 图2 2 国际音标元音图 语音谱中激励信号和声道函数的分离可通过倒谱运算或线性预测模型进行。 倒谱运算是一种非参数的解卷算法,它将激励信号与声道函数在时域上的卷积关 系变换为求和的关系,从而分离两种信号。计算步骤为: ( 1 ) z 变换:将卷积运算转化为乘积运算。 兰州方言语音生成方法研究 z y o ) 】一,r ( z ) 一x 0 ) h ( z )( 2 一1 ) ( 2 ) 对数运算:将乘积运算转化为加性运算。 矿( z ) 一i n y ( z ) - l n x ( z ) + i n h ( z ) - j 0 ) + 膏( z ) ( 2 2 ) ( 3 ) 对矿( z ) 进行逆z 变换。 f i n ) 一z - i f 矿乜) 1 一z - i 【j 0 ) + 疗( z ) 】一土伽) + | | ;o ) ( 2 - 3 ) 在倒谱运算之后,声道函数的倒谱_ | ;o ) 分布在复倒谱域的低时部分,而激励 信号的倒谱j o ) 分布在其它范围,因此可以容易地将两者分开。特别地,m e l 频率倒谱系数m f c c 是在与人类听觉特性相一致的m e l 频率刻度上计算的倒谱, 一般取前1 睢1 4 个参数值作为声道函数的估计,被广泛地应用在语音识别和说话 人识别等领域。 线性预测模型假设在语音的声道函数中只包含极点【2 5 l : 脚嚣4 寿。南 叫, 其中p 是预测阶数,一般取1 0 - 1 6 :a l 一口,称为线性预测系数( l p c 参数) 。 将式2 4 改写为时域上的表达: 工( ) 一y ( 撑) 一4 f y ( n - i ) ( 2 5 ) 可见,激励信号为语音信号的当前值与由过去p 个值所得到的线性预测值之 间的残差。a 。一口,可在短时均方误差最小的准则下,由白相关法或协方差法估 计线性预测系数包含了声道函数的信息。为了保证参数的稳定性和可插值性, 有时将l p c 参数等价地变换为线谱对参数l s f 。 2 1 2 基本的声学参数 总结起来,基于语音产生模型提取的声学参数包括: ( 1 ) 基频参数:发音时声带振动的频率,它决定了音调的高低,一般记为f 0 兰州方言语音生成方法研究 ( 2 ) 能量参数:语音信号的能量,它取决于发音时从肺部发出的气流强度。 ( 3 ) 频谱下倾参数:即激励频谱的幅度随频率升高而下降的速度,它取决 于声带振动的紧张程度。在语音谱中。度量频谱下倾的参数有基频分量与二次谐 波分量之间的强度比h 1 h 2 ,基频分量与第一共振峰频率范围内最强的谐波分量 之间的强度比h 1 - a 1 ,基频分量与第三共振峰范围内最强的谐波分量之间的强度 比h 1 a 3 参数等。此外,反映能量在高频段和低频段相对分布的参数频谱质心 s c 及频谱截止s r 也与频谱下倾相关。 ( 4 ) 周期成分和非周期成分的强度比参数:它反映了激励频谱中周期性的 谐波成分和非周期性的噪音成分之间的相对强弱关系。除了一些较为复杂的分离 周期信号和非周期信号的算法之外,两者之间的相对关系也可以通过相关分析估 计。 ( 5 ) 表示声道函数的参数:包括共振峰参数,l p c 参数及等价的l s p 参数, m f c c 参数等。它们反映了声道函数对激励信号的能量调制情况。其中共振峰参 数的物理意义最为明显。 此外,语音的声学参数还包括语流中音段持续的时长。在汉语中,通常以音 节为单位测量时长参数。 2 1 3 韵律特征 韵律指那些与强调、节奏和语调有关的言语信号成分【捌。由于这些成分不能 独立存在,只能依赖于音段音位或组合在一起的音位连续群存在,可以覆盖两个 或两个以上音段之上,因此也常称为超音段特征。韵律是感知上的概念。在声学 上,它是通过基频、时长和能量参数实现的。一般认为基频是最重要的韵律参数, 时长次之,能量对韵律的贡献最小。在分析时,常常将可测量的声学参数作为研 究对象,并将与基频、时长和能量相关的特征统称为韵律特征。 韵律特征同时与说话人特点、基本语义和情感状态等有关。首先,各个说话 人由于性别、年龄等生理因素,以及地域、阶层等社会因素,具有不同的基频变 化范围和韵律特点。其次,在表达基本语义方面,汉语作为声调语言,每个音节 都通过声调来帮助辨别字义,而各种声调类型主要通过基频曲线的高低和形状实 1 4 兰州方言语音生成方法研究 现。在语句中总是由于词法、语法等方面的原因使得一些音节发得比其他音节重, 而这些重音在声学上表现为基频升高、时长加长和能量增强。在韵律结构的边界 处常常出现时长增加和基频曲线重置等现象。疑问句相对于陈述句,在基频曲线 的整体变化上也有不同的特点。此外,说话人的情绪状态也影响了基频、时长和 能量参数的变化情况。 2 2 汉语语音特点介绍 语音流由音素结合而成的最小单位,同时也是发声的最小单位是“音节” ( s y l l a b l e ) ,在汉语中,最小的发声单元是一个“字”,一个字即为一个“音节”。 困此,汉语发音比较简单,这是汉语的一大特点。一个音节由元音( v o w e l ) 和辅 音( c o n s o n a n t ) 构成。元音构成一个音节的主干,无论从长度还是从能量看,元音 在音节中都占主要部分。辅音则只出现在音节的前端或后端或前后两端,它们的 时长和能量与元音相比都很小。所有的元音都是浊音,辅音则包括清音、磨擦音 和爆破音。在汉语中,辅音也称为声母,元音也称为韵母。 汉语是一种声调语言,相同声母和韵母构成的音节随声调的不同而具有完全 不同的意义,对应着不同的汉字:另外,汉语中存在着多音字现象,同一个字在 不同的语气或不同的词义下具有不同的声调,因而声调对于汉语语音的理解极为 重要,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年学历类自考公共课计算机应用基础-工程数学-线性代数参考题库含答案解析(5卷)
- 2025年学历类自考公共课数量方法(二)-数论初步参考题库含答案解析(5卷)
- 2025年学历类自考公共课工程数学-线性代数-工程数学-线性代数参考题库含答案解析(5卷)
- 2025年学历类自考专业(电子商务)经济学(二)-计算机与网络技术基础参考题库含答案解析(5卷)
- 2025年学历类自考专业(电子商务)电子商务概论-国际贸易实务(三)参考题库含答案解析(5卷)
- 2025年学历类自考专业(电子商务)市场营销(三)-电子商务与金融参考题库含答案解析(5卷)
- 2025年学历类自考专业(电子商务)互联网数据库-电子商务概论参考题库含答案解析(5卷)
- 2025年学历类自考专业(法律)行政法学-民法学参考题库含答案解析(5卷)
- 2025年学历类自考专业(法律)国际法-票据法参考题库含答案解析(5卷)
- 2025年学历类自考专业(法律)保险法-西方法律思想史参考题库含答案解析(5卷)
- YY 0167-2020非吸收性外科缝线
- 新疆生产建设兵团第六师五家渠市公开招聘事业单位317人(同步测试)模拟卷含答案
- 中小学学习《民法典》主题班会图文ppt
- 20客户画像与标签管理课件
- 领导干部个人有关事项报告表(2019版)(范本模板)
- 《公务员激励机制研究(论文)8000字》
- 相关方需求和期望分析表
- (中职)PLC实训课件完整版课件全套ppt教学教程(最新)
- QC成果施工现场移动式网络布设及监控一体化装置的研制
- 《传统与革新──从巴洛克艺术到浪漫主义》教案
- 《石油库设计规范》修订2022-07
评论
0/150
提交评论