




已阅读5页,还剩64页未读, 继续免费阅读
(信号与信息处理专业论文)基于vq模型和bp网络的高自然度语音转换.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于v q 模型和b p 网络的高自然度语音转换中文摘要 基于v q 模型和b p 网络的高自然度语音转换 中文摘要 说话人语音转换技术是把源说话人说的语音转换为像是目标说话人所说的语音 的技术。说话人语音转换具有广泛的应用领域,比如文语转换( t e x t - - t o s p e e c h ,t t s ) 系统、配音系统和保密通信等。本文提出了一种基于v q 模型与b p 网络的高自然度语 音转换方法。算法分为三个部分:前两部分用v q 模型实现了语音的谱包络及其激励 的转换,第三部分采用b p 算法实现语音的韵律转换规则建模。算法针对基音周期内 残差波形的特点提出了循环互相关函数,有效地实现了残差波形聚类;针对汉语语音 超音段发音特点进行韵律调整,有效实现了汉语语音转换并得到高自然度合成语音。 本文主要工作包括: ( 1 ) 基于v q 模型实现了语音的谱包络转换。谱包络采用2 0 阶l p c 系数转换形成的 线谱对频率系数l s f 表示。相对于l p c 参数,l s f 具有更好的内插特性和量化特性。 训练分别得至1 j 1 2 8 个源语音的码向量和1 2 8 个目标语音的码向量和由每一个源语音码 向量到目标语音码向量的映射码书,映射码书就为目标语音向量的线性合成时的加权 系数。转换后的语音的l s f 系数更接近于目标说话人语音的l s f 系数。 ( 2 ) 基于v q 模型实现了其激励的转换。对残差的转换分为两阶段,是残差能量 的转换,采用线性转换的方法;二是对残差波形的转换,采用的方法是基于v q 码本 映射的模型。在残差波形转换中,定义了循环互相关函数,并以最大互相关值的相反 数作为波形间的距离测度。转换后的语音残差信号更多的保留了目标说话人的信息。 ( 3 ) 采用b p 算法实现语音的韵律变换规则建模。提取源说话人和目标说话人的相 对基频曲线。用三层b p 网络进行训练得到映射权值。在变换后的相对基频曲线加上 目标语音的平均基频就得到转换后的基频曲线。算法针对汉语语音超音段发音特点进 行韵律调整,有效实现了汉语语音变换并得到高自然度合成语音,实验表明是一种有 效的汉语语音转换算法。 关键词:语音转换; v q 模型: 超音段特征;b p 网络 作者:丁耀娥 指导老师:俞一彪 v o i c ec o n v e r s i o nb a s e do nv qm o d e la n db pn e t w o r ka b a s t r a c t v o i c ec o n v e r s i o nb a s e do i lv qm o d e la n db pn e t w o r k a b s t r a c t w i t ht h ed e v e l o p m e n to ft h e s p e e c hp r o c e s s i n gt e c h n o l o g y a n dt h eh u m a n s c o n s t a n t l yp u r s u i n ga i ( a r t i f i c i a li n t e l l i g e n c e ) ,v o i c ec o n v e r s i o nb e c o m ean e wp o p u l a r t o p i ci nr e s e a r c ha r e a s v o i c ec o n v e r s i o ni sat e c h n o l o g yt h a tm o d i f i e st h es p e e c hs i g n a l s u t t e r e db y as o u r c es p e a k e rt os o u n da si fat a r g e ts p e a k e rh a ds p o k e ni t v o i c ec o n v e r s i o n t e c h n o l o g yh a sm a n ya p p l i c a t i o n s ,s u c ha st t s ( t e x t t o - s p e e c h ) s y s t e m ,d u b b i n gs y s t e m a n dc o m m u n i c a t i o ns y s t e m t h em a i nw o r k so ft h i st h e s i sa r e : ( 1 ) v q ( v e c t o rq u a n t i z a t i o n ) i su s e dt ot r a n s f o r mt h es p e c t r a le n v e l o p e t h es p e c t r a l e n v e l o p ei sr e p r e s e n t e db yt h el s f ( l i n es p e c t r u mf r e q u e n c y ) w h i c hi si n f e r r e df r o mt h e l p cc o e f f i c i e n t t h eo r d e ro ft h el p ci s2 0 c o m p a r e dw i t l lt h el p cp a r a m e t e r , t h e l s fp a r a m e t e rh a st h eb e r e r i n t e r p o l a t i o n c h a r a c t e r i s t i ca n dt h e q u a n t i f i c a t i o n c h a r a c t e r i s t i c t h et r a i n i n go b t a i n s12 8v e c t o r so ft h es o u r c es p e a k e ra n d12 8v e c t o r so f t h et a r g e ts p e a k e r t h em a p p i n gc o d e b o o ki so b t a i n e dt h r o u g ht h et r a i n i n gw h i c h r e p r e s e n t s t h e c o r r e s p o n d e n c eb e t w e e nt h es o u r c es p e a k e r sv e c t o r sa n dt h et a r g e t s p e a k e r s v e c t o r s t h e m a p p i n gc o d e b o o k i st h ew e i g h t i n gf u n c t i o no fal i n e a r c o m b i n a t i o no ft a r g e ts p e a k e r sv e c t o r s t h et r a n s f o r m e dl s fc o e f f i c i e n ti ss i m i l a rt ot h e t a r g e ts p e a k e r sl s f c o e f f i c i e n t ( 2 ) v q ( v e c t o rq u a n t i z a t i o n ) i su s e dt ot r a n s f o r mt h er e s i d u a l t h e t r a n s f o r m a t i o n o ft h ei m p u l s ei sd i v i d e dt ot h r e ep a r t s :o n ei st h el i n e a rt r a n s f o r m a t i o no ft h er e s i d u a l s e n e r g y ,t h eo t h e ri st h et r a n s f o r m a t i o no ft h er e s i d u a l sw a v e f o r m b a s e do nv qm o d e l i n t h et r a n s f o r m a t i o no ft h er e s i d u a l sw a v e f o r m ,w eg i v ead e f i n i t i o no fc i r c u l a rc r o s s c o r r e l a t i o nf u n c t i o na n du s et h ei n v e r s eo fi t sm a x i m u ma st h ed i s t a n c eb e t w e e nt w o w a v e f o r m s t h et r a n s f o r m e dr e s i d u a lr e t a i n st a r g e ts p e a k e r si n d i v i d u a l i t yi n f o r m a t i o n ( 3 ) t h ec h i n e s es p e e c h ss u p e r s e g m e n t a lf e a t u r e si sr e g u l a t e dw i t h t h eb p ( b a c k l l v o i c ec o n v e r s i o nb a s e do nv qm o d e la n db pn e t w o r ka b a s t r a c t p r o p a g a t i o n ) e x t r a c tt h ec u r v eo fr e l a t i v ef u n d a m e n t a lf r e q u e n c yo ft h es o u r c es p e a k e r a n dt h et a r g e ts p e a k e r t r a i nt h em a p p i n gw e i g h tu s i n ga3 - l a y e rb pn e t w o r k t h e t r a n s f o r m e dc u r v eo ff u n d a m e n t a lf r e q u e n c yi so b t a i n e db ya d d i n gt h em e a no ft h et a r g e t s p e a k e r s f u n d a m e n t a lf r e q u e n c yt ot h et r a n s f o r m e dc u r v eo ff u n d a m e n t a lr e l a t i v e f r e q u e n c y t h et r a n s f o r m e dc u r v eo ff u n d a m e n t a lf r e q u e n c yi s m o r el i k et h et a r g e t s p e a k e r sc u r v eo ff u n d a m e n t a lf r e q u e n c y t h i sa l g o r i t h mi sc a p i t a lo ft r a n s f o r m i n g c h i n e s es p e e c ha n dp r o d u c i n gs p o n t a n e o u sv o i c e k e y w o r d s :s p e e c hc o n v e r s i o n ;v e c t o rq u a n t i z a t i o n ;s u p e r s e g m e n t a lf e a t u r e ; b a c k p r o p a g a t i o nn e t w o r k w r i t t e nb yy a o ed i n g s u p e r v i s e db yy i b i a oy u 基于v q 模型和b p 网络的高自然度语音转换 附录 缩略语中英文对照表 t t s l p c f o v q b p l s f d t w g m m e m h m m l m r d f w a n n f f t ( t e x tt os p e e c h ) ( l i n e a rp r e d i c t i v ec o d i n g ) ( b a s i cf r e q u e n c y ) ( v e c t o rq u a n t i z a t i o n ) ( b a c kp r o p a g a t i o n ) ( l i n es p e c t r u mf r e q u e n c y ) ( d y n a m i ct i m ew a r p i n g ) ( g a u s s i a nm i x t u r em o d e l ) ( e x p e c t a t i o nm a x i m i z a t i o n ) ( h i d d e nm a r k o vm o d e l ) ( l l i n e a rm u l t i - v a r i a b l er e g r e s s i o n ) ( d y n a m i cf r e q u e n c yw a r p i n g ) ( a r t i f i c i a ln e u r a ln e t w o r k ) ( f a s tf o u r i e rt r a n s f o r m) 文语转换 线性预测编码 基音频率 矢量量化 误差反向传播 线谱频率 动态时间规整 高斯混合模型 最大期望值 隐马尔可夫模型 线性多变量回归 动态频率规整 人工神经网络 快速傅里叶变换 苏l , l 、l 大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师i 勺i i 导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体己经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的j 习料。对本文的研究作出重要贡 献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:到肆日飙毕绰 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复e n ( 牛- 幂d 电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 导师签 避一日期:烨。毕 日 期;出p 4 7 v 基于v q 模型和b p 网络的高自然度语音转换第一章绪论 1 1 语音转换研究的意义 第一章绪论弟一早珀 t 匕 近年来,人工智能已逐渐成为人们生活中的主题,因此“如何使机器更加拟人化” 是科研领域的一个主要方向。“说话人语音转换技术”是“人工智能”中较新的研究课 题,指的是一项改变说话人个性特征的技术,即说话人a 说的语音被转换为像是说话 人b 说的语音。说话人语音转换技术具有广泛的应用领域。比如在电影配音中,人们 希望配音的声音像是某人的声音,这就可以采用说话人语音转换技术来达到这个目 的。在语音翻译系统中,翻译出来的声音不同于原来的声音,人们希望翻译后的语言 仍可以用原有的声音讲出来,这就需要说话人语音转换技术。在语音合成系统中,人 们希望听到丰富的合成声音,这也需要说话人语音转换技术。语音转换技术还可以用 于以下这些方面:恢复受损语音,帮助声道受损的说话人的语音提高可懂度;对单个 说话人的语音质量的控制,纠正在t t s 中录音人长时间的录音而导致录音质量发生 的变化;在保密通信中进行语音个性化的伪装等。 由于目前大语料库合成系统的合成音质和自然度都不错,大家对语音合成系统提 出了更多的需求一多样化的语音合成,包括多个发音人、多种发音风格、多种情感以 及多语种等而现有的语音合成系统大多是单一化的,一个合成系统一般只包括一到 两个说话人,采用朗读或者新闻播报风格,而且针对某个特定的语种。这种单一化的 合成语音大大限制了语音合成系统的在实际中的应用,包括教育、娱乐和玩具等。为 此,多样化语音合成方面的研究逐渐成为近期语音合成研究领域的主流。实现一个 多说话人、多种发音风格、多种情感的语音合成系统,最直接的方法就是录制多个人、 多种风格的音库,并分别构建各个发音人、各个风格的合成系统。由于针对每个发音 人、每种风格、每种情感制作一个特定的语音库的工作量过大,因此这种方法在实际 中并不可行。在这一背景下,通过调整一个说话人的语音,使其听起来像是另一个人 说出来的说话人转换技术被提出。说话人转换技术根据少量的目标说话人的语音数 据,对源说话人的语音参数( 基频、时长和谱参数) 进行调整,从而得到目标说话人的 基于v q 模型和b p 网络的高自然度语音转换 第一章绪论 合成语音,以此实现多说话人的语音合成系统。 1 2 语音转换的背景 语音转换( v o i c ec o n v e r s i o n ) 是一种新兴的信号处理技术,其目的是在保留源语义 信息不变前提下,将语音中源说话人特征转化为目标说话人特征,使变换后的语音听 起来更倾向于目标说话人【l 】。语音中说话人特征分为音段特征( 如谱包络、谱激励) , 超音段特征( 如基频、时长、幅度) 与语言特征( 如习惯用语、方言、口音等) 。超音 段特征主要受社会和心理状况的影响,容易随意的改变,例如,放慢说话速度、降低 音量、说得更加柔软一些等;语言特征则与人的生活环境、成长过程和个人习惯有很 大关系,随意性很大,不易对其建模。而音段特征与语音发音器官的生理学和物理学 特征紧密相连,也与说话人的情绪状态有关,可以认为是不可改变的。研究表明,语 音的音段特征与超音段特征中均包含说话人信息。目前语音变换技术还处于发展阶 段,大多数语音转换算法主要是对语音的音段特征进行变换,而语音的超音段特征转 换比较简单,并没有得到太好的结果。 有关语音转换系统的研究已提出了多种语音频谱的转换算法,例如码本映射 【2 1 、线性多变量回归【3 1 、动态频率规整【3 1 、人工神经网络【4 ,5 1 、高斯混合模型 6 q o 】和 隐马尔科夫模型【1 1 1 等。国内有人提出支持向量回归1 2 1 和混合线性变换n 3 1 的变换算 法。上面提到的转换方法都对语音频谱包络转换起到积极的作用,但转换的频谱包络 与目标语音频谱包络仍有一定的差别,高效的频谱包络转换法仍需要进一步研究。激 励信号的处理方法主要存在以下几种,激励码本钔,神经网络预测器5 1 ,l p c 残 差预测6 1 。上述激励或残差信号的处理在不同程度上增加了转换语音的目标说话人 特征倾向,但转换的激励与目标激励都存在一定的失真。语音的韵律特征尤其是基频 曲线含有大量的说话人身份信息,对确定说话人身份起了很重要的作用,但是相对于 声道相关的声学特征和激励信号,当前关于韵律的变换技术还比较简单,其研究也主 要集中在f 0 曲线的变换上,汉语语音的基频曲线的变换主要采用声调码本映射的方法 1 1 7 】,而能量曲线和语速等特征只是简单地做均值线性变换。 2 基于v q 模型和b p 网络的高自然度语音转换 第一章绪论 1 3 主要研究内容 基于以上的讨论,本论文的主要目标是基于v q 算法和b p 网络实现高自然度的说 话人转换。本文在基于l p c 的语音转换算法基础上,根据汉语语音的发音特点,对语 音的超音段特征进行韵律调整,提高了合成语音的自然度与可懂度。算法主要分为三 个部分:第一部分实现谱包络转换;第二部分实现谱激励( l p c 残差) 转换;第三部分 实现语音的超音段特征转换。在谱包络和残差信号转换部分,算法采用v q 码本映射 模型,相对于其他的映射方法,这是一种“硬”分类方法,能够一定程度上克服频谱过 平滑的问题,残差的转换完全保留了谱激励中所包含的目标说话人信息,从而得到了 很好的变换效果。在算法的第三部分,利用b p 算法实现目标语音超音段特征中韵律 特征的模仿,并利用帧的复制或删除调整合成语音的时长,使之更倾向于目标说话人。 由于语音清音中所包含的说话人信息较少,所以系统中对浊音帧进行变换,对清音直 接进行复制。从而建立一个高自然度说话人转换系统。 本文的第二章首先介绍语音转换的关键技术,并分析各种算法的优势和不足,以 便进行相应的改进。在文章的第三章主要介绍基于v q 算法实现谱包络转换,首先介 绍线性预测分析的原理,然后介绍了谱参数的提取,训练和转换的实现。由于提取的 谱参数是l s f 参数,从而有效的改善说话人转换系统合成语音的音质以及与目标说话 人的相似程度。在文章的第四章介绍了残差信号能量的线性转换和波形的v q 转换算 法,由于直接进行时域波形的转换,从而使转换后的残差中保留了说话人信息。第五 章介绍了利用b p 算法实现基频曲线的变换。第六章介绍了整个转换系统的实现流程, 并进行实验仿真。在文章的最后,对论文工作进行了总结,并对今后可能的研究方向 做出展望。 基于v o 模型和b p 网络的高自然度语音转换第二章语音转换技术分析 第二章语音转换技术分析 在文献 18 】中,语音转换系统主要由以下三个基本技术要素构成: ( 1 ) 语音模型和特征参数 语音模型规定了系统要调整语音信号的哪方面参数。模型参数或特征由训练和转 换过程中的语音分析阶段获得。 ( 2 ) 映射规则 其作用是将源说话人的特征参数映射到一个近似于目标说话人的特征参数集上, 这是声音转换技术所要解决的核心问题。 ( 3 ) 语音语料库 在训练过程中用来训练数据和性能评估时用于测试的语音句子集合。 2 1 语音信号的基本特性 语音信号具有各种特征,包括时域特征和频率特征9 1 以下分别介绍: 2 1 1 语音信号的时域特性 jii j f, 艘m 唧帅m 一 i l - 1 :一 m m 抽州删 i 无晋段清晋段浊晋段 图2 1 ji n g l 语音波形 由图2 1 可以看出语音可分为三部分:无音段、清音段和浊音段。无音段没有语音 信号的存在,在背景噪声较低的情况下,幅度近似为零。清音信号的幅度很小,而且 没有规律,类似于随机噪声。而浊音信号波形的幅度较大,波形的上下起伏近似呈现 周期性,称之为准周期。语音信号在时域上有两个重要的物理参量,即短时平均能量 4 基于v q 模型和b p 网络的高自然度语音转换第二章语音转换技术分析 和短时平均过零率。从图2 1 中可以看出语音信号的幅度随着时间变化有着较大的变 化,可用短时平均能量来反映语音信号这一特性,短时平均能量通常定义如下: h ( n ) 在这里是窗函数,不同的窗对于短时平均能量有不同的影响,一般情况下会用到 两种窗,一种是矩形窗: 枷1 :1 ,0 如n _ 1 ( 2 2 ) 厅( 疗) 2 1 0 ,其它 忆2 另一种是h a m m i n g 窗: 坳) 书4 一羚0 8 q 别_ 1 舯肛l 3 , 短时平均能量的主要用途: ( 1 ) 可以从清音中区分出浊音来,因为浊音时短时平均能量要比清音时大得多。 ( 2 ) 可以用来区分清音与浊音的分界,无声与有声的分界等。 ( 3 ) 作为一种超音段信息,用于语言识别中。 在离散时间信号下,如果相邻的采样点具有不同的代数符号就称为发生了过零。 产生过零的速率是信号频率分量的一个简单度量单位( l r 拉宾纳,1 9 8 3 ) 。对于窄 带信号,这种度量是较精确的,由于语音信号是一类宽带的局部平稳信号序列,所以 用平均过零率来表示语音频率特性不确切,但用短时平均过零率可以粗略估计语音信 号的频率特性。语音信号短时平均过零率定义如下: z 。= i s g ni x ) 】s g ni x 如一1 ) pg 一砌) ( 2 4 ) 肌s 印俐= 粥三三 弦5 , 忙 1 7 笱畦嚣1 6 , 从语音信号可以直观地看出,清音段的过零率最高,而浊音段次之,无音段的过 零率最低。频域上各个信号的特性也证实了这一点,清音语音能量集中在较高的频率 )l2,lm一 0弦l p i i i 已 基于v q 模型和b p 网络的高自然度语音转换 第二章语音转换技术分析 上,浊音语音能量集中在3 k h z 以下。 2 1 2 语音信号的频域特性 如果从语音流中利用加窗的方法取出其中的一个短段,再对其进行傅立叶变换就 可以得到该段语音的短时谱。清音的短时谱类似于随机信号的频谱。而浊音信号的短 时谱有两个特点:第一,有明显的周期性起伏结构,这是因为浊音的激励源为周期脉 冲气流。第二,频谱中明显地具有几个凸起点,它们的出现频率与声道的谐振频率相 对应。这些凸起点称为“共振峰”( f o r m a n t ) ,其频率称为共振峰频率。共振峰按频率 由低到高排列为第一共振峰,第二共振峰,相应的频率用f 1 ,f 2 ,来表示,一 般浊音中前三个,尤其是前两个对于区别不同语音是至关重要的。 语音信号还有一个很重要的特性“短时性”,即在某个短时段,可以认为语音信号 的特征是不变的,这段时间一般可取为5 5 0 m s ,因此我们可以采用各种短时处理方法, 例如“短时能量”,“短时频谱”等。 2 2 语音的产生模型,个人特性及其相关参数 要进行说话人语音转换,首先要研究语音的产生模型,个人特性及其相关参数。 2 2 1 语音产生模型 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的 运动密切相关的,这种物理运动比起声音振动的速度要缓慢得多。因此,在一个比较 短的时间内,语音信号被假定为平稳的,可以用短时处理技术来处理语音信号。语音 模型是对语音信号的数学建模。其中著名的语音模型有f a n t 提出的源滤波器线性系统 模型【2 0 】,其原理如图2 2 所示: 6 基于v q 模型和b p 网络的高自然度语音转换第二章语音转换技术分析 浊音 清音 滤波器系数 图2 2f a n t 提出的源一滤波器线性系统模型 在该模型中,语音的浊音部分较好地体现了语音的准周期特性,因此可以用脉冲 序列模拟浊音的激励信号,清音部分用随机噪声来模拟,而时变滤波器则建模了声道 部分。这种模型较好地模拟了人的语音发声机理。 t q 删i e r i 于1 9 8 4 年提出t s i n u s o i d a l 模型【2 1 1 。在该模型中,语音可以表示为正弦 激励信号的线性组合经过声道滤波器后得到的如下式所示的结果: l s ( 船) = a ,c o s ( w t n + o t ) ( 2 7 ) 1 = 1 其中,彳,和力分别表示语音帧的幅度、角频率和初始相位。s i n u s o i d a l 模型己被证 实为是一种能够合成出高质量语音的参数合成方法,而在声音转换算法中语音的声学 特征常用线性系统模型的参数来描述。 2 2 2 语音的个人特性 要进行说话人语音转换,首先要研究语音的个人特性。如今,国内外关于语音个 人特性的研究已取得一定成果 1 9 j 。语音携带了很多信息:语言学、音段、超音段等, 在这些信息中,语言学是当今语音技术领域的主要方向。但同时,语音信号中的非语 言学信息,如声音的个人特性,在语音识别、理解领域以及日常人们的对话交流中也 起到很大的作用。声音的个性特征不仅帮助我们确认说话者,而且使我们的生活丰富 多彩。不过,对于非特定人语音识别工作来说,声音的个性特征却是一个需要克服的 基于v q 模型和b p 网络的高自然度语音转换 第二章语音转换技术分析 障碍,说话人规整、自适应就是为了解决该问题而发展起来的。语音分析和合成技术 的发展已使分析与语音音质有关的声学特征成为可能,这样将来有一天我们就可以精 确地控制计算机语音使之具有人语音的特性。 与声音个人特性相关的因素可分为社会心理学和生理学两个方面。一个人的说话 风格与他的年龄、社会地位、方言等因素有关。说话人风格从声学的角度上看主要体 现在韵律特征上,如基频曲线、时长、速率、节奏、停顿、能量等。而声音的音质主 要是由发音器官的生理、物理特性决定的,但同时受说话人的情绪状态的影响,语音 的音色则主要体现在由声门波频率及频谱,声道谱能量等方面。现有的语音技术还不 能精确的处理反映说话人风格的韵律特征,而把重点放在改变反映发音器官物理特性 的声学参数上。 2 2 3 体现声音个人特性的声学特征参数 声音的个人特性由两大类声学特征共同作用影响的,声源和声道共振。被认为与 此相关的声学参数,主要有: 1 声源参数:( 1 ) 平均基频,( 2 ) 基频曲线轮廓,( 3 ) 基频变化范围,( 4 ) 声门波形状。 2 声道共振参数:( 1 ) 频谱包络形状和谱倾斜,( 2 ) 共振峰值,( 3 ) 共振峰走向,( 4 ) 长时平均频谱,( 5 ) 共振峰带宽。 对说话人特征的研究己有很长的时间,早期的心理学和语音学的研究揭示了声学 参数和说话人年龄、性别等身体特性的关系。最近的研究主要从语音技术和说话人识 别的角度来考虑。m a s t s u m o t 等人研究了基频( f 0 ) ,共振峰,谱包络等声学参数对男 声元音的贡献,得出结论,即基频( f 0 ) 是说话人特性的最重要的参数,其次是共 振峰,再次是f 0 变动范围及声源谱倾斜。f u r u i 研究了不同说话人的心理和物理上 的差异的关系,发现通过倒谱系数光滑的长时平均谱起很大的作用。i t o s h 和s a t i o 贝j j 通 过研究元音音节等的语音合成参数,认为频谱包络是最重要的参数,其次是基频。 从以上的研究我们可以得知,不存在唯一特殊的声学参数携带所有的个人特征信 息,语音音质是许多语音参数共同作用的结果。 8 基于v q 模型和b p 网络的高自然度语音转换第二章语音转换技术分析 2 3 语音转换算法分析 在语音转换系统中,语音转换系统主要通过改变语音信号的各种音段和超音段特 征,以及源滤波器模型的声源激励信号来调整源说话人语音,使之具有目标说话人 的身份特征。 图2 3 是基本语音转换原理的框图。如图2 3 所示,一般地,语音转换过程可以分 为训练和转换两个步骤来进行,在训练阶段,系统对源说话人和目标说话人的语音样 本进行训练,估计映射规则,获取源语音和目标语音的模型参数之间的关系。在转换 阶段,利用转换函数对源语音的音段特征和超音段特征进行变换,使得合成语音具有 目标说话人特征。 分析 转 多数 。一零说话人语音 训换 分研 规 目标说话人 目标说话人语音参数 练则 参数 语音 “。i 。, l 1 分析 苗般 图2 3 语音转换原理 在当前转换系统中,人们已经提出了多种基于音段特征的语音频谱转换算法,其 中包括映射码本、线性多变量回归、动态频率规整、人工神经网络、高斯混合模型和 隐马尔科夫模型。转换时,已训练好的转换函数从新输入源语音特征来预测目标语音 特征,最后在合成阶段,由预测特征产生最终的转换语音信号。超音段特征的韵律转 换主要是对源说话人的韵律特征如f o 曲线、能量曲线和说话速度作调整,使之匹配目 标说话人的韵律特征。在基于源一滤波器的语音模型中,对声源激励信号并n l p c 残差 进行预测和转换,将进一步增加转换语音中的声学特征。 在下面几个小节中,我们将分别讨论语音频谱、声源激励信号以及韵律特征的转 换算法。 9 基于v q 模型和b p 网络的高自然度语音转换第二章语音转换技术分析 2 3 1 语音频谱变换 语音频谱承载了重要的说话人特征信息,因此调整语音频谱是当前声音转换技术 的首要内容。训练频谱变换函数就是为了找到源、目标说话人声学特征之间的映射关 系。在训练前,将源于两个说话人的频谱特征向量流采用某种算法进行时间对准,然 后再根据映射方案训练频谱变换函数。在频谱转换算法中,码本映射、混合高斯映射 以及隐马尔可夫模型等属于统计声音转换算法,是当前的主要研究方向。 ( 1 ) 码本映射 码本映射是声音转换领域比较常用的转换算法,最早由a b e 和s h i k a n o 等人提出来 的,源于语音识别过程中的说话人自适应技术2 2 2 3 1 。图2 4 表示v q j l - a j 本映射的转换阶 段的实现流程。 图2 4 基于v q 码本映射系统的转换过程 在训练过程中,为产生映射码本,首先用矢量量化算法将源说话人和目标说话人 的特征空间进行划分,分别形成源、目标码本。用d t w 算法将源说话人和目标说人 语音进行对齐,根据源说话人和目标说话人频谱参数矢量之间的相互关联性,产生对 应码本矢量的二维矩阵,统计源、目标码本各码字之间的对准次数。映射码本的码字 就定义为用直方统计值作为权函数的目标码字的线性组合。可以这样表达:一个源说 话人输入频谱x ) 相对应的v q 频谱为心) ,经对目标说话人v q 频谱y ,仃) 加权求 1 0 基于v q 模型和b p 网络的高自然度语音转换第二章语音转换技术分析 和转换成目标说话人的频谱x 仃) ,表示如下: nn x 仃) = 一仃) j _ l= l 其中,权值表示源码字_ 心) 到目标码字科仃) 的对应统计值。 ( 2 8 ) 为了克服这种简单向量量化频谱不连续的缺点,n a k a m u r a 等提出了模糊矢量量 化技术2 4 1 。源说话人输入频谱彳 ) 就不再唯一地量化成 ) ,而是表达为杉 ) 邻 m 域码向量的线性组合甜。形心) ,其中是由 ) 的模糊关系函数确定的系数。 a r s l a n 提出一种基于音素分段的码本转换算法心5 j ,较好地改善了转换信号连续语音帧 之间的过渡性能和转换语音质量。这种方法采用语句h m m 分段法代替d t w 方法做音素对 准,因而对准精度较高,鲁棒性较好。 还有一些改善码本映射算法性能的工作,文献 2 6 使用一个三层的神经网络实现 频谱插值法通过几个说话人语音频谱之间插值确定转换语音频谱以提高系统的鲁棒 性类似算法在文献 2 7 中也有描述。 ( 2 ) 混合高斯映射 采用概率统计方法改善转换语音的自然度和目标说话人特征倾向性,在近十几年 来的声音转换技术研究中占有重要位置。s t y l i a n o u 用高斯混合模型( g m m ) 反映源特 征分布和目标特征概率分布之间映射关系哺1 。一个高斯混合模型被用来拟合源特征 向量_ 3 c 的概率分布,对源特征空间做“软”分类,表示如下: p g ) :芝吼n ( x ;z 。,l 芝:1 ,口。o ( 2 9 ) ,= l# l 其中,n ( x ;l - t ,) 为第f 个抽象声学类的正态分布,聊为高斯混合成分( m 议t u r e ) 的 数目,口,为第i 类的权系数。根据贝叶斯理论,给定观察向量x ,它属于第i 类的概率 为 帕,2 翥黯口,b ;一,) ( 2 1 0 ) 基于v q 模型和b p 网络的高自然度语音转换第二章语音转换技术分析 参数 ,) 由e m 算法来估计。转换函数表示为: m y = ,g ) = 忽g p ,+ r f g 一,) 】 ( 2 1 1 ) 在源特征和目标特征相对应的基础上,通过求解最d , - 乘问题的正态方程估计每一个 局部变换函数的参数v 。和r f ,使在全部学习数据上的转换误差达到最小: 占= e | j y 一多| 1 2 ( 2 1 2 ) 量x 和目标向量y 构成的联合向量z = b r ,y r r 的概率分布p g ,y ) 。由给定x 寻 找陟旧来预测一个回归y : y “:e 川:熬g 下? + - 区_ ,1 g 叫) ( 2 1 3 ) = e 陟l x 】= 办,g ) | ? + - 匹_ j1 b 一? ) i ( 2 办,g ) :掣魁 ( 2 口,n 【x x ,彳) 其中,x 和p ,y 分别表示源、目标说话人第f 类的均值向量,_ 表示源说话人第f 类 的方差, _ 表示源说话人和目标说话人第f 类的互方差。联合向量z 的第f 类的协 ;= 匿; ( 2 1 5 ) 小吲 与最d , - 乘法相比,联合概率方法理论上能使回归问题的高斯混合成分得到更合 理的配置,但在进行e m 算法运算时的计算量要大很多。试验表明,g m m 方法转换后 频谱具有过于平滑的缺点。 ( 3 ) h m m 自适应 在有些语音合成系统中,声音转换算法采用了语音识别系统中广泛使用的说话人 基于v q 模型和b p 网络的高自然度语音转换 第二章语音转换技术分析 自适应技术川1 ,如最大似然线性回归( m l l r ) 眨柏,最大后验概率( m a p ) 1 2 9 1 、向量场 平滑( v f s ) 1 3 0 1 。在基于h m m 的t t s 系统中,这种转换算法的基本原理是,音素作为 语音合成单元,初始说话人的音素h m m 在训练阶段由观察向量训练而成。使用目标 说话人语音对说话人独立的音素h m m 做m l l r 自适应,从而使自适应后的音素模型 具有目标说话人特征。合成时,将待合成的给定文本转换为上下文相关的音素标记序 列。根据标记序列,由经过自适应后的音素h m m 单元拼接成语句h m m 。这种算法用 平均说话人声音取代了源说话人声音。而在h m m 插值法中,预先存储多个说话人的 h m m 参数集,这样各种说话人的语音由这些h m m 参数进行插值直接得到。 ( 4 ) 子空间映射 子空间映射法用标准的无监督聚类技术( 如v q ) 将说话人声学空间划分为多个不 相重叠的类,每一类语音对应于一个转换函数( 也称作局部函数) ,每个转换函数都表 述了这一类中源目标语音之间的映射关系,因此码本映射方案中的全局映射就被这 些局部函数所近似口。在文献 3 2 】中,v a l b r e t 提出了线性多变量回归( l m r ) 和动态 频率规整算法( d f w ) 两种子空间转换算法。线性多变量回归方法通过最小化每一类中 所有源目标向量对之间预测误差的均方值来确定各最优线性变换矩阵m : c := m ,: j :m i n 兰僻一硭) 2= n 僻一硭) 最优解为:m = c ;c s ( c ;c s ) - 1 ( 2 1 7 ) ( 2 1 8 ) ( 2 1 9 ) 其中,c ;,c ;和c :分别表示源倒谱向量、目标倒谱向量和由通过最小化性能指标 计算得到的最优化矩阵必变换而得的转换向量,c7 1 代表矩阵c 的转置,g 和g 分 别表示个p 维源向量和目标向量序列构成的矩阵。l m r 可解释成在源频谱向量为 高斯联合分布的假设下搜索目标向量期望值。 动态频率规整算法试图在同一声学类中找到源目标语音频谱的映射路径。首先 计算每一源、目标说话人的对数幅度谱,从中去除频谱下倾。对归一化后的源、目标 频谱采用一种频率规整算法,获得一条源目标向量对应关系的规整曲线。每一类中 规整函数的数量等于这一类的源目标向量对数目。计算这一类中的平均规整函数, 基于v q 模型和b p 网络的高自然度语音转换 第二章语音转换技术分析 用一个三阶多项式来表示。d f w 算法能在频域改变频谱形状,因此它能调整共振峰 频率及其带宽,而其幅度几乎不受影响。 s i t n d e r m a n n 提出一种声道长度归一化频率规整的转换算法与常规声音转换算法 不同,这种方法并不要求源和目标说话人的训练语句的内容必须相同。基本思想是: 分别将源、目标说话人的语音分成k 。和k r 个人工语音学类这个过程由基音同步语音 帧的频谱聚类得到,清音采用固定的伪周期基频。对于每一个源语音类k 。,用动态 频率规整技术确定最相似的目标语音学类k t ( 尼。) ,给定一个源频谱向量和v t l n 规整 函数形式,确定规整函数的最佳因子参数值,使规整后源频谱向量与目标频谱的为欧 式距离最小。这样就确定了类相关的v t l n 规整函数。 ( 5 ) 人工神经网络模型 一个具有非线性隐层的a n n 理论上能够逼近任意映射。n a r e n d r a n a t h 借助于由b p 算法训练的神经网络实现共振峰频率的变换【3 3 1 。其基本过程如下:在训练阶段,采用 最小相位群延迟函数法来提取前三个共振峰频率;将对应于源说话人( 男声) 的共振峰 频率( f 1 ,f 2 ,f 3 ) 作为网络输入,提取目标说话人( 女声) 语音对应帧的共振峰作为期望 输出,用b p 算法调整网络的权值。在转换阶段,将神经网络输出的共振峰频率和平 均基频由共振峰合成器生成转换语音。除了采用b p 网捕获源目标说话人声学特征之 间的非线性映射关系以外。径向基( r b f ) 网络也可实现说话人之间的频谱变换。训练 时,从训练集中分别抽出以l p c 频谱表示对应的源说话人和目标说话人的语音单元, 分别作为r b f 网的输入和输出,采用最小二乘法最小化实际输出与期望输出的均方差 来调整网络的联结权值。 ( 6 ) 各频谱转换模型的评价 向量量化法将源、目标语音的特征空间进行了划分,找出他们之间的映射关系, 但是这种量化硬分类法,会造成转换语音频谱的不连续性。a r s l a n 的加权码本转换算 法较好地改善了转换信号连续语音帧之间的过渡性能。 在子空间映射算法中,d f w 算法能在频域改变频谱形状,因此它能调整共振峰 的位置及带宽,但不能改变其幅度。l m r 在转换共振峰位置时,改变了共振峰的幅 度和带宽,但是转换性能比d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民爆行业安全培训内容课件
- 民法课件模板
- 民法合同课程讲解课件
- 初一历史期末考试及答案
- 报关实务考试题库及答案
- 新质生产力与传统产业的融合
- 民族资产阶级革命课件
- 医护家属关系管理
- 新质生产力的多元主体
- 促进新质生产力发展的关键举措
- 2025年中国电信招聘考试行政职业能力测试预测题集
- 静脉治疗知识培训课件
- 学风建设科研诚信宣教课件
- 2025繁轩科技发展(天津)有限公司公开招聘工作人员35人备考题库及答案解析
- 2025年度水电项目工程结算与审计服务协议
- 《机械制图(多学时)》中职全套教学课件
- 2024过敏性休克抢救指南(2024)课件干货分享
- GB/T 3452.2-1987O形橡胶密封圈外观质量检验标准
- 部编版三年级语文上册第2课《花的学校》精美课件
- 遥感大数据应用解决方案课件
- (精选word)洪恩识字-生字卡片1-200
评论
0/150
提交评论