(信号与信息处理专业论文)基于分类映射的非并行语料语音转换.pdf_第1页
(信号与信息处理专业论文)基于分类映射的非并行语料语音转换.pdf_第2页
(信号与信息处理专业论文)基于分类映射的非并行语料语音转换.pdf_第3页
(信号与信息处理专业论文)基于分类映射的非并行语料语音转换.pdf_第4页
(信号与信息处理专业论文)基于分类映射的非并行语料语音转换.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于分类映射的非并行语料语音转换 中文摘要 基于分类映射的非并行语料语音转换 中文摘要 语音转换是指通过改变与源说话人个性特征有关的声学特征参数,使之听起来像 是目标说话人的语音,而其中的语义是不发生变化的。传统的语音转换需要采用并行 语料,训练源目标说话人语音模型,得到语音转换规则;但实际应用中很难获得并 行的语料,本课题研究一种基于分类映射的非并行语料的语音转换,改变的声学特征 参数为基音和谱包络,主要内容包括: 1 研究s t r a i g h t 分析与合成算法,基于s t r a i g h t 平台调整与说话人个性 特征有关的参数。 2 采用非平行语料,由s t r a i g h t 提取傅立叶短时谱和基音频率f o 。谱包络 基于k 均值分类,然后采用d f w 进行分类映射并组成联合特征矢量,最后采用g m m 模型训练得到转换函数 3 给出基于分类映射的非并行语料语音转换系统总体框架,并编程实现整个系 统。 最后通过a b x 和m o s 实验表明论文提出的语音转换方法可以得到与传统的并 行语料语音转换接近的转换性能,转换语音的目标说话人识别正确率达到9 5 5 。实 验结果充分说明了本课题提出的方法不仅具有较好的转换性能,而且更具有实用性。 关键词:语音转换,非并行语料,分类映射, s t r a i g h t 作者:潘渊 指导老师:俞一彪 n o n p a r a l l e lv o i c ec o n v e r s i o nb a s e do nc l a s sm a p p i n g n o n p a r a l l e lv o i c ec o n v e r s i o nb a s e do nc l a s sm a p p i n g a b s t r a c t v o i c ec o n v e r s i o nt e c h n i q u ea t t e m p t st om o d i f yt h es o u r c es p e a k e r sv o i c et os o u n da s i fi tw a su t t e r e db yt h et a r g e ts p e a k e r v o i c ei n c l u d e ss e m a n t i ci n f o r m a t i o na n dt h e s p e a k e r si n d i v i d u a li n f o r m a t i o n i nv o i c ec o n v e r s i o nt h ea c o u s t i cp a r a m e t e r sr e l a t e dt o s p e a k e r si n d i v i d u a l i t ya r et r a n s f o r m e dw h i l em a i n t a i n i n go r i g i n a ls e m a n t i ci n f o r m a t i o n , m a k i n gt h en e w l ys y n t h e s i z e dv o i c ei sc l o s e rt ot h et a r g e ts p e a k e r c o n v e n t i o n a lv o i c e c o n v e r s i o ns y s t e m sa r eu s u a l l yb a s e do np a r a l l e ls p e e c hc o r p u sa n dj o i n tt r a i n i n ga n dt h e n d e r i v et h ea p p r o p r i a t ev o i c ec o n v e r s i o nr u l e s ,b u ti ti sd i f f i c u l tt og e tp a r a l l e ls p e e c hd a t a a n di n f l e x i b l et oe x t e n ds y s t e mi na p p l i c a t i o n i nt h i sd i s s e r t a t i o n ,v o i c ec o n v e r s i o nb a s e d o nc l a s sm a p p i n gi sp r o p o s e d ,t h em a i nw o r ka sf o l l o w s : 1 r e s e a r c hs t r a i g h ta n a l y s i sa n ds y n t h e s i sp l a t f o r m , t h e nu s es t r a i g h tt o m o d i f yt h ea c o u s t i cp a r a m e t e r sr e l a t e dt os p e a k e r si n d i v i d u a l i t y 2 p r o p o s ean e wm e t h o do ft e x t - i n d e p e n d e n tv o i c ec o n v e r s i o nw h i c hu s e sn o n - p a r a l l e l c o r p u sf o rt h et r a i n i n g t h eg m mi su s e dt or e p r e s e n tt h ep h o n e t i cs t r u c t u r eo fs o u r c ea n d t a r g e ts p e a k e r sb ym a p p i n gt h eg m m s t a t e sb e t w e e ns o u r c ea n dt a r g e ts p e e c h e s 3 g i v e nt h ef r a m e w o r ko fu n - p a r a l l e lv o i c ec o n v e r s i o nb a s e do nc l a s sm a p p i n g ,a n d p r o g r a m m i n gt h ee n t i r es y s t e m t h ea b xa n dm o s e x p e r i m e n t ss h o wt h a tt h ep r o p o s e dm e t h o dh a st h ee q u i v a l e n t c o n v e r s i o np e r f o r m a n c ea sc o n v e n t i o n a lm e t h o d , a n dt h e s p e a k e rr e c o g n i t i o nr a t eo f t r a n s f o r m e dv o i c er e a c ht o9 5 5 a l li na l l ,t h em e t h o dp r o p o s e di nt h i sd i s s e r t a t i o nn o t o n l yh a sag o o dc o n v e r s i o np e r f o r m a n c e ,b u ta l s om o r ep r a c t i c a b i l i t y k e y w o r d s :v o i c ec o n v e r s i o n ,t e x t i n d e p e n d e n t ,c l a s sm a p p i n g ,s t r a i g h t w r i t t e n b y :p a ny u a n s u p e r v i s e db y :y uy i b i a o n 基于分类映射的非并行语料语音转换第一章绪论 第一章绪论 1 1 课题研究背景及选题意义 语音,是指人类通过发音器官发出来的、具有一定意义的、目的是用来进行 社会交际的声音。通过语音传递信息是人类交流方式的第一选择。同样,人们希 望能用语音的方式与计算机这样的机器进行交流。用语音与机器对话,让机器听 懂,理解人们的语音。人与机器的语音交流大致分为两种情况:第一种情况就是 机器讲话,人听话,这就是“人工嘴巴”即语音合成;第二种情况就是人讲话,机 器听话,这即是“人工耳朵”,即语音识别和理解。随着计算机技术和人工智能技 术的发展,这样的语音信号处理技术日益走入人们的生产、生活之中。 语音信号处理除了上述的语音合成,语音识别外,还包括语音编码说话人识 别、语音转换、语音增强等。语音转换是语音信号处理中一个比较新的分支,语 音转换技术就是要保留语义内容不变,改变说话人声音特性的技术,使得某人的 声音听起来像是由另一人个说出来的f l 】。语音转换的研究几乎对语音信号处理的 其他各个领域都会有一定的贡献。具体来说,语音转换的研究意义有如下几个方 面: ( 1 ) 在语音合成领域中,文语转换系统要想增加一个新的发音人,必须录制 一个新的发音人的语音库。这是很费时费力的,同时,增加一个语音库也会相应 地增加存储空间。通过语音转换,我们只需要将t t s 合成的语音通过一个语音 转换系统,就可以合成出多样的语音。 ( 2 ) 语音转换时要对语音进行详尽的分析,如何建立嗓音源模型,研究模型 中各参数的变化规律和语音的韵律特征之间的规律,研究共振峰的位置、宽度和 幅度对话音的影响等,这方面的工作对语音合成、语音增强方面的研究有帮助。 ( 3 ) 在娱乐方面的应用:电影、电视节目的配音中,可以将原演员的声音特征 加入到本地化电影配音中,使之更具原汁原昧。 ( 4 ) 在医疗方面的应用:声音转换技术可以用于恢复受损语音,帮助声道受损 第一章绪论基于分类映射的非并行语料语音转换 的说话人提高声音的可懂度。 ( 5 ) 在保密方面:用于保密通信中进行语音个性化的伪装。 1 2 语音转换的国内外研究动态及存在问题 语音转换的研究工作最早从上世纪7 0 年代开始己有三十多年的历史,但对 它的研究工作近十几年才引起人们的注意,一些语音学工作者相继在这方面作了 很多工作。但目前还没有找到一种能够对任意说话人特征进行转换的方法;大多 数说话人转换的研究都将重点放在对语音短时参数的修改上,就是逐帧地将源说 话人的参数空间映射到目标说话人的参数空间上,尤其是声道特征参数和基音频 率。 1 9 7 1 年,a t a l 和h a n a u e r 使用l p c 声码器研究了改变说话人语音特征的可 行性【2 】。在2 0 世纪8 0 年代初期,s s e n e f f 通过估计频谱包络的方法,将语音信 号解卷积,得到语音信号的激励,这一方法避免了提取基频的过程而可以实现对 语音波形的基频和频谱包络进行操作,从而实现了说话人转捌3 1 。在1 9 8 4 年, h k u w a b a r a 采用分析合成方法来进行说话人转换,研究了影响语音个人特性和 话音质量的声学参数,他通过线性预测解卷积算法将语音信号分解为嗓音源信号 和声道传输函数,通过求解声道传输函数的零点得到共振峰的位置信息,改变共 振峰的位置和宽度,采用线性预测的残差信号作为激励来合成语音【4 】。d g c h i l d e r s 采用基于固定长度帧的非基音同步的方法和与信号相关的方法来进行分 析,并采用了脉冲信号、三角波信号、f a n t 的嗓音源信号、l f 微分声门波信号 以及d e g g 信号作为激励源,通过线性频谱搬移和分析合成的方法,进行了男 女音之间的说话人转换,取得了较好的效果 5 】。他还分析了不同类型语音声门波 的特性,通过模拟不同类型的声门波,采用共振峰合成器来合成语音,实现了不 同类型语音( m o d a l ,v o c a lf r y 和b r e a t h y ) 之间的转换 6 1 。前期的这些研究工作,主 要是研究如何提取语音特征的参数,并对这些特征参数进行独立地转换,从而构 造出新的合成语音,这些研究为说话人转换在语音模型上奠定了基础。 1 9 8 8 年a b e 等人提出了第一个比较成熟的说话人转换系统【7 1 。为了进行谱 包络的转换,该系统采用了矢量量化技术和码本映射的方法,用码本来表示不同 2 基于分类映射的非并行语科语晋转换第一章绪论 说话人的频谱特征,然后用说话人的语音库进行训练,在不同的说话人之间建立 谱包络、能量和基音频率之间的映射关系。最后利用码本映射对语音参数进行转 换,最后用l p c 声码器合成出转换语音。 1 9 9 1 年s a v i c 提出了一种类似的方法,只是转换模型用多层神经网络代替了 码本映射,结果转换语音的质量有比较大的提高,这一鼓舞人心的结果对说话人 转换的进一步研究起到了推动的作用 8 1 。但是由于仍然采用了传统的l p c 声码 器,合成语音的质量还是很有限的。 1 9 9 2 年v a l b r e t 等人提出了基音同步叠加p s o l a ( p i t c hs y n c h r o n o u so v e r l a p a n d a d d ) l 拘算法来取代l p c 声码器来进行残差信号的转换嘲。该方法采用p s o l a 对激励信号进行转换和时间上的对齐,此外还采用多元线性回归l m r ( l i n e a r m u l t i v a r i a b l er e g r e s s i o n ) 和动态频率归整d f w ( d y n a m i cf r e q u e n c y w a r p i n g ) 的方 法来实现谱包络的转换。由于突破了传统l p c 声码器带来的限制,实验表明用 此方法转换后的语音质量有所提高。 1 9 9 8 年s t y l i a n o u 首次提出用高斯混合模型g m m ( g a u s s i a nm i x t u r em o d e d 来 进行谱包络的转换 1 0 1 ,并提出用谐波加噪声模型h n m ( h a r m o n i cp l u sn o i s e m o d e l ) 来进行时间长度和基音频率的转换。s t y l i a n o u s 通过构造一个描述源说话 人特征参数空间的g m m 模型,来对特征参数进行分类。然后根据均方误差最小 的原则估计出混合线性转换函数的参数,转换后的语音谱包络不像矢量量化那样 是一些离散的点,也是连续的。矢量量化其实本质上是一种简化的g m m 模型, 实验证明g m m 模型比基于矢量量化的方法更有效,并且更具鲁棒性。 1 9 9 9 年,a r s l a n 利用音节语速持续时间和音量码本映射的方法进行了源一 目标说话人的语速、音量的转换【1 1 】。2 0 0 2 年,c e y s s e n s 等人提出一种确定和随机 性混杂的基频建模方案 1 2 】。2 0 0 3 年,g i n c t 提出了对基频轨迹逐段线性映射的方 法【1 3 1 。 国内的学者也展开了大量语音转换的相关研究。中科院自动化所、声学所、 微软亚洲研究院、的以及清华大学等单位针对不同的特征参数对语音转换效果的 影响也展开了一定的研究。初敏等人采用t d p o s l a 的方法进行男女语音转 换的研究1 4 1 。双志伟提出了基于汉语音素的码本映射算法 1 5 】。吕声利用一个基 1 第一章绪论基于分类映射的非并行语料语音转换 于高斯混合模型的转换函数,通过转换线性预测模型的线谱频率参数,实现谱包 络的转换,另外还提出了一种基于音素的混合高斯( g m m ) 转换方法【1 6 1 。左国玉 提出了使用遗传算法训练的神经网络来获取源一目标说话人频谱特征之间映射 关系的转换方法【1 7 】。黄德智提出了对浊音和清音分别建模的方法来提高重建语音 的清晰度和可懂性【1 8 】。康永国提出了混合高斯模型和码本映射相结合的语音转换 算法【1 9 】。 以上这些学者从不同角度,采用不同方法对语音转换技术展开了研究,我们 应该借鉴前人的成果,对现有的技术进行改进、融合或创新,提高语音转换的质 量,并将其应用于实际生活中,进一步推动人机交互的发展。 1 3 本文的主要工作 在具有并行语料库的基础上,这些传统的语音转换算法通过某种匹配误差最 小的优化准则,比如最小均方误差准则,来求取转换函数的参数,利用转换函数 实现源说话人特征空间到目标说话人特征空间的映射。但很多情况下,很难或根 本不可能录制到并行的语料库,那么怎样在现有的基础上进行非并行语料的语音 转换就是本人研究的课题。 1 4 论文的结构安排 本论文的其他各个章节的内容安排如下: 第二章介绍了语音转换的理论基础,主要包括语音信号的基本特性,语音转 换系统的基本结构等。在描述语音信号的基本特性时,给出了语音信号产生的数 字模型,重点描述了语音转换系统的基本原理,并分节介绍了语音转换的关键技 术,包括语音分析合成模型、特征参数及转换方法。 第三章重点介绍基于分类映射的语音转换过程。语音输入后由s t r a i g h t 提取傅立叶短时谱和基音频率f 0 。谱包络基于k 均值分类,然后采用d f w 进 行分类映射并组成联合特征矢量,最后采用g m m 模型训练得到转换函数。转换 阶段,将测试语音根据语音转换规则进行短时谱转换,转换得到的目标说话 m p c c 短时谱特征参数需要再反变换为傅立叶短时谱,并结合转换后的f 0 ,由 4 基于分类映射的非并行语料语音转换 第一章绪论 s t r a i g h t 合成输出目标说话人语音。 第四章介绍了语音转换系统实现并对实验结果进行分析。利用主观评测 a b x 、m o s 方法以及客观的频率谱误差系数脚p 对实验结果进行测评。 第五章对自己的工作进行总结与并对语音转换技术做出展望。 第二章语音转换理论基础基于分类映射的非并行语料语音转换 第二章语音转换理论基础 2 1 语音信号的基本特征 2 1 1 语音信号的发音系统及其模型 人类用来产生语音的发音器官自下而上包括:肺部( 1 u n g ) 、气管( t r a c h e a ) 、 喉( 1 a r y n x ) 、咽( p h a r y n x ) 、鼻腔( n a s a l ) 、口腔( o r a l c a v i t y ) 和上、下唇。它们作为整 体形成了一个连续的管道。其中喉部以上的部分称为声道,随着发出语音的不同, 其形状是变化的,喉的部分称为声门。肺是胸腔内的一团有弹性的海绵状物质, 它可以储存空气。通过正常的呼吸系统空气可以进入肺部,在说话时腹肌收缩使 横隔膜向上,挤出肺部的空气,形成气流。由肺部呼出的气流是语音产生的原动 力。气管将肺部排除的气流送到咽喉。喉部位于气管的上端,由4 块软骨组成, 包括甲状软骨、杓状软骨、环状软骨和会厌软骨。其中甲状软骨突出在颈部,称 为喉结。在喉部的从喉结到杓状软骨之间的韧带褶,称为声带( v o c a l c o r d s ) 。喉 部的声带既是一个阀门又是一个振动部件。一般声带的长度为l o m m 一1 4 m m 。如 图2 1 所示,呼吸时,左右声带打开;说话时声带合拢。两个声带之间形成一个 开闭自如的声门( g l o t t i s ) ,声门的开启和关闭是由两个杓状软骨控制,说话时合 拢的声带受声门下气流冲击而张开;由于声带具有一定的韧性,可以迅速闭合。 当气流通过气管和支气管经过咽喉时,收紧的声带由于气流的冲击产生振动,不 断地张开和闭合,使声门向上送出一连串喷流。这时的气流被截断成准周期的脉 冲,一般用非对称的三角波表示。声带的振动取决于其质量。质量越大,每秒振 动次数越小;反之,质量越小,声带震动越快。声带振动频率决定了声音的音高。 声带振动产生声音,这是产生声音的基本声源,称之为声带音源( g l o t t a ls o u r c e ) 。 声带音源被进一步调制后经过咽喉、口腔或者鼻腔。口腔的开合、舌头的活动和 舌腭的升降等发音动作,形成了不同的声道构形,从而发出不同的语音。最后, 由嘴唇开口处将语音辐射出去【1 7 】【1 8 】 1 9 1 1 2 0 。 6 基于分类映射的非并行语料语音转换第二章语音转换理论基础 啊 声f 1 气瞥 错凝穰 赣棱 图2 1 发音器官的部位和名称 2 1 2 语音信号的数字模型 要对语音信号进行转换,就要对语音信号的基本特征进行研究,主要包括语 音信号产生的数字模型和说话人特征。 下图2 2 给出的语音信号产生的基本模型由g f a n t 在1 9 6 0 年提出,是一直 沿用至今,最成功的语音产生模型【2 0 】。 ; 图2 2 语音信号产生的基本模型 根据f a n t 的语音产生模型,语音产生过程主要分为三个部分:声源激励、 声道调音和口鼻辐射。语音的这三个发音过程是和我们的发音器官一一对应的。 ( 1 ) 声源激励主要对应着肺、气管、声带等器官。从肺中呼出来的气流是 7 第二章语音转换理论基础基于分类映射的非并行语料语音转换 语音产生的原动力。发清音时,声带是不振动的,对应的嗓音源是一 种类似白噪声的随机噪声:发浊音时,两片声带间形成的声门有规律的 迅速开合振动,形成一种周期性的嗓音源,其振动频率通常被称为基 频( f u n d a m e n t a lf r e q u e n c y ) 。 ( 2 ) 声道调音主要对应着咽腔、鼻腔和口腔等发音器官。口腔的开合,舌 头的活动,软腭的升降等调音动作,形成了不同的声道共振结构,从 而调出不同的语音。声道的频率响应的峰值被称为共振峰,表示一个 元音大约需要2 3 个共振峰。 ( 3 )口鼻辐射对应嘴唇和鼻腔开口将语音辐射出去。辐射有提升高频的作 用,其提升幅度大约为每倍频程6 d b 。 在这一系统中,可以将嗓音源等效为激励信号,将声道调音过程等效为一个 线性时变因果稳定的滤波器,将嘴唇和鼻腔辐射等效为一个微分作用。作为系统 输出的语音信号是线性时变因果稳定系统受到激励信号激励,经过嘴唇和鼻腔辐 射后而产生的。 语音按其激励形式的不同大致可以分为三类。当气流通过声门时,如果声 带的张力刚好使声带产生张弛振荡式振动,产生一股准周期脉冲气流,这一激励 声道就产生浊音( v o i c e ds p e e c h ) 或称为有声语音。如果声带不振动,而在某处 收缩,迫使气流以高速通过这一收缩部分而湍流就产生清音( u n v o i c e ds p e e c h ) 或摩擦音,或称无声语音。如果声道在完全闭合的情况下突然释放就产生爆破音 ( p l o s i v es p e e c h ) 。 人的声道和鼻道都是非均匀的声道管,声道管的谐振频率称为共振峰频率, 简称为共振峰。它与发音器官的确切位置有很大的关系,即共振峰和声道的形状 与大小有关。当发音时,激励和声道形状都是随时间而改变的,但在一个短时间 范围内( 1 0 3 0 m s ) 其特性基本保持不变即相对稳定,即语音信号具有短时平 稳性。在发浊音时,激励为准周期脉冲;在发清音时,激励为随机噪声。因而可 以设想,语音的数字模型是一个缓变的线性系统,这个线性系统的参数在1 0 - - 3 0 m s 的时间范围内是近似不变的。 在语音信号处理中常用的模型是全极点模型,浊音激励模型可以表示为: 8 基于分类映射的非并行语料语音转换第二章语音转换理论基础 u ( z ) = g ( z ) e ( z ) = 1 一z 。( 1 - g , z 。1 ) ( 1 一9 2 z 。1 ) 其中g l 1 ,g :1 ,4 是调节浊音的幅度或参量参数。 ( 2 1 ) 清音激励模拟成随机白噪音。 声道模型的共振峰特性可表示为 y ( z ) : :1 ,q 为实数 ( 2 2 ) 1 一艺q z 一 其中p 是预测器阶数,g 是声道滤波器增益,q 是声道模型中的参数,随时 间变化。 辐射模型r ( z ) 与嘴形有关,可以表示为: r ( z ) = ( i r z 。1 ) ,1 ( 2 3 ) 语音信号的完整模型有三个子模型串联而成,其传递函数表示为: h ( z ) = u ( z ) y ( z ) 尺( z ) ( 2 4 ) 2 1 3 语音信号的个性特征 语音是语言成分的物理表示,人们通过语音感知语言成分,从而理解语言 成分。语音本质上是社会现象,但是它的形成还有其生理基础,并且它还具有一 系列的物理属性。人类的发音器官及其运动是语音的生理基础,我们发出的任何 一个音都是发音器官中的若干部分协同作用的产物。而不同的人,其发音器官的 各种物理参数,如声带的质量和体积,声道的长度和声道结构等等,是因人而异 的,这样形成了语音的丰富多彩的个人特性。另一方面,语音又和说话人的社会 地位、心理状态,受教育状况、方言等许多因素密切相兴2 。 通过对图2 1 的分析我们可以知道,语音的个人特性是由嗓音源和声道的 共同作用的结果,说话人的声学参数在很大程度上决定了说话人的个人特性。与 嗓音源有关的声学参数主要是表征声门波形状的各个参数。与声道有关的声学参 数主要是共振峰,包括共振峰的位置,宽度和幅度等等,它们决定了频谱包络的 9 墨三兰至童茎垫墨丝茔型苎王坌鲞堕墅箜j ! 堑堑重型至童整垫 形状。这一些与声源和声道有关的声学参数共同作用,在很大程度上决定了说话 人的个人特征。必须指出,语音的个人特性是嗓音源和声道共同作用的结果,嗓 音源参数和声道参数都是十分重要的,不存在唯一的声学参数携带所有的个人语 音的特征信息。 语音信号包含了许多类型的信息,首先是要传达的意思( 说的是什么) ,其 次是说话人的信息( 谁说的) ,还有环境信息( 在哪里说的) ,其中说话人的信息 表明了说话人的身份,是与语音的内容与环境是无关的。语音转换就是要在保留 一些信息的前提下,改变说话人的特征。说话人特征一般分为以下几种: ( 1 ) 声学特征 描述的是说话人语音的音色,包括共振峰的位置和带宽、谱的倾斜度、基 音频率f o 和能量曲线,这些特征主要依赖于发音器官的生理特性,也会受说话 人的情绪状态的影响。 ( 2 ) 韵律特征 主要是指说话的方式,例如音素的时间长短、音调和重音等,人们所感觉 到的就是说话的速率、音调和音量的变化。 ( 3 ) 语言特征 包括选词、方言和口音。这些特征不在本文讨论的范围之内,在选择语音 库的时候就要尽量减小这方面的影响。 研究发现,相同的音素具有不同的频谱特性,如女性语音的共振峰频率更 高,带宽更宽,f 0 更高,能量也较大。不同的音素所包含的说话人特征信息是 不一样的,其中元音和鼻音最多,其次是摩擦音,破擦音和爆破音。说话人的韵 律特征之一体现在音素的时间长短,停顿时间长短。韵律特征比较容易改变,比 如说话人可以放慢说话的速率,降低音量的大小等。相比之下,声学特征反映的 是发音器官的生理特性,可以认为是不变的。事实上,演员模仿的主要是韵律特 征,但是经过特殊训练后,演员可以通过改变声道或者声门的发音方式来模仿声 学特征,甚至于改变共振峰的位置和带宽。 本文研究所要转换的说话人特征集中在声学特征上。 1 0 基于分类映射的非并行语料语音转换第二章语音转换理论基础 2 2 语音转换基本原理 2 2 1 语音转换过程 在语音转换过程中包括两个阶段:训练阶段和转换阶段。 、,、+ 1 分析提取 分析提取 源说诂 语 人语音 参数 参数 立 目 上 转 上 i 对齐训练 i - 换 语音转换 + 规 l 。语音, 目标说 分析提取 则 话人语 参数 音 厶l - :p t 1 苜从 训练过程 : :转换过程 : 图2 3 传统声音转换系统结构图 在训练阶段,系统基于某个语音模型对源语音和目标语音进行分析并提取特 征参数,将这些特征参数进行对齐,再进行训练得到转换规则,转换规则就是捕 捉源语音和目标语音特征之间的对应关系。 在转换阶段,首先对原语音进行分析并提取特征参数,再根据在训练阶段得 到的声音转换规则进行转换得到转换的特征参数,由这些转换的特征参数合成出 最终的转换语音。 在训练阶段中,系统利用特定的语音模型,对源说话人和目标说话人的语音 信号进行分析,如图2 3 所示。通常采用的模型都是基于线性预测技术,提取的 是谱包络参数或共振峰参数,近来也有一些研究对谱包络以外的残差谱进行建模 和转换。不论哪一种转换算法都要进行语音分析,即提取语音模型的参数。之后 将相同语音的参数聚集在一起作为训练数据,常用的方法有动态时间归整 d t 、矿2 2 1 ,隐马尔科夫模型h m m e 2 3 1 和语音识别。转换函数描述的是源说话人和 目标说话人参数之间的统计关系,已实现的有码本映射2 4 1 ,离散转换函数,神经 网络圆和高斯混合模型。 l l 墨三雯堕童茎垫墨丝苎型茎王坌耋堕塾竺! ! 茎堡里型至童茎垫 在转换阶段中,系统利用训练后的转换利用源说话人的参数来预测目标说话 人的参数,最后再利用预测的参数来合成出转换后的语音信号。此外,还要调整 源说话人的韵律参数如f o 曲线、能量曲线和说话速率。其它一些韵律的细致特 征如语调等,基于现有的语音处理技术就很难提取和修改,通常都是手工提取, 不适合于自动转换。 2 2 2 语音转换技术三要素 一般情况下,语音转换技术的实现应该包含以下几个要素: ( 1 ) 语音模型:选定语音模型是语音转换技术的基础。模型类型一定程 度上规定了系统需要调整地参数,模型参数或特征由训练和转换过程中的语音分 析阶段获得。 ( 2 ) 转换函数:将源说话人的特征参数映射到目标说话人的特征空间中, 使这个新的特征参数的集合近似为目标说话人的特征参数的集合。不同的转换方 法会产生不同的转换函数。在训练阶段要通过训练得到源说话人到目标说话人特 征空间的映射规则( 转换函数)。在转换阶段,用这些转换函数用源说话人到 目标说话人的特征参数进行转换,得到转换的特征参数,再合成出转换语音。 ( 3 ) 语音库:在训练过程中用于训练数据和性能评估时用于测试的语音句 子集合。 一、语音模型 语音模型的选择在语音转换系统的实现过程中是非常重要的,只有选择了合 适的语音模型,才能够准确提取语音频谱包络特征和韵律特征,并有效的实现频 谱包络和韵律特征的控制和转换。 研究表明语音信号的分段特征( 如短时谱特征) 和动态特征( 如说话速率 和平均基频) 就足以区分不同的说话人。目前大部分的语音转换系统都把重点放 在短时谱包络的转换上,然后再调整源说话人的基音频率、能量和说话速率,使 之与目标说话人的相匹配。因此语音转换系统在对语音进行处理时,基本上是以 帧为单位。此外也有其它的方法,如以整个音素为单位进行转换。在说话人转换 系统中应用比较成功的短时谱模型就是激励源加滤波器模型,用一个变化比较缓 1 2 基于分类映射的非并行语料语音转换第二章语音转换理论摹础 慢的滤波器来近似声道的谱包络特性。通常用线性预测来求模型的参数,即线性 预测系数l p c 。这些参数通常变换为其它形式的参数以满足所需要的性质,如参 数之间插值的性质,这些参数包括倒谱系数、线谱频率l s f 和对数面积比等。 对l p c 谱的进一步分析还可以得到共振峰频率及带宽。用l p c 滤波器进行 逆滤波可以得到l p c 残差信号。由于去除了语音信号中声道部分的特征,所以 残差信号类似于声门激励信号。在残差信号中也包含了一些说话人的特征,所以 也有研究者将残差信号进行转换来提高说话人转换系统的性能,例如v a l b r e t 等 人提出了动态频率归整d f w 的方法直接对幅度谱进行转换【2 1 1 。动态频率归整的 目的就是要找到一个最优的非线性频率归整函数来模拟说话人特征的变化。 a r s l a n 等人提出了一种基于分段码本的转换滤波器的方法来进行残差信号的转 捌2 2 1 。转换滤波器由不同的激励滤波器进行加权求和得到,而每个激励滤波器均 来自源说话人和目标说话人残差谱。但由于在频谱转换时,谱包络和残差谱是按 同一分类标准进行的,所以也带来了一些问题,实验发现必须结合共振峰带宽的 修改才能提高转换语音的质量。 二、转换函数 转换函数的目标是要描述说话人之间的特征差异。即使在说同样的话,不同 的说话人说的音节的时间长度也不一样,所以在转换函数训练之前,必须将特征 参数序列进行分组或在时间上对齐。在说话人转换中常用的时间对齐方法是 d t w 算法,但也可以利用语音的标注信息,如h m m 模型的状态信息,还可以 用语音识别系统来进行强制的对齐。在早期的说话人转换研究中,经常使用映射 码本的转换技术。所谓映射码本,就是目标说话人的码本与源说话人的码本之间 有一一对应的映射关系。在生成映射码本时,先用矢量量化算法分别训练出源说 话人和目标说话人的码本,然后用d t w 算法得到一个表明源说话人参数矢量与 目标说话人参数矢量之间关系的直方图。映射码本就是目标说话人的参数矢量以 直方图作为加权系数的线性叠加。映射码本的主要问题就参数矢量是离散的,不 能保证合成语音的连续性。为了克服单纯矢量量化的缺点,提出了加权矢量量化 和模糊矢量量化的方法。这些技术都是将输入矢量表示为邻近矢量的线性叠加, 而不是最近的那个矢量,所以可以改善合成语音的质量。也有方法针对不同的语 1 3 墨三雯至童鳖垫墨丝茎型茎主坌耋堕塾堕! ! 茎堡堡型至童茎垫 音类型,使用不同的转换函数,称为离散转换函数。s t y l i a n o u s 通过构造一个描 述源说话人特征参数空间的g m m 模型,来对特征参数进行分类。然后根据均方 误差最小的原则估计出混合线性转换函数的参数【2 3 1 。矢量量化其实本质上是一种 简化的g m m 模型,实验证明g m m 模型比基于矢量量化的方法更有效,并且更 具鲁棒性。与其它方法,g m m 模型能取得和人工神经网络,线性回归等相近甚 至更优的性能。利用g m m 模型来进行线性回归的方法,通过建立源说话人和目 标说话人特征参数联合概率密度的g m m 模型,来产生最终的转换函数。 三、语音库 语音库是一个已录制的语音数据集合,包括各种语音波形和相应的辅助文 件。建立语音库的目的是为语音转换系统的设计、训练和测试提供所需的语音数 据。在系统训练时,要为转换函数的训练提供适当的语音数据,同时也为转换系 统的主观和客观性能评价提供测试数据。 在设计语音转换系统的语音库时需要考虑以下四个方面的问题: ( 1 ) 数据库大小指的是数据库中每个说话人可用的语音数据的多少。 ( 2 ) 涵盖的音素指的是说话人所说的语句覆盖所有可能的音节的程度,如要包 括所有音素等。 ( 3 ) 说话人的个数对于语音转换系统来说,在越多的说话人之间进行测试就越 有利于系统的评估,转换结果才更具有普遍意义,所以应该包含尽可能多的说话 人。 ( 4 ) 时间对齐在训练语音转换系统的过程中,必须将源说话人和目标说话人相 同的语言特征关联起来,所以应采用不同说话人尽可能相同的语句。 2 3 语音转换的关键技术 不管采用何种方法来进行语音转换,都是通过改变声道频谱响应和激励源的 参数,使它们与目标语音尽可能一致。下面就介绍一下语音转换中常用的声道频 谱响应和激励源的模型和修改方法 2 3 1 声道模型 1 4 基于分类映射的非并行语料语音转换第二章语音转换理论基础 一、线性预测( l p c ) 分析 维纳于1 9 4 7 年首次提出线性预测( l i n e a rp r e d i c t i o n ) 口6 1 的概念。线性预测是 语音信号中的一项很重要的技术。线性预测的主要思想是:一个语音的抽样能够 用过去若干个语音抽样的线形组合来逼近。通过使实际语音抽样和线性预测抽样 之间的差值在某个准则下达到最小值来决定唯一的一组预测系数。 线性预测分析可以和语音信号数字模型联系起来,可以用准周期脉冲或白噪 声激励一个线性时不变系统( 声道) 所产生的输出作为语音模型。如图2 4 激励e ( n ) 声道滤波器 语音s ( i h ( z ) 图2 4l p c 语音产生模型 根据语音信号产生的数学模型,语音信号s ( z ) 是激励信号e ( z ) 通过一个线 性时不变系统v ( z ) ( 声道) 所产生的输出,如图2 4 ,即s ( z ) = e ( z ) v ( z ) m ) 2 万s ( z _ a 莲g 了 协5 ) 其中p 是预测的阶数,q 为l p c 模型参数,g 是一个非负数,用于控制输 出信号的幅度的大小。由z 域转换到时域得到差分方程为: 在估计l p c 模型参数q 时,下式称为线性预测器: 预测误差s ( 刀) 为: ( 2 6 ) ( 2 7 ) a 占( ,z ) = s ( n ) - s ( n ) ( 2 - 8 ) 线性预测分析要解决的问题就是在给定语音信号时,估计出最佳的q ,使得 预测的均方误差e p 2 ( 聆) 最小。求解q 的方法主要有d u r b i n 法,b u r g 法,格形 d 一聆 l s q p耐 + 、j 玎 ,l = 、, 行 ,l s 力 一玎 ,l j q p 鲥 = 、, s 第二章语音转换理论基础基于分类映射的非并行语料语音转换 法等。 二、l p c c l p c c :线性预测倒谱系数( l m e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t ) 。这个系 数可以体现每个人特定的声道特性。 本文采用的l p c c 的计算方法是依据全极点模型对l p c 参数进行递推,形 成l p c 倒谱,整个过程如下: 声道传输函数v ( z ) 在r ( z ) 的冲激响应下得到语音信号s ( 刀) : s ( n ) = g u ( 刀) + a j s ( n - j ) 由于式( 2 9 ) 中,第二项远大于第一项,所以语音信号近似为: s ( 刀) 兰a j s ( n - j ) 语音信号预测误差的时域和z 域表达式为: ( 2 - 9 ) ( 2 1 0 ) p p ( 刀) = s ( 刀) 一a j s ( n - j ) ,= l = s ( 玎) 一a i s ( n 一1 ) 一a 2 s ( n 一2 ) 一一唧s ( 刀一尸) ( 2 - 1 1 ) e ( z ) = s ( z ) 么( z ) ( 2 - 1 2 ) 线性预测的目标是找到一组线性预测系数吩,j = l ,2 ,p ,使得均方误差和 q = p 2 ( 甩) 最小,如式( 2 1 3 ) 所示: a l 口2 : a e :一1 c 其中谚,- - e s ( n - i ) s ( n - j ) ,且c = 谚 o o 在计算出线性系数后,声道滤波器z ( z ) 就由p + 1 个参数给出: 1 6 ( 2 1 3 ) 基于分类映射的非并行语料语音转换第二章语音转换理论基础 y ( z ) 2 丽g ( 2 - 其中乃,y = l ,2 ,p 是线性预测系数,p 是预测阶数,g 是增益。 倒谱系数定义为数谱的傅里叶反变换,如式( 2 1 5 ) 所示: 巳= 互1 。1 o gy ( 扩p d 缈 ( 2 - 1 5 ) 倒谱系数q 可以直接由线性预测系数求得,公式为: :+ = 1m i n 乙p , n c n 一( 刀一_ ,b 一,乃 2 。1 0 ) 2 + 一乙l 刀一_ ,一一,口, 。 j 胛j i 。 由公式计算的倒谱系数称为复倒谱系数。 2 3 2 激励源模型 我们用语音信号经过线性预测后的残差信号来近似激励源信号。用此方法, 就必需逐帧计算声道滤波器的系数,然后进行滤波提取激励源信号。图2 5 、图 2 6 为简单的逆滤波的输出结果。对于浊音信号,大多数算法的输出为声门脉冲 的近似信号。其中噪声成分已被低通滤波器滤除。 。e 。山j 刖6叫“止溘h 妇: ”叩1 。叩呷i 郦 i f 明甲硼 啊p f ,0 o5 薯 篆a 与 t 0 一 j l 一一j l 一j 一i 一一。ll 上 r 。f ”7 。厂r 7 1 f r 1 7 厂”r l ,一r f 1 uj u u1 u u u1 0 u j2 0 u ou0 u u1 l u u1 0 z j j _ l j s a m p l es a m p l e 图2 5 清音时域信号图图2 6 浊音时域信号图 最简单的激励源模型为清浊音的二元模型,对于浊音女n a 、l e l 等,语音信 号存在较强的周期性,此时激励信号可以近似成间隔为基音周期的脉冲序列。对 于清音如s 、s h 等,其可以用白噪声来很好地近似激励信号。 2 3 3 高斯混合模型法( g m m ) s t y l i a n o u 和a l e x a n d e r 采用高斯混合模型法来实现频谱包络的转换。 在训练阶段用g m m 法分别对源说话人和目标说话人的声学空间分q 类建 1 7 第二章语音转换理论基础基于分类映射的非并行语料语音转换 模,如式( 2 ) 为对源说话人声学空间进行建模 qq 尼刎( x ;口,) = a q n ( x ;, u q ,g ) ,= 1 玛o ( 2 1 7 ) g = lg = 1 表示x 由g 类产生的先验概率,n ( x ;t u q ,。) 表示具有均值向量心和协方 差矩阵。的n 维正态分布。模型参数位,) 可以用期望最大e m 法进行估算。 在转换阶段,首先求源语音特征向量x 由第g 类产生的概率p ( 白l 功,其计 算可由贝叶斯准则得到,如式( 3 ) p ( 勺陪夏o t q 雨n ( x 面;, t q , y :习) 口, 转换函数为:,( x ) = 芝p ( 白i x ) ( 联+ # i l o 一所) ) 其中。= 至霎至爹 ;心= 墨 2 4 语音转换的评价标准 ( 2 1 8 ) ( 2 - 1 9 ) ( 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论