(信息与通信工程专业论文)语音转换关键技术研究.pdf_第1页
(信息与通信工程专业论文)语音转换关键技术研究.pdf_第2页
(信息与通信工程专业论文)语音转换关键技术研究.pdf_第3页
(信息与通信工程专业论文)语音转换关键技术研究.pdf_第4页
(信息与通信工程专业论文)语音转换关键技术研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学硕一 :研究乍学论文 摘要 摘要 语音转换是一种改变源说话人的语音个性特征,使之听起来像另外一个我们称为目标 说话人的声音的技术。语音转换的基本要求是转换后的语音具有目标说话人的个性特征, 但是并不改变原来说话人语音中的语意内容。虽然语音转换这个课题的提出已有二十多年 的历史,但真正引起广泛关注并得到快速发展就在这最近的几年,可以说语音转换是语音 信号处理的一个新兴研究方向,具有重要的理论价值和广泛的应用价值。本课题主要研究 语音转换系统的基本理论和关键技术。 本文主要研究了对齐语音库下的语音转换方案。即在训练阶段我们有源说话人和目标 说话人说相同语音的波形文件条件下的转换。本文着眼点是在高质量的s t r a i g h t ( s p e e c ht r a n s f o r m a t i o na n dr e p r e s e n t a t i o nu s i n ga d a p t i v ei n t e r p o l a t i o no fw e i g h t e ds p e c t r u m ) 语音分析合成模型下所做的一些工作。本文主要完成了以下几方面的工作: 首先,简单介绍了论文的研究背景,语音转换的研究状况。给出了语音转换系统中涉 及到的一些基本概念包括语音发音系统,语音转换结构图,语音转换实现的关键要素,常 用的评价标准以及语音库的设计。还介绍了本文所涉及到的基本模型,包括语音分析合成 模型线性预测模型( l p c ) 和s t r a i g h t 模型以及概率统计模型高斯混合模型( g m m ) 。并指 出了s t r a i g h t 模型优于l p c 模型的地方,以及如何利用s t r a i g h t 模型获得我们所关 心的表征说话人个性特征的参数信息。 其次,列举了目前已有的关于语音转换的一些算法。给出了韵律转换方法的改进方案 还讨论了基于s t r a i g h t 模型的语音转换方案,分别从训练数据的准备,转换方案的选择, 到最后合成具有目标说话人个性特征的语音几个方面进行探讨,并给出了所提方案仿真结 果的分析和评价。 最后,总结了本文的工作,并指出了今后有待于进一步研究的方向。 关键词:语音转换,s t r a i g h t 模型,过平滑,交叉相关模型 a b s t r a c t v o i c ec o n v e r s i o ni sap r o c e s si nw h i c ht h ev o i c ep e r s o n a l i t yi sa l t e r e d ,s ot h a to n e sv o i c e c a l lb eh e a r da sa n o t h e r s i nt h i sp a p e rw eh o p et h ev o i c et ob ep e r c e i v e da sad e s i r e ds p e a k e r s v o i c e ,n a m e l yt h et a r g e ts p e a k e r v o i c ec o n v e r s i o nh a sn u m e r o u sa p p l i c a t i o n si nav a r i e t yo f a r e a ss u c ha st h ep e r s o n a l i z a t i o no ft e x t t o s p e e c hs y n t h e s i ss y s t e m s ,p r e p r o c e s s i n gf o rs p e e c h r e c o g n i t i o n , i m p r o v i n gt h ee f f e c t i v e n e s so ff o r e i g nl a n g u a g et r a i n i n gs y s t e m sa n d s oo n t h i sp a p e rf o c u s e so nt h ec o n v e r s i o ns c h e m eu n d e rp a r a l l e ls p e e c hc o r p u s i nt h et r a i n i n g s t a g e ,w eh a v et h es a m eu t t e r a n c ef r o mb o t ht h es o u r c es p e a k e ra n dt h et a r g e ts p e a k e r t h i s c o n v e r s i o np r o c e s si sb a s e do nt h eh i g hq u a l i t ya n a l y s i s s y n t h e s i sm o d e lo fs t r a i g h t m y w o r ki n c l u d e s : f i r s t l y , p r e s e n t i n gt h eb a c k g r o u n do f t h et h e s i s ,t h ea r r a n g e m e n to ft h i sp a p e ra n d # r i n gt h e f u n d a m e n t a l t h e o r y o fv o i c ec o n v e r s i o n , i n c l u d i n gs y s t e ms t r u c t u r e ,k e yf a c t o r so f i m p l e m e n t a t i o n , e v a l u a t i o nc r i t e r i o n , a n dt h ed e s i g no ft h es p e e c hc o r p u s a n dt h e ni n t r o d u c i n g t h eb a s i cm o d e lw ew i l lr e f e rt oi nt h ef o l l o w i n gr e s e a r c h ,f r o mt h ea n a l y s i s - s y n t h e s i ss p e e c h m o d e ll p c ,s t r a i g h tt ot h eg m mm o d e lm o d e l i n go u ra c o u s t i c a lf e a t u r ep a r a m e t e r s s e c o n d l y , w ee n u m e r a t es e v e r a lt r a n s f o r m a t i o na l g o r i t h m sb o t hf o rs p e c t r u ma n dp r o s o d y i nv o i c ec o n v e r s i o ns y s t e ma n dg i v eai m p r o v i n gm e t h o d a n dt h e nw ed e s c r i b et h ed e t a i l i m p l e m e n t a t i o no fo u rn o v e ls c h e m eo fv o i c ec o n v e r s i o nf r o m t h et r a i n i n gs t a g eo ff i n d i n gt h e m a p p i n gr u l e sb e t w e e nt h es p e e c hf e a t u r ep a r a m e t e r s ,t ot h es y n t h e s i z i n gs t a g eo fg e n e r a t i n gt h e t a r g e tv o i c ew i t ht h et r a n s f o r m e dp a r a m e t e r s f i n a l l y , w eg i v e0 1 1 1 e v a l u a t i o nr e s u l t sa n da n a l y s i s i ns u m m i n gu pt h ef u l lp a p e r , w ep o i n t o u tt h ed i r e c t i o ni nt h ef u t u r et ob ef u r t h e rs t u d i e d k e y w o r d s : v o i c e c o n v e r s i o n , s t r a i g h tm o d e l ,o v e r - s m o o t h i n g p r o b l e m , c r o s s c o r r e l a t i o n a lm o d e l i i 南京邮电人学硕士研究生学位论文 缩略语表 缩略语表 l i s to fa b b r e v i a t i o n s a n na r t i f i c i a ln e u r a ln e t w o r k s 人工神经网络 b pb a c kp r o p a g a t i o n b p 算法 r w d y n a m i ct i m ew a r p i , a g 动态时间规整 e me s t i m a t em a x i m i z a t i o ne m 估计算法 f of u n d a m e n t a lf r e q u e n c y基频 f f rf a s tf o u r i e rt r a n s f o r m 快速傅立叶变换 h m mh i d d e nm a r k o vm o d e l 隐马尔科夫模型 i si t a l m r a - s a f i od i s t a n c e 板仓斋田准则距离 u b g l i n d e - b u z o - g r a ya l g o r i t h m l b g 算法 l m r l i n e a rm u l t i v a r i a t er e g r e s s i o n 线性多变量递归 l p c l i n e a rp r e d i c t i o nc o d i n g线性预测编码 l s el i n e a rs q u a r ee r r o r线性均方误差 l s p l i n es p e c t r u mp a i r线谱对 m l m a x i m u ml i k e l i h o o d最大似然准则 m m s em i n i m u mm e a ns q u a r ee r r o r最小均方误差准则 p cp e r s o n a lc o m p u t e r个人电脑 r b fr a d i a lb a 8 i sf u n c t i o n径向基函数 t d p s o l at i m ed o m a i np i t c hs y n c h r o n o u s时域基音同步叠加 o v e r l a pa d d v 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保存论 文。本文电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。 论文的公布( 包括刊登) 授权南京邮电大学研究生部办理。 研究生签名:盘摇牢导师签名: 南京邮电大学硕 j 研究生学位论文 第章绪论 1 1 论文的研究背景 第一章绪论 语音转换( v o i c ec o n v e r s i o n ) 技术是要改变一个说话a ( 臣p n 说话人$ 0 1 1 1 c 息s p e a k e r ) 语音 中的个性特征,使之具有另外一个人( 即目标说话人t a r g e ts p e a k e r ) 的个性信息,也就是转 换后的语音听起来就像目标说话人的声音一样,与此同时,保持语音中的语意信息不变。 语音转换系统在日常在生活中有着广泛的使用价值,能够极大的方便人们的生活,具 有重要的实际意义。比如: ( 1 ) 用于语音增强系统,声带受损的病人发出的语声不易听懂,阻碍正常的人际交流, 利用语音转换系统对受损的语音进行修饰,可以增强语音的清晰度,可懂度,方便交流, 如果修饰的语音具有病人原始语音的个性特征,则会更加方便病人的日常生活,不会让人 有陌生的感觉。 ( 2 ) 语种之间的语音转换系统,可以实现具有同一说话人发音特征的不同语言的合成 系统,达到一个人精通多种语言的效果,具体可以应用于大型新闻发布会的实时语音多语 种合成系统,常用的语音合成系统翻译出来的声音没有源说话人的个性特征,声音单调, 缺乏现场感,经过语音转换后,听觉感受是一个人在讲话,而不是独自,更有现场感。 ( 3 ) 用于极低速率的语音编码方案,研究表明,当语音编码速率在2 4 k b p s 及以下时, 解码出来的语音将不会保留说话人的个性特征信息,这样的通信会使双方有不舒服的感 觉,如果将解码出来的语音经过一个语声转换系统,恢复出说话人的身份个性信息,则将 会明显改善通信效果。 ( 4 ) 角色配音系统,可以利用少量的目标说话人语句,采用一定的训练算法,实现基 于目标说话人发音特征的大词汇量语音发音系统,减少配音演员的工作量:另外,电脑游 戏已经越来越深入到老百姓的生活,特别是网络游戏出现后,现在的游戏都是有声游戏, 玩家在游戏中扮演某个角色,如果该角色的声音能转换成玩家自己的声音,则势必会吸引 到越来越多的游戏用户。 ( 5 ) 语音伪装系统,可以实现识别犯罪嫌疑人和其相关人员的语音发音系统,在刑侦 任务中有较大的应用。如不方便透漏说话人身份的情况下,在通信系统的前端安装语声转 换系统,则可以进行身份伪装的话音通信;在法庭上,经常需要对控、辩双方提供的一些 录音证据进行司法认证,如果语声转换系统能对那些故意伪装了身份的录音恢复出原来的 南京邮l 包人学硕i 研究生学位论文第一章绪论 真实身份,这为司法裁决提供了很重要的判决依据,具有很好的社会效益。 ( 6 ) 用于语音识别系统的前端预处理模块。语音识别一直以来都是研究者们的一个热 门课题,这是由语音识别系统具有广阔的市场应用前景决定的,但当前的语音识别系统虽 然在实验室环境下具有很好的性能,而在实际的应用场景下,由于说话人的变化、噪声等 的影响,识别性能急剧下降,极大地限制了语音识别系统的应用和推广。在识别系统的前 端,可以使用语声转换技术作为语音识别系统的说话人自适应模块,降低说话人变化对语 音识别系统性能的影响。 总之,语音转换技术是对语音合成技术的丰富和延拓,有着良好的技术发展前景。 语音转换系统从不同的角度有着不同的分类,从转换目标上可以分为源说话人语音修 复系统和身份变换的语音转换系统;从系统的实现复杂度和应用范围来讲,可以分为基于 移动终端的简单语音转换系统和基于大型p c 的复杂精确转换系统;从用途上可以分为军 用的语音伪装通信系统,一般的语音转换系统。 1 2 语音转换的研究状况 语音信号中含有各种各样的信息,主要载有语音内容信息( w h a tw a ss a i d ) 、说话人特 征信息( w h os a i di t ) 以及说话环境信,自, ( w h e r ei tw a ss a i d ) 。说话人特征描述了与说话人身份 相关的声音方面特征,而与具体内容信息和说话环境无关。语音转换的任务就是要改变说 话人特征,而其他方面的信息保留不变。一般地,表征语音个性化的语音特征可以分为 以下三类: 音段特征:描述的是语音的音色特征。特征参数主要包括共振峰的位置、共振峰 的带宽、频谱倾斜( s p e c t r a lt i l t ) 、基音频率、能量等。音段特征主要与发音器官的 生理学和物理学特征有关,也与说话人的情绪状态有关。 超音段特征:描述的是语音的韵律特征。特征参数主要包括音素的时长、基音频 率的变化( 音调) 、能量等。 语言特征( 1 i n g u i s t i cc u e s ) :包括习惯用语、方言、口音等。 超音段特征和语言特征都是语音的很重要的个性特征,但对于说话人来说,超音段特 征主要受社会和心理状况的影响【1 1 ,容易随意的改变,例如,放慢说话速度、降低音量、 说得更加柔软一些等;语言特征则与人的生活环境、成长过程和个人习惯有很大关系,随 意性很大,不易对其建模。而音段特征与语音发音器官的生理学和物理学特征紧密相连, 也与说话人的情绪状态有关,可以认为是不可改变的。 2 堕室坚皇查兰堡! :竺窒生兰垡堡塞 墨二里笪堡 目前的语音转换系统,主要是对音段特征进行控制和转换:对于超音段特征如基音频 率轮廓、能量轮廓、和说话人速率等特征一般都是进行平均值转换以与目标语音的平均特 征值相匹配,之所以没有对超音段特征进行详细的建模、控制和转换,主要是由于在现在 语音技术水平下,很难对高层的语音特征进行提取和操作。对于语言特征,在语音转换中 几乎没有对其研究的报道。 研究者们对语音的个性特征与各种声学特征参数的依赖程度进行研究,但所得的研究 结果并不相同,存在一定的差异性。m a t s u m o t o 2 1 研究得出的结论是基音频率贡献最大,其 次是共振峰频率,再次是基音频率的波动和声源频谱倾斜( v o i c es o u r c es p e c t r a lf l i t ) ;f u r u i l j j 研究报道说由倒谱系数得到的长时平均谱包络对语音的个性特征贡献最大,特别是2 5 - 3 5 k h z 频率范围的谱包络,平均基音频率为其次:n a k a t s u i 认为基音频率比声道的共振特性 对语音的个性特征贡献大,而r o h h i 等则认为相反,他们认为频谱包络对语音的个性特征 影响最大,接着是基音频率和它的时间轮廓结构。各个语音参数对语音的个性特征的贡献 大小的次序,虽然研究者们对此的结论不是完全相同,但可以肯定,无论哪个声学参数都 无法包含所有语音的个性化信息,语音的个性特征是许多声学参数共同作用的结果, k u w a b a r a 5 1 认为声学参数的重要性因人而异,并且与实验的语音材料也有很大关系。现在 报导的语音转换系统中,用于转换的语音特征可以分为包含共振峰频率、共振峰带宽、频 谱倾斜的表征声道滤波特性的频谱包络特征和包含基音频率、时长、能量的韵律特征两大 类。 、 目前国内外在这方面已取得了很多的研究成果。一般来说,建立一个语音转换系统要 分为两个阶段,包括训练阶段和转换阶段。在训练阶段,系统分别提取训练语音库中源说 话人语音和目标说话人语音的身份个性特征参数,然后对这两个特征参数空间进行训练, 形成特征参数之间的匹配规则。在转换阶段,系统利用已经形成的匹配规则,将源说话人 语音的声学特征参数映射成目标说话人语音的声学特征参数,然后再利用这些参数合成出 具有目标说话人个性特征的声音。从目前国内外的研究成果看,这种匹配和转换主要体现 在两个方面,一是对谱特征参数( 声道特性) 的转换,二是对韵律特性( 主要体现在声源激励 信号上) 的转换。 h m t u 碰 研究 学位论z * 音转换系统 第二章语音转换系统 语音转换系统,是基于定的语音信号模型建立起来的,语音信号模型是语音信号的 数学建模,语音信号的数学建模要考虑人的发音系统的声学原理。只有根据人的芨音系统 建立起来的数学模型,才能精确刻画人的各种声学特征,精确声学特征的使用,能够提高 语音转换系统的质量。 2 1 语音发音系统 语音是人类通过嘴以讲话的方式发出的有一定意义的声音。人的发音器官包括声带、 气管、鼻和1 :3 等如图2 - 1 所示: 圉2 - 1 人类发音器官示意图 这些器官共同形成一条形状复杂的管道,声带上部分称为声道,为语音调制部分,声 道是一个分布式参数系统,它是一个谐振腔,因而有许多谐振频率,谐振频率由每一瞬间 的声道形状决定,这些谐振频率称为共振峰频率,简称为共振峰,它是声道的重要声学特 性,也是反映人的个性特征的重要参数。共振峰和声道形状、大小有关,不同的人声道大 小不同,即使同一个人,在不同的年龄声道大小也有变化。随着发出声音的不同,声道的 形状在不断的发生变化,对生成的语音进行调制,声音的调制可以看作是滤波操作。共振 峰可以用依次增加的多个频率表示,如f l 、f 2 等,称为第一共振峰,第二共振峰等,语 音一股有三到五个共振峰,为了得到高质量的语音,或者髓精确的描述语音,五个共振峰 是比较常用的。语音转换过程中,兵振峰的转换是语音个眭转换的重点内容。 4 南京邮电大学硕k - 研究生学 寸论丈第二荦语首转换系统 喉部的声带是对发音影响很大的器官,其声学功能是为语音提供主要的激励源。声带 的开启和闭合使来自肺部的气流形成一系列的脉冲,开启和闭合一次的时间即为基音周 期,倒数称为基音频率。人的基音频率各有差异,由于男性的声带比女性厚,男性说话人 的基音频率大致在6 0 - 2 0 0 h z 范围内,女性说话人的基音频率大致在2 0 0 4 5 0 h z 之间, 因此基音频率也是反映人的个性特征的重要因素之一a 一般粗略地将声带振动产生的语音称为浊音( v o i c e ) ,或者称为有声语音,声带不振动 产生的语音称为清音( u n v o i c e ) ,当然也可以再进一步细分。浊音激励部分可以用以基音频 率的倒数为周期的一系列声门波表示,声门波模型可以用式( 2 1 ) 表示,其中9 1 ,9 2 的值 小于但接近1 : g ( z ) 2 f 孑而( 2 - 1 ) 清音激励部分可以用白噪声序列近似表示。不同人、不同语音其声门脉冲的形状不一 定相同,因此声门脉冲形状也是语音的个性特征之一,如进行语音转换能够考虑声门脉冲 形状对转换语音的影响,那么语音转换质量将会得到进一步的提高。由语音发音系统可以 得到语音信号简化数字模型如图2 2 所示【9 】,其中声道特征参数用l p c ( l i n e a rp r e d i c t i o n c o d i n g ) 参数表示。 图2 - 2 语音信号产生的简化数字模型一l p c 模型 用于语音转换的语音个性特征可以分为包含共振峰频率、共振峰带宽、频谱倾斜的表 征声道滤波特性的频谱包络特征和包含基音频率、时长、能量的韵律特征两大类1 1 】。由语 音信号简化数字模型可以得到频谱包络参数和基音频率参数,因此源一滤波器模型可以进 行语音转换系统的研究。 南京邮电大学硕士研究生学位论文第l 二章语音转换系统 2 2 语音转换系统结构 语音转换的实现在总体上分为训练和转换两个阶段。在训练阶段,系统基于某个语音 模型对源语音( s o u r c es p e e c h ) 和目标语音( t a r g e ts p e e c h ) 进行分析并提取语音特征,然后将这 些语音特征进行对齐,再进行训练得到转换规则。在转换阶段,利用转换规则对源语音的 音段特征和超音段特征等进行变换,使合成语音具有目标说话人特征。图2 3 所示,为语 音转换系统结构图。一般转换后,对转换语音有一个后处理的过程,以改善语音质量。 嘴人- 卜觚h 燃一 骶卜一一f 8 紫川征纳h 慰黢户j i 销笋产_ 提取h 蠢黉征- q 转换h 嬲 图2 3 语音转换系统机构图 2 3 语音转换系统实现的关键要素 一般来说,语音转换的技术实现主要包括以下几个要素: 语音模型和特征:模型类型规定了系统要调整语音信号的哪几方面的参数。 语音 模型应能很好地对语音信号进行分析,提取出说话人个性特征信息,并有很好地 重建语音的性能。只有选择了合适的语音模型,才能提取出既反映说话人身份特 征信息,又能方便地利用修改后的特征信息重建出高质量的语音。 转换规则:其作用是将源说话人的声学特征映射到一个近似于目标说话人的特征 集上。该规则决定了能否顺利地将源说话人的声音映射到目标说话人的声音上。 语音库:在训练过程中用于训练数据和性能评估时用于测试的语音句子集合。语 6 南京邮电人学硕f 研究生学位论文 第二二荜语旨转换系统 音库的设计需要跟相应的实验结合。信息充分的语音库对实验的成功有很大的影 响。 2 4 语音转换效果的评价标准 语音转换效果的评价标准对于整个语音转换系统的不断改善有着重要的作用,不同的 评价标准是针对某一方面的语音转换效果设立的。基于不同的评价标准对语音转换系统各 方面性能进行改进,才能整体提高语音转换的质量。语音质量是一个多维性术语,目前还 没有一种评估体系能够完全适合或自动评测合成语音或转换语音的质量【1 2 】。一般在语音处 理中,比如编码领域,合成语音可以根据清晰度、自然度和使用场合的适用性来比较评估, 而对于转换语音,显然目标说话人的语音个性特征倾向是语音转换效果的主要评价方向。 语音转换质量的评价方法主要分为主观评价方法和客观评价方法【1 2 】。 2 4 1 主观评价方法 主观评价方法是靠人的听觉,依照一定评价准则给出测试语音评判结果。转换的语音 最终是要服务于人的,因此主观评价方法是一种非常重要的评价标准,常用的语音转换的 主观评价方法主要有以下三种: a b x 测试:在主观评价方法中,a b x 方法是一种常用的测试手段,a 表示源说话人 的语音,b 表示与之相对应的目标说话人的语音,x 表示通过语音转换系统转换的语音。 测试时,通过人的主观听觉判断转换后的语音更像源说话人的语音还是更像目标说话人的 语音,最后根据结果进行统计,计算转换语音更像目标说话人的概率,从而判断语音转换 系统的效果。尽管可能会有1 0 0 的选择正确率,但是转换语音也不能被认为是从目标说 话人口中说出来的,只能说更像目标说话人发出的声音。 倾向性测试:倾向性测试是评价两种不同语音转换算法优劣的一种主观评价方法。测 试过程如同a b x 测试,其中a 表示一种转换算法的语音输出,b 表示另一种转换算法的 语音输出,x 表示较好的那种转换算法。测试时,要求测试人员评价哪种语音转换方法更 好,更加符合目标语音的个性特征。倾向性测试是语音转换系统的横向比较评估方法。 m o s 分方法:转换语音最终会被应用到一些实际的场合,因此转换语音的质量必须 从实际使用方面进行评估。传统的m o s 分方法主要从语音的可懂度、清晰度、自然度等 指标去衡量语音质量,对转换语音利用m o s 分方法进行评价,则需要添加个性转换倾向 这一指标,该指标用来评价转换语音是否像目标说话人的语音,根据以上指标,m o s 分方 法将转换语音分为五等,5 分表示转换后的语音十分逼近目标语音,且转换语音听觉质量 7 南京邮电人学硕士研究生学位论文 第二章语音转换系统 也好,1 分则表示转换后的语音仍然非常像源语音,转换语音听觉质量很差。 2 4 2 客观评价方法 转换语音的客观评价主要是针对语音频谱这些客观语音特征参数的前后变化差异,给 出具体数字评价,常用的客观评价方法主要有以下三种: 频谱失真程度:语音频谱参数是语音转换系统的重要参数,语音信号的频谱不仅含有 语义信息,也含有说话人个性特征信息,相同语义内容的频谱差异可以衡量语音个性特征 的相近程度。具体来讲,可以表示为式( 2 2 ) : d 5 专善d ( 以一彳) ( 2 - 2 ) 式( 2 2 ) 表示的是转换后的语音和目标语音的平均谱失真,其中a 表示转换后的语音 频谱参数,a 2 表示目标语音参数,d 表示某种谱失真测度,一般使用对数域测量,为测 试语音帧的数目。这是一种绝对距离测试方法,目前通常使用相对距离测度方法,如式( 2 3 ) 所示: d ( 口一( f ) ,( f ” d = 号一x 1 0 0 ( 2 - 3 ) d ( ( f ) ,( f ) ) 其中( ,) 、( f ) 、( ,) 分别表示目标语音谱包络参数、转换语音谱包络参数和源 语音谱包络参数,d 值表示转换后语音参数和目标语音参数的谱距离与转换后的语音参数 和源语音参数的谱距离的比值。比值越小,系统的性能越好,说明转换后的语音更加逼近 目标语音。d 值的大小与频谱参数的时间规整能力有很大的关系,因此d 值通常情况下比 较大,实际上5 0 左右就可以获得可接受的转换语音质量【1 5 】。 信噪比:语音编码中的信号噪声比也被借用到转换语音性能上的评估,具体表示如式 ( 2 - 4 ) : 姗c s , h 吨丽杂舞 亿4 , 式( 2 - 4 ) 中墨表示转换语音矢量,最表示实际目标语音矢量,s n r ( s , ,是) 值越大,转 换效果越好。 说话人辨识:说话人辨识也被用来进行转换语音效果的评估,其主要思想为:将转换 后的语音作为说话人识别系统的输入,分别以源说话人和目标说话人作为语音识别目标来 8 崩京邮电大学硕t :研究生学位论文 第二苹语肯转换糸詈j e 测试转换语音的倾向性,识别系统采用的模型可以为高斯混合模型,也可以是隐马尔可夫 模型,测试数学模型可以表示如式( 2 5 ) : s = a r g m a x l o g p ( x i 乃) ( 2 5 ) g e j ,jn = l 式( 2 5 ) 中,五表示源说话人的语音识别模型,4 表示目标说话人的语音识别模型。分 别计算转换语音基于源和目标说话人的语音识别的最大似然和,和值大的,则表示转换 后的语音属于源说话人或目标说话人。通常基于目标与源说话人的对数似然比被用于说话 人决策的置信度测量,表示如式( 2 6 ) : 站= l o g p ( 鼍i4 ) 坦三! n p ( 以l 如) ( 2 6 ) 式( 2 6 ) 中站似然比值越大,则转换算法的性能较好。 以上详细介绍了语音转换系统的各种评价方法,在实际的系统评估中,要充分应用各 种主观和客观的语音评价方法,从各个方面给语音转换系统的性能给予准确的评价,给出 语音转换系统的改进方向。对人类听觉系统而言,往往客观频谱的差别并非一定能说明存 在相应的主观感觉性能差异,这说明转换语音的客观质量与感观评价之间的弱联系性,鉴 于完全依靠主观评价需要较大的人力物力投入,因此主客观评价方法的结合使用才能给出 语音转换系统的合理评估。 2 5 语音库的设计 语音库是为实验收集必需的语音素材,一个语音库的设计往往对实验效果的好坏有重 大的影响,不同的语音研究领域对所需要的实验语音素材往往有不同的要求,比如语音识 别、语音合成等方面的研究对语音库的要求是不同的。在语音转换系统研究中,语音库是 用来训练并获得源语音和目标语音之间的匹配函数,并为系统在进行测试时提供必要的语 音材料。具体说来,语音转换系统对语音库的要求主要有如下几点: ( 1 ) 语音库的大小这是指在进行录音时,为每个发音者设计多大文本素材。从目前的 语声转换研究来看,不同的转换算法所需要训练语音数据量是不同的,有些需要较多的语 音材料,有些只需要少数几个语句就可以实现较为理想的转换效果。一般情况下具有较多 的素材所建立的转换规则具有更好的适应性,转换效果也更好些。 ( 2 ) 文本内容如何选择语音库的文本内容的评判原则是语音库的发音内容对某种语 言整个发音现象的覆盖程度。对汉语而言,由于汉字的发音是声一韵母结构,并且语音的 o 南京邮电大学硕士研究生学位论文第j 二章语晋转换糸 罗芒 能量和信息主要集中在韵母上,一个汉字就是一个音节,是种单音节的有调语音。在设 计语音库时,要尽可能地考虑数据库覆盖大部分的汉语音节,至少要有大部分的韵母,并 且还要考虑到同一个语音的不同声调。另外,由于语音的协同发音现象,为了能够更好地 实现韵律特性的转换,语音库还应该包含有单个的词、词组和句子等,换言之既要有单个 词语音,也要有连续的语音。 ( 3 ) 发音的人数是指语音库包含的发音人数目。在语声转换系统中,从已有的研究成 果来看,要将语音转换成某个特定的目标说话人的语音,使用不同的源说话人语音,系统 的性能是不一样的。因此,为了使系统具有较好的通用性,可以实现实际使用中任意两人 语音之间的转换,语音库应该包含足够多的发音人数,来验证系统的通用性。 ( 4 ) 时间对齐语音信号是时间序列,不同长度的序列进行转换容易导致失配( 即不同 内容之间进行转换) ,产生失真,因此时间对齐是必要的;在语声转换研究中,为了训练 一个恰当的特征参数匹配函数,往往在训练阶段需要对源语音特征参数序列和目标语音特 征参数序列进行时间对齐。为了减少在训练阶段匹配误差,在进行语音库录制时候,各个 说话人尽量以相同的发音速率、节奏、语气、情绪等方式发音。这可以提高语声转换系统 的性能。 本课题主要进行语音转换的基本理论和关键技术的研究,因此本文语音转换系统所用 数据库为购买的中科院自动化所的对齐的中文语音库。该语音库由2 1 0 个汉语语句组成, 覆盖了大部分的汉语音节,共有4 个人发音,其中2 个男声、2 个女声,该语音库中,每 个人的发音语速基本一致,保证具有相同语义的语音信号具有较好的时间对齐性。信号采 样频率为1 6 k h z ,1 6 b i t 量化,基本满足实验室语音转换效果评判的需要。实现实际系统时 应根据前面的要求,录制更多的语音,以保证转换系统的鲁棒性。 2 6 本章小结 本章首先介绍了语音发音系统,分析了语音的发音过程。然后,作者给出了语音转换 的系统结构图,并阐述了实现语音转换的三个关键要素。之后简单介绍了当前用来评价语 音转换效果的主客观标准,最后给出了本论文所采用的语音库情况。 1 0 南京邮电大学硕士研究生学位论文第三章语音转换系统中的主要模型 3 1l p c 模型 第三章语音转换系统中的主要模型 频谱参数是语音转换系统的重点内容,合适的频谱参数选择是进行语音转换的前提条 件。目前最为成功、应用最为广泛的描述短时语音信号的数学模型:激励源一滤波器 ( $ o r r c e t i l t 哪模型,也即线性预测l p c ( 1 i n e a r p r e d i c t i o nc o d i n g ) 模型。由该模型可得到l p c 声道特征参数和其它推演参数如l s p 参数等。 3 1 1 l p c 参数 一个语音的采样能够用过去若干个语音采样的线性组合来逼近,通过使线性预测的采 样在最小均方误差意义上去逼近实际语音采样,可以求取一组唯一的预测系数,这些预测 系数就是线性组合中的所用的加权系数,即l p c 参数。 l p c 参数适用于源一激励语音发音模型,如图2 - 2 ,l p c 参数对应声道特征模型。声 道模型可以表示为如式( 3 1 ) 所示: 一器2 万g 2 南 ( 3 1 ) 式( 3 一1 ) 中g 为增益常数,q ( f = 1 ,2 ,p ) 为l p c 参数,p 为模型的阶数。这样激励信号 e ( n ) ,输出语音信号s ( n ) 的关系可以表示为如下式( 3 - 2 ) : p p ( ,z ) = s ( 刀) 一a , s ( n - i ) 1 = 1 ( 3 2 ) 在最小均方误差准则下,由等式( 3 - 2 ) 求l p c 参数q ,定义短时预测均方误差为式( 3 3 ) : 使式( 3 - 3 ) 中瓦最小,( j - - 1 ,2 ,p ) 必须满足式( 3 4 ) : 璺:o ( = l ,2 ,p ) o a ; 将式( 3 2 ) 代入式( 3 - 3 ) 中得: ( 3 - 3 ) ( 3 - 4 ) rd 一穆 ,_ 一 j q p纠 一 、_ 、 挖 _ ,p 竹 l l 、 厅 ,l 2 p 竹 = 瓦 南9 , i n 电大学硕士研究生学位论文 第三章鹰爵转换系统中的主费模型 s ( 刀) s ( 力) 一兰口,s ( 刀一f ) s ( ,z 一_ ,) = 0 ( _ = l ,2 ,p ) ( 3 - 5 ) 疗 j = - i 定义囝( ,f ) = s ( n - j ) s ( n - i ) ,( = l ,2 ,p , i = 0 ,1 ,2 ,p ) ,式( 3 5 ) 可以简写为式( 3 - 6 ) : q o ( ,f ) = a ( _ ,o ) ,( 歹= l 2 p ) ( 3 - 6 ) 式( 3 6 ) 是由一个p 个参数和p 个方程组成的线性方程组,求解方程组就可以得到线性预测 系数的估计值q ,其中a ( ,f ) 由输入语音序列决定。系数矩阵的特殊性质使得解方程的效 率比普通情况下所能达到的效率要高的多。式( 3 6 ) 所示的线性预测方程组中,刀的上下限 取决于使误差最小的方法。方程组经典的解法有两种:一种是自相关法,一种是协方差法。 以自相关法为例,定义s ( n ) 在0 n n 一1 区间以外取值等于0 。通常,s ( n ) 的自相关函数 定义为: 尺( - ,) = s ( 刀) s ( 刀一,) ( o d ( 3 7 ) 比较可以得出: a c ,z ,= r 。( ij - i i , 多10 :i 乏:。二二, c 3 8 , 将式( 3 - 8 ) 代入式( 3 6 ) ,并且由r ( ,) 的偶函数性质得如下矩阵形式: r ( o )r ( 1 )兄( 尸一1 ) r ( 1 )疋( o )b ( p 一2 ) 兄( 尸一1 ) 尼( 尸一2 ) b ( 0 ) 口i 吃 a p r ( 1 ) 兄( 2 ) i : l ( 3 - 9 ) i r ( 尸) j 式( 3 9 ) 式为y u l e w a l k e r 方程,系数矩阵为托普利兹矩阵,系数以对角线对称,利用 托普利兹矩阵的性质可以得到高效的递推算法。可以采用莱文逊一杜宾算法或舒尔算法, 莱文逊一杜宾算法是一种常用算法也是最佳算法,系数求解过程如下所示,具体推导可见 参考文献【1 9 1 。 1 ) 给定预测器阶数p n j - i 2 ) 计算尺( _ ,) = j 。( ,z + ,) s ,( 九) ( _ ,= o ,1 ,尸) 其中s w 是加窗语音序列 3 ) 计算k 1 = - r ( 1 ) r ( o ) 4 ) 计算口:i ) = k u 1 2 两尿邮电大学硕士研充生学位论文第三章语音转换系统中的e 受模型 5 ) 计算:= 【1 一 k m ) 2 忙( o ) 6 ) 令m = 2 7 ) 计算k f m ) = - 尺( 掰) + m - l 口p r ( i 卜加i ) 】y 8 ) 口? = k m 9 ) 口;”= 口;”1 + k ”口嚣n , i = 1 , 2 ,( ,l 1 ) i o ) 计算吕= 卜) 2 】器_ 1 1 ) 判断m p ? 若是,则令m = m + l ,转入( 7 ) 继续运行。若否,则停止运行并输出 口:n ,“a 2 t e ) ,口罗作为计算结果 l p c 参数可以很好的表征共振峰频率和带宽,根据多项式零点与阶数关系,l p c 参数 的阶数大小与共振峰个数有如下关系p = 2 d + i ,其中d 为共振峰个数。由l p c 参数表征的 共振峰谱包络示意如图3 1 ,其中p = 1 1 ,横坐标为归一化频率,纵坐标为幅度响应,单位 是d b 。 幅 度 响 应 ,、 自 、一 归一化频率 ( a ) 女声l p c 参数谱包络 1 3 南京邮电犬学硕士研究生学位论文第三章语旨转换系统中的主费模型 幅 度 响 应 瓮 田 3 1 2l s p 参数 ( b ) 男声l p c 参数谱包络 图3 - 1l p c 参数谱包络 l s p 参数是线性预测参数l p c 的一种变换表示形式,两者可以实现互相转换。l s p 同 样可以用来估计语音的基本特征,以往的参数都是时域参数,l s p 参数是一种频域参数, 所以和语音信号谱包络的峰值有着更紧密的联系。实践研究表明,l s p 参数具有良好的量 化特性和内插特性,因而在声码器研究中获得广泛的应用,同时语音转换系统中许多研究 人员也主要采用l s p 参数作为频谱包络参数进行语音转换。 l p c 参数可以表示为式( 3 1 ) ,式( 3 1 ) 中p 阶线性预测误差滤波器传递函数为彳( z ) ,定 义两个p + i 阶多项式,如下【9 】: p ( z ) = t l ( z ) + z 一尸+ 1 a (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论