




已阅读5页,还剩58页未读, 继续免费阅读
(信号与信息处理专业论文)基于gmm的独立建模语音转换系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
o :乙 苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属 在年一月解密后适用本规定。 非涉密论文口 论文作者签 导师签 日期:宴啦:兰:墨 e t 期:墨 皇:笸:) 基于g m m 的独立建模语音转换系统研究中文摘要 基于g m m 的独立建模语音转换系统研究 中文摘要 语音转换就是对一个说话人( 源说话人) 的语音信号进行转换,使之听起来像另 一个说话人( 目标说话人) 语音的技术。这项技术几乎囊括了语音信号处理领域的各 个方面,它的研究对语音分析,语音编码,语音合成,语音增强,语音识别等方面有 重要的促进作用。本文提出了一种基于g m m 独立建模的转换方法,主要内容包括: ( 1 ) 提出了一种独立建模的方法,对源和目标说话人语音特征分别建立g m m 模型,解决了传统基于g m m 的联合建模转换系统中,需要并行语料,不适应多人转 换等缺点。 ( 2 ) 通过输入语音特征矢量,动态确定转换规则,进行语音转换,解决了传统 转换系统中,转换函数非动态这一缺陷,使得转换规则更为灵活,从而增强转换精确 性。 ( 3 ) 基于线性预测( l p ) 分析合成平台,对源与目标说话人l p c c 特征独立建立 g m m 模型,对测试语音进行转换,分析得到转换结果,并做出相应评测与分析。 ( 4 ) 基于s t r a i g h t 分析合成平台,对源与目标说话人s t r a i g h t 分析得到 的谱包络进行建模分析,并对测试语音进行转换,得到结果,并做出评测分析。+ ( 5 ) 基于语音结构化( a u s ) 理论,改进转换系统,成功实现语音转换,解决了 在转换系统中,源与目标相同音素聚类的g m m 分量如何对齐这一难题,通过系统实 验,取得了阶段性成果。 ( 6 ) 以基于g m m 的源与目标联合建模的模型为蓝本,比较独立建模的转换系 统,相对于同样的测试语音,其结果的差异性。 关键字:语音转换,独立建模,g m m 作者:徐小峰 指导老师:俞一彪 r e a l t i m ea c c o r d i n gt oi n p u ts p e e c hd a t a , s ot h es p e c t r u mc o n v e r s i o ni sm o r ea c c u r a t et h a n g e n e r a lm e t h o d ( 3 ) c h o o s el i n e a rp r e d i c t i o ns y n t h e s i sp l a t f o r m ,t h e nu s eg m mt r a i n i n gs o u r c ea n d t a r g e tl p c cf e a t u r e s ,a tt h ee n d ,t r a n s f o r mt h et e s ts p e e c h ,a n a l y s i st h er e s u l t sa n dg i v et h e s c o r e ( 4 ) c h o o s es t r a i g h ts y n t h e s i sp l a t f o r m ,t h e nu s es t r a i g h tt og e ts p e c t r u m e n v e l o p e ,t h e nu s eg m mt r a i n i n gs o u r c ea n dt a r g e tf e a t u r e s ,t r a n s f o r mt h et e s ts p e e c h , a n a l y s i st h er e s u l ta n dg i v et h es c o r e ( 5 ) u s ea u st h e o r yt oi m p r o v es y s t e mp e r f o r m a n c e ,s o l u t et h ep r o b l e mt h a th o wt o a l i g nt w o m o d e lc o m p o n e n t s ,i ti sv e r ys u c c e s s a f t e rt h ee x p e r i m e n t ( 6 ) c o m p a r e dw i t ht r a d i t i o n a lm o d e l ,u s et h es a m ew a v et ot e s ti n d e p e n d e n tm o d e l , t h e no b s e r v e dt h er e s u l t s k e y w o r d s :v o i c ec o n v e r s i o n ,i n d e p e n d e n tm o d e l ,g m m w r i t t e nb yx i a o f e n gx u s u p e r v i s e db yy i b i a oy u i i 目录 第一章绪论1 1 1 课题的意义及价值1 1 2 课题的历史及现状1 1 3 课题的难点及对策4 1 4 论文章节安排。4 第二章语音转换理论基础5 2 1 语音信号的基本特性5 2 1 1 语音产生机理5 2 1 2 语音信号产生模型6 2 1 3 语音信号个性特征7 2 2 语音信号分析模型9 2 2 1 线性预测分析模型1 0 2 2 2s t r a i g h t 分析模型1 2 2 3 用于语音转换的特征参数1 4 2 3 1 激励源参数。1 5 2 3 2 声道谱参数15 2 4 语音转换基本原理l7 2 4 1 语音转换系统分类1 7 2 4 2 语音转换系统组成l8 2 5 语音转换系统评价标准1 9 2 5 1 客观评价标准1 9 2 5 2 主观评价标准1 9 第三章语音转换方案与实施2 l 3 1 传统谱包络转换方法2 1 3 1 1 传统基于g m m 的联合建模转换系统框架2 1 3 1 2 转换原理与分析2 2 3 2 改进谱包络转换方法2 5 3 2 1 改进基于g m m 的独立建模转换系统框架2 5 3 2 2 改进基于g m m 独立建模转换系统流程2 6 3 3 基频f o 转换方法2 9 3 1 1 伪谐波复制法2 9 3 1 2 时域插值抽取法3 0 3 4 改进方法小结与分析3 l 3 5a u s 在改进系统中的应用3 4 3 5 1a u s 理论基础3 4 3 5 2a u s 用于g m m 分量对齐3 6 第四章语音转换系统实验3 8 4 1l p 分析合成平台下的转换实验3 8 4 1 1 系统流程3 8 4 1 2 实验分析及结论4 2 4 2s t r a i g h t 平台下的转换实验。4 3 4 2 1 系统流程4 3 4 2 2 实验分析及结论4 3 4 3a u s 在元音转换系统中的应用4 6 4 3 1a u s 用于g m m 分量对齐研究实验4 6 4 3 2 实验分析及结论4 7 第五章总结与展望4 8 5 1 总结4 8 5 2 展望。4 8 参考文献5 0 攻读硕士学位期间公开发表的论文5 4 致谢5 5 基于g m m 的独立建模语音转换系统研究第一章绪论 1 1 课题的意义及价值 第一章绪论帚一早瑁t 匕 语音转换,就是努力找出两个说话人( 源说话人和目标说话人) 声音特征之间的 差别,在转换过程中改变源说话入的声音特征,使转换后的声音携带更多目标说话人 的声音特征,仿佛是目标说话人发出的一样,并且在转换过程中,源说话人的语义内 容,环境信息等得以保留。 随着现代数字信号处理技术,语音智能技术的飞速发展,语音转换技术在社会经 济发展中有其重要的应用前景,例如: ( 1 ) 用于文语转换( t t s ,t e x t t o s p e e c h ) 系统中。由t t s 系统合成的语音往往 发音单一,单调机械,这些弱点限制了它的广泛使用,如果将语音转换技术应用于 t t s 中,必将为这项技术开辟新的市场,例如,可以让这种技术应用于语音邮箱,让 机器按照来信个性化发出发信人声音。 ( 2 ) 用于电影个性配音。这项技术可以修复电影中某些毁坏的语音片段,可以通 过语音转换重现原始语音,同时也可以使得配音个性倾向性更为明显。 ( 3 ) 用于医疗辅助治疗。这项技术可以帮助喉道受损患者恢复原有个性语音特 征。 ( 4 ) 用于保密通信,进行语音的个性化伪装【l j 。在重要会议中通过语音转换防止 身份泄密,避免恶意软件的窃听。 ( 5 ) 用于语音识别的前端预处理,以减少说话人差异的影响。语音识别的难题就 是不同说话人即使发相同音素也会存在差异,这种差异影响了语音识别的准确性,如 果能将这项技术用于语音识别的前端,让待识别的语音先通过语音转换系统处理,转 换为标准模板的语音,再来识别,必将提高识别精度。 1 2 课题的历史及现状 语音转换技术是在语音合成与语音识别技术的研究水平达到相当的水准之后出 第一章绪论基于g m m 的独立建模语音转换系统研究 现的,是对语音合成和说话人识别技术的丰富与延拓。 语音合成技术的研究已有2 0 0 多年的历史,语音合成技术也完成了从萌芽到成 熟的成长过程。但是,目前通过计算机合成出的语音往往是固定说话人的语音,音色 单一,应用范围有限。因此语音科技工作者自然地想到,如果能够按照人们的特定需 求合成出具有不同说话人特征的语音,这将会大大增加合成语音的表现力与丰富性。 目前解决合成语音的音色单一问题的主要途径是参数合成、基于多个大语料库的拼接 合成等,然而大型语料库的建设过程非常复杂。为了能够从多个说话人有限的语音库 出发,合成出多个具有不同特征的说话人就成为迫切希望解决的问题,在这种背景下, 语音转换( v o i c ec o n v e r s i o n ) 应运而生。 语音转换技术的研究在刚刚开始时人们只是尝试从语音波形的修改,简单的合成 参数等多种手段来进行探讨,但取得的进展都不理想,真正取得较快发展是在最近的 十几年时间。九十年代人们开始尝试使用数字信号处理+ 概率统计模型理论以后,语 音转换才有了一定的进展。 在国外,语音转换技术在3 0 年前就开始被研究,1 9 7 1 年,a t a l 和h a n a u e r 使用 l p c 声码器研究了改变说话人语音特性的可行性【2 】,这种方法在一定程度上改变了说 话人个性特征,但由于l p c 自身局限,合成语音质量并不是很好。 1 9 8 8 年,a b em 等人使用v q 的方法实现语音转换的技术【5 】,取得很好的效果, 语音转换技术从此有了比较大的发展,但是该方法不可避免的存在不连续现象,影响 了转换后的语音音质。 1 9 9 1 年s a v i c 提出了一种类似的方法,只是转换模型用多层神经网络代替了码本 映射,结果转换语音的质量有比较大的提高1 6 ,这一鼓舞人心的结果对语音转换的进 一步研究起到了推动的作用。但是由于仍然采用了传统的l p c 声码器,合成语音的 质量还是很有限的。 1 9 9 2 年v a l b r e t 等人提出了基音同步叠加p s o l a ( p i t c hs y n c h r o n o u so v e rl a p a n d a d d ) 的算法来取代l p c 声码器来进行残差信号的转换 7 1 。该方法采用p s o l a 对激励 信号进行转换和时间上的对齐,此外还采用多元线性回归l m r ( l i n e a rm u l t i v a r i a b l e r e g r e s s i o n ) 和动态频率归整d f w ( d y n a m i cf r e q u e n c yw a r p i n g ) 的方法来实现谱包络的 转换。由于突破了传统l p c 声码器带来的限制,实验表明用此方法转换后的语音质 2 基于g m m 的独立建模语音转换系统研究第一章绪论 量有所提高。 1 9 9 3 年f a n t 采用基于固定长度帧的非基音同步方法和与信号相关的方法来进行 分析,并采用了脉冲信号、三角波信号、f a n t 的嗓音源信号、l f 微分声门波信号以 及d e g g 信号作为激励源,通过线性频谱搬移和分析合成的方法,进行了男女音之 间的转换【8 】,取得了较好的效果。 1 9 9 5 年d g c h i l d e r s 分析了不同类型语音声门波的特性,通过模拟不同类型的声 门波,采用共振峰合成器来合成语音,实现了同一发音人不同类型语音( m o d a l , v o c a l f r y 和b r e m h y ) 之间的转换【9 1 。 1 9 9 8 年ys y l i a n o u 等使用了基于g m m 的线性变换方法。同年a k a i n 等使用了 联合密度估计的基于g m m 线性变换方法来实现说话人的音色变换n o 】。 1 9 9 9 年,a r s l a n 利用音节语速持续时间和音量码本映射的方法进行了源一目标 说话人的语速、音量的转换【1 1 】【1 2 】。 2 0 0 2 年,c e y s s e n s 等人提出一种确定和随机性混杂的基频建模方案1 1 3 1 。 近年来,更多的研究人员致力于语音特征的统计分布来实现声音的转换,一些学 者通过概率方法,采用高斯混合模型( g m m ) 描述源目标特征的联合概率分布,这 样给定源特征矢量寻找转换函数来预测目标语音特征就变成一个回归问题。g m m 技 术比局部变换方法有效性、鲁棒性好,其原因在于对频谱包络建立了一个连续概率模 型。但这种方法也有其弊端,就是转换后的频谱包络过分光滑,降低了转换倾向性。 语音转换经过几十年的发展,已经进入一个快速成长的阶段,正是由于这项技术 涵盖面广以及其自身的复杂性,使得这项技术有着巨大的发展空间。可以预见随着数 字信号处理技术应用的日趋成熟化,这项技术将为人们的生活增添新的色彩。就其本 身的方案也会随着新的语音特征参数,及语音合成技术的发展而日益完善。 国内有关语音转换的研究开始得比较晚。初敏等人实现了基于t d p s o l a 的男 女声音转换,其中基音周期的变换采用t d p s o l a 法,而声道响应特性的转换则通 过重采样的方法来实现【l4 1 。中科院的刘力采用了矢量量化的方法进行男女声语音转换 的研究,但是使用码本查找方法的音色变换系统,得到的特征参数通常会出现帧间不 连续,从而使变换后的合成语音引入一定噪声【1 5 】。中科院声学所的王聪修改进了l f 4 微分声门波模型用作音色变换的合成部分的激励源,以此来实现男女语音间的转换【1 6 1 。 第一章绪论 基于g m m 的独立建模语音转换系统研究 1 3 课题的难点及对策 经过几十年的发展,语音转换技术取得了一定的成就,但是由于语音信号本身的 复杂性,以及语音合成技术的限制,使得语音转换在前进的途中又遇到了很多的新问 题,这些问题归结起来主要体现在以下两个方面: ( 1 ) 转换准确度不高,转换后语音与目标语音仍有较大差距。 ( 2 ) 语音信号的在经过了一系列的分析、转换、合成之后,语音质量下降很严 重。 针对以上问题,目前在语音转换技术上,对谱包络( 反应声道特性) 的转换主要 采用g m m 算法,这种基于概率的统计模型在一定程度上提升了转换效果,但是目前的 转换多是将源与目标联合训练,得到转换规则,再对测试语音按照转换规则进行转换。 这种方法不仅计算量大,而且要对源和目标采集同样话语的语音,还要考虑源与目标 特征参数的长度匹配问题,而解决长度匹配采用的d t w 算法又在一定程度上影响了系 统训练精度。所以基于这些考虑,本文在原有的方法上提出一种基于g m m 的独立模型, 即对源和目标分别建模,通过测试语音,实时建立转换规则,进行转换。这样不仅提 高系统运行效率,而且解决了源与目标参数长度匹配问题。 1 4 论文章节安排 第二章介绍了语音转换的理论基础,主要包括语音信号的基本特性,语音信号分 析模型,语音信号特征参数,语音系统性能评价标准。 第三章介绍了语音转换系统具体实施方案,主要包括传统谱包络转换方法,基频 转换方法,改进的独立建模语音转换总体框架及系统流程,语音结构化模型在改进系 统中的应用等。 第四章介绍了围绕独立建模的语音转换系统所进行的一系列实验,并进行了分析 和改进,主要在线性预测与s t r a i g h t 两个分析合成平台上进行了实验分析与性能评 测。 第五章介绍了对本文提出方法的总结及今后进一步研究的方向。 4 基于g m m 的独立建模语音转换系统研究第二章语音转换理论基础 第二章语音转换理论基础 2 1 语音信号的基本特性 2 1 1 语音产生机理 语音信号的产生过程分为如下几个阶段:首先,说话人在头脑中产生想要用语言 表达的信息;然后将这些信息转换成语言编码,即将这些信息用其所包含的音素序列、 韵律、响度、基音频率的升降等表示出来。一旦对这些信息编码完成后,说话人会用 一些神经肌肉命令在适当的时候控制声带振动,并塑造声道的形状以便发出编码中指 定的声音序列。神经肌肉命令必须同时控制调音运动中涉及的各个部位,包括:唇、 腭、舌头以及控制气流进入鼻腔的软腭。一旦产生了语音信号,并将这些信息传递到 听者时,语音的感知过程也就开始了。听者内耳的基底膜对语音信号进行动态的频谱 分析,神经传感器将基低膜输出的频谱信号转换成对听觉神经的触动信号,这一过程 和特征提取的过程某种程度上类似。作用在听觉神经上的活动信号,在大脑更高层的 中枢转化成语言编码,并由此产生具有语义的信息。语音的发声器官如图2 - 1 所示。 人类用来产生语音的发音器官自下而上包括:肺部( 1 u n g ) 、气管( t r a c h e a ) 、喉 ( 1 a r y n x ) 、咽( p h a r y n x ) 、鼻腔( n a s a l ) 、口腔( o r a lc a v i t y ) 和上、下唇。它们作为 整体形成了一个连续的管道。其中喉部以上的部分称为声道,随着发出语音的不同, 其形状是变化的,喉的部分称为声门。肺是胸腔内的一团有弹性的海绵状物质,它可 以储存空气。通过正常的呼吸系统空气可以进入肺部,在说话时腹肌收缩使横隔膜向 上,挤出肺部的空气,形成气流。由肺部呼出的气流是语音产生的原动力。气管将肺 部排除的气流送到咽喉。喉部位于气管的上端,由4 块软骨组成,包括甲状软骨、杓 状软骨、环状软骨和会厌软骨。其中甲状软骨突出在颈部,称为喉结。在喉部的从喉 结到杓状软骨之间的韧带褶,称为声带( v o c a l c o r d s ) 。喉部的声带既是一个阀门又 是一个振动部件。一般声带的长度为1 0 n m r - - 1 4 m m 。如图2 - 1 所示,呼吸时,左右声 带打开;说话时声带合拢。两个声带之间形成一个开闭自如的声门( g l o t t i s ) ,声门 的开启和关闭是由两个杓状软骨控制,说话时合拢的声带受声门下气流冲击而张开; 5 第二章语音转换理论基础基于g m m 的独屯建模语音转换系统研究 由于声带具有一定的韧性,可以迅速闭合。当气流通过气管和支气管经过咽喉时,收 紧的声带由于气流的冲击产生振动,不断地张开和闭合,使声门向上送出一连串喷流。 这时的气流被截断成准周期的脉冲,一般用非对称的三角波表示。声带的振动取决于 其质量。质量越大,每秒振动次数越小;反之,质量越小,声带震动越快。声带振动 频率决定了声音的音高。声带振动产生声音,这是产生声音的基本声源,称之为声带 音源( g l o t t a ls o u r c e ) 。声带音源被进一步调制后经过咽喉、口腔或者鼻腔。口腔 的开合、舌头的活动和舌腭的升降等发音动作,形成了不同的声道构形,从而发出不 同的语音。最后,由嘴唇开口处将语音辐射出去【1 7 】【1 8 】【1 9 】【2 们。 ;谑 撼 声 道 腔 2 1 2 语音信号产生模型 从l 南部来的气漉 ( 能量来源) 图2 1 语音产生生理结构 鼻腔 ( 滤波) 软腭 ( 鼻腔开关) 口腔 传统的基于声道的语音产生模型如图2 2 所示。该模型一直沿用至今,是最成功 的语音产生模型。它包含激励模型、声道模型和辐射模型三个部分1 2 l 】。 6 基于g m m 的独立建模语音转换系统研究第二章语音转换理论基础 激励模型i声道模型i辐射模型i 图2 2 语音产生数字模型 语音的这三个发音过程是和我们的发音器官一一对应的。声源激励主要对应着 肺、气管、声带等器官,从肺中呼出来的气流是语音产生的原动力。声道调音主要对 应着咽腔、鼻腔和口腔等发音器官。辐射有提升高频的作用,其提升幅度大约为每倍 频程6 d b 。 在这一系统中,可以将嗓音源等效为激励信号,将声道调音过程等效为一个线性 时变因果稳定的滤波器,将嘴唇和鼻腔辐射等效为一个微分作用。作为系统输出的语 音信号是线性时变因果稳定系统受到激励信号激励,经过嘴唇和鼻腔辐射后而产生 的。 2 1 3 语音信号个性特征 语音携带的信息包括:语言学、音段、超音段等,其中,语言学是现今语音技术 领域的主要研究方向。同时,语音信号中包含了很多的非语言学信息,如语音的韵律 特性,物理特性等个性特征信息,在语音识别、说话人识别、智能语音等领域发挥着 重要的。声音的个性特征不仅帮助我们确认说话者,而且使我们的生活丰富多彩。 与声音个人特性相关的因素可分为社会心理学和生理学两个方面,一个人的说话 7 第二章语音转换理论基础基于g m m 的独立建模语音转换系统研究 风格与他的年龄、社会地位、方言等因素有关。说话人风格从声学的角度上看主要体 现在韵律特征上,如基频曲线、时长、速率、节奏、停顿、能量等。而声音的音质主 要是由发音器官的生理、物理特性决定的,但同时受说话人的情绪状态的影响,语音 的音色则主要体现在由声门波频率及频谱,声道谱能量等方面。 语音信号包含了很多信息,首先是语义信息( 说的是什么) ,其次是说话人信息 ( 谁说的) ,还有环境信息( 在哪里说的) ,其中说话人的信息表明了说话人的身份, 是与语音的内容与环境是无关的。语音转换就是要在保留语义等信息的前提下,改变 说话人的个性特征,说话人个性特征一般分为以下几种: ( 1 ) 声学特征 描述的是说话人语音的音色,包括共振峰的位置和带宽、谱的倾斜度、基音频率 f 0 和能量曲线,这些特征主要依赖于发音器官的生理特性,也会受说话人的情绪状 态的影响【2 2 1 。 ( 2 ) 韵律特征 主要是指说话的方式,例如音素的时间长短、音调和重音等,人们所感觉到的就 是说话的速率、音调和音量的变化【2 3 】。 ( 3 ) 语言特征 包括选词、方言和口音。这些特征不在本文讨论的范围之内,本文实验的语音库 尽量减小了这方面的影响。 下面举例说明不同说话人之间声学特征的差异: m a ns p e e c h :s u z h o u n 工 槲 聚 图2 3 男声“苏州”语谱图 8 基于g m m 的独立建模语音转换系统研究 第二章语音转换理论基础 w o m a ns p e e c h :s u z h o u 图2 4 女声“苏州”语谱图 从男声与女声的语谱图上可以看出,即使对同一单词,不同说话人音素发音时间、 基音频率、共振峰等表现都不一样,这也从一个侧面说明了语音信号的复杂性。 2 2 语音信号分析模型 语音信号的分析合成平台在语音转换系统中起着举足轻重的作用,只有选择了合 适的语音分析合成平台,才能准确提取语音声学特征,从而精确实现特征的控制与转 换。 由图2 2 语音信号的数字模型可以看出,语音信号可以看作是激励源冲击声道滤 波器产生的响应1 2 ,如下图示: 励e ( n )语音s ( n ) 声道滤波器 h ( n ) 图2 5 语音信号源一滤波器模型 目前主流的语音分析合成模型中,线性预测模型和s t r a i g h t 模型都是基于这种 源一滤波器的模型。下面着重对两个模型进行介绍。 9 第二章语音转换理论基础 基于g m m 的独立建模语音转换系统研究 2 2 1 线性预测分析模型 线性预测的基本概念是:假定当前样点值可以由前p 个样点的线性组合来逼近, 那么通过预测值与真实值做最小均方误差逼近,就能确定p 个组合系数1 2 。 首先定义预测器: o ) :壹吼s g 一后) ( 2 1 ) k = l 表示当前信号样点值由前p 个样点的线性组合得到,再定义预测值与实际信号值 的误差为:e ( n ) 贝l j 实际语音信号与预测信号关系如下: 显然由上面的差分方程进行z 变换,可以得到: ( 1 p 口t z - k ) s ( z ) :e ( z ) k = l e ( z ) = g 幸“( z ) ( 2 3 ) ( 2 4 ) 我们看到如果将e ( z ) 作为输入,s ( z ) 作为输出,实际上就可以与语音的源一滤波器 模型做如下等效: 激励e ( z ) h 【z 、: g s ( z ) ,p 1 一y 口 z 以 - “ k = l 图2 4l p 合成器原理 其中g 表示声道滤波器增益,线性预测模型预测系数a ( k ) ,主要通过最小误差估 计误差准则来确定,即定义预测值与真实值在某一区间的累计误差为: 一 【雪( 刀) 一s ( 刀) 】2 达到最小,求解线性预测的方法主要有晰b i n 法,b u r g ,格行法 l 等,这些算法相对成熟,在此不作赘述。 1 0 、,22 、, ,l p+ 、, 七一疗 i - , s 鲰 p 树 = 、- , ,一, s 基于g m m 的独立建模语音转换系统研究 第二章语音转换理论基础 在求得预测系数扯) 后,就可以将h ( z ) 等效为一个声道滤波器,用激励源激励产 生的响应作为合成的语音。 以女声发“苏州”为例,我们来看一下用l p c 合成的语音: 0 0 5 5 0 0 霄4 0 0 工 h3 0 0 u t - - 当2 0 0 口 亡1 0 0 0 源语音 k y o2 0 0 04 0 0 06 0 0 0 源语音语谱图 246 1 1 m e 合成语音 5 0 0 霄4 0 0 - 1 h3 0 0 u c 罢2 0 0 f a , 芷1 0 0 0 合成语音语谱图 246 t i m e 图2 5l p c 系数合成语音与原语音对照 由l p c 合成语音语谱图可以看出,合成语音基本与原语音相似,但仍存在很大不 同,特别是“z h o u 这个音,因为这个音包含浊辅音,l p c 全极点模型不能很好模拟 这一过程,所以,合成的效果不是很理想,虽然从听觉测试上能听出语义,可是还是 存在一些噪声, 由上面的分析可以看出,线性预测模型的传输函数是一个全极点模型,由分析可 知,语音信号不一定都满足全极点模型,特别是鼻音和爆破音时,这种模型描述似乎 不太恰当,即使用多个极点来等效一个零点,也不能很精确模拟这些特殊情况下系统 的传递函数,因此l p 模型虽然简单,可是将它用于高质量的语音转换系统上,就难 免显得粗糙了。 由语音信号产生模型可以看出,最好经过模型分析得到的残差激励e ( n ) 类似于周 第二章语音转换理论基础基于g m m 的独立建模语音转换系统研究 期脉冲,而实际l p 模型却很难做到这一点,特别是残差激励还携带了大量的语义信 息,这对后面的转换尤其不利。 正是由于l p 模型的缺陷,日本学者k a w a h a r ah 提出了新的语音分析合成算 法( s t r a i g h t ) 得语音分析得到特征参数更加精细1 2 4 1 ,下面简单介绍一下这个算法。 2 2 2s t ra i g h t 分析模型 s t r a i g h t ( s p e e c h t r a n s f o r m a t i o na n dr e p r e s e n t a t i o nu s i n ga d a p t i v ei n t e r p o l a t i o n o f w e i g h t e ds p e c t r u m ) 是一种针对语音信号的分析合成算法,它通过对语音短时谱进 行时频域的自适应内插平滑来提取精确的谱包络,并能在恢复语音的过程中进行时 长、基频以及谱参数的灵活调整。s t r a i g h t 具有很高的恢复语音的音质,它作为一种 有效的参数分析与调整工具在语音研究中已经得到了广泛的应用。它的核心是一种源 一滤波器的思想,整个分析合成过程主要由以下几部分组成:( 1 ) 去除周期影响的谱 估计;( 2 ) 平滑可靠的基频轨迹的提取;( 3 ) 合成端的实现【2 5 1 2 6 1 。 ( 1 ) 去除周期影响的谱估计 传统的通过加窗计算得到的语音信号的短时谱会在时间轴和频率轴上出现与基 音周期和基音频率有关的周期性。为了正确估计语音信号的谱包络,使其不受基频的 影响从而实现高灵活度的韵律调整,必须将此二维空间上的周期性去除。故s t r a i g h t 中采用了卷积二维三角窗的平滑方法。 s ( 叫) - 1 g - l 肌( 枷培( i ,佃 f - ,c ) | 2 ) d m 百 ( 2 5 ) y d 吩( 九,t ) = ( 1 一l 射b o o ) 1 ) ( 1 一i o o ) i ) ( 2 6 ) 其中,f ( ,f ) 表示计算得到的短时谱,s ( ,于) 表示平滑后得到的谱包络。函 数g o 定义平滑时保留谱参数的何种特性。例如g ( x ) = x 保留的是信号的能量特性, 而g ( x ) = x 1 乃。则保留的是信号的听感响度特性。 ( 2 ) 平滑可靠的基频轨迹的提取 s t r a i g h t 中借助于小波分析进行了语音信号的基频分析。首先在不知道基频的 1 2 基于g m m 的独立建模语音转换系统研究第二章语音转换理论基础 情况下,寻找出语音信号中对应的基频成分,再从中计算出即时频率作为语音信号的 基频。 ( 3 ) 合成端的实现 输入合成端的参数包括上面分析得到的二维谱包络和基频轨迹。在合成时使用的 是基于基音同步叠加和最小相位冲击响应的方法,并且在合成过程中可以实现时长、 基频和谱参数的调整。使用的公式如下 少2 厄南咿删 晓7 ) 删= 忑1 e 矿( ,) 佃) p 硒如) ( 2 8 ) 配) 2 乏丽1 丽 ( 2 9 ) 其中,式( 3 ) 反映的是一个基音同步叠加的过程,y ( f ) 表示恢复的语音信号,q 表示用于合成的基音同步位置的集合,函数g 0 表示基频的调整,它可以是任意形式 的映射关系。式( 4 ) 反映的是每一帧对应的冲击响应的求取过程,y ,) 表示最小 相位冲击响应的傅里叶变换, ) 为具有附加的控制相位的激励,用来改善听觉状 况。式( 5 ) 反映的是基音同步位置的确定过程v ( c o ,f ) 可以从先前分析得到的平滑谱 s ( o ,r ) 计算得到,即将一般相位的谱转化为最小相位,采用的是基于倒谱的变化方法, 即有 咐一x p ( 去j c o 蛐沙锄) 旺 f 0 q 0 嘶) = 去e e i a a q l o g a ( 跗( 毗俐) 幽 ( 2 1 2 ) 第二章语音转换理论基础基于g m m 的独立建模语音转换系统研究 其中g 表示倒频,a o ,u o ,厂( ) 分别表示对平滑谱s ( ,t ) 在幅度、频率和时间轴上 的调整。 之所以重点介绍这两个分析合成平台是因为,本文的基于独立建模的语音转换系 统就是基于这一平台实现的,对于转换系统来说,良好的合成平台更能展现改进算法 的优越性。 以女声发“苏州为例,我们看一下s t r a i g h t 平台合成的语音效果: 0 田5 6 0 0 霄4 0 0 - r h3 0 0 u t - - 当2 0 0 f a ) 亡1 0 0 0 源语音 _ - _l 吖1 r 02 0 0 04 0 0 06 0 0 d 源语音语谱图 246 t i m e 0 5 0 司5 合成语音 。 r 图2 6s t r a i g h t 合成语音与原语音对照 由语谱图我们可以看出,s t r a i g h t 合成语音,几乎与原语音一样,从听觉测试上 来看,合成后的语音与原语音几乎听不出任何差别。这说明,s t r a z g h t 分析合成平台 是一个很好的合成平台。 有了语音分析合成平台,下面来介绍一下整个系统设计中实验用到的相关参数。 2 3 用于语音转换的特征参数 语音转换与语音识别,说话人转换的不同之处在于,在语音转换和说话人识别中, 1 4 = 爹娶多 基于g m m 的独立建模语音转换系统研究第二章语音转换理论基础 只要参数能够反映语音或说话人特征即可,而语音转换系统是基于语音合成平台来进 行的,所以必须考虑选用的特征参数是否利于合成,因此在转换系统中本文采用l p c , l p c c 参数,因为这些参数既适于训练建模,又便于合成。 2 3 1 激励源参数 语音信号在时域上表现为短时平稳长时非平稳的特性,特别是在v o i c e 段体现一 定的准周期特性,由前面的语音信号产生生理机制,我们了解到,声带振动作为激励 冲击声道产生语音,而声带的振动在短时内不会突变,所以我们认为在短时内 ( 1 卜3 0 m s ) ,声带振动产生的浊音具有一定的周期特性【2 ,我们将这个声带振动的 基本频率,作为信号的基音频率f 0 ,f o 反应了声带特性,不同的人声带形状,大小 等差异明显,因此,f 0 能够很好体现说话人特征,在现有的语音转换系统中,f 0 这 一特征转换的好坏直接影响整个系统性能。 因此,在进行语音信号分析时,必须准确提取信号f 0 ,目前f 0 的提取主要有时 域和频域两种,时域方法有自相关、互相关的方法,频域方法有逆滤波器法、倒谱法 等,这些方法各有利弊,理论依据也较为纯熟,篇幅有限,具体提取f 0 的算法在此 不作赘述。 也有人将声门脉冲波的物理特性作为激励源参数,但这些参数不像f 0 那样体现 的明显,而且捕捉困难,本文在转换过程中,着重对f 0 进行转换。 2 3 2 声道谱参数 语音信号经过声带振动,被送入声道,声道实际是一个谐振腔,可以将其等效为 一个串联的滤波器组,声道特性一般可以通过谱参数来描述,例如l p c c 系数,本文 在实验的过程中,选用了l p c c 参数,因为这一参数既便于建模,又利于合成,下面 着重介绍一些这个参数。 线性预测倒谱系数( l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t ,l p c c ) 是基于语 音信号为自回归信号的假设,利用线性预测分析获得倒谱系数的一种倒谱特征。一般 8 - - 3 2 维的l p c c 就可以较好的表征声道特性,所以l p c c 这一特征在语音建模中被作 1 5 第二二章语音转换理论基础 基于g m m 的独立建模语音转换系统研究 为一种常用参数【2 1 1 。 由前面的线性预测分析模型的传递函数: ( z ) 2 忑g 了 l 一 。口 z 1 ( 2 1 3 ) 我们知道p 为线性预测阶数,鲰( 七:i 2 ,p ) 为p 阶线性预测参数,对h ( z ) 两边求取 对数,然后再作傅立叶级数展开,得 得到 h l h ( z ) = c ( z ) = c 上j p ( 聆) z 一 ( 2 1 4 ) 其中锄与称为语音信号的l p c 倒谱系数,也即l p c c 。将式( 2 1 6 ) 代入式( 2 1 4 ) 吖 g p 1 一鲰z 越 k = l 争1 加弦 ( 2 1 5 ) ,=二1 j 式( 2 1 5 ) 两边对z ,求导,再简化得: p k a 忌z 弋卜d k = l p l 一锹z 0 0 - e n c 尸( 门) z 一疗一1 ( 2 1 6 ) 式( 2 1 6 ) p - i 写成如下形式 p 砌七z 州) _ ( 1 一p 吼z 一七) o o 聆c 凹( 船) z 巾叫( 2 1 7 ) k = lk = ln = l 在式( 2 1 7 ) 中,令方程两边z 一- 各次幂的系数相等,则可以得到l p c 倒谱系数 c 驴( 疗) 与线性预测系数a k ( k = 1 ,2 ,p ) 的关系: 1 6 基于g m m 的独立建模语音转换系统研究第二章语音转换理论基础 气p ( 1 ) = a l c l p ( 刀) c l p ( 玎) i | ( 后) 七c l e ( k ) + a n ( 1 p ) ( 2 1 8 ) l p c c 系数可以看作是由l p c 系数求得的声道响应函数在倒谱域的单位冲击响 应,这个参数比l p c 系数更能体现声道特性,因此在模型训练时,常将l p c 系数转 换为l p c c 系数,再进行建模训练,后期合成时,只需要将l p c c 系数f f t 就可以 变换为声道相应函数,以此作为l p c 合成器,进行合成。 m f c c ( ( m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ) 系数是基于人耳听觉特性得到的倒 谱域参数,虽然在说话人识别领域取得了很好的效果,但这一参数不利于合成,即使 可以将其与l p c c 做某种算法转换,再借助l p 分析合成平台来合成,但相对来说过 于复杂,因此,本文没有用这一参数来进行训练建模。 2 4 语音转换基本原理 2 4 1 语音转换系统分类 语音转换系统根据转换目标人特性可分为两类【2 7 】: ( 1 ) 非特定人声音转换 非特定人声音转换,不要求转换后的声音与某个特定人相像,而只要求与某类人 相像。比如说,男声转换为女声,或者不同年龄层次之间的声音转换。这种类型的转 换主要是通过利用变换因子来修改声源或声道参数。很多学者做过这方面实验,取得 了不错的效果。例! t 1 c h i l d e r s d g 通过实验认为平均女声、男声的基频和共振峰频率 的比例关系为1 4 1 8 和1 1 8 4 。因此在具体的实现过程中,就可以按照上述的比例因子 统一变换,可以实现简单的非特定人之间的说话人转换,无须训练。这种转换是相对 简单的转换,只要语音分析合成平台较好,一般都能取得不错的效果。 ( 2 ) 特定人声音转换 1 7 后一栉 七一万 脯心 第二章语音转换理论基础基于g m m 的独立建模语音转换系统研究 特定人的声音转换,相对复杂的多,要求转换后的声音具有特定人的声音特质, 在听觉测试上就如同目标说话人发出的一样,这样就需要建立源与目标说话人的声音 特征模型,设定源与目标说话人声音转换规则,后期还要将转换后的特征矢量通过
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 肺部微环境蛋白质组学分析-洞察及研究
- 钻井基础知识培训课件讲义
- 知识产权法律培训的意义
- 钳工技术基础知识培训
- 知识产权布局培训班课件
- 2025年春季初级经济师职业资格考试 经济基础知识考点突破模拟试题试卷
- 钣金电工知识培训课件
- 知识产权培训讲座深圳课件
- 知识产权培训班讲话课件
- 2025年项目管理能力测试题
- 2025年学校食堂从业人员食品安全知识培训考试试题及答案
- 2025年国家电投校园招聘笔试考点考试题库及答案
- 让情绪有着落-2025年情绪营销8大趋势洞察报告
- 教师校园安全培训课件
- 头皮健康与头发生长关系的研究
- Odoo面试题及答案
- 2025年全国I卷英语 高考真题
- 科技论文写作 第2版 课件 第1-5章 科技论文写作概述-英文科技论文的写作
- 北京车牌结婚过户协议书
- 赃款退还协议书
- 中华护理学会团体标准|2024 针刺伤预防与处理
评论
0/150
提交评论