（通信与信息系统专业论文）移动便携平台语音韵律转换技术研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：59 大小：1.59MB 积分：0 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

（通信与信息系统专业论文）移动便携平台语音韵律转换技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要语音韵律转换技术是指在保持语音信号谱包络不变的条件下单独改变语音的基频或时长。这种技术是语音信号处理中的一个较新的分支，它具有很重要的理论意义和实用价值。本文研究的目的是开发一种能够在移动便携平台上进行实时处理的高质量、高自然度语音韵律转换系统。文章首先介绍了几种典型的语音韵律转换方法，接下来着重研究了一种低复杂度的韵律转换算法t d p s o l a 算法。其中，对该算法中的关键技术点如基音检测、基音标注和同步叠加合成等进行了详细研究，将矩阵最优路径算法应用于本系统，并且讨论了叠加窗长度的选择对信号合成造成的影响，发现选择韵律转换前后对应较小的基音周期的窗长能够有效减少合成信号中的噪声。此外，根据t d p s o l a 算法直接对信号波形进行复制或删除，在修改基频时很容易造成信号幅度、相位及语谱上的不连续而造成合成信号质量下降这一缺点，提出将线性预测应用于本系统。实验表明，引入线性预测能够很好的改善合成语音的质量，同时系统的运算复杂度依然保持在一个较低的水平。文章最后介绍了一种新的基于h n m 模型的韵律转换技术。经h n m 模型处理后生成的信号质量要好于基于t c p s o l a 算法得到的结果，但对目前的硬件条件而言，这种基于h n m 模型的韵律转换算法的复杂度还是很高，不适合于在移动便携平台上进行实时处理。关键词：韵律转换基音检测基音标注线性预测 a b s t r a c t s p e e c hp r o s o d ym o d i f i c a t i o ni n v o l v 懿c h a n g i i l gt l l ep i t c ha n dd w a ：t i o no fs i g n a l w j m o u ta 舵c t i n gt h en a t l l r a l i l e s so fs p c ha n di t ss p e c n 谢锄v e l o p e a sab r a i l c ho f s p c c c hs i 弘a 1p r o c e s s i i l 吕s p e e c hp m s o d ym o d i 矗c a t i o nh 觞i n l p o r t 卸ts i 弘i f i c a n c e t l l e o r 戤i c a l l ya n dp r a 而c a l l y t h i sp 印e rf o c l l s e so ni m p r o v i n g 趾a l g 嘶t b i no fs p e c c hp r o s o d ym o d i 矗c a t i o i l ， i n c l u 出n gp i t c h - s c a l ea 堇l dt i m e - s c a l e ，“i sd e s i 舻c dt ob e 邛no np 哦a b l ed e v i c e si nr e a l t i m e 岍t hg o o ds ”t l l e s i ss p c hq u a l i 戗f i r s to fa l l ，s e v e r a lt y p i c a lm e t l l o d so fp r o s o d y m o d 岱c a t i o na r es t h d i c d ht l 地i n v e s 如a t i o no ft d p s o l a ( t i m ed 伽哩a i n p i t c h s y n c h i o n o u so v e r l a pa d d ) ，s o m ep i v o t a lp o i n t s ，i n c l u d i n gp i t c hd c t e c t i o n ，p i t c hm a r k i n g ， p i t c h - s y 芏l c h r o n o i l sa n a l y s i sa n ds y n t l l e s i s ，a r ed i s s s e di nd “1 s s e c o n d l xad y n a m i c p r o 笋锄m i n gr o l n j n eu s c dt 0c a l c u l a t e 觚叩t i m a lp a t ho far c c t a n g l l l a r ，m 矧xi s i 蛐r o d u c e di nm i sa l g o r i t l l l nf o rp i t c hm a r k i n g ni sd i s c o v c r e dt h a tt h el e l l g t ho f 锄a l y t i c 谢n d o wh 雏d i 脑吼te 虢c t so nt l l es y n n l e t i cs i g n a l ，i e w h e nt h e1 e i l g mi s c o n s p o n 碰n gt om es m a l l e rp i t c hp e r i o d t 1 1 er e s u l ti sb e t t 盯t l l 趾t l l ec 弱e sw h 吼t h e 丽n d o wi sl a r g e lf i n a l l y ，i no r d e rt 0o v e r c o m em ed i s c o n t i i n l c dp r o b l l so ft h e 锄p l i t u d 嚣a i i dp h 觞c sr c s u l t 的mw a v e f o mc o p y i n g 柚dd e l e t i o nb yt h et d p s o l a a l g o r i m m ，t h el i n e a rp r e d i c t i o nt e c h n i q u ei si n 仃o d u c e di nt h i sa l g o r i t h m e = k p 嘶m e n t a l r e 娜1 t ss h o w 伽a tt l l i s 如p r o v c dp r o s o d ym o d 墒c a t i o ns y s t e mh 髂g o o ds p e e c hq u a l 埘 w h i l ek e e p i n g1 0 w e rc o m p l c ) 【i 哆 i i lt h el 船tp 舐o ft h i sp a p an o v e la l g o 枷= 1 1 i lc a l l e dh n m ( h a r i n o n i cp l u sn o i s e m o d d ) i sa d d r c s s e d n ep e 响m a i l c eo ft l l i sm o d di sb c t t e rt l l 强t d p s o l a ，b u ti s h i 曲e ri nc o m p l e x i 够s ot h i sm o d e li s n o ts l l i t a b l ef o rr e a lt i l ea p p l i c a t i o ni i lt l l e c u n l e n td o r t a b l eh a r d w a r ec o n d i t i o n s k e y w o r d ：p r o s o d ym o d i 6 c a h o n p i t c hd e t e c 廿o np i t c hm a r 姑n g l i n e a rp r e d i c t i 创新性声明秉承学校严谨的学风和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切的法律责任。申请学位论文与资料著有不实之处，本人承担一切的法律责任。本人签名：空鱼些：关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证，毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密，在一年解密后适用本授权书。本人签名：垒童望：导师签名：2 醴2 日期形3 。，第一章绪论第一章绪论 1 1 引言目前，随着多媒体技术的发展，多媒体应用越来越多。语音和音频是多媒体的重要组成部分，语音音频处理技术也得到了飞速发展。其中语音合成技术的应用场所日趋广泛1 1 】【2 】。语音合成、文语转换等技术是实现人机语音通信，使电脑具有类似于人一样的说话和听懂人说话的能力。但现在语音合成的清晰度、自然度还不尽如人意。如果只是单纯的将事先存入的单词或词组拼接起来虽然也能让“机器开口”，但是“一字一蹦”机器昧十足，人们难以接受。如果能用恰当的技术手段将语音单元拼接起来，就能生成自然度比较高的语句。另外，在一些影音娱乐方面，如影视节目、游戏的配音中对说话入语音特性的修改使之产生各种不同的语音效果，以及需要对说话人的语音特性作个性化伪装等场合，都需要有一套有效的控制规则。而这个控制规则的根本就是能够用适当的方法对语音的韵律特征进行变换修改。同时，随着时代发展，越来越多的人们开始追求个性化语音服务。作为这种种服务的核心技术，语音韵律特征的转换技术开始受到广泛关注。随着当今移动便携平台的普及推广，以及其功能的日趋强大，上述种种应用都需要在移动便携平台上实现。因此，针对移动便携平台的语音韵律变换技术的研究成为一个热点。现有的语音韵律特征转换技术基本都是针对p c 、家电等大型平台，而针对移动便携平台的技术较少。而且，随着移动便携平台的进一步普及，人们对这类技术的需求也非常迫切。因此针对这种平台开发的低复杂度、实时处理算法非常具有实用价值。 1 2 语音韵律转换技术语音的韵律特征主要包括基音周期、时长和能量等内容，是语音信号的重要个性特征【3 1 。语音的韵律转换( p r o s o d ym o d i f i c a t i o n ) 的目的是在保持语音信号短时谱包络不变的条件下改变该信号的时长或基频。语音韵律转换在语音通信中有非常广泛的应用。例如，在文语转换系统( t t s ， t e x t t o s d e e c h ) 中，经常需要改变某个语音基本单元的时长及基音轮廓以便能使其与前面一系列语音单元的发音方式相符合。时间尺度( 时长) 的扩展可以用来降低语速，提高语音的可懂度，典型应用如外语学习机等；时间尺度( 时长) 的压缩可以使语速加快，这可以应用于留言电话的回放系统，使人们能够快速浏览已 2 移动便携平台语音韵律转换技术研究经记录下的电话留言。改变语音的基音轮廓能够使发音听起来像另外一个人的发音，结合时长的变化就能够改变说话入的语音个性特征。在电影配音中，尤其是用另外一种语言进行配音时，往往配音者不是演员本人，这样常常使配音与原演员的个性特征相差很大，使配音效果不理想，但如果将配音再进行适当的韵律转换，使之重新具有演员本人的个性特征，那么配音效果就会理想的多。在自动语音翻译系统中也存在相类似的问题。此外，语音韵律转换还可用于保密通信中进行语音个性化的伪装，例如，通过语音转换技术，按确定的一种规则改变说话者语音的某些参数，再在接收端进行反变换，合成出原来的语音，如果在传输过程中被侦听，那么听到的将是另外一个说话人的声音，达到说话人伪装效果。总之，语音韵律转换技术具有很高的实用价值和理论价值。 1 3 本文的主要工作和主要成果作者在熟悉语音信号处理的基础上，迸一步研究了语音韵律转换的相关技术，最后完成了一个基于t d p s 0 l a 语音韵律转换的实验系统。主要工作如下； 1 对目前最为流行的t d p s o l a ( 时域基音同步叠加) 【4 】【5 】【6 1 技术进行了详细研究，在结合其具体实现的基础上对其优缺点进行了总结。 2 讨论了实现过程中，基音检测、基音标注等步骤的具体实现方法。 3 论证了将线性预测引入基音同步叠加算法的可行性，并对结果进行分析，完成了基于线性预测的t d p s o l a 韵律转换实验平台。 4 对最新的韵律转换方法h n m ( h a n n o n i c p l u s n o i s e m o d e l ) 【7 】做了一定研究。研究工作的主要成果如下： 1 完善了基音检测算法，使得检测结果更为准确； 2 在本系统中成功应用矩阵最优路径算法，经实验，该算法的应用使标注的误差落在1 个采样点之内，极大提高了计算机自动标注的精度。 3 讨论了叠加窗长度的选择对信号合成造成的影响，通过选择韵律转换前后对应较小的基音周期的窗长，有效地减少了合成信号中的噪声。 4 将线性预测引入本系统。实验表明，引入线性预测能够很好的改善合成语音的质量。本文内容安排如下：第二章阐述了语音韵律转换技术的发展及现状：第三章介绍了语音信号数字处理的有关知识；第四章分析了t d p s o l a 算法并对其进行了论证；第五章详细描述了t d p s o l a 算法的实现过程，在分析实验结果的基础上对算法进行了一定程度的改进；第六章介绍了一种在将来可能取代t d p s o l a 的新技术删合成技术。第二章语音韵律转换技术概述 3 第二章语音韵律转换技术概述 2 1 引言语音的韵律( p r o s o d y ) 特征【8 】是指语音的长时变化( 即超越一个音素以上的变化) 规律，包括基音( 对应音调) 、幅度( 对应响度) 和时长( 对应语速或节奏) 的变化所遵循的规律。语音中的这些规律传达出不同的含义、强调和情绪。例如，陈述表达句的平均基音轮廓倾向于在句首抬高，然后缓慢下倾，在句尾会迅速下降。而对于疑问句，在对应的时刻上，基音轮廓比同样内容的陈述句轮廓要高。此外，说话人还会加上其自身个人的韵律特征，如有个性特征的语速和基音起伏。语音的韵律转换主要包括两部分内容：基频变换和时长变换。单独的基频变换一般要求保持变换前后的频谱包络、时长、能量等语音信号特征不变，只改变语音信号的基音周期。而单独的时长变换，则一般要求保持变换前后语音信号的基频、频谱包络、能量轮廓等语音信号特征不变，只改变语音信号的时长特征，即改变基频、频谱包络、能量轮廓的演变速率。在韵律转换之后，如果单个基音周期内的语音波形同原始信号的语音波形很相似，就称之为波形不变。在基频和时长的变换过程中，由于频谱包络一般保持不变，所以波形一般而言也是不变的，基频的变化表现为各个基音周期长度的变化，而时长的变化表现为基音周期个数的不同，总体而言，语音信号的基本波形保持不变。 2 2 语音韵律转换技术的提出最简单的时长变化就是将原始语音信号快放或慢放，但是这样做会使语音的音调与之相应的升高或降低，这是显而易见的：单位时间内重复出现的周期信号数量增多或减少对应了频率的升高或下降。然而，这也为我们提供了一个思路：能否在改变时长的同时保持单位时间内周期信号的数目不变，或者在时长保持不变的情况下改变单位时间内周期信号的数目。实际上，这也是在时域上修改语音时长或基频的最初思想。 1 9 5 8 年f a i r b a n k s 等人在此思想的基础下提出了剪贴法，之后的l a r o c h e 对这种方法进行了详细的阐述 9 】。在这种方法中，若要以因子口压缩( 扩展) 信号减小( 增加) 时长，如果输入信号为m s ，在满足口= ( _ 一) ( 时长增加时，相应的口= ( + 工) ) 的条件下，删除( 复制) m s 的内容，输出( 一) m s ( ( + l ) m s ) 的内容，但是如果只是任意选择信号的长度而不去考虑信号本身的特性，处理 4 移动便携平台语音韵律转换技术研究后会对信号造成很大的不连续。剪贴法中考虑了这个问题。这里的值被限定在一个很小的范围内( 如5 0 m s ) ，因为短时间内信号特性较为一致，这样对信号进行复制或删除操作时引入的不连续较小。若想改变信号的频率，可以首先改变它的时长，然后进行重采样，就可以得到频率变化但时长不变的信号。此后，在1 9 7 9 年d m a l a l l 提出了另一种时域方法时域谐波修正法( t d h s ) 【1 0 】，随后在1 9 8 5 年，s r o u c o s 和a m 、矾l g i l s 在原有算法的基础上提出了一种更为简单的纯时域方法同步交迭叠加法( s o l a ) f l l j 【1 2 】。也有学者从频域的角度进行了研究。f l a n a g a l l 和g o l d c n 在1 9 6 5 年首先提出了相位声码器思想【l ”，1 0 年后p o m l o 暇用数字化手段将其实现。相位声码器是通过滤波器组来实现语音时长修改的。其原理分2 步：信号( 用多个正弦信号来表示) 的分解和合成。分解的目的是确定信号的参数值，这些参数主要包括正弦波中随时间变化的振幅和随时间变化的频率分量。重建的过程是对所得到的参数进行修正后再合成信号。在分解阶段，用带通滤波器组实现输入信号的幅度与频率分离，并控制一组调谐振荡器。这种可以把时域与频域信息分离的结构恰好也就达到了变速不变调的目的。事实上，在工程实践中可以通过改变调谐振荡器的振荡频率，使其与带通滤波器组的频率成某种倍数关系，也能达到某种程度上的时间尺度调整。在通过声码器的分解阶段后，对所得到的随时间变化的幅度( 时域信息) 进行尺度变换，同时保持随时间变化的频率( 其中包含了共振峰等频率方而的信息) 不变，然后再经过合成阶段便可以完成时长调整。但是这样合成的语音听起来有明显的金属声。 2 3 现代语音韵律转换技术早期的语音韵律转换技术算法简单，但生成的语音信号质量很差，如上一节提到利用重采样也可以改变信号的频率，但是这种方法会引起共振峰频率和带宽的明显变化并且会引入很大的噪声。现代语音韵律转换技术是建立在语音信号分析合成技术的基础上的。语音信号分析合成技术主要分为参数合成方法和波形拼接方法【2 j 。在实际应用过程中，参数合成技术和波形拼接技术逐渐相互渗透并逐步结合，形成了新的混合技术。 2 3 1 参数合成技术基于参数规则的合成技术用参数表示语音的特性，其过程主要是计算参数轨迹，形成规则，并对这些参数作独立处理，最后完成语音的参数合成。采用的参数有：1 ) 发音器官参数语音合成，这种方法对人的发音过程进行直接模拟。它定第二章语音韵律转换技术概述 5 义了唇、舌、声带的相关参数，由这些发音参数估计声道截面积函数，进而计算声波。2 ) 声道模型参数语音合成，它基于声道截面积函数或声道谐振特性合成语音，如共振峰、l p c 、l s p 等参数合成器。这类合成器由于参数较为直观，易于实现韵律修改，但算法较为复杂。 2 3 2 波形拼接技术基于波形拼接的合成技术的特点是不进行参数提取，而通过选取合适的自然语音中合成单元的波形，按照一定韵律规则进行编辑拼接后输出。拼按语音合成能够直接把语音基元相互拼接在一起，输出连续语流。这些语音基元取自自然语音，它隐含了声调、重音、发音速度变化时的细微特性，合成的语音清晰自然，其质量普遍高于参数规则合成，但韵律参数修改范围受限。 2 3 3 混合技术混合技术就是基于参数规则的合成技术与基于波形拼接的合成技术的结合。基本过程是提取信号的重要参数，然后再利用参数合成与波形拼接相结合的方法对信号进行处理。 2 3 。4 几种典型方法介绍下面简要介绍几种典型的语音韵律转换方法：1 9 8 6 年q u 撕e r i 和m c a u l a y 提出了基于正弦表示的分析合成方法来进行语音韵律转换【1 4 】【1 5 】【1 6 1 ，这是一种与激励状态无关的正弦表示方法。该模型中，信号由任意幅度、频率和相位的正弦分量所组成，并产生了基于精确的正弦估计的分析合成系统。在正弦模型中，每个正弦波由一个时变包络和一个等于时变频率轨迹积分的相位表示。在浊音段( 如元音) 中，正弦频率轨迹大致是谐波相关的，且持续时间较长。虽然类噪语音和过渡段( 如摩擦音和爆破音) 呈非谐波，但仍可以用组正弦波之和来表示，只是通常没有相干的相位结构；这些正弦波的频率可以为任意值，其轨迹在更短时间内呈随机分布。通过对参数进行相应调整就可以得到所需要的韵律转换后的分析单元，最后，通过频率匹配决定正弦频率的轨迹，通过一个激励和声道滤波器相位模型获得浊音段的相位相干，通过确定信号的随机信号分量的加性模型来估计类噪分量，最终合成需要的信号。s t y l i a n o u 于1 9 9 3 年提出的基于h n m ( h 枷o n i c p l u sn o i s em o d d ) 进行时长和基频变换的方法【7 】实质上是基于正弦语音模型方法的改进型，后面会有详细介绍。此外，基于声门波模型法【i m 也能够有效的进行韵律 6 移动便携平台语音韵律转换技术研究转换，在这个模型中首先将波形通过线性预测滤波器转化为残差信号，根据残差确定声门激励时刻并将每个激励周期的残差用多项式来近似表示，根据韵律修改因子对各周期的多项式表示进行相应的抽取或内插，最终根据新的残差合成目标语音。与之类似的是基于基音同步的时频域线形插值( t f i ，t i m e - f r e q u e n c y h l t e r d o l a t i o n ) 【1 8 】【19 】【2 0 】，但这种方法不仅仅在时域有抽取插值处理，同样还需要在频域进行抽取或插值。 1 9 9 0 年，e m o l l l i n e s 和f c h a r p e n t i e r 提出了基于波形修改的语音合成算法 t d p s o l a 4 1 ，使拼接合成方法得到了很大的发展和广泛的应用。我们的工作就是建立在t d p s o l a 方法的基础上进行基频和时长的修改。在下文中，会详细论证这种算法，并结合实验结果对这种算法进行一定的分析与改进。第三章语音信号数字处理基础 7 第三章语音信号数字处理基础 3 1 引言语音是在声道中产生的，说话人通过控制声道的形状可以产生不同声音，以此来表达不同的语义内容和情感；不同说话人在发出相同语义内容和相同情感的语音时也常有明显的差别，尤其是男声与女声之间，小孩、成年人和老年人之间具有明显的不同音色，即具有明显的个性特征。不同说话人产生相同语音但具有不同个性特征的原因，从生理角度看是由于不同人的声道具有不同形状结构，从而具有不同的生理参数；从声学角度看是由于语音信号的声学特征不同，如共振峰频率、共振峰带宽、共振峰幅度、频谱倾斜、基频、时长、节奏、能量等等【l 】【2 l 】。语音韵律转换就是要通过语音信号处理技术对语音进行处理，保持语义内容不变，而只改变韵律特征，使一个语音信号经过韵律转换处理后，使之听起来具有时间拉伸压缩或音调升高降低的效果。语音韵律转换要实现这一目的，就要根据语音的声学特征，建立套韵律转换关系，然后进行转换合成，得到韵律转换后的语音。经过多年的研究，人们在语音产生机理、语音声学特征研究等方面获得了很多成果，这些研究成果对我们进行语音韵律转换的研究提供了很好的依据和借鉴。 3 2 语音的产生原理与基本特征 3 2 1 语音产生机理人的发音生理结构如图3 1 所示，人的发音器官包括：肺、气管、喉( 包括声带) 、咽、鼻腔和口腔。一般把声门以上，经咽喉、口腔( 舌、唇、腭等) 的这一管道称主声道；经小舌和鼻腔的这一管道称为鼻道；经肺、支气管和气管的管道称为次声门系统。肺部的压力产生气流，流经气管和喉部，从口腔和鼻腔流出，这些气流产生四种类型的原始声波：送气噪音、摩擦噪音、爆破音和浊音。这些类型的原始声波进一步由不同形状的声道进行改变。不同的声道形状有不同的共振频率。称为共振峰，这可用来产生不同的声音，称为音素。音素根据发音方式，可分为元音、鼻音、爆破音、摩擦音、塞擦音、无擦通音如r 等。 8 移动便携平台语音韵律转换技术研究口齿龈上齿上唇下唇下齿图3 1 人的发音生理结构用基于声源滤波的假定语音模型来描述语音的产生是非常有效的。在这种模型下，声音的产生看作由声音源或者激励波形通过时变滤波器产生。这种语音产生的观点能够解释大多数的语音现象。为区分不同的声音源模型，不同激励波形可用来表示上面提到的从生理学角度区分的声音源。例如，送气噪音和摩擦噪音可以建模为随机噪声；爆破音可建模为步进函数，浊音建模为脉冲序列。目前人们已提出许多种声门脉冲模型来详细的描述声门脉冲。以最简单的形式，可以将语音激励信号分为清音和浊音两类，分别建模为随机信号或者具有不同基音频率只的脉冲串。时变的滤波器表示声道形状的作用，调制激励谱的特定频率，得到具有特定频谱包络和共振峰结构的语音频谱。 3 2 2 语音个性特征参数由于不同人的生理上的不同( 如发音器官不同) 和生活习惯、情感、方言、口音、知识等的不同，得到的语音就有差别，人们就可以通过这些特征进行判断从而识别出不同的说话人。表征说话人个性特征的参数有很多，一种分类方法为将语音分为音段特征、超音段特征和语言特征，如下：音段特征：描述的是语音的音色特征。特征参数主要包括共振峰的位置、共振峰的带宽、频谱倾斜、基音频率、能量等。音段特征主要与发音器官的生理学和物理学特征有关，也与说话人的情绪状态有关。超音段特征：描述的是语音的韵律特征。特征参数主要包括音素的时长、基音频率的变化( 音调) 、能量等，这些特征受社会的和心理的环境影响。语言特征：包括习惯用语、方言、口音等。第三章语音信号数字处理基础 9 3 3 汉语语音的特性汉语标准语音是普通话。普通话是“以北京语音为标准音，以北方话为基础方言，以典范的现代白话文著作为语法规范”的现代汉民族共同语，具有音系简单、音节结构简单、听感清亮柔和、轻重音鲜明、语义明显等特点。 3 3 1 音素与音节音索( p h o n e m e ) ：从音色角度来划分，音素是最小的语音单位，分为辅音和元音两大类。气流在口腔或咽头受阻碍而形成的音叫辅音，又叫子音或声母，如b ，m ， f ，d ，k 等；气流振动声带在口腔咽头不受阻碍而形成的音叫元音，又叫母音或韵母，如i ，a ，o 等。音节( s y l l a b l e ) ：音节是语音结构的基本单位，是自然感到的最小的语音片断。传统分析的方法把一个音节分成声母和韵母两部分，再加上一个贯通整个音节的声调。这又称为“c v 结构”即“辅音( c o n s o n a n t ) 元音( v o w e l ) ”结构。音节可由一个音素或几个音素合成，汉语的一个音节就是一个字的音，字又叫音节字。单独发声的一个音节或是语音流中的任何一个音节都可能由9 个部分组成，如图3 2 所示。其中卜4 段属于声母( 辅音) 段，6 9 段属于韵母( 元音) 段，第5 段是二者的过渡段。对一个具体指定的音节而言，有可能只包括其中的某几段，但是第7 段 ( 主要元音段) 是每一个音节都具有的。图3 2 汉语普通话的音节结构框架 1 0 移动便携平台语音韵律转换技术研究 3 3 2 基音频率与四声浊音的声带振动基频称为基音频率，可以用疋或矗来表示。无论说一个单音节还是说段连续语音，各个音节中韵母段的瓦都是随时间而变化的，只的不同轨迹称为声调。在汉语普通话中具有四种声调，它们是阴平、阳平、上声、去声，或称之为一声、二声、三声、四声。相同声母和韵母构成的音节随声调的不同而具备完全不同的意义，对应着不同的方块字，例如妈、麻、马、骂。这样，声调在普通话中承担着重要的构字辨意的作用，而在其它很多语种中声调没有这样重要的作用。声调曲线，即e 的轨迹，从一个韵母的起始端开始，到韵母的终止端结束。图3 3 给出了单独说一个音节时4 种声的典型曲线。这四种曲线的开始一段( 约 6 0 m s ) 呈共同的上升走向，这一段称为弯头段。它们的末尾一段( 约4 0 5 0 m s ) 呈共同的下降走向，这一段称为降尾段。而中间的一段则具有不同的特点，这一段称为调型段。一般认为，弯头段和降尾段对于声音听辨不起作用，起作用的是调型段。所以在研究4 声时只需要讨论它们调型段。 f 区h z l l 舯 ol 2 0 0 3 4 0 0 h m ) 图3 3 汉语普通话的4 种声调曲线( 男性说话人) 由图3 3 可以看出，阴平( 1 声) 曲线的特点是几乎与横轴平行而且平均值很高。阳平( 2 声) 曲线的特点是从较低的频率一直上升到较高的频率，或者起始处稍稍第三章语音信号数字处理基础下降后一直上升。上声( 3 声) 曲线的特点是先降后升。去声( 4 声) 曲线的特点是从较高的频率出发一直下降到极低的频率。但是在连续语音中声调曲线与单独说一个音节不尽相同。例如，单独说一个上声音节时出现的最先降后升的曲型曲线在连续语音中往往只剩下前半部，这称为半上声。当两个或三个音组成连诵的节奏群时，各音节的声调曲线也会有变化。例如，读“5 5 5 ”时前两个音节往往读成阳平而第3 个才读成上声。在语音信号数字处理的各个领域，无论是编码、识别还是合成，确定一帧语音的基音及一个音节的四声都是至关重要的任务。 3 3 3 声调的声学特征在语音信号中，声调体现了声带振动的情况，它的外部表现是音高及其变化。每个声调都有一定的时长，因为声调只有达到一定的持续时间，人们才能正确地感知。所以声调的声学特性不仅包括语音的音高( 对应基频频率) ，还包括音长 ( 对应时长) 这个基本特性。 1 声调的时长声调的时长，也就是声调的持续时间。一般来讲，声调附着在韵母上，因此讨论时长时，更多关注的是韵母时长。而声调的有效时长是指声调的中间部分，也就是调型段。调型段的时长最长，对人们的声调感知起的作用最大。声调曲线在起始和末尾处，出现某些弯头和降尾的音段。它们对于人们音高感知所起的作用短小，但对语音的自然度感知有较大的影响。从人的主观感知角度来考虑的话，声调的相对时长要比绝对时长更为重要。 2 声调的音高在听觉分辨声音高低时，对于频率低的声音，感觉它的音调“低”，而频率高的声音，听起来感觉它的音调“高”，这说明对于不同的声调，音高是不同的。在上一节中已给出了语音的基音频率的概念，从主观感知角度来看，音高与基频是对应的，但是两者并不是正比关系，音高还与声音的强度及波形有关。为了描述音高，人们找出了主观感知的音高与客观测量的频率之间的关系，采用了“美” ( m c l ) 作为标度：将一个高于昕阀4 0 d b 、频率为l k h z 的纯音所产生的音高定为 1 0 0 0 m c l 。如果一个纯音听起来音高比1 0 0 0 m e l 的声音的音调高一倍，则其音高为 2 0 0 0 m e l ，以此类推。近似表达式为：7 k lz3 3 2 2 2 3 l o g ( 1 + 0 0 0 1 ：) ，其中丁为音高，厂为其对应的频率。 1 2 移动便携平台语音韵律转换技术研究 3 4 语音信号数字处理 3 4 1 语音信号产生模型在研究了发声器官和语音的产生过程以后，便可以建立一个离散时域的语音信号产生模型，对于进一步的各项研究以及各种具体应用，这个模型是非常重要的。这里先给出一个较简单的模型，对于大多数研究和应用而言( 例如语音编码、语音识别等) ，这个模型可以完全满足需要。图3 4 给出了这个语音产生的离散时域模型。它包括三个部分：激励源、声道模型和辐射模型。激励源分浊音和清音两个分支，按照浊音清音开关所处的位置来决定产生的语音是浊音还是清音。在浊音的情况下，激励信号由一个周期脉冲发生器产生。所产生的序列是一个周期为。的冲激序列，即每隔0 点便有一个样值为1 ，而其它样值皆为0 。周期0 取决于基音频率磊和语音信号的采样频率z ， 0 = z 磊，其中磊和z 皆以h z 计量。当z = 8 k h z ，磊的变化范围为5 0 4 5 0 h z 时，n 的变化范围是1 8 1 6 0 。基音频率凡 f 图3 4 语音产生的离散时域模型 3 4 2 语音信号数字处理中的短时分析技术语音信号f ) 由于语音信号的准平稳特性，任何语音信号数字处理算法和技术都建立在“短时”基础上。为了实现各种具体应用目的而做进一步的复杂处理以前，有一些经常使用的、共同的短时分析技术应该给出。 1 语音信号的短时能量、短时平均幅度和短时过零率笙三主至童笪里茎兰竺里兰型! 这是语音信号的一组最基本的短时参数，在各种语音信号数字处理技术中都要进一步应用。在计算这些参数时使用的一般是方窗或汉明窗。当窗的起点，l = o 时，语音信号的短时能量用晶表示：磊= 妒( 珂) ( 3 1 ) 如果窗的起点不是n = o 而是某个其它整数所，那么相应的短时能量用既表示，其取和限为n = 挪( 肌+ 一1 ) 。窗起点为n = 0 时，语音信号的短时平均幅度用抵表示：一l = h ( 珂) l ( 3 - 2 ) 月= o 同样，当窗的起点为任意整数m 时，可表示为肘。掰。也是一帧语音信号能量大小的表征，它与e 的区别在于计算时小取样值和大取样值不因取平方而造成较大差异，在某些应用领域中会带来一些好处。当窗起点为疗：o 时，语音信号的短时过零率用z 0 表示，以表示一帧语音中语音信号波形穿过横轴( 零电平) 的次数、它可以用相邻两个取样改变符号的次数来计算： 1 ，一l z o = 去 is 印 ( 咒) 卜s 弘k 一1 ) 】i ( 3 3 ) 4n = 1 其中s g n 】表示取符号。同样，当窗的起点为任意整数掰时，过零率用乙表示。 2 语音信号的短时自相关函数和短时频谱对加窗语音信号s 。( 甩) 来说，它的自相关函数称为语音信号s ( 拧) 的短时自相关函数，用r 。( ) 表示： r-tt r 。( j i ) = ( n ) s 。( n + 豇) = s 。( 玎) s 。( n + 后) ( 3 4 ) 月2 r 。( 是偶函数，凡( 豇) 在| ；( 一+ 1 ) ( r 1 ) 区间之外恒为0 ，r ，( 膏) 的最大值在：o 处，且也( o ) 等于加窗语音的平方和，也就是语音信号的短时能量磊。s 。( ，z ) 的离散时域傅里叶变换( d t f t ) 瓯( 唧( ，棚) ) 称为s ( n ) 的短时频谱，可以用下列公式计算：一l s 。( e x p ( 归) ) = s 。( ”) e x p ( 一硎) ( 3 5 ) l 氏( e x p ( ，) ) 1 2 便称为s ( n ) 的短时功率谱。短时自相关函数和短时频谱( 或短时功率谱) 是语音信号非常重要的一对短时参数，分别在时域和频域中表征语音信号的一些主要特征。它们除了直接用于实 1 4 移动便携平台语音韵律转换技术研究现各种语音信号分析、处理以及完成各种应用技术外，还是其它算法的基本参数。第四章t d p s o l a 算法分析与研究第四章t d p s o l a 算法分析与研究 4 1t d p s o l a 算法的提出在众多的语音合成技术中，简单的波形拼接技术可以较好地保持合成语音的音段成分，但无法根据上下文来调节其超音段成分。因此，这种方法用于韵律转换合成系统时，不能得到连续、流畅的语流。相反，利用参数合成技术，在合成中可以灵活地改变合成语音的音段成分和超音段成分。但是，这种技术的算法复杂、参数多，而且目前对各种参数间的相关性还缺乏很好的研究，用参数合成技术实现韵律转换合成系统时，很难准确地把握合成单元的音段成分，因而合成的语音不够清晰，自然度较低。 e m o u l i n e s 和f c h a m e n t i e r 提出的基音同步叠加( p i t c hs y n c h r o n o u so e r l a p a d d ，p s o l a ) 技术既能保持原始发音的主要音段特征，又能在拼接时灵活地调整原始语音样本的基频、时长、能量，通过对语音基音周期长度的调整实现对基频的控制，对语音时长的调整实现对音长的控制，对语音能量的调整实现对音强的控制。并且，正如前文所提出的，汉语普通话具有音节的音段成分比较稳定，而超音段成分复杂的特点，很适合采用基于p s o l a 技术的合成方法。实际处理中，音长的调节对于稳定的波形段时是比较简单的，只需以基音周期为单位复制删除波形即可，但由于语音信号本身的复杂性，实际处理时采用特定的时长缩放法；音强对应于语音波形的幅度，音强改变只要加权波形数据即可，但对一些重音有变化的音节，有可能幅度包络也需要改变；基频的大小对应于波形的基音周期。对大多数语言，基频仅代表语气的不同及讲话者的更替。但汉语的基频曲线构成声调，声调有辨义作用，汉语的基频修改比较复杂。 4 2t d p s o l a 算法简述基于时域处理的p s o l a 算法称作t d p s o l a ( t i m ed o m a i np s 0 l a ) 【4 】【“。 t d p s o l a 算法的核心是基音同步，把基音周期的完整性作为保证波形及频谱连续的工作的前提。首先要对输入的语音波形进行基音标注。浊音有基音周期，而清音的波形接近白噪声，在对浊音信号进行基音标注的同时，为保证算法的致性令清音的基音周期为常数。基音标注的内容包括：开始标注的位置( 即周期信号在语音信号、段中的起始点) 、基音周期的个数和每个基音周期的起始点在语音信号中的位置序列。进行完语音标注后的合成基元的原始波形，使用t d p s o l a 1 6 移动便携平台语音韵律转换技术研究算法以基音周期为单位进行波形段的插入、删除和修改。t d p s o l a 算法分以下三个步骤：1 ) 对原始波形进行分析，产生非参数的中间的表示；2 ) 对中间表示形式进行修改；3 ) 将修改过的中间表示重新合成为语音信号。下面将详细介绍这三个步骤，最后讨论时长及基频的修改方法。 4 2 1 基音同步分析数字化的语音波形的中间表示形式是由基音同步分析窗口吮( 以) 对原始数据加权得到的短时信号s 。( ”) ：j 。( n ) = k ( 一n ) s ( n ) ，其中，0 为基音标注点，( 甩) 采用汉明窗，窟长大于原始信号的一个周期，窗间有混叠。窗长一般取为原始信号的基音周期的2 4 倍，有( 月) = ( h p ) ， ( 栉) 为归一化窗长，p 为基音周期，为表明窗覆盖基音周期数的比例因子。p 既可选分析基音周期，也可选合成基音周期只。一般情况下，选= 2 可使合成方法简化；当提高基频时选p = 只，降低基频时选p = 只，也可使合成简化。 4 2 2 基音同步修改短时分析信号s 。( 押) 将修改为合成信号( n ) ，同时原始信号的基音标注也相应的改为合成基音标注f 。，这个转换有三个基本操作：1 ) 对短时信号的数量进行修改；2 ) 对短时信号之间的延时进行修改；3 ) 对每个独立的短时信号波形的修改。基音标注岛的数目和位置依赖于基频和时长上的修改因子和，。任意两个正确的基音标注的间隔的倒数就是合成信号的基频。在t d p s o l a 中，从s 。( ，1 ) 到妄( h ) 的映射只要选择一段( h ) 信号，按延时序列色= 己一k 转换为( h ) ： ( ，1 ) = ( n 一疋) = 0 + 0 一f 口) ( 4 1 ) 4 2 3 基音同步叠加合成采用原始信号谱与合成信号谱差异最小的平方叠加合成法( 1 e 嬲t s q u a r e s o v e n 印a d ds c h e m e ) ： ( ”) ( 乞一栉) ；( 以) = 上_ 一 ( 4 - 2 ) 2 ( 一甩) g 其中，分母是时变单位化因子，是窗之间时变叠加的能量补偿，吃( ，1 ) 为合成窗序第四章t d p s o l a 算法分析与研究 1 7 列，为相加归一化因子，是为了补偿基频修改时能量的损失而设的，式( 禾2 ) 可简化为： ( 玎) ；( ”) = j - ( 4 3 ) ( 勺一雄) g 式中的分母是一个时变的单位化因子，补偿相邻窗口叠加部分的能量损失。该因子在窄带条件下接近于常数，在宽带条件下，当合成窗长为合成基音周期的两倍时该因子也为常数。若设= 1 ，则有；( 蚪) = ( n ) ( 4 4 ) 口对于基音同步叠加合成，下文中有理论上的推导。 4 2 4 时长的修改时长的修改可以与基频的修改同时进行，也可以独立的变换。在后一种情况下，不需要频域的运算，也与t d p s o l a 的分析窗大小无关。假设时长修改系数为y ( f ) ，需要得到其相应的合成时刻f 。映射0 一f 。= d ( f ) 称作时间修

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）移动便携平台语音韵律转换技术研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）移动便携平台语音韵律转换技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档