




已阅读5页,还剩95页未读, 继续免费阅读
(电路与系统专业论文)汉语普通话韵律合成的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
习n 二鼠嘲h 趣话自暗成的研完由要 摘要 驴 工3 6 8 s s 6 本文首先论述了语音信号生成的准稳态模型,详细阐述了基于 短时傅里叶变换进行韵律参数修改的基本步骤及其对模型参数时变 进程产生的影响。 在此基础上,文中分别从时域和频域研究了时间尺度修改和基 音尺度修改的理论依据,并采取相应的方法在计算机中加以实现,针 对不同的结果,从时域波形和频域语谱两个角度探讨不同的方法对合 成信号质量的影响。 最后,引进国际上八十年代末出现的时域基音同步叠加算法, 结合汉语普通话的韵律特点,研究一种实现高自然度,高清晰度的汉 语普通话韵律合成的方法。根据合成结果,分别对合成语音的质量及 该算法的韵律参数控制能力加以评价,以示其有效性、实用性。 关键词:语音信号处理;时间尺度修改;基音尺度修改;韵律 修改;基音同步叠加。 r _ 坠! ! 兰! ! q ! 生! ! ! ! 堕! ¥! ! ! ! ! 坚q ! 曼! ! ! ! 塑! ! 竺!垒! ! ! ! ! 竺 r e s e a r c ho np r o s o d i c s y n t h e s i s o fc h i n e s e s p e e c h a b s t r a c t i nt h i s p a p e r , w ef i r s t l y r e v i e w e dt h e q u a s i s t a t i o n a r y m o d e lo f s p e e c hp r o d u c t i o n ,e x p o u n d e d t h ef u n d a m e n t a l s t e p s o f p r o s o d i c m o d i f i c a t i o nm e t h o d sb a s e do ns h o r tt i m ef o u r i e rt r a n s f o r r f la n di t s e f f e c to f fs p e e c hm o d e l p a r a m e t e r s s e c o n d l y , a tt i m e d o m a i na n df r e q u e n c y d o m a i n ,w es t u d i e dt h e t h e o r e t i cb a s i so ft i m e s c a l ea n dp i t c h - - s c a l em o d i f i c a t i o nr e s p e c t i v e l y , v a r i o u sm e t h o d sw e r eu s e dt or e a l i z ea l lt h e s e p r o s o d i cp a r a m e t e r s m o d i f i c a t i o n a c c o r d i n gt or e s u l t s ,w ed i s c u s s e dt h ee f f e c to nq u a l i t yo f s y n t h e t i cs p e e c hp r o d u c e db yv a r i o u sp r o s o d i cm o d i f i c a t i o nm e t h o d f r o m t i m e d o m a i n s i g n a l w a v e f o r ma n d f r e q u e n c y d o m a i ns p e c t r o g r a m r e s p e c t i v e l y f i n a l l y , w e i n t r o d u c e dt d p s o l a a l g o r i t h m a t t h eb a s i so f c h i n e s es p e e c h p r o s o d i cf e a t u r e ,ah i g h q u a l i t yc h i n e s es p e e c hs y n t h e s i s m e t h o du s i n gt d p s o l aa l g o r i t h mw a sp u tf o r w a r da n dr e a l i z e d t h e s y n t h e t i cs p e e c hp r o s o d i cp a r a m e t e r sw e r ea n a l y z e da n dc o m p a r e dw i t h o b j e c t i v ep r o s o d i cp a r a m e t e r s ,t h ew a v e f o r ma n ds p e c t r o g r a mb e t w e e n o r i g i n a ls p e e c ha n ds y n t h e t i cs p e e c hw e r ec o m p a r e dt o o ,a c c o r d i n gt o t h e s e c o m p a r i s o n ,t h ea b i l i t y o ft h i sm e t h o dt oc o n t r o l p r o s o d i c p a r a m e t e r sa n d i t se f f e c to n s y n t h e t i cs p e e c hq u a l i t yw a s e v a l u a t e d k e yw o r d s :s p e e c hs i g n a lp r o c e s s i n g ;t i m e s c a l em o d i f i c a t i o n ; p i t c h s c a l em o d i f i c a t i o n ;p r o s o d i cm o d i f i c a t i o n ;p i t c hs y n c h r o n o u s o v e r l a pa d d ! 查竺查璺! ! 苎苎竺! ! 苎竺! 墨 一一_ 苎! 二! l ! ! 兰 第一章绪论 1 1 课题研究的意义 在信息科学和计算机科学迅速发展的今天,言语工程技术受到前所 未有的重视,它和数字信号处理、计算机、人工智能等技术学科以及语 言学、语音学、生理学、心理学等基础学科都有密切的联系,因此受到 广泛的关注。 语音合成技术是言语工程技术的一个重要组成部分,它不仅在人机 通讯中充当重要角色,而且对语音的产生和感知模型也有十分重要的意 义。言语作为人类进化的最重要标志,是人类社会千万年沿用下来的最 常用的通信手段,自然也是人机通信最理想的方式。让计算机也能像人 样会说话和听懂人说的话是人们长期追求的目标。语音合成和语音识 别一样是备受青睐的新技术,它可以应用于信息发布系统、语音应答系 统、电子邮件中的语音服务以及残疾人语音辅助等方面。科学技术发展 到今天,语音合成主要通过计算机来实现,它的功能是将存储在计算机 中以文字表达的信息转换成言语的形式输出,因此现代的语音合成系统 实质上是一个文语转换系统( t e x t t o s p e e c h ) 。 语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合 成,再到将两者结合【3 。近二十年来,国内外先后已有不少的商用文语 转换系统进入市场,如八十年代的s p e e c hp l u sp r o s e 2 0 0 0 ( 1 9 8 2 ) 、 d e c t a l k ( 1 9 8 3 ) 、i n f o v o x ( 1 9 8 3 ) 、c o n v e r s a n ts y s t e m ( 1 9 8 7 ) 等系统, 但由于合成语音的自然度和可懂度不高而难以销售。八十年代中期, f c h a r p e n t i e r 等提出基音同步叠加技术( p i t c h s y n c h r o n o u s o v e r l a p a d d , p s o l a ) ,既能保持发音的主要音段特征,又能在拼接时灵活调节其音 高和音长等韵律特征,给波形拼接技术带来了新生。基于p s o l a 技术, 已开发了法语、德语、曰语、意大利语和英语等多种语言的文语转换系 统,这些系统的可懂度和自然度都相当高,已逐步接近应用目标 1 八十年代初,我国开始汉语文语转换系统的研究,虽然起步较晚, 但发展迅速,中科院声学所、中国社会科学院语言所、清华大学等都先 后研制出了汉语文语转换系统,但都因输出的语音质量问题而不能达到 应用要求1 ,2 ,3 】。对于一个t t s 系统,其功能模块可分为文本分析、 韵律建模和语音合成三大模块,其中语音合成是t t s 最基本、最重要的 模块,为此,采用好的语音合成方法是研制高质量的t t s 系统的关键所 在。作者以此为研究目标,希望能运用好的语音合成方法,提高汉语普 通话语音合成质量,为促进汉语t t s 系统走向应用做些有益的工作。 1 2 本文的研究目标及所做的工作 本文的研究目标是提出一种好的方法实现汉语普通话的语音韵律 合成,从语音信号生成数字信号模型入手,分别讨论时间尺度的韵律参 数修改,基频尺度的韵律参数修改,最后提出实现高质汉语普通话韵律 合成的方法,同时尽量减少存储量和运算开销,促使这种合成方法具有 实际应用价值。 本文所做的具体工作有:根据从数字信号处理角度建立的语音信 号生成模型,阐明从时域和频域进行时间尺度修改的理论根据并加以实 现,将时域和频域修改的结果与原始信号进行比较,给出不同方法各自 的优缺点。阐明从时域和频域进行基频尺度修改的理论根据并加以实 现。引进国际上八十年代末出现的时域p s o l a 方法,以现有的汉语 普通话音系特点为基础,研究运用t d p s o l a 实现汉语普通话韵律合成 的具体方法并加以实现。对实际广播录音的韵律参数进行分析,其结果 作为韵律合成的目标韵律参数,:崭单独录下的孤立音节运用韵律合成技 术拼接成句。通过对合成语句和样句的语调特征进行比较,评估陔算法 的韵律参数控制能力。通过比较音库中孤立裔肖与合成成句后对应的爵 7 7 进行比较,给出合成后 语菏的质最( g - 竹清晰度和可惯度) 评估。 鼍| 一文 氍t l - t l - l l l 量卜l 习f ,巴 1 3 论文的结构 本文第二章介绍了语音生成的模型以及基于短时傅里叶变换 ( s t f t ) 方法进行韵律修改的一般方法和过程。第三章分别阐述了s t f t 方法( 频域) 和w s o l a 方法( 时域) 实现时间尺度修改的原理及具体 实现的结果。第四章分别阐述了s t f t 方法( 频域) 和t d p s o l a 方法 ( 时域) 实现基频尺度修改的原理及具体实现的结果。第五章首先介绍 了汉语普通话的音系及韵律特点,然后根据汉语普通话的音系及韵律特 点,提出运用t d p s o l a 实现汉语普通话韵律合成的具体方法,并根据 合成结果对该算法的控制韵律参数能力和合成语句质量进行评估。第六 章对论文工作进行总结。 j 一 ! 坐坐型竺些塑壁竺型型型型竺堕 第二章语音信号生成模型及基于s t f t 的韵律修改 本章将要从数字信号处理角度给出语音信号的生成模型,并以此模型为基 础,阐述基于短时傅星叶变换基础进行时间尺度和基频尺度修改的一般方法和 理论依据。 2 1 1 准稳态模型 根据目前广为接受的语音生成模型 4 ,8 ,9 ,1 0 ,采样的语音波形被看成是一个 激励信号经一个时变线性滤波器后的输出结果。其激励信号要么是瞬时频率各 谐波窄带信号的和( 浊音) ,要么是一个准稳态随机序列,其功率谱平直( 清音) 。 我们主要研究浊音,用时变的滤波器模拟下列两因素共同的影响 7 ,8 ,9 ,1 0 ,1 1 : f 1 ) 声门以上部分的传输特性( 包括唇辐射) ( 2 ) 声门波脉冲形状 这个系统的输入输出特性以它时变的单位样值响应g 。( m ) 来表示。g 。( m ) 定义 为系统在时刻n 的单位样值响应,还可以用以下等价的方法来定义,l lg 。( m ) 关 于m 的傅里叶变换方法: g 。( m ) e x p ( 一j o ) m ) = g ( ,z ,o a ) e x p ( y ( 胛,) ) ( 2 i ) g ( n ,甜) 表示时变的系统传输函数幅度,( n ,c o ) 表示时变的系统传输函数 相位。 g ( 。) 的非稳定性对应于发i - l l i 的物理运动,通常较时变的语音波形缓 慢,- l i g ( m ) 所记忆的时氏范围内,司以认为它足不变的,即g 。( m ) 是一个准 稳态系统。对于浊裔来况,激励信号波形e 切) 表示为一系列谐次相关的复指数 和这些复指数部足单位1 懈度,零初始相位,以及何一个缓变的基频函数 n 寸2 ,r p ( n ) ,。p ( n ) 是当时的基音周j n j ,函数n - - * 2 a p ( n ) 铍称为罄膏轮廓 4 ( p i t c hc o n t o u r ) 。 e ( n ) :p ( n ) - 1e x p 【j ( 矽。( n ) ) 】 ( 2 2 ) 其中矽。( n ) 为激励的k 次谐波的相位,它定义为时变的谐波角频率国t ( n ) 的 积分,即 = 薹引咖煮蔫 k(n):=2ajk09 ( 2 3 ) 。( n 户而 2 3 注意到激励信号e ( 胛) 中基频各次谐波的幅度都被假定为常数,故由g ( n ,c o ) 独自构成语音信号谱的幅度。同理,由于激励信号的基频各次谐波都有着一个 零初始相位,故而仅由系统相位y ( n ,c o ) 构成语音信号的相位。 由于p ( 以) 在时刻附近几乎是常数, 所以激励相位m _ 。( m ) 在n 附近表示为: 矽。( m ) z 矽。( n ) + 国。( n ) ( m n ) i m n 圩艮小( 2 4 ) 根据标准时变滤波器方程,浊音信号x ( 门) 模型用激励g 。( m ) 输出来表示。我 们有 x ( n ) = g 。( m ) e ( n m ) ( 2 5 ) 假定基音周期尸( 疗) 在g 。( m ) 所记忆的时长范围内是不变的,即 p ( 博 :尸( 挖一i ) 一j p ( 盯一m ) ,激励信号用当时的各次i 皆波表达式代替,我们有 p ( n 卜i口f ”卜i x ( ,z ) 2 荟g ( 触( 砌e x p 【( 织( ,2 ) + ( 亿缈t ( 圳) _ 心y ,a k ( 门) e x c j 0 , ( 例 f 2 6 1 其- p 信号k 次谐波幅度a 。f n ) 即是系统幅度函数在i 皆波频率缈。( n ) 处的l | 义 他,信号k 次游波的相位伊。( n ) 即是激励相位矽。) 与系统相位曲一行的和一, a 。( n ) = g ( n ,国。( n ) ) o k ( 门) = 矽。( 门) + y ( ,z ,彩。( 胛) ) = 矽。( 门) + 眠( 门) ( 2 7 ) 曰。( 。) 常被称为信号k 次谐波的瞬时相位。由于系统相位矿( n ,x ( n ) ) 是时 间n 的缓变函数,故而在n 附近,我们可以认为( n ,缈。( n ) ) 保持不变,由( 2 4 ) 式,有 鼠( m ) = 执( n ) + 缎( n ) ( m n ) , i m n 限小 2 8 2 1 2 浊音的短时傅里叶分析【u 一个浊音信号x ( 以) 的短时傅里叶变换可以很容易地表示成它的各次谐波表 达式形式 x ( t 。( “) ,c o ) = h 。( m ) x ( f 。( “) + m ) e x p ( 一绷) ( 2 9 ) 将式2 6 代入式2 9 ,并将x ( t 。( u ) ,c o ) 在频率轴上分n 点采样 x ( t ( u ) :。( m ) 烈。琴x ( t 。( u ) + m ) 。( u ) + m ) ) e x t m)-q)zh e x p ( j a k ( t p ( - j o q 。( u ) , = 。( m ) a k ( t 。( u ) + m ) a ( u ) + m ) ) 。x 0 l n ( 2 1 0 ) 假定分析窗h 。( m ) 的时长足够短,使得基音周期m 。p ( t 。( u ) 十m ) 和信号x ( 胛) 的 谐波幅度m ak ( t 。( u ) + m ) 在h 。( m ) 的时长范围内是一个常数,并假定式 2 8 成立,于是有o d t 。( u ) + m ) = 馥( t 。( u ) ) + m 魄( t 。( u ) ) , 代入式2 1 0 我们得到 p ( t 。( u ) ) 一1 x ( t 。( u ) ,岛) = h 。( 乌一c o k ( t 。( u ) ) ) a t ( t 。( u ) ) e x p j 吼( a ( u ) ) ( 2 t 1 ) k = o 其中h 。( ) 是分析窗h 。( m ) 的s t f t 。 由式( 2 11 ) 可见,z ( 门) 的s 1 1 叮可以表示为将酏( u ) ) 个h ( 曲图象相加, 每个图象频移a d t 。( u ) ) 并被a k ( t 。( u ) ) e x p j o k ( t 。( u ) ) 仂口权。我们假定分析窗是以0 为 对称的,结果,h :是一个实值函数。令c o i 、是分析h 。( m ) 的截止频率,如果我 仃1 选山,小于基音谐波频率间隔的一! p ( 被称为窄7 盯l + 训- - 条f t j 二) t 破移位和加权的 叱( 珊) 图形将不会何嚏叠,r 是x ( t 。( u ) ,骗) 简化为 一士惦宾魂* 鱼蕾傩音戚崎卉竞 第= 章* t 信号生成椒照曩l 于s 1 f t 的伯静修改 根乞q ,) = p 以扣x p 缎姒吉甄 一嗥也九旧一僦”摩 ( 2 1 2 ) z ( n ) 的s 1 f t 幅度为 地,q ,些( 功= 卜 减詈飞p 翩的卜陋一警 ( 2 1 3 ) m ( t 。( u ) ,罐) 是t a ( u ) 的缓变函数,因为a 。( t 。( u ) ) 和p ( t 。( u ) ) 都是t 。( u ) 的缓变时间函 数。 同样地,z ( 聆) 的相位为 鲋a ( u ) ,- ( 2 1 ) d e f 痧l ( u ) = a r c t a n ( 鬻) = o k ( “u ) ) 呻刀) ( 2 1 4 ) 即时相位( u ) 带有落入第1 个频带的单个谐波的即时频率。( t 。( u ) ) 的信息。 - # - t 。( u ) 和t 。( u 一1 ) 足够近,使得式( 2 8 ) 成立,可以通过计算即时相位l ( u ) 的一 阶后向差分4 办( u ) 来确定即时频率印。( t 。( u ) ) 。 4 矽l ( u ) a e 堂a ( t 。( u ) ,口1 ) 一( t 。( u 一1 ) ,q 1 ) ( 2 1 5 1 = ( t 。( u ) 一t 。( u 一1 ) ) c ok ( t 。( u ) ) + 2 n z 其中r l 是未知的,但可以通过在时域“展开”相位的方法进行估计。 用r c u ) = t a ( u ) 一t ( u 1 ) 表示相继两分析时刻之间的样点数,假定k 次偕波落入第 l 频带,我们有 l ( c o k ( t 。( u ) ) 一q ) r ( u ) f 珊! ,r ( u )f 2 1 6 ) 赠 n 足分析窗的带宽,再假定r ( u ) 的长= 度满足魄刚u ) 厅结合( :1 5 ) ( :1 6 ) 胁 式,我们有 f 4 西( u ) q r ( u ) 一2 n z f 1 时,当地的基音频率增加到原始基音频率的( 门) 倍( 当地的 基音周期以上相乘) ,同理当( 门) 1 时,当地的基音频率减小到原始基音频率 的( 胛) ( 当地的基音周期作响应的增加) 。通常i 青t e t ,( 即) 是一个时间缓变 函数。 2 2 2 2 理想的基音尺度修改 参照语音生成模型,对于理想的基音尺度修改,语音参数必须按以下方式 进行修改。 加删) = 篇 n 斗a 。( n ) = g 。( n ) = g ( n ,。( n ) 1 3 ( n ) ) n o 0 。( n ) = 虬( n ) + w ( n ,o ) 。( n ) p ( n ) ) n 专n ) = ( 0 。( m 粥( m ) ( 2 2 2 ) 这些方程可以解释如下: ( 1 ) 基音轮廓被时变系数芦( n ) 重新标度。 ( 2 ) 修改后的信号的谐波幅度通过在新的谐波频率处采样原始系统函数 获得,因此,它保留了原始信号的共振峰结构。 ( 3 ) 修改后的信号的激励瞬时相位九( 1 1 ) 的一阶后向差分等于修改后的 信号的k 次谐波频率,即基音频率确实改变了。 与时间尺度修改不同的是,基音尺度修改需要在那些不一定是原始信号谐 波频率的频率处估计系统i 周交g ( n 。,y ( n ) c o 。( ) ) 和相位吵( 疗,( 九) c o 。( 门) ) 。 为此,许多基音尺度修改算法需要明确地将语音信号分解成 时变的谱包络 、fj 曼的声源谱 由于时变的系统函数g ( n ,c o ) 不能从输入信号的波形中确切识别出来,为 ! 查竺查璺竺! ! ! 竺! ! 苎竺! 墨 ! 三! ! ! 竺! 兰苎! 苎墨苎! 羔塑! 竺苎! ! :兰 此,还需要作附加的假设。通常有这样的几种方法估计谱包络,全极点l p c 模 型方法,直接模型方法和声源滤波器分解方法。 2 3 基于s t f t 进行韵律修改 对于语音信号,我们可以选择由一系列生成参数来生成语音的合成模式, 这种合成模式称为参数合成。实现时间基音尺度调整大体上的途径是,首先分 析原始语音信号以获得这些生成参数,然后对这些生成参数实施我们所需要的 修改,最终合成相应的信号。在选择这样的一种分析合成模式过程中,我们必 须要妥善处理语音质量和计算开销方面的矛盾,而用这种参数方法,我们很难 在这两方面取得一个很好的折衷。通常,一个模型的优缺点主要在于它是否以 一种压缩而简化的方式代表语音。个好的参数模型对语音编码、语音识别以 及语音合成有迷人的前景。然而对于韵律修改而言,将原始语音中丰富的声学 细节简化将迅速导致一个可感觉到的畸变。为此,通常韵律修改采用非参数方 法。由于声音具有诸如声调和音色这些随时间变化而变化的频域特征,非参数 方法利用一个时频表达式,其中,在一个给定的时刻,可感知的声音特性应 沿频率轴理想地表达出来。 我们通常将语音看作是一种有着缓变的频域特征的信号( 即准稳态信号) , 为此,我们可以采用将短时分析和傅里叶变换相结合的方法得到一个所埔的短 时的傅里叶变换( s t f t ) 作为所需要的时一频表达式。s t f t 作为语音分析的一个 基本工具,被用于语音合成和修改已许多年j ,基i _ j 二f f t 算法和迭加a 戊方法 的理论易于理解,且可以获得高效的实施【1 7 ,l8 ,19 , 3 0 i ,;基本思想足:用个 窗函数w ( n ) 将分析限制在分析时刻周围的0 、陵之阻在雠一一分析段之内可以认 为x ( n ) 具有稳定的特性。这样。标准的稳态信,j 分f j i 几f f | j f l 邮 j 变换) 他,:j 以作川0 二雠个分析段,这种力+ 法川、j 变不统l ,l j 分 i 然j c 缺陷址分 j i l 7 i j 准 跚r l j 嘤受j u 窗耵e 稳定斟袭的影响,但在。典n 处一h 过舶f - ,伐们川j 尘0 史或混 ! 圭竺查墨! 兰! 兰苎! ! 苎竺! 兰! 苎! ! ! ! ! 兰苎苎苎苎兰! 羔望! 竺竺竺! ! 查 叠的信号段进行短时分析以减少这些影响,且易于实时处理。 2 3 1 分析 短时傅里叶变换可以看作是语音信号的时一频表达式,它将信号的一部分作 傅里叶变换,然后再移到信号的另一部分依次重复这样的操作。这样,信号便 被表示成相应于不同的分析窗位置处短时信号的离散傅里叶系数,相继的分析 窗位置t 。( u ) 被称作分析时刻,大多数情况下,s t f t 分析以一个匾定的速度来进 行,即t 。( u ) = u r 。对于时间基音尺度修改来说,一个非恒定的分析速度有时会 更为方便( 基于基音同步分析基础用于时间尺度修改的w s o l a 算法和用于基 频尺度修改的p s o l a 算法中主要的观点) 。 以z ( 门) 表示语音信号,吃( 谚表示分析窗,并假定h 。( n ) : 以时刻0 为中 心。具有确定的时长瓦和对称性,是一个低通滤波器的单位冲击响应。贝0 短时分析信号x ( t 。( u ) ,n ) 和短时分析谱x ( t 。( u ) ,) 分别为: x ( t 。( u ) ,n ) 鱼勤。( n ) x ( t 。( u ) 4 - n ) x ( t 。( u ) ,r o ) 一d e f h 。( n ) x ( t 。( u ) + n ) e x p ( 一j c o n ) ( 2 2 3 ) 在许多s 1 f t 分析场合,分析窗是一个固定的窗函数,即h 。( n ) = h ( n ) 。 2 3 2 修改 对s t f t 要作的修改反映着我们要对原始信号要作的修改。修改阶段由以下 两步构成: ( 1 ) 修改短时分析谱x ( t 。( u ) ,。) ,用以产生一系列短时合成谱 y ( t 。( u ) ,0 9 ) 。 ( 2 ) 使这些短时合成谱y ( t ;( u ) ,) 以一系列新的时刻同步,这些时刻被称 为合成时刻,以t 。( u ) 表示。 合成时刻t 。( u ) 序列由分析时刻t 。( u ) 按所需的基音时间尺度修改来确定, 合成时刻的个数也不一定等于分析时刻的个数。对于非恒定的基音时间尺度修 改系数来说,不论分析速度是否叵定,合成时刻通常将是不规则分布的。 2 3 3 合成 1 2 2 3 3 1l s e e m s t f t 估计 1 , 最后一步将短时合成信号序列以合成时刻同步结合起来,以便获得我们所 需要的“修改了的信号。其主要困难是,为了获得我们所需要的韵律修改, 修改x ( t 。( u ) ,c o ) 的结果y ( t ;( u ) ,c o ) 将不再是一个有效的s t f t 序列串,即不存在 某个信号,其s t f t 序列串是y ( t 。( u ) ,c o ) 。而y ( t 。( u ) ,。) 仍含有最能刻画我 们所需要的“修改了的”信号的信息。为此,我们要人为地构造一个信号y ( 盯) , 使得y ( 月) 的短时谱0 ( t ;( u ,) ) 序列串与合成短时谱y ( t 。( u ) ,c o ) 序列串误差平方 和最小,即 y ( t 。( u ) ,c o ) = f u ( m ) y ( t 。( u ) + m ) e x p ( 一j o x n ) ( 2 2 4 ) 。 讯( u ) ,c o ) 一y ( t 。( u ) ,) d c o 最小 ( 2 2 s ) 根据p a r s e v a l 方程给出匕式的闭式解 y 。( u ,n t s ( u ) ) f u ( n t ;( u ) ) w 。( n t s ( u ) ) y 啦曩丽i 而醵i 丽广 其中y 。( u ,n ) = 瓦1 y ( t 。( u ) ,) e x p ( j c o n ) d , ( 2 2 6 ) 其中0 ( n ) 称为合成窗,w 。( n ) 为加权系数,这种合成方程称为l s o l a 方程。 合成算法类似于加权叠加,相继的短时合成信号经适当的加权和时移后重 新结合起来,分母起一个时变的归一化系数的作用,用以补偿由于相继两窗间 的不同叠加而导致的能量的改变。选择不同的加权系数w 。( n ) 将产生不同的合 成方案,最直接的方法是令w u ( n ) = i ,于是得到 y 。( u ,n ts ( u ) ) f u ( n ts ( u ) ) 叫= 爱丽i 而 ( 2 2 7 ) 月刊,选择足令w 【( n ) :百b f u ( n ) 。 【0f u ( n ) = 0 炯,= 鬻 2 s , 这种方案使叠加合成更为简化。 2 3 3 2l s e e m s t f t m 估计 在许多应用场合,我们需要由s t f t 幅度函数序列串卜( t 。( u ) ,c o ) i 构造语音 信号。上述的最小误差平方方法可以借用,但要稍作修改。同样地,我们也要 寻找一个信号y ( 聆) ,从最小幅度误差平方意义上来讲,其短时谱寸( t 。( u ,国) ) 序列 串与我们所需要的信号的其短时谱y ( t 。( u ) ,0 9 ) 最接近,即 l ( i y ( t 。( u ) ,国) i f 0 ( t ;( u ) ,) f ) 。d 最小 ( 2 2 9 ) 运用迭代方法找出y ( ,z ) ,先任意假定一个y 1 ( n ) 为y ( n ) ,然后计算y 1 ( n ) 的 s t f t ,将其幅度用我们所需要的幅度iy ( t 。( u ) ,0 9 ) l 代替,根据修改了的y ( n ) 的 s t f t ,运用上述的l s o l a 算法,得到一个估计信号,这样的循环不断重复, 第i + 1 次的估计信号y ”1 ( n ) 通过将前一次的估计信号y 1 ( n ) 的s t f t 幅度用 y ( t ;( u ) ,0 9 ) 替代后再运用l s o l a 合成获得,所有的迭代过程可以概括如下: ( 1 ) 幅度约束: s ( u ) ,) = l y ( t 。( u ) ,) i 湍 ( 2 ) 最小幅度误差平方估计: 广b ,:型坐巍娑竽 1 4 ! 查竺奎竖! 兰苎! 苎! ! 曼竺! 墨! 苎! 二! 竺! ! ! ! 竺 第三章时间尺度修改 本章将要分别从时域和频域阐述时间尺度修改的方法并对实际的语 音信号进行修改。根据实验结果对合成信号质量加以评估,对这两种方法 进行比较,指出他们各自的优缺点并对影响合成信号质量的因素加以探 讨。 3 1 基于s t f t 的时间尺度修改 1 9 本节,我们的讨论建立在第二章语音生成的准稳态模型基础上,时间 尺度修改靠时间弯曲函数t - d ( t ) 指定且在窄带分析条件下,即式( 2 1 2 ) 、 ( 2 1 3 ) 、( 2 1 4 ) 成立。 3 1 1 时间尺度修改了的信号的s t f t 令语音信号是浊音,我们采用恒定的分析速度,与每个分析时刻 t 。( u ) = u r 相对应着一个合成时刻ts ( u ) = d ( u r ) t a ( u ) t a ( u + 1 ) t a ( u + 2 ) t a ( u + 3 ) 分析时刻 成时刻 图3 1 由上图可见,恒定速度的分析时刻往往对应着一个“弹性的”合成时 刻。 时间尺度修改了的信号的s t f ty ( t 。( u l ,力f ) 可以用下式裴达 ,( f ,( “) ,q ,) = m x ( d 一( f ,( “) ) ,q 川e x p 矽( f 、( “) ,q ) 1 参( m ,岛) = ( t , ( u - i ) ,q ) + n l - 善t ( u - i ) 五( ( 。- 一i ) r + 吾备,鸟) j e i i f t s ( u i ) m t 。( u ) ,n ( u ) = t ( u ) 一t ( t l i ) ( 3 i ) ! 兰坚竺竺! 兰兰竺! ! 兰竺! 查一! 苎! _ ! 型生墨璺! 曼 ( 。1 表示相继两合成时刻之间的样点数,兄( n ,岛) 表示时刻n 第l 频 带的瞬时频率,其值可由式( 2 1 8 ) 估计。 很容易证明: 在时间尺度修改后的信号中,t s ( u ) 时刻第l 频带内的正弦曲线瞬时 幅度等于原始信号在t 。( u ) 时刻的第1 频带内的正弦曲线瞬时幅度。 在时间尺度修改后的信号中,t 。( u ) 时刻的基音谐波的瞬时频率为: 砸s ( u 旧) = 型幽黑攀- 2 ( u 嘲) 2 ) 即等于原始语音信号在t 。( u ) = u r 时刻的基音谐波的瞬时频率。 令分析时刻靠得足够近,使得在( “一1 ) r 和积之间原始语音信号 的基音谐波的瞬时频率保持不变,则式( 3 1 ) 简化为: 矽( f ,( “) ,q f ) = 矽( f 。( “一1 ) ,q f ) + j v ( “) 五( ( “一i ) r ,q ,) ( 3 3 ) 上述方程可以解释如下:时间尺度修改后的信号的s t f t y ( t ;( u ) ,q ) 是通过将原始语音信号的s t f t 幅度和瞬时频率在时间进程上 作修改而不管其瞬时相位,这样便保证了时间尺度修改后的信号含有与原 始信号相同的基音谐波频率,只是它们的时间进程按时间弯曲函数 t 斗d ( t ) 作了重新调整。 最后,将时问尺度调整了的信号的s t f tv ( t 。( u ) ,- o i ) 运用合成方程 式f 2 2 7 ) 叠加便得到时间尺度调整了的信号。 尽管上述修改系统基于准周期和缓变参数的假设,但它也可以用于 清音信号。用同样的修改系统作用于浊音和清音增加了算法的鲁棒性,因 为不需要确定浊音清音 3 1 2 算法实现: 源程序见附录部分,图3 2 是实现上述时问尺度修改的算法流程图。 其中短时分析信号蜡是在分析时刻取帧短时信号作f f t 而得到的,第 叫i ! ! j 短时合成相位谱嘏第一t 帧短时分析相位谐,合成时刻由相应的分析时 刻乘以时闸尺度修改系数得到。 1 6 ! 【竺坚竺竺竺垡竺坠一! 型坐苎墨型竺 f 7 ! 圭竺查璺! ! 竺兰竺! ! 苎竺! 兰! 苎! _ 竺竺些竺! ! 生 3 1 3 运算结果 3 1 3 i 时域比较 图3 3 是将元音e 经s t f t 方法分别将时间尺度均匀减小0 8 倍和均匀拉 长1 6 倍后得到的信号时域波形。原始语音采样率为1 1 0 2 5 h z ,以间隔5 m s 的均匀速度分析,每帧3 0 m s ,1 0 2 4 点f f t 谱分辨率。 摊觜要嘉尊氯躺霆髑麟孥黧懿韶舞纛爨瞻得到的语音信号 图3 - 3 图3 - 4 是将s t f t 方法作用于完整语句得到的时间尺度修改了的信号 的时域波形。原始语音信号采样率1 6 0 0 0 h z ,以间隔5 m s 均匀时刻分析, 每帧时氏2 5 r n s ,1 0 2 4 点f f t 漕分辨率。由图3 - 3 和图3 4 所示时域波形 可见,对于单元音而言,由于其周期性结构与理想的语音生成模型非常接 近,修改后的信号很好地保存了原始信号的准周期性结构,只是时间进程 发生了改变而已。而对于实际的语句来说,由于其周期性变化较快,在窄 带分析的时长范围内( 大于4 倍基音周期) ,其周期性结构与我们假设的 “周册陀不变”有较大的差异,当我们用州想的语商生成模型来进行“相 位展开”运算时,必然导敛运算结果与实际行干h 与人的f i :入,e 婴农现在 寸域波形的准刷册陆结构不太好( “相位展刀。运算目的就足使短小,合成 18 翌苎奎竺型! 竺竺兰塑堕一兰兰竺竖竺苎 信号按周期性同步) 。 增 加 倍以 上 i 虬山 i i 【i l i - i i l i | l m 一龇 _ i , 7 一 。 r 1 呷一 哪! o2o4o 6 o 8 l 12 j l 一 l i l l山l i - _ 。址止 一 i 甲” 1 1 l旷 邢胛” f o1 o20 3c4o 5c60f t 0 809 1 。址。 删1 i_ l - 8 。_ k- f 1 _ 可,盯f 。胛! f驴 。 o ,2 o 4 o 608il214 15 器黼撇拓爵黼骂渊曙豁黼魏o 8 骺鹃撇形 ( c ) 运用s t f 谫法将时间尺度均匀拉伸16 倍后信号豹波形 ( a ) 图3 4 3 1 3 2 频域比较 图3 5 是在单元音e 原始信号和时间尺度修改了的信号中分别取时间 上相对应的一帧短时信号而计算出来的幅度i 酱。可见,时间尺度修改后的 信号很好地保存了原始语音信号的基音周别和谱包络( 共振峰结构) 。图 3 - 6 是将s t f t 方法作用于完整语句得到时问尺度修改了的信号的语谱, 可见,时间尺度修改后的信号很好地保存j 原始沿寄信号的八振i 峰结构, 这样便能保证时问尺度修改后的信号保持较的nj i 陌度, ! 主竺查兰兰苎兰兰竺! ! 苎竺曼苎 一! 苎! ! 塑! 竺! ! 查 图3 。5 图3 6 2 0 幼。啦啪啪 如。锄啪咖 兽螂霉 g 旺避警 【哇螗文舒。 l h 暗“由研,巴 3 1 3 _ 3 听辨结果 对于单元音,经s t f t 方法进行时间尺度修改得到的信号质量非常 高,基本上难以区别哪个是原始的,哪个是合成的。对于实际的语句,修 改后的信号质量也是比较高,具有很高的可懂度和较好的自然度,但正如 我们从其时域波形所见到的,由于其准周期性结构不太好,这样,听起来 有轻微的嘶哑现象,不过在实际韵律修改中,时长变化范围一般不会超过 0 5 2 0 倍,这种现象不太严重。 3 1 _ 3 4 主要缺点 基于短时s t f t 方法进行时间尺度修改最大的缺点就是运算开销太 大,每一帧的分析和合成都要进行一次f f t 和逆f f t ,还要涉及到“相 位展开”的运算。其次就是在“相位展开”运算过程中,由于实际的语句 的短时相位谱与我们假定的“周期性结构”这一理想情况存在着较大的差 异( 在我们窄带分析的时间范围内( 大于四个基音周期) ,信号的周期性 结构变化较大) ,为此,按理想条件下计算出来短时合成相位谱便于实际 的相位谱差别较大,使得合成出来的信号时域波形准周期性结构不太好, 相当于声带运动“不规则成分”加重,导致合成的语音听起来有些嘶哑噪 声现象。 q 【j 持文汉啊h 噩- 酱韵髑暗成的研竞 3 2 直接在时域进行时间尺度修改 1 4 】 基于s t f t 的时间尺度修改涉及到“相位展开”,运算极其复杂,而 在时域直接进行时问尺度修改则显得相对简单,其实质是基于s t f t 的时 间尺度修改的一个变化了的方式。 3 2 1o l a 时间尺度修 根据前文基于s t f t 的时间尺度修改,我们有 y ( t ,( 甜) ,q ,) = m x ( d “( f ,( “) ) ,q ,) e x p j _ ;b ( t ,( “) ,q ) 】 ( f 。( “) ,q ,) = ( f ,( 甜一1 ) ,q ,) + ( “) 旯( ( “一1 ) r ,q ,) 这样才能保证时间尺度修改后的信号y ( 咒) 具有原始信号的基音谐波频率 ( 即保证具有原来的准周期结构) 。如果我们不考虑在s t f t 修改过程中 相位的变化直接取y ( t 。( u ) ,岛) = x ( d 。( t 。( u ) ) ,q ) 则 y ( t 。( u ) ,n ) = x ( d 。( t s ( u ) ) ,n ) 运用l s o l a 合成方程,得到 炯,= 坠嚣拦筹型 由此方程合成结果如图3 7 所示: 斟焱霪蓬短是擒器黼菰箱熊鼹拉伸倍的信号中第l :处截取一段语音信号 图3 7 2 2 壁竺璺壁苎竺竺兰竺坠一j 苎苎! 塑竺坚坠 由图3 7 可见,合成的结果非常糟糕,它破坏了原始信号的准周期结 构。 对于二元表达式地( u ) 棚= h u ( r 洳+ t 。( u ) ) ,其中两个时间尺度并非独立 的,这样,关于信号x ( 门) 时间结构的重要信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河北省任丘市2025年上半年公开招聘辅警试题含答案分析
- 2025年度配送员劳动合同范本修订示范
- 2025版高科技园区建设资金受托支付合同
- 2025冻猪白条产地直供与电商平台合作供货合同
- 2025版典当行汽车典当借款合同(含车辆状况鉴定与维修)
- 2025版夏季运动会临时裁判工作区设施建设合同
- 2025版企业数字化转型顾问咨询服务合同
- 2025版陶瓷文化创意产品研发与销售合同
- 2025年网络安全软件源代码保密及技术支持服务合同
- 火场创伤急救知识培训课件
- 2025年连云港市中考英语试卷真题(含答案解析)
- 《备课专业化》读书心得
- 口腔健康与全身系统性疾病关联机制
- 消防部队改革转隶课件
- 2025年安徽合肥包河区演艺集团有限责任公司招聘笔试参考题库含答案解析
- CJ/T 120-2016给水涂塑复合钢管
- T/CNIDA 010-2023核电厂建(构)筑物变形监测系统技术规程
- T/CECS 10214-2022钢面镁质复合风管
- 既有供暖蒸汽管网及设施改造项目建议书(参考范文)
- 公交从业人员考试试题及答案
- 智联招聘协议书
评论
0/150
提交评论