




已阅读5页,还剩61页未读, 继续免费阅读
(通信与信息系统专业论文)采用超音段韵律特征联合短时频谱的语音转换.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属 在年一月解密后适用本规定。 非涉密论文囱 论文作者签名: 奎互 日 期:2 殳f 2 :垒:丝 导师签 采用超音浚韵律特征联合短时频谱的语音转换摘要 采用超音段韵律特征联合短时频谱的语音转换 摘要 语音转换技术是指将源说话人的语音模式转换成目标说话人的语音模式,保持原 有的语义信息不变,而使转换后的语音听出是目标说话人的。语音转换是语音信号处 理领域一个较新的分支,该技术可用于文语转换系统、电影配音和保密通信等多个领 域,具有很重要的研究价值。本文将主要围绕语音转换的频谱包络转换和韵律特征转 换两项关键技术进行研究,并对相关问题进行分析,从而得到一个完整的系统,具体 的实现语音转换。 本文的内容主要包括以下几个方面: ( 1 ) 研究了语音转换的相关知识,包括语音的产生、数学模型、常用的语音信号 分析方法。介绍了基本的语音转换系统,并就实验中采用的s t r a i g h t 模型和转换性 能评价标准进行了讨论。 ( 2 ) 通过分析常用的频谱包络转换方法的利弊,引出了本文选取的基于混合高 斯模型的频谱包络转换,并对转换的相关问题与转换步骤进行了阐述。 ( 3 ) 针对传统语音转换方法中对超音段特征的研究与转换的忽视,本文重点研 究了语音的韵律转换,提出了对语音进行多韵律特征同步转换的方法。转换的韵律 特征包括基频、语速、停顿、重音。 ( 4 ) 给出了本文提出系统的总体框架,并编程实现。 分别从主观和客观两个方面评价了转换后语音的质量,实验结果表明本文提出 的语音转换系统转换性能优于传统方法。 关键词:语音转换,韵律特征,基频目标模型,g m m ,s t r a i g h t 作者:李力 指导老师:俞一彪 a b s t r a c t v o i c ec o n v e r s i o nu s m gs p e c t r u mw i t hs u p e r - s e g m e n tp r o s o d yf e a t u r e s v o i c ec o n v e r s i o nu s i n gs p e c t r u mw i t hs u p e r - s e g m e n t p r o s o d y f e a t u r e s a b s t r a c t v o i c ec o n v e r s i o nt e c h n o l o g yc o n v e r t e dt h eo r i g i n a ls p e a k e r ss p e e c hp a t t e r ni n t oa t a r g e ts p e a k e r ss p e e c hp a t t e r n , k e e pt h eo r i g i n a ls e m a n t i ci n f o r m a t i o nu n c h a n g e di nt h e p r o c e s s ,a n dt h ec o n v e r t e dv o i c ei sl i k ew h a tt h et a r g e ts p e a k e rs a i d v o i c ec o n v e r s i o ni s an e wb r a n c ho ft h es p e e c h s i g n a lp r o c e s s i n g ,t h et e c h n o l o g yc a nb eu s e di n t e x t - t o - s p e e c hs y s t e m ,f i l md u b b i n g ,s e c u r ec o m m u n i c a t i o na n ds oo n , i th a sv e r y i m p o r t a n tr e s e a r c hv a l u e t h i sp a p e rw i l lm a i n l yf o c u so nc o n v e r t i n gs p e e c hs p e c t r a l e n v e l o p ec o n v e r s i o na n dp r o s o d i cf e a t u r ec o n v e r s i o n ,a n dt h r o u g ht h er e l a t e dp r o b l e m s a r ea n a l y z e d ,g e ta c o m p l e t es y s t e m ,i m p l e m e n t a t i o n o fv o i c ec o n v e r s i o n t h i sp a p e rm a i n l yf o c u s e so ns e v e r a la s p e c t sa sf o l l o w s : ( 1 ) t h er e l e v a n tk n o w l e d g eo fv o i c ec o n v e r s i o ni ss t u d i e d , i n c l u d i n gt h ep r o d u c t i o n o fs p e e c h ,m a t h e m a t i c a lm o d e l ,c o m m o n l yu s e di ns p e e c hs i g n a la n a l y s i sm e t h o d t h i s p a p e ri n t r o d u c e st h eb a s i cs p e e c hc o n v e r s i o ns y s t e m ,a n dw h i c hu s e di nt h ee x p e r i m e n t o fs t r a i g h tm o d e la n dt h ec o n v e r s i o np e r f o r m a n c ee v a l u a t i o nc r i t e r i aa r ed i s c u s s e d ( 2 ) t h r o u g ht h ea n a l y s i so fc o m m o n l y u s e ds p e c t r a le n v e l o p ec o n v e r s i o nm e t h o d s , t h i sp a p e rr a i s e st h es e l e c t e ds p e c t r a le n v e l o p ec o n v e r s i o nw h i c hb a s e do nm i x e dg a u s s m o d e l ,a n dt h er e l e v a n tp r o b l e m so fc o n v e r s i o na n dc o n v e r s i o ns t e p sa r ee x p o u n d e d ( 3 ) b e c a u s eo ft h en e g l e c to fs u p e r - s e g r n e n t a lf e a t u r e sr e s e a r c ha n dc o n v e r s i o ni n t h et r a d i t i o n a lv o i c ec o n v e r s i o nm e t h o d ,t h i sp a p e rf o c u s e so nt h er e s e a r c ho f p r o s o d yc o n v e r s i o n , p u tf o r w a r dt oc a r r yo u tr i c hp r o s o d yc o n v e r s i o nm e t h o d t h e p r o s o d i cf e a t u r e so fc o n v e r s i o ni n c l u d e df u n d a m e n t a lf r e q u e n c y , s p e e d ,p a u s e ,s t r e s s ( 4 ) t h i sp a p e rp r e s e n t st h eo v e r a l lf r a m e w o r ko ft h es y s t e m , a n dp r o g r a m m i n g v o i c eq u a l i t ya f t e rc o n v e r s i o na r ee v a l u a t e df r o ms u b j e c t i v ea n do b j e c t i v et w o 塑堕兰! 璺:竺! ! 璺望! ! 呈墨兰皇塑墨! 垡兰兰些堕! 墨竺坐! 竺! 鲤羔里! 竺竺竺垒坠型 r e s p e c t s ,t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h ep r o p o s e ds p e e c hc o n v e r s i o ns y s t e m c o n v e r t st h eb e t t e rp e r f o r m a n c et h a nt h ec o n v e n t i o n a lm e t h o d k e y w o r d :v o i c ec o n v e r s i o n ,p r o s o d yf e a t u r e ,p i t c ht a r g e tm o d e l ,g m m ,s t r a i g h t w r i t t e nb yl il i s u p e r v i s e db yy uy i b i a o 目录 第一章绪论l 1 1 语音转换的定义。l 1 2 语音转换研究的意义和应用前景1 1 3 国内外的研究现状及存在的问题3 1 4 课题的研究目标及论文的组织结构5 第二章语音转换的相关问题7 2 1 语音信号的基础知识7 2 1 1 语音的产生机理7 2 1 2 语音产生的数学模型9 2 1 3 语音信号的说话人特征1 0 2 2 语音信号的分析。1 0 2 2 1 分帧1 l 2 2 2 预加重一1 1 2 2 3 加窗一l2 2 2 4 短时能量和短时平均幅度1 3 2 2 5 短时自相关函数13 2 3 语音转换的原理。1 4 2 4s t r a i g h t 合成语音的算法1 5 2 5 语音转换性能的评价标准1 6 2 5 1 客观评价标准1 6 2 5 2 主观评价标准。1 7 2 6 本章小结1 8 第三章频谱包络的转换1 9 3 1 概述1 9 3 2 频谱包络转换主要的方法1 9 3 2 1 矢量量化法1 9 3 2 2 说话人插值法2 0 3 2 3 人工神经网络法2 1 3 2 4 隐马尔可夫模型法2 2 3 3 本文采用的基于高斯混合模型的频谱包络转换2 3 3 3 1 语音信号的时间对齐2 3 3 3 2g m m 模型2 5 3 3 3 转换函数2 6 3 3 4 谱包络转换2 7 3 4 本章小结2 9 第四章韵律特征的转换3 0 4 1 概j 盎3 0 4 2 基音频率的转换3 0 4 2 1 传统的转换方法3 0 4 2 2 传统转换方法的优缺点3 3 4 2 3 基频目标模型的引入与建模3 4 4 2 4 基音频率转换的实现3 6 4 3 基于统计模型的语速、停顿、重音变换3 7 4 3 1 层次化的韵律特征分析3 8 4 3 2 层次化韵律特征调整的实现4 2 4 4 本章小结4 3 第五章语音转换实验与结果分析4 5 5 1 转换流程4 5 5 1 1 训练流程4 5 5 1 2 转换流程4 6 5 2 实验的语音库4 6 5 3 语音转换实验4 6 5 3 1 语谱图4 6 5 3 2a b x 测试4 9 5 3 3m o s 打分5 0 5 3 4 说话人识别测试5 0 第六章总结与展望5 2 6 1 工作总结5 2 6 2 展望5 3 参考文献5 4 攻读硕士期间公开发表的论文5 8 致谢5 9 采用超音段韵律特征联合短时频谱的语音转换 第一章绪论 第一章绪论 语音是人类最重要、最有效、最常用和最方便的交换信息的形式。随着信息技术 的发展,语音交互已经成为人机交互的必要手段。语音信号处理已成为重要的交叉学 科,并在日常生活中得到广泛的应用。用现代手段去研究语音信号处理技术,使人们 能够更加有效地产生、传输、存储和应用语音信息。对于人类社会的发展有着十分重 要的意义【l 】。 语音信号处理主要包括语音编码、语音合成、语音增强、语音识别和语音转换等。 语音转换是语音技术中研究起步较晚的部分,但是现在已经在语音信号处理中充当重 要角色,对语音识别等理论的研究有着重要作用。在过去几十年,考虑到语音转换重 要的理论价值和良好的应用前景,越来越多的研究人员投入到这方面的工作当中。 1 1 语音转换的定义 语音转换( v c ,v o i c ec o n v e r s i o n ) 旨在将源说话人的语音经过转换,使之听起来 像是目标说话人的语音【2 1 。它是一种改变说话人语音特性的技术,将一个人的语音模 式转换为另外一个人的语音模式。语音主要包括语义信息和个性化信息。语音转换就 是要保持源说话人语音的语义信息不变,而改变其个性化信息,使转换后的语音听起 来像是目标说话人的语音。 语音转换可以分为同语种说话人的语音转换和跨语种说话人的语音转换。同语种 说话人的语音转换指的是源说话人语音和目标说话人语音用的是同一种语言。而跨语 种说话人的语音转换是指源说话人语音和目标说话人语音用的不是同一种语言,例 如,源说话人a 的语音用的是中文,而目标说话人b 的语音用的是英文,然后,进行 语音转换就要将a 说的中文转换成像是b 说的中文。在本课题中,主要研究的是同语 种说话人的语音转换。 1 2 语音转换研究的意义和应用前景 语音转换是目前语音研究领域比较新的一个分支,它是在语音合成和语音识别技 第一章绪论 采用超音段韵律特征联合短时频谱的语音转换 术达到一定的高度之后出现的。对语音转换的研究涉及到声学、信号处理、模式识别 等多个学科领域,同时语音转换也涉及到语音信号处理的各个领域,包括语音识别、 语音编码、语音分析、语音合成、语音增强等。语音转换的研究需要使用或借鉴各个 领域的知识:反过来,通过对语音转换的研究又促进着这些领域的发展。语音转换技 术已经成为语音信号处理领域的研究热点之一,它具有广阔的理论研究意义和应用前 景。 研究语音转换的研究意义和应用前景有很多,主要包括以下几个方面: ( 1 ) 在文一语转换叩s ,t e x t - t o - s p e e c h ) 转换系统中的应用【3 】:目前的1 t s 转换系 统的语音合成方法主要有共振峰合成c f o r m a n ts y n t h e s i s ) 、基音同步叠加技术的合成 o a s o l a ) 和数据库的合成等。不管是采用哪种方法,得到的合成语音的都具有单调机 械、缺乏个性化的特点,这样就限制了t t s 的应用。此外,r 丌s 系统中需要增加一个 新的发音人时,就必须增加这个新发音人的语音库,这样就费时费力了。如果在语音 合成中加入语音转换的处理,将其转换为具有特定人声音特征的语音,这样就能达到 新增发音人的目的,能省去重建语音库的庞大工作,在一定程度上增大了t t s 系统的 使用范围。 ( 2 ) 在电影配音中的应用:现在国内电视台和电影院放映的电影,很大一部分 是进过了翻译的外语片。在这些影片中,我们听到的都是配音演员的声音,而配音 演员和原演员的个性特征存在差距,这样就导致了配音效果不理想。如果将配音后 的声音经过语音转换后再输出,那么配音的效果就会好很多。 ( 3 ) 在医学领域的应用:语音转换可以帮助一些声道受损的病人提高其发音的质 量。在这方面,主要是通过语音转换来提高说话人语音的可懂度,恢复说话人的个性 特征【4 】。 ( 4 ) 在保密通信中的应用:对通信中的语音按一种规则进行语音转换,然后在接 收端进行反变换得到原来的语音,如果传输的语音被侦听,那么窃听者就不知道谁在 说话,达到了伪装保密的效果。 ( 5 ) 在语音识别中的应用:在语音识别的前端处理中,为了减少说话人差异的影 响,会用到自适应的技术。在这里,我们可以采用语音转换将所有的语音转换为同一 个说话人的语音,实现说话人的“归一化一,进而降低说话人差异给识别结果带来的 2 采用超青段韵律特征联合短时频潸的语音转换第一章绪论 影响。 ( 6 ) 在一些特殊方面的应用:例如,在深海下,潜水员发出的声音几乎听不懂, 进行语音转换处理可以提高发出声音的可懂度。 1 3 国内外的研究现状及存在的问题 语音转换技术是在语音信号和信息处理研究领域的迅猛发展的基础上发展起来 的一个新兴、具有巨大潜力的研究方向。随着语音转换的应用前景越来越广阔,它引 起了越来越多人的重视,已经有很多学者投入到这方面研究中。由于国外的语音转换 研究起步的比较早,所以取得的成果也比较多。 s s e n e f f ( 1 9 8 2 ) 通过估计频谱包络,然后对语音信号解卷积得到激励信号,这种方 法不用去提取基频而可以对基音频率和频谱包络进行变换,实现了一个初步的说话人 声音转换1 5 1 。 h k u w a b a r a ( 1 9 8 4 ) 提出了一种基频分析合成系统,可以调整基频、共振峰和它们 的带宽 6 1 。从每个基音周期的语音信号中获得线性预测系数( l p c ) 、幅度和基频时长, 共振峰和它们的带宽从l p c 中得到。通过修改l p c 参数来实现这些特征的变换。由于 这里分析的是基音同步,所以变换十分简单。 c h i l d e r s ( 1 9 8 5 ) 分析了基于固定长度帧的非基音同步的方法和影响语音质量和自 然度的因素,并利用不同的激励源信号,进行了线性频谱搬移,实现了男女音之间的 转换,取得了不错的效果 7 1 。 a b e ( 1 9 8 8 ) 等提出了第一个比较成熟的说话人声音转换系统,该系统采用了矢量 量化技术和码本映射的方法,将不同说话入的频谱特征用码本表示,接着对说话人的 语音库进行训练,得到不同说话人之间的频谱包络和基频的映射关系f 蜘。然后用码本 映射的方法对语音进行参数转换,最后用l p c 合成器得到转换后语音。该方法存在不 连续的现象,影响了转换后语音的质量。为了提高转换性能,n a k a m u r a ( 1 9 8 9 ) 运用模 糊v q 方法对此方法做了改进。1 w a h a s h i ( 1 9 9 5 ) 在此基础上提出了频谱插值法,这种方 法增强了码本映射技术的鲁棒性。 s a v i c ( 1 9 9 1 ) 提出了用多层神经网络代替码本映射来进行语音转换【9 1 。这种方法得 到的转换后语音的质量有了很大提高,但是还是采用传统的l p c 声码器合成语音,转 3 第一章绪论 采用超音段韵律特征联合短时频谱的语音转换 换后语音质量一般。 v a l b r e t ( 1 9 9 2 ) 采用动态频率规整( d e w ) 的方法来进行语音转换, 音的质量n o l 。 a r s l a n ( 1 9 9 7 ) 提出了一种基于音素码本映射思想的转换算法【1 l 】, 架内实现了线谱频( l s f ) 、基频和时长的转换,取得了不错效果。 提高了转换后语 在统一的系统框 s t y l i a n o u 和k a i n ( 1 9 9 8 ) 采用高斯混合模型( g m m ) 的统计方法对频谱包络参数进行 了转换【1 2 】【1 3 1 。这种方法比矢量量化法更加有效,不仅克服了不连续的现象,并且鲁 棒性更好,得到了很好的转换效果。 t o d a ( 2 0 0 1 ) 利用s t r a i g h t 分析合成算法,并采用g m m 法与d f w 法相结合方法 进行语音转换,提高了语音转换的性能【1 4 1 。 l a r o c h e ( 2 0 0 3 ) 应用基于时域的基音同步叠加( t d - p s o l a ) 技术在不破坏转换后语 音的共振峰结构情况下,实现了基频和时长的转变。 m o u c h t a r i s ( 2 0 0 4 ) 采用自适应的方法做了非平行训练的语音转换,它的方法是先 通过平行语料训练得到转换函数,然后通过自适应的方法,使得这个转换函数适用于 非并行语料的另一对说话人【l 习。 s u n d e r m a n n ( 2 0 0 8 ) 做了跨语种的语音转换,他使用v t l n 对语音频谱规整,使得 非平行的语料对齐,然后进行语音转换【1 6 1 。 国内对语音转换研究的起步比较晚,因而取得的研究成果也相对较少。初敏( 1 9 9 8 ) 等提出了一种在时域上进行男女声转换的方法,在这种方法中,通过基于时域的基音 同步叠加( t d - p s o l a ) 的方法改变基频,采用改变采样频率的方法来改变共振峰【1 7 1 。 刘立( 2 0 0 0 ) 采用矢量量化的方法实现了男女声之间的语音转换。王聪修( 2 0 0 1 ) 研究了 噪音源的特性,在此基础上进行了韵律转换,同时采用线性和非线性频谱搬移相结合 的方法进行了频谱包络的转换【堋。初敏( 2 0 0 3 ) 等采用平滑的g m m 法和m a p 自适应法 来进行语音转换【1 9 1 。 总体来说,目前语音转换已经取得了一定的成果,转换后语音较源语音更加接近 于目标语音。然而我们也可以发现,语音转换技术还不够成熟,仍然有很多不足之处。 一方面,现在语音转换的转换精确度还不是很高,转换后的语音和目标语音还有定 的差别;另一方面,转换后的语音质量会有不同程度的下降。这是因为在分析语音信 4 采用超音段韵律特征联合短时频滑的语音转换第一章绪论 号或者提取语音参数时总会有信息丢失,所以最终合成语音的质量较目标语音会有不 同程度的下降,有时甚至会严重下降。 造成转换后语音质量下降的一个重要原因是:目前对语音转换的研究一般都是对 音段特征进行控制和转换,而忽视了对超音段特征的研究与转换。超音段特征主要有 说话人速率、能量、停顿等,这些特征参数主要描述了语音的韵律特征。这些韵律特 征反映了语音的时变情况,是很重要的说话入个性化特征。由于很难对超音段特征进 行建模控制,目前的研究一般都是进行平均值转换。这样就导致了转换后语音自然度 不够高、语音质量下降。加大对超音段转换的研究,对于提高转换系统的性能有着重 要意义。 1 4 课题的研究目标及论文的组织结构 针对传统的语音转换方法中存在的问题,本文提出的语音转换系统在频谱包络 转换的基础上,加入了基音频率、语速、停顿、重音等多种超音段韵律特征的转换 处理,旨在提高语音转换的转换性能和转换后语音的自然度。在训练阶段,先用基 频目标模型对基音频率建模,然后采用高斯混合模型的方法对频谱包络参数和基频 参数进行训练,得到频谱包络参数和基频参数转换规则;同时引入韵律层级结构对 语速、停顿和重音等特征进行了分析,得到源说话人和目标说话人语音之间这些超 音段特征的关系。在转换阶段,通过前面训练得到的转换规则对频谱包络参数和基 频参数进行转换,然后用s t r a i g h t 合成语音,接着对得到的语音进行时长、停 顿和重音的调整,最后就得到了高质量的转换后语音。 本文各章的内容安排如下: 第一章:是绪论部分,简要介绍了语音转换的定义,语音转换的研究意义和应用 前景,以及语音转换研究现状和存在的问题,最后说明本文的研究目标和论文的组织 结构。 第二章:简要说明了语音转换的相关问题,包括语音信号产生的机理、产生模型 和说话人个性特性,分析语音信号的一些基本方法,语音转换的基本原理,以及用到 的s t r a i g h t 语音分析合成算法,最后说明了语音转换性能的评价标准。 第三章:先介绍了几种语音转换频谱包络的常用的转换方法,接着详细的说明了 5 第一章绪论 采用超音段韵律特征联合短时频谱的语音转换 本文所采用的基于混合高斯的模型的频谱包络转换。 第四章:介绍了语音韵律特征的转换,重点说明了本文采用的基于基频目标模型 的基频转换和基于统计模型的语速、停顿和重音变换。 第五章:介绍了语音转换的实验,对实验结果进行了性能评测与分析,并将传统 方法和本文方法得到的实验结果进行了比较。 望。 第六章:对本文的工作进行了总结,并对以后的语音转换的研究工作做出了展 6 采用超音段韵律特征联合短时频谱的语音转换 第二章语音转换的相关问题 第二章语音转换的相关问题 语音转换系统是在一定的语音信号模型上建立起来的,而语音信号的建模需要了 解人发音系统的声学原理。因而只有根据人的发音系统模型,才能精确刻画人的各种 声学特征,有效的使用这些声学特征就能够提高语音转换系统的质量。本章将对语音 信号的产生、建模和一些分析语音的基本方法进行分析与研究,同时会简要介绍基本 语音转换流程,以及本文所进行的语音转换中要用到的s t r a i g h t 模型,最后给出语 音转换的评价标准。 2 1 语音信号的基础知识 2 1 1 语音的产生机理 语音是人类以讲话的形式发出的有意义的声音,是人与人之间传递各种信息的方 式。人体的主要发音器官有:肺部、气管、喉( 包括声带) 、咽、鼻腔、口腔和上下唇, 如图2 1 所示。这几个部分组成一个整体,共同形成了一条复杂的管道,构成了发音 器官。人发语音的生理过程为:首先,大脑的语言中枢下达神经脉冲信号的命令,指 引发音器官的肌肉运动;从而引起肺部呼出的气流气压的变化,声门发生震动;在腹 部气流到达喉部之后,同时配以人的腭、舌、嘴唇的各种各样动作的调节,就产生了 可听的各种不同语音。 语音按其激励方式的不同大致可以分为三类:浊音、清音和爆破音。当肺部的空 气经过声道,引起气流和声带的相互作用,产生了准周期性的空气脉冲,以这些脉冲 为激励产生的就是浊音。而清音是气流经过声道里的一个狭窄的部位时产生的湍流, 此时声带处于一种放松的状态。当声道某处暂时完全闭合时,就产生了气压,然后突 然打开,这样发出的声音就是爆破音。 7 第二章语音转换的相关问题 采用超音段韵律特征联合短时频谱的语音转换 声 声 韧 软鞭口腔 腔 颚 唇 齿 猎 图2 1 发音器官的结构 图2 1 中的这些器官共同构成了复杂管道,其中声带上的部分称为声道。声道相 当于一个分布式的参数系统,有一个谐振腔,这样就有许多谐振频率,这些频率就是 共振峰频率,简称共振峰。共振峰是重要的说话人个性化特征参数。人发出的任何一 个音都是若干发音器官协同作用的结果,由于不同的人发音器官的长度、大小上的差 异,共振峰会各不相同。事实上,即使同一个人在不同时间说同一句话时,其声道大 小也各不相同,这样就形成了语音丰富多彩的声音特性。共振峰可以用依次增加的多 个频率表示,如f i ( 第一共振峰) 、f 2 ( 第二共振峰) 等。语音一般有- - n 五个共振峰, 语音信号处理中,前三个共振峰是比较常用的。在语音转换中,共振峰的转换是语音 个性化转换的重点内容。 喉部的声带是语音的主要激励源,它对发音的影响很大。当声带开启和闭合时, 就会产生很多的准周期性空气脉冲,而完成一次开启和一次闭合的时间就是基音周 期,它的倒数称为基音频率。无论是说一个语音或是一段连续语音,其基音频率都是 随时间变化的。男性的声带比女性厚,所以男性基音频率一般低于女性的基音频率【刎。 一般情况下,男性说话人的基音频率在6 0 - 2 0 0 h z 的范围内,女性说话人的基音频率在 2 0 0 - 5 0 0 h z 之间。基音频率是反映人的个性特征的重要因素之一,因而也是语音转换 8 采用超音段韵律特征联合短时频谗的语音转换第二章语音转换的相关问题 的重要方面。 2 1 2 语音产生的数学模型 要想使用计算机对语音信号进行定量地分析处理,就必须建立语音信号的数学 模型,所以语音信号的产生的数学模型是语音信号处理的基础。一个完整的语音信 号的数学模型一般可以用激励模型、声道模型和辐射模型3 个子模型的串联来表示 【2 1 1 ,如图2 2 所示。 基音频率a 音 图2 2 语音信号产生的数学模型 它的传输函数h ( z ) 可表示为: h ( z ) = a 幸u ( z ) y ( z ) r ( z ) ( 2 1 ) 其中,u ( z ) 是激励信号,浊音时u ( z ) 是声门脉冲序列的z 变换;清音时u ( z ) 是 一个随机噪声的z 变换。v ( z ) 是声道传输函数,可以用共振峰模型等来描述。r ( z ) 表 示为一阶高通的形式为: 尺( z ) = 民( 1 一z 。1 ) ( 2 - 2 ) 这个模型被认为是“短时”的,而短时内语音信号基本不变,因此这个模型可以 看成是短时平稳的,例如在l o - 2 0 m s 元音的参数是基本不变的,这也是语音信号进 9 第二章语音转换的相关问题采用超音段韵律特征联合短时频谱的语音转换 行短时分析的理论基础。在通常情况下,这个模型都能很好的模拟,但是当遇到有零 点的鼻音和摩擦音时,这个模型就不适用了。 2 1 3 语音信号的说话人特征 语音信号包括很多方面的信息,主要有语音的语义信息( 说的是什么) 、说话人信 息( 谁说的) 、语音的环境信息( 在哪里说的) 。其中,说话人信息说明了说话的谁,同 语义信息和环境信息无关。这里的声音转换就是要保持语音的语义信息和环境信息不 变,而改变其说话人信息【捌。表征说话人个性特征的参数有很多,一般可以分为以下 三类: ( 1 ) 音段特征 包括共振峰的位置、共振峰的带宽、频谱倾斜、基音频率、能量等,说明了说话 人语音的音色特征。这些特征主要和说话人发音器官的生理特性有关,也会受说话人 情绪状态的影响。 ( 2 ) 超音段特征 主要是指语音的韵律特征。一般包括时长、基音频率变化和能量等。人们所能感 觉到的就是说话的速率、音调和重音的变化。 ( 3 ) 语言特征 包括习惯用语、方言和口音。这些特征不包括在本文的讨论范围之内,在选择语 音库的时候就要减小这方面的影响。 目前的语音转换系统,重点是对音段特征进行研究和转换,忽视了对于超音段特 征如说话人速率、停顿、和重音等特征的转换。这样就导致了转换后的语音目标倾向 性不够明显,合成语音自然度不高,不能很好地反应说话人个性化特征。本文在短时 谱包络转换的基础上,加入了基频、语速、停顿、重音等多种超音段韵律特征进行转 换处理,以提高语音转换性能。 2 2 语音信号的分析 语音分析有两种重要的方法,分别是时域分析和频域分析。最早使用和应用范 围最广的方法就是对语音的时域进行分析,时域表现形式比较直观的东西容易被人 1 0 采用超音段韵律特征联合短时频i 瞢的语音转换第二章语音转换的相关问题 发现,对研究具有重要意义。在语言声学方面,语音信号的频谱通常渗透着重要的 特征。从语音的频谱中,可以获取共振峰频率和带宽等特征。因此,在认识和处理 语音信号的过程中,通常采用频谱分析的方法。下面将简要介绍语音信号的一些基 本分析方法。 2 2 1 分帧 在发音过程中,发声器官的震动速度相对于声音震动来说是相当缓慢的,因此一 般认为语音信号是短时平稳的。因而语音信号进行分析和特征参数的提取可以使用平 稳过程的处理方法和理论,其中每个短时的具有相对稳定的特性语音段称为一个分析 帧。帧长一般为l o - 3 0 m s ,帧与帧之间也可有交迭,以使帧与帧之间的信号平滑过渡, 保持其连续性【1 1 。如图2 3 为帧长和帧移的示例图。 2 2 2 预加重 帧移帧长 图2 3 语音短时分析的分帧处理 由于语音信号的频谱具有频率越高成分越小的特点,从而导致了高频部分的频谱 比低频部分的难求,这样就要在预处理中进行预加重处理。一般是将语音信号通过一 个一阶高通滤波器进行预加重,该滤波器传递函数一般为1 旬9 3 7 5z 一;即为预加重滤 波器。预加重提升了高频部分,让信号的频谱保持在从低频到高频的整个频带中,这 样就达到了用同样的信噪比求频谱的目的,也便于对信号进行频谱分析或声道参数分 析。在计算短时能量之前将语音信号通过预加重滤波器还可起到消除直流漂移、抑制 随机噪声和提升清音部分能量的效果。 第二章语音转换的相关问题 采用超音段韵律特征联合短时频谱的语音转换 2 2 3 加窗 在进行分帧时,通常会采用一个长度有限的窗函数来截取。选择合适的窗函数 w ( n ) ,能对短时分析参数起到积极作用。当窗函数选择合适时,短时分析参数能更好 地反映语音信号的特性变换。下面将简要介绍语音处理中最为常用的矩形窗、h a n n i n g 窗和h a m m i n g 窗【2 3 1 。 ( 1 ) 矩形窗函数定义为: w = 位巍删 c 2 秭 ( 2 ) h a n n i n g 窗函数定义为: w ( n ) :0 7 5 - 0 5 c o s ( 幼三n - i ) ,o n ( 2 - 4 )w ( n ) = 、” lo 其他 ( 3 ) h a m m i n g 窗函数定义为: w ( n ) :i n j ) ,o s n 1 ) ( 如 图4 3 ) ,反之则a ( a 0(4-6) 其中,r ( f ) 为潜在的目标基频,而) ,( f ) 为实际的f o 轮廓曲线。a 和b 分表代 采用超啬段韵律特征联合短时频谤的语音转换 第咒章韵律特征的转换 表目标基频的倾斜和截取,它们共同描述了潜在的目标基频,不同于实际得到的f o 轮廓曲线。多是一个用来描述当t = o 时,f o 轮廓曲线和潜在目标基频之间的距离。 兄描述了f o 轮廓曲线接近潜在目标基频的程度,五越大,指数函数衰减就越快, 表明f o 轮廓曲线越接近潜在目标基频。受生理极限的影响,说话入语音的基音频 率的大小和变换速率等特征有一定的变化范围,这就决定了基频目标模型的这些参 数值是有限制的,在一定的范围内波动。 根据公式( 4 6 ) 和每个音节的基音频率,就可以用非线性回归的方法估计出每个 音节的这些参数。但是实验结果表明,这种直接估计方法,不能很好的估计出参数。 为了提高估计性能,可以减少需要估计参数的个数。取f 0 轮廓曲线上的第一 点( t o ,y o ) ,将它代入公式( 4 缶) 可得: p=yob(4-7) 由于f 0 轮廓曲线的第一个点容易异常,所以这里的( t o ,y o ) 一般取前两个值的 平均。这样公式( 4 - 6 ) 就变为: ) ,o ) = ( y o b ) e x p ( - 办) + a t + 6 ( 4 - 8 ) 下一步,在f o 轮廓曲线上取一点( 毛,y 。) ,在这一点指数函数趋于零,但不为 零,这样在这一点f 0 轮廓曲线基本和潜在目标基频重合。( ,咒) 主要是根据经验选 择,一般是网轮廓曲线的中间点。因此,则有; yl=atl+6(4-0) 将公式( 4 _ 9 ) 代入公式( 4 ) ,就得到: y ( f ) = ( y o 一易) e x p ( 一五f ) + ( 耻弦+ b ( 4 一1 0 ) f i 这样就先用非线性回归的方法估计出公式( 4 一1 0 ) 中的b 和名,然后根据公式( 4 - 7 ) 和( 4 - 9 ) 公式分别计算得到和a 。如图4 5 为根据以上方法,得到的源语音f 0 曲线、 建模得到的f o 曲线和潜在的目标基频之间关系。从中可以看出,建模得到的f o 曲 线和源语音f o 曲线的相似度比较高,误差率比较小,采用此种方法能有效的f o 曲 线进行建模。 第四章韵律特征的转换采用超音段韵律特征联合短时频谱的语音转换 n 1 - 、, o u l 图4 5 源语音阳曲线、建模得到的f 0 曲线和潜在的目标基频之间关系 4 2 4 基音频率转换的实现 通过以上的分析,可以知道音节的基频目标模型可以用参数组( 口,b ,肛兄) 表示。 则f o 的转换步骤如图4 6 : 首先,利用基频目标模型分别对源说话人和目标说话人语音的f 0 进行建模, 采用非线性回归的方法就分别得到参数组( 乜,b ,屈五) ; 其次,用前面一步得到对参数组进行g m m 模型训练,得到转换规则; 然后,先用基频目标模型对测试语音的f 0 进行建模,得到测试语音的参数组。 再根据第二步得到的转换规则,对测试语音参数组进行转换,得到新的参数组; 最后,依据新的参数组,再通过公式( 4 - 6 ) 计算获得转换后的f o ,从而实现f 0 转换。 采用超音段韵律特孤联合短时频谱的语音转换 图4 6 基音频率转换过程 4 3 基于统计模型的语速、停顿、重音变换 第四牵韵律特,征鹄转换 语速指发音的速度,是说话人个性特征之一。由于习惯或性别等因素影响,每个 人的说话语速各不相同。语速的快慢直接影响着清晰度,生活中经常会出现由于讲话 人语速太快,而导致听话人没听清楚的现象。语速同时也影响着停顿,说话停顿较多 的入往往语速较慢。另外,在一些特定钓情况下,不同的说话语速可能代表了不同的 含义。总之,有效的控制语速,对于语意的表达有着重要作用。 停顿是在说话过程中产生的,人们根据心理或生理的需要,在句子与句子之间、 韵律词与韵律词之间、字与字之间适当的加入的间歇,使得句子与句子之间、韵律词 与韵律词之间、字与字之阊的联系更加清楚。停顿可以用来表示一个句子的结束;也 可以减少句与句、词与词、字与字之间的相互影响:还可以用来表示对句子中某些内 容的强调。停顿能对语速的变换起到调节作用,也能体现语言的韵律结构和语法结构, 实验证明,停顿的分布具有一定的规律性。对于较长的句子,一般普通人可以分辨出 三级的话语停顿,而经过特别训练的人或者通过直觉实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网球高压球课件
- 2025年神经外科手术器械使用及操作技能考核试卷答案及解析
- Unit 3 Days of the week说课稿-2025-2026学年小学英语四年级下册牛津上海版(试用本)
- 月子餐理论课件
- 2025年学历类自考专业(护理)医学心理学-妇产科护理学(一)参考题库含答案解析(5套)
- 6.3 平面向量基本定理及坐标表示教学设计-2025-2026学年高中数学人教A版2019必修第二册-人教A版2019
- 软件项目投标完整方案书范例
- 书店主题活动策划及执行方案
- 2025年学历类自考专业(建筑工程)结构力学(一)-工程测量参考题库含答案解析(5套)
- 护理敏感指标的辩识
- 2024年益阳安化县医疗卫生单位招聘考试真题
- 土石方工作安全培训课件
- 2025年建筑材料行业当前发展趋势与投资机遇洞察报告
- 《金色的鱼钩》学生版
- 四川省达川市2025年上半年事业单位公开招聘试题含答案分析
- (2025年标准)强奸私了协议书
- 2025年电梯安全管理员试题及答案
- 2025至2030年中国福建省港口市场规模预测及投资战略咨询报告
- 2025年赛码考试题库
- 2025年餐饮经理人岗位胜任力评估试题及答案
- 中石化班组管理办法
评论
0/150
提交评论