![(电路与系统专业论文)基于声道谱特性的源目标说话人声音转换算法的研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/ae419125-4a74-4bb5-9b7e-b99e2f830c3c/ae419125-4a74-4bb5-9b7e-b99e2f830c3c1.gif)
![(电路与系统专业论文)基于声道谱特性的源目标说话人声音转换算法的研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/ae419125-4a74-4bb5-9b7e-b99e2f830c3c/ae419125-4a74-4bb5-9b7e-b99e2f830c3c2.gif)
![(电路与系统专业论文)基于声道谱特性的源目标说话人声音转换算法的研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/ae419125-4a74-4bb5-9b7e-b99e2f830c3c/ae419125-4a74-4bb5-9b7e-b99e2f830c3c3.gif)
![(电路与系统专业论文)基于声道谱特性的源目标说话人声音转换算法的研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/ae419125-4a74-4bb5-9b7e-b99e2f830c3c/ae419125-4a74-4bb5-9b7e-b99e2f830c3c4.gif)
![(电路与系统专业论文)基于声道谱特性的源目标说话人声音转换算法的研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/ae419125-4a74-4bb5-9b7e-b99e2f830c3c/ae419125-4a74-4bb5-9b7e-b99e2f830c3c5.gif)
已阅读5页,还剩67页未读, 继续免费阅读
(电路与系统专业论文)基于声道谱特性的源目标说话人声音转换算法的研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中闺科学技术人学顺i j 学位论义摘要 摘要 源一目标说话人声音转换技术是指将源说话人的语音模式转换成某个特定 的目标说话人的语音模式,即保持源晓话人原有的语义信息不变,使转换后的语 音具有目标说话人的声音特点。 语音信号中的说话人特征是体现在激励源和声道两方面的,本文在语音的线 性预测分析合成的模型框架下,着重研究了源一目标说话人声道谱特性的与文 本无关的映刺规则的获取方法。另外,在具体实现声音转换时,也考虑了声源信 息的部分转换。 为实现与文本无关的源一目标说话人声音转换,并使获取的转换规则具有可 实现性和推广性,本文采用了对特征参数矢量空间进行分类的策略,以类特征参 数子空间获耳义转换规则,详细探讨了码本映射方法和分类线性映射方法,并就其 中分类数对转换效果的影响、分类算法的选取等关键问题做了深入的实验分析。 为了克服分类不准确所导致的转换效果变差,同时希望在一定的分类数下能 获取尽可能多的转换规则,以实现对源一目标话者的映射关系更精确的描述,本 文给出了一种基于g m m 的分类线性加权映射方法。该方法通过对特征参数空间 的统计特性分布的描述,实现对特征空间的“软”分类,一定程度上克服了分类 偏差导致的谱转换误差加大,并提高了谱转换方法的鲁棒性;另一方面它利用概 率加权可组合成远大于类别数的规则,从而获取更好的转换效果。 本文对映射方法中常用的最小均方误差准则做了改进,提出了- 牙e o d n 权的最 小均方误差训练准则,通过引入加权矩阵,实现了对话者个性贡献大的特征矢量 集和l 特征参数分量的更精确的转换,进而提高了转换后的声道谱的目标说话人倾 向h - 。 映射方法的获取过程实质就是一个统计学习的过程,它是在一定的训练集上 总结出来的,故它对训练数据集有着较强的依赖性,本文对转换规则和训练集大 小 i d 关系也展- j :相应的实验研究。 a b s t r a c t v o i c ec o n v e r s i o nf r o mas o u r c es p e a k e rt oat a r g e ts p e a k e ra i m st om o d i f yt h e c h a r a c t e r i s t i c so fs p e e c hb yag i v e ns o u r c es p e a k e r ,s ot h a ti ts o u n d sa si fi tw a s u t t e r e db ys o m ed e s i g n a t e dt a r g e ts p e a k e r ,w h i l ep r e s e r v i n gt h ec o n t e x to f s p e e c h e s t h ep e r s o n a l i t yo fs p e e c hs i g n a l si s r e p r e s e n t e db ye x c i t a t i o na n ds p e c t r u m b a s e d0 1 1t h es p e e c hl i n e a rp r e d i c t i o na n a l y s i s s y n t h e s i sm o d e l ,t h et h e s i sf o c u s e so n t h eo b t a i n i n go fc o n v e r s i o nr u l e so ft e x t i n d e p e n d e n ts p e c t r a lc h a r a c t e r i s t i c sf r o ma s o u r c es p e a k e rt oat a r g e ts p e a k e r a n di nt h ei m p l e m e n t a t i o no f c o n v e r s i o na l g o r i t h m , t h ep a r t i a lc o n v e r s i o no fe x c i t a t i o ni n f o r m a t i o ni sa l s ot a k e ni n t oa c c o u n t t oa t t a i nt e x t i n d e p e n d e n tv o i c ec o n v e r s i o na n dm a k et h er u l e sr e a l i z a b l ea n d g e n e r a l i z a b l e ,t h i sp a p e ra d o p t st h ec l a s s i f i c a t i o no ff e a t u r es p a c ea n do b t a i n st h e m a p p i n gr u l e st h r o u g he a c hf e a t u r es u b s p a c e s p e c i f i c a l l yt h ec o d em a p p i n gm e t h o d a n dt h ec l a s s i f i e dl i n e a rt r a n s f o r m a t i o nm e t h o da r ei n t r o d u c e dw i t hd e e pr e s e a r c hi n t o t h ei n f l u e n c eo fs o m ek e ys t e p s ,s u c ha st h en u m b e ro fc l a s s i f i c a t i o na n dt h ec h o i c eo f c l a s s i f i c a t i o na l g o r i t h m t oo v e r c o m et h ei n a c c u r a t e n e s so fc l a s s i f i c a t i o na n da c q u i r ea sm a n yr u l e sa s p o s s i b l e i nt h ed e t e r m i n a t ec l a s s i f i c a t i o nn u m b e rt od e s c r i b et h em a p p i n gr e l a t i o n m o r ea c c u r a t e l y ,ac l a s s i f i e dl i n e a r l yw e i g h t e dt r a n s f o r m a t i o nm e t h o db a s e dg m mi s i n t r o d u c e d t h r o u g hm o d e l i n gt h e s t a t i s t i c a lc h a r a c t e r i s t i c so ff e a t u r e s p a c e ,t h e i m p r o v e dm e t h o dr e a l i z e st h es o f tc l a s s i f i c a t i o n ,w h i c hd e c l i n e st h ec l a s s i f i c a t i o n e r r o ra n di n c r e a s e st h er o b u s t n e s s ,a n do nt h eo t h e rh a n di tc a na c q u i r em o r em a p p i n g r u l e st h a nt h ec l a s s i f i c a t i o nn u m b e ru s i n gp r o b a b i l i t yw e i g h t i nt h i sp a p e r ,w ep r o p o s e dar e v i s e dl m s e ( l e a s tm e a ns q u a r e de r r o r ) c r i t e r i o n i n s t e a do fc o n v e r s i o n a ll m s ec r i t e r i o n u s i n gw e i g h t e dm a t r i x ,t h ew e i g h t e dl m s e e l i t e r i o ne m p h a s i z e so nt h ea c c u r a t ec o n v e r s i o no fs o m ed i m e n s i o n so ft h ef e a t u r e v e c t o rt h a tc o n t r i b u t e sg r e a t l yt os p e a k e ri d e n t i t y t h ea c q u i r e m e n to fm a p p i n gr u l e si sas t a t i s t i c a ll e a r n i n gp r o c e s sb a s e do nt h e r e s t r i c t e dt r a i n i n gd a t a ,a n dt h e ni t d e p e n d so nt h et r a i n i n gd a t ao b v i o u s l y s ot h e e x p e r i m e n t a lr e s e a r c hi n t or e l a t i o n sb e t w e e nm a p p i n gr u l e sa n dt h es i z eo ft r a i n i n g d a t aa r ea 1s oc a r e ie do t a t 中网利学技术人学f 叽i 。学位论义 第一章绪论 第一章绪论 1 1 源一目标说话人声音转换研究的背景和概况 语音在闩常通讯中占有非常重要的地位,它携带着大量有用信息,一般认为 它至少包含语义信启、说话环境信息和说话人特征信息。其中,说话人特征信息 描述了与说话人身份相关的声音方面特征,而与具体内容信息和说话环境无关。 因此凭借晤音信号中的说话人的个性特征,我们仅从电话、网络通讯、广播等中 传播的声音就可辨别和确认出说话人的具体身份。语音信号与信息处理研究领域 中的自动说话人识别就是利用计算机从说话人的语音进行说话人身份识别的技 术。 声音转换( v o i c ec o n v e r s i o n ) 是一种改变说话人声音特征的技术,将某个 说话人的语音模式转换成与其特性不同的另一种语音模式,而保持语音中原有的 具体内容信息( 语义信息) 和说话时的环境信息不变,例如男女声的转换。 源一目标说话人声音转换则是指将源说话人的语音模式转换成某个指定的 特定目标说话人的语音模式,即保持源说话人原有的语音信息内容不变,使转换 后的语音具有目标说话人的声音特点1 2j 。 声音转换技术有着广泛的应用前景,首先它是对语音合成技术的丰富和延 拓。随着计算机技术的飞速发展,人机交互变得越来越重要,成为其中一个重要 发展方向。语音由于其便捷的特性,而倍受瞩目。人机语音交互包括语音识别和 语音合成两部分。日,j 者是让计算机听懂人说话,涉及到模式识别方面的知识;后 者是让计算机说话,这主要是由文语合成系统( t t s ) 来完成。传统的t t s 系统 中合成语音都是单一话者的语音,这就使得合成语音显得单调,缺乏个性,要想 得到多样的发音则必须建立多套语音数据库。声音转换技术则较容易实现多种音 色的个性化发音,使传统的耗时庞大的语音数据库的采集得以简化为仅需采集一 个说话人( 源) 的语音数据库,对于其他音色的声音,只需少量的训练语音,便 可从源说话人的语音库通过声音转换技术获得,节约了大量工作量与存储空间, 且使系统变得更加灵活【3j 。还有,未来的系统会在人们接收e m a i l 或手机短信息 时自动将信件内容用模仿发信人的声音读出来。扩展自然对话系统功能是这种应 用的种延伸。特别是在娱乐和教育领域,产生多说话人特征的语音显示出很高 的需求性,如戏剧、广播剧和电影里的角色配音中【4 j ,声音转换技术的运用,可 以将原演员的声音特征加入到本地化场景配音中,使之更具原汁原味。 声音转换技术的优越性也将反映在超低带宽的语音编码领域。当语音编码系 统i 殳计的传输速率为2 4 k b s 或更低时,在传输过程中将不再保留说话人的语音 c p 陶科学技术人学坝i j 学位论义第一章绪论 特征pj ,而只传输与说话内容相关的信号,使传输带宽得以高效利用。声音转换 技术则有可能在接收方重现解码语音,使其与传送人的说话人特征相匹配。 声音转换的另个主要用途是用于说话人辨认技术。声音调整是多方会话翻 译系统的一个重要技术内容k0 | 。系统首先识别一方说话人的每一句话,然后用 对方( 另方) 语言翻译出来,再用本方说话人声音特征合成新的声音,这样使 持彳i 同语言的双方( 多方) 交流更为方便。另外,声音转换技术还可用在安全系 统中的防问控制口j 、语- a 障碍者的辅助发音系统【2 1 、语音识别过程中的预处理等 方面1 8 1 。 从理论技术研究的角度来看,源一目标说话人声音转换技术涉及信号处理、 人工智能、模式识别、声学等学科领域,是一个典型的交叉学科的产物,它和语 音识别、编码合成有着非常密切的关系,例如语音特征提取、基于概率统计的说 话人语音建模、说话人的自适应方法等研究成果可以直接运用于源一目标说话人 声音转换技术上,而随着声音转换技术研究的深入,又势必将会对语音识别、编 码合成等研究的发展产生促进作用。九十年代以来,由于统计模型是对说话人的 大量特征参数进行统计后找出规律并建立相关模型,因而鲁棒性很好,在识别、 合成等方面表现出了优异的特性,是当今语音模型的最为流行、最获青睐的建模 方法。目的已有的研究结果表明,基于小样本的统计理论、核方法也同样是声音 转换技术中的理论基础与未来发展方向。 1 2 国内外研究现状 语音转换技术是近年来基于语音信号和信息处理研究领域的迅猛发展和大 量研究成果的基础上发展起来的一个新兴、具有巨大潜力的研究方向。对该技术 而言,最重要的就是要改变源说话人的特性使其与日标说话人接近。说话人声音 转换的研究最早可以追溯到七十年代,但是它的研究工作近十几年才引起人们的 注意。很多研究者在这方面展丌了比较深入的分析,到日前为比,大多数 兑话人 声音转换的研究都将重点放在对语音短时谱和韵律参数的修改上面。 1 9 7 1 年,a t a l 和h a n a u e r 1 0 】研究了用l p c 声码器改变语音特性的可行性。在 2 0 世纪8 0 年代初期,s s e n e f 通过估计频谱包络的方法,将语音信号解卷积, 得到语音信号的激励,这一方法避免了提取基频的过程而可以实现对语音波形的 基频和频谱包络进行操作,一定程度上实现了说话人声音转换。 在l9 8 4 年和19 9 1 年,h k u w a b a r a 1 2 1 3j 采用分析一合成方法来进行说话人 声音转换,研究影响语音个人特性和语音质量的声学参数,他通过线性预测解卷 积算法将语音信号分解为嗓音源信号和声道传输函数,通过求解声道传输函数的 零点得到共振峰的位置信息,改变共振峰的位置和宽度,采用线性预测的残差信 中闭利学坎术人学顺f j 学位论文 第一章绪论 号作为激励来合成语音。 在1 9 8 9 年,c h i l d e r s 【1 4 1 j 等人采用不同的激励源,对语音信号作线性频谱规 整,检验了异性声音的转换效果。 i ,j 期的这些研究工作,主要是研究如何提取语音特征的参数,并对这些参数 进行独立的转换,从而构造出新的合成语音。1 9 8 8 年,a b e 等人【1 6 】提出了第一 个比较成熟的说话人声音转换系统,该系统采用了矢量量化技术和码本映射的方 法,用码本来表示不同说话人的频谱特征,然后用说话人的语音库进行训练,在 不同的说话人之i 自j 建立谱包络、能最和基频之间的映射关系,利用码本映射对语 音进行参数转换,最后用l p c 合成器合成得到转换后语音。其后n a k a m u r a 等人 17 运用模糊v e 方法对一般v e 做了改进,提高了转换性能,而1 w a h a s h i 等人【1 8 1 提出用频谱插值法增强了码本映射技术的鲁棒性。 1 9 9 1 年,s a v i c 1 9 1 提出了用多层神经网络代替了码本映射,来实现声音转换。 1 9 9 2 年v a l b r e t 等人使用基音同步叠加法( p s o l a ) 调整激励信号的韵律特征 来改善语音频谱动态频率规整( d f w ) 变换后的声音转换性能。 1 9 9 6 年,r i n s c h e i d 2 0 1 使用时变滤波器和拓扑特征映射实现了声音的改变。 n a r e n d r a n a t h 2 1j 和w a t a n a b e 2 2 j 分别于1 9 9 5 年和2 0 0 2 年用b p 和r b f 等人工神 经网络方法实现了语音共振峰特性的变换。 1 9 9 5 年,m i z u n o 等1 3 4j 用分段线性的转换方法较精确的实现了共振峰特性和 频普倾斜特性的转换。 1 9 9 7 年,a r s l a n 等人。提出了一种基于音素码本映射思想的转换算法,在 统的系统框架内实现了线谱频( l s f ) 、基频、能量和时长等韵律的变换。t u r k 在此基础上提出了基于子带频谱的改进算法。 19 9 9 年,a r s l a n 提出了s t a s c ( s p e a k e rt r a n s f o r m a t i o na l g o r i t h mu s i n g s e g m e n t a lc o d e b o o k s ) 方法,相对于a b e 等人的方法,这种方法采用了码本加 权叠加的方法来得到目标说话人的特征参数,因此得到了更好的效果。但由于采 用码本加权叠加,最后得到的特征参数过于平滑,导致了转换后得到语音有“闷” 的感觉。 近年来,基于语音特征的统计分布来实现声音转换的研究受到了更多重视。 g m m 技术采用高斯混合模型( g m m ) 描述对准源一目标特征数据的联合概率分布, | = i 二i 给定源特征预测目标语音特征就变成了求一个线性回归函数的问题一1 。由 j 二g m m 频谱转换后的语音频谱过于平滑,因此t o d a 提出一种动态频率归整方法 来改善晤音质量。d u x a n s 和b o n a f o n t e 等。分别用部分或全部非对准数据找到 人: 语音声学类的对应语音帧,从而降低了g m m 技术对训练数据对准性的要求。 | _ i i j d u x a n s 提出的隐码尔科夫模型( h m m ) 方法是对g m m 方法的延伸。 中困利学投术人:学坝j 学位论义第一章绪论 不少学者提出基于h m m 的插值或自适应的方法来实现声音的转换 2 9 - 3 2j 。 s f l n d e r m a n n l 3 3 1 i 也采用声道长度归一化( v t l n ) 技术对语音频谱作了规整。 很多学者) 1 :始在各种分析合成模型下对语音的谱特性和韵律特性综合进行 考虑,以求更实现更精确的转变。像l a r o c h e l 3 5 1 应用t d p s o l a 技术在不破坏转 换后语音的共振峰结构情况下,实现了基频和时长的转变。k u w a b a r a l 3 6 l 详细比较 了语音时域模型、s i n u s o i d a l 模型和s t r a i g h t 模型下的转换性能的优劣。 国内这项语音技术的研究工作起步较晚。中科院自动化所【37 ,州j 、声学所、 微软亚洲研究院【9 】、i b m 的c r l 以及清华大学开始展开了这项研究。 所有这些研究者的工作极大地推动了声音转换技术的发展。 1 3 本文的主要研究工作 声音的产生机理表明,语音信号携带的信息可分离为声源信息和声道信息, 由于它们的相对独立性,目自,j - 声音转换研究中是分别为它们建立映射规则。其中, 声道信息主要由声道转移函数的谱特性反映,显然,精确得实现源一目标说话人 辔特性的转换,是得到高质量的转换重建语音的关键。因此,本文在实现源说话 人到目标晚话人的声音转换时,重点研究源一目标说话人声道谱特性的与文本无 关的映射( 转换) 规则,通过对现有的谱特性转换技术的比较、分析和改进,使 得谱转换质量进一步提高。另外,在具体实现声音转换时,也考虑了声源信息的 部分转换。 各章节的内容安排如下: 第二章系统地阐述了源一目标说话人声音转换的基本原理。在介绍语音信号 的产生机理和模型的基础上,引入基于线性预测编码( l p c ) 的语音分析合成系 统,它是本文进行特征参数提取、实现声道谱映射和合成转换后的语音所依赖的 分析一合成系统。针对声音转换从训练到测试整个过程中涉及到的关键技术和步 骤,均做了详细的说明。本章结尾同时给出了后续章节中,在探讨声道谱映射规 则时的实验数据库集。 第三章主要探讨了基于矢量量化的码本映射方法。矢量量化是将特征参数空 削中的参数离散化的一种压缩方法,最初用于语音编码。本章在简单介绍矢量量 化的基本原理后,着重讨论它运用于声音转换时,目标说话人映射码本的获取问 题。同时,倒绕矢量量化中影响声道谱转换精度的若干因素( 初始聚类中心的选 取、码本大小的选择等) ,也做了细致的讨论和实验论证,并给出了一般性的结 中围科:攀技术人学顺i 。学位论义第一章绪论 第四章针对矢量量化造成的转换谱的不连续性,引入了分类线性转换的思 想。这科,分类线性映射方法,又称线性多变量回归,采用一定的分类准则将特征 空间划分为若= f 个互不重叠的子空问,进而对每个子空间求取一个从源一目标说 晒人特征参数集的转换矩阵,定程度上减少了由于码本离散带来的误差,提高 了转换精度。 在该映射方法中,分类算法的选取是其中的一个关键,它直接影响到分类效 果和谱转换质量。为此,本章对两种分类法( v q 分类法和基于g m m 后验概率 判断的分类法) 、不同距离测度( 欧式和马式) 的选择下的谱转换精度作了对比 实验,同时也指出该方法的固有缺陷:分类的误差将造成谱转换精度的下降。 第五章是前一章的直接推广,引出了各子类加权的线性映射方法。它首先对 特征参数空间进行g m m 建模,而待转换的特征参数属于各混合度( 子空间) 的 概率决定了各子类的权重,这种方法由于是对特征空间的“软”分类,故而减少 由于分类不准带来的误差,提高了转换算法的鲁棒性。 通常,映射方法( 转换矩阵) 总是试图将源话者特征空间的特征参数尽可能 关联到目标话者特征空| 、白j 中相对应的那些特征参数,由于语音信号的易变性和一 些人为因素,找到完全对应的映射规则是不可能的。因此,现实的做法总是在某 种最优准则下寻找映射规则的。常见的就是最小均方误差准则( l m s e ) ,在使 得转换后的源话者特征参数到相对应的目标话者特征参数的均方误差最小时,求 耳义转换矩阵。显然,该准则一方面没有考虑到不同的源一目标特征参数对组合的 初始谱距离的不同,另一方面也没考虑谱特征参数的各维参数对话者特性的贡献 差异。有鉴于此,本章提出了一种新的加权最小均方误差准则,通过对不同的待 转换源一目标语音参数对的帧蒯和帧内各维的加权,来解决上述两个问题。实验 汪明,较之l m s e ,这种新的最优准则能较大地提高谱转换精度。 无论伺种谱转换算法,源话者与目标话者的训练语音数据集的大小和丰富程 度对谱转换函数的泛化性能的影响总是很大的。因此,本章最后实验定性得讨论 了洲练集大小列。普转换精度的影h j 匈。 第六章重点讨论了作为i 。p c 语音合成系统不可缺少的残差激励信号的产生 和基音以及基音轨迹的转换问题。为了衡量转换后语音的听觉效果,仅有声道谱 上的转换是不够的,必须有相应的残差激励信号,同时为了提高转换效果,也对 语音的部分韵律特性( 基音和基音轨迹) 做了相应的修改。 第- 市绪论 类似于声道谱参数,通过对扩展基音矢量进行高斯混合建模,我们可实现基 黹和基音轨迹较精确的转换,并在此基础上提出了一种基于基音轨迹的残差码本 预测方法。最后,利用上面的曾转换方法和残差预测法,对转化后的合成语音进 行了主观评测,并对各方法的优劣及其对i 2 k 舌a 特性的贡献做了归纳。 第七章是列本文的总结与展望。 中因科学技术人学坝j 学位论义 第二章源一目标说话人声音转换的皋奉原理 第二章源一目标说话人声音转换的基本原理 源一目标说话人声音转换的目标就是要在两个说话人之间找到某种映射规 则,从而实现源说话人到目标说话人的声音特性的转换。显然,直接在语音信号 的时域波形上做转换是不可行的,因为信号的时域特征并不能很好的反映出话者 个性,同时也不便对信号进行时域建模,压缩数据。故而需要在变换域中寻找映 射规则,频率域便是其中较好的选择,因为人耳对语音的频率范围和分布是较敏 感的。声音的产生机理表明,语音信号可看成是激励源信号通过一个线性时变系 统产生的输出,这个线性时变系统就是声道。这样,我们在说话时的发音包含了 激励源信息和声道信息。就算是对于同一个说话人,由于这两者的相对独立性, 它们有着不同的分布规律,应对它们分别建立映射规则。本章从语音信号的产生 机理入手,介绍了语音信号产生的离散时域模型,在此基础上,通过线性预测技 术实现声道和激励源的解卷分离,然后详细阐述了基于该分析合成模型的声音 转换系统的流程框架,最后对本文所用到的语音数据库进行了简单的描述。 2 1 语音信号的产生机理 图21 人的发声器官州意幽 素使得声道的传输函数发生相应的变化,从而产生 了不同的音素的发音。 语音的发声过程可以用图2 2 所示的语音信号产生模型来表示。该模型包括 :三个部分:激励源、声道模型和辐射模型【42 1 。激励源又分为浊音和清音两部分, 由浊音清音丌关所处的位置来决定激励源的种类,从而产生浊音或清音。对于 浊音浯音,激励信号是一个周期为n 。= f s r 的冲激序列,其中f s 是语音信号 的采样频率,f ,是语音信号的基音频率。该冲激序列通过一个声门脉冲模型滤 波器g ( z ) 后,可具有声门气流的实际波形。可令g ( z ) = 1 ( 1 一g l z 一) ( 1 一g2 z 一) 。 中闭科学拔术人学坝i : - 7 - 位论义 第_ 二市源一目标说话人声街转换的皋奉原理 其中g 。、g ! 很接近于l ,这样形成的浊语音激励信号的频谱很接近于声门脉冲 的频谱。对丁清音语音,激励信号由一个随机噪声发生器产生,且噪声信号服从 均值为o ,均方差为l 的g a u s s 分布,自相关函数是一个单位冲激函数。 声门 声门 脉冲 醚冲 发生 模型 器 ( ;f z ) 声道参数 幽2 2 语音信号产生的离散时域模型 语脊波形 信号s ( n ) 实际声道作为变截面无损声管研究,可看成p 段短声管的串联,而每段声管 的截面积是不变的,则其传输函数可用一个全极点函数来表示,即: 矿( z ) :百j ( 2 1 ) “i - z i = o 其中a o = 1 ,a 。为实数; 在大多数情况f 这个模型是与实际情况吻合的,但对于鼻音、擦音而言,其声道 传输函数中包含有限零点,这可用适当提高阶数p 来使全极点模型逼近含零点的 模型。 辐刺模型r ( z ) 可表示为r ( z ) = ( 1 一陀一) ,l ,具体与嘴形有关。 角k 喊 一 第( k + 1 ) 啦 卜一 第( k + 2 ) 0 1 【 啦侈畎长 k h 刊 幽2 3 语音短时分析的分帧处理示意 对于不同的说话人,他们 的激励源和声道传输函数都不 尽相同。因此说话人的信息是 以某种方式包含在语音信号中 的,对语音信号提取特征参数 的目的就是要将这种信息更好 的反映,从而利于后端处理。 在发音过程中,激励源和 声道都在缓慢地改变着,这就 第二章源一目标说话人声音转换的撼= 4 ,= 原理 使得语音信号1 i 具备平稳信号特征,但由于这个变化过程是缓慢而渐变的,可认 为是短时平稳性。所谓短时平稳,指的是在比较短的一段时间内,可近似认为是 一个- 1 z 稳信号,因此,对语音信号进行分析和特征参数的提取一般是分帧进行的, f 呋长一般为1 0 3 0 m s ,帧与帧之问也可有交迭,视具体情况而异,帧长和帧移 的示例如图2 3 。 2 2 说话人特征与语音模型及其参数表示 声音转换技术是通过寻求目标说话人的语音模式与源说话人语音模式之间 的映射关系和转换方法,实现将源说话人的声音转换成目标说话人的声音,在转 换过程中仅改变与说话人个性特征相关的声音特征。特征提取的任务就是把冗余 度高、难处理、特征不明显的原始数据转换为冗余度低、易于后端处理和更能反 映内在规律的特征参数。对于语音信号,直接选取幅度谱采样点来代表话者个性 是不现实的,这主要是因为其数据量大,并且由于语音信号易变性,它不能反映 出语音信号中不变的说话人特征信息。这样,我们需要综合考虑,选取能代表幅 度谱特性的特征参数( 或矢量) 。这种特征参数必须满足:能代表短时幅度谱特 性;便于提取和能较好地反映话者特征;方便于接下来对其进行的参数建模。因 此如何选择与说话人个性相关的声音特征及其参数提取的语音模型是声音转换 研究的的重要关键之一。 说话人特征是指与说话人身份相关的声音方面特征,而与具体内容信息无 关。一般地,与说话人个性相关的声音特征主要表现在下述三个层面【1 3 9 4o j : ( 1 ) 音段信息:即短时声学特征,如短时频谱和倒谱、共振峰位置和带宽、 基频和能量,与音质相关,依赖于发音器官条件和情感状况。 ( 2 ) 超音段信息:即长时声学特征,如平均基频、基频轨迹、音素时长变 化、浯调变化和句中重读等,与说话x l 格和韵律相关,受到社会因素和心理状态 的影响。 ( 3 ) 语言学信息:指说话时潜词用语、方言和口音等,它是与说话内容相 关的高层次信息,在当前声音转换技术研究范围之外。 音段和超音段特征在说话人识别中具有很重要的感知性意义。当某人说话 i :f j ,超音段特征比较容易改变,说话人可以随意加快放慢语速、提高降低音量以 及改变语气的轻重等。音段特征与语音产生器官的生理情况密切相关,因此可认 为几乎不变。因此,当前声音转换系统主要集中在短时频谱包络参数的变换上, 同时调整源说话人的基频、能量和语速从均值上匹配目标说话人的这些参数。 语音模型是语音信号的数学建模。由语音信号的产生机理可知,激励源+ 滤 波器模型较好地表示了短时语音频潜,这种模型通过把频谱包络拟合到短时语音 第二章源目标说话人声音转换的璀奉原理 幅度潜上,:睁卢道近似为一个缓变滤波器。这样,语音信号可看成声源信号去激 励个时变线性系统得到的输出响应,其中发音类型不同( 清音或浊音) ,声源 信号绸成就不同,而时变线性系统则对应于发音时声道的物理结构。由于先天的 生理结构和i 后天的发音习惯,不同的人在发音( 即使发相同的音) 时,声道的长 短了收缩的分伽是不同的;物理结构上的不同对应于信号分析上,就是声道转移 j 函数的频率响应会因人而异。 值得注意的是,特征参数的提取总是和所选用的语音模型相匹配的。一定的 语音分析合成模型决定了可选用的代表说话人个性的特征参数的种类。 2 3 基于l p c 的语音分析合成模型 2 3 1 线性预测系数及线频谱参数的提取 由于人的发声器官的惯性,语音信号可看成短时平稳随机信号。语音信号的 这种准平稳特性,决定任何语音信号数字处理算法和技术都建立在“短时”基础 :,为了实现各种具体应用目的,要进行前端处理,这包括:预滤波、采样、a d 变换、l f 页d h 重、分帧等。 经过以上预处理后的语音信号就被切成分帧存储的离散数字信号,有两种方 法可实现声源信息和声道信息的离丌,一种是非参数解卷算法,像:同态信号处 理法:另一种是参数解卷算法,用的最广的就是线性预测( l p ) 分析法。 线性预测分析最早被用在语音编码中,在上世纪7 0 年代被工t a k u r a 用来 提耳义语音特征参数,在语音识别中获得了令人意外的效果。线性预测分析对语音 的产生过程有一个基本的假设,即认为语音是由一个激励信号( 声门波形) 通过 一个滤波器( 滤波器的响应函数即声道的响应函数) 而得到的【4 1 4 3 1 。这个假设我 们已在2 1 节通过图2 2 进行了简要介绍。因而如果我们通过对这个滤波器做一 些假设,得到其表达形式,便得到了对人的声道特征的一种参数化的描述。为了 得到高效的求解算法,我们假设这个滤波器具有全极点的频率响应,并且进一步 假设激励信号是一个周期脉冲序列或者一个高斯白噪声序列。这些假设对于语音 信号而言是非常合理的,因此线性预测分析在语音信号的处理中获得了非常广泛 h 成功的应用。 没s ( n ) 是一个语音信号序列,并假设时刻胛之前p 个时刻语音波形的值已 知,则可用i 订p 个时刻的已知值的线性组合来预测门时刻的值,如果把预测值记 为j ( 门) ,则;( 1 ) 可以表示为: , s ( 门) = 一 “s ( n i ) ( 2 2 ) 中科 - 1 t ”- 技术人掌f i j ! i 学位论义 笫二章源一目标说话人声音转换的捧本原理 其中各系数a 皆为实数,称为预测系数,p 称为预测阶数,在语音信号处理 领域中,一股选在8 1 2 之间。预测值与真值之间的误差称为预测误差,用c ( n ) 表示: 一 占( 以) = 5 ( 门) 一j ( 甩) = s ( 胛) + 口,s ( 以一f ) ( 2 3 ) j = l 在最小均方误差准则下,可以通过快速算法获得一组最优的系数 忙,i = l ,2 ,p ,此时由娩,汪l ,2 ,p 确定的全极点滤波器的响应函数便是 声道的响应函数的近似值。图2 4 是某帧语音信号的短时频谱图和不同阶数l p c 分析得到的谱包络图( p = 1 0 、1 2 、1 5 、2 0 ) 。 ( a ) 预! ;| j 1 0 阶数p = 1 0 ( c ) 预测阶数p = 1 5 ( b ) 预测阶数p = 1 2 ( d ) 预测阶数p = 2 0 图2 4 不同预测阶数i 、l p c 对短时频谱的拟合程度比较图 ( 实线代表短时幅度谱,虚线代表l p c 分析得到的谱包络) 通过上面l p c 分析法得到的声道模型的参数便是l p c 系数,这样用很少的参 数就能够有效而又f 确地表现声道短时频谱的性质,而且该技术有高效的递推实 现算法。但由于l p c 系数之l 白j 有着很大的相关性,转换中各维误差的积累,会造 成l 二i = t 转换后f l 勺l p c 系数重建的声道滤波器不稳定,故不便于直接用于后面的参数 建模、映射函数的估计。目前较常用的是它的变形,如:线频率( l s f ) 、l p c 中m 科学拨术人学f i ! ;! i j 学位沦义第二章源目标说衍人声音转换的堪奉原理 倒谱系数( l p c c ) 以及通过频谱分析得到的共振峰参数。 线频醋i 。s f 参数集 u , ( j = l ,p ) ,也叫线谱对参数( l s p ) ,是与l p c 参数完全等价的声道全极点滤波器的另一种表示方式,它是在频域里描述声道全 极点滤波器,1 1 i :它有着更好的内插特性和量化特征3 ,4 2 , 4 4 1 。其中主要优点是: ( 1 )在求取l s f 参数及其之后的转换中,如果保持l s f 参数的有序有界 性,就可保证声道全极点滤波器是稳定的。 ( 2 ) 线谱对参数和线性预测系数是一一对应的关系,二者之间可以直接互 相转换。 ( 3 ) l s f 参数具有相对独立的性质,l s f 参数中某维的误差仅仅影响全极 ,r 氯模型中临近这个参数对应频率处的语音谱,而在其他l s f 频率上变化很小, 这点有利于映剁+ 函数的设计。 ( 4 ) l s f 参数能够很好地反映声道幅度谱的特点,在幅度大的地方分布较 密,反之较疏。这样就相当于反映出了幅度谱中的共振峰特性。而语音幅度谱中 自e j - :v 4 振峰分伟对说话人特征贡献很大。 由于线频谱参数是频域参数,所以它和语音信号谱包络的峰有更紧密的联 系,i 。s f 的分析基础仍是全极点模型。我们知道 45 1 ,第i 阶线性预测误差滤波器 传递函数的递推关系为 爿1 ( z ) = 彳一”( z ) 一k i z 一1 彳一( z 一1 ) ( 2 4 ) 分别将k 。l = 一1 和k 川= 1 时的彳肘i ( z ) 用p ( z ) 和q ( z ) 表示,可得: p ( z ) = a ( z ) + z 一”+ 1 a ( z 一) ,o 匕、 o ( z ) = a ( z ) 一z 1 ”a ( z 叫) 这两个式子均为p + l 阶多项式,由上述二式可直接得出 1 a ( z ) = p ( z ) + q ( z ) ( 2 6 ) z 它和合成器h ( z ) 之问满足关系a ( z ) = 1 h ( z ) 。当a ( z ) 的零点在z 平面的单位 圆内部时,p ( z ) 和q ( z ) 的零点都在单位圆上,并且p ( z ) 和q ( z ) 的零点沿着单 位圆随的增加交替出现。设尸( z ) 的零点为e m ,o ( z ) 的零点为e 弼,那么p ( z ) 和o ( g ) 可以写成下列因式分解形式 和9 按1 f 式关系排列 p ( z ) = ( 1 + z _ 1 ) 兀( 1 2 c o s 0 2 ,z 一+ z - 2 ) 仁i ( 2 7 ) p ,2 q ( z ) = ( 1 一z - i ) 兀( 1 2 c o s o , z 一+ z 。2 ) 第二章源一目标说话人声音转换的皋今原型 0 q 岛 6 0 肌 巳,2 7 ( 2 8 ) 蚓式分解中的础,和9 成对出现,反映了谱的特性,因此称为“线谱对”,它们就 是线谱对分析要求解的系数。可以证明,p ( z ) 和o ( z ) 的零点互相分离,是保证 合成滤波器h ( z ) :l a ( z ) 稳定的充分必要条件。 求解线谱对参数即求p ( z ) 和o ( z ) 的关于z 的根,也就是z 一有关的零点。当 a ( z ) 的系数( 线性预测系数 臼, ) 求出后,可以采用下面的代数方程求根的方 式求出p ( z ) 和o ( z ) 的零点。因为 n7 7 一i 兀( 1 - 2 c o sc o ,z 一+ z - 2 ) = ( 2 z 。1 ) 兀( 竿哆,) ( 2 9 ) 将z = 代到至;得到 z + z “ = c o sc o = x 2 ( 2 1 0 ) 可以得到p ( z ) ( 1 + z 一) = 0 和o ( z ) l o z 一) = 0 的关于x 的一对p 2 次代数方程 组。对此可以用牛顿迭代法求解。 图2 5 ( a ) 给出了一帧语音信号在频率域上的l p c 谱包络与1 2 阶l s f 参数对 应示意图,实线表示的是对该帧语音信号经过1 2 阶l p c 分析得到的声道传递函 数的幅度谱( 即该帧信号的短时频谱包络) ,虚线表示的是与l p c 系数对应的1 2 个l s f 参数在频率域上的分布位置。 l| i l ji ;i i 、ii k 、in i 、。j川| ff1 1 | i 7 il 、| 卜、 ,1 l 。1i l i 州 l i 、i j + i i i、i,ji ” 卜一,7ii ,、i 一f 7 j l l 、 1 i i1:、 一 : u | 。j u 。i f d 矗直。 !3 ”3 圆捐牵w ( a ) 频率域( b ) 巴克域 幽2 5 某帧语音信q ( a ) 频率域上,( b ) 巴克域上 的l p c 谱包络利l s f 关联图 5 0 5 0 5 0 耋6loh磐茸謦 j q f ? 学技术人学f 川。学位论义 第二帝源目标说活人声鹤:转换的姑奉原理 2 3 2 基于听觉感- 矢n d n 权的特征参数表示 由于人类听觉系统具有非线性的频率感知特性,即听觉系统的感知频率并不 线。i _ 4 - g 与物理频率成f 比,而是在一定范围内呈对数关系,并且还与声音的强度 及波形有关。进一步的研究发现,噪声的存在会对纯音产生掩蔽。一个纯音可以 被以它为中心频率、并且具有一定频率带宽的连续噪音所掩蔽,若在这一频带内 噪声功率等于垓纯音的功率,则该纯音处于刚能被听到的临界状态,这一带宽称 为关键带宽( c r i t i c a lb a n d ) 。一个关键带宽的单位用巴克( b a r k ) 来表示。在2 0 h z 16 k h z 的范幽内可划分2 4 个b a r k ,如表2 1 所示。从表2 1 知,关键带的分布 在1 k h z 以下近似线性,而在1 k h z 以上近似对数关系,从而证实了人:耳听觉的 非线性频率感知特性旧4 6 1 。 表2 1关键带的划分 8 0 l o o l o o 1 0 0 1 1 0 1 2 0 1 4 0 1 5 0 1 6 0 1 9 0 2 1 0 2 4 0 2 8 0 3 2 0 3 8 0 - 1 5 0 5 5 0 7 0 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Lesson 1 My Task Is to Report the Changes in Education教学设计-2025-2026学年初中英语新世纪版九年级第二学期-新世纪版试用本
- 2025物流服务合同 派遣制范本
- 2025年医疗器械维修工程师岗位招聘考试模拟题及解析
- 任务一 认识吉祥物说课稿-2025-2026学年初中劳动技术浙教版九年级上册-浙教版
- 辽宁省朝阳市2025年-2026年小学六年级数学课后作业(上,下学期)试卷及答案
- 我的课外劳动日记(一)说课稿-2025-2026学年小学劳动人教版一年级下册-人教版
- 2025年养老护理员中级安宁疗护理论模拟题及解析指南
- 2025YY公司行政人员劳动合同
- 2025年华为财务岗位招聘面试深度解析与模拟题集
- 第16课《我的叔叔于勒》说课稿 2025-2026学年统编版语文九年级上册
- 湘科版科学六年级上册全册教案(含反思)
- GB/T 44823-2024绿色矿山评价通则
- 人教版PEP小学六年级英语上册教学计划及教学进度
- 《色彩的对比》教学设计-1色彩的对比-五年级上册美术
- 4.4车体主要伤损形式及检修课件讲解
- 无犯罪证明委托书模板
- 《柔性棚洞防护结构技术规程》
- MOOC 高等数学先修课-西南财经大学 中国大学慕课答案
- 装备资产的动态管理
- 工程造价专业《制图实训》课程标准
- TCACM 1524-2023 中医体重管理临床指南
评论
0/150
提交评论