(信号与信息处理专业论文)语声转换系统的关键技术研究.pdf_第1页
(信号与信息处理专业论文)语声转换系统的关键技术研究.pdf_第2页
(信号与信息处理专业论文)语声转换系统的关键技术研究.pdf_第3页
(信号与信息处理专业论文)语声转换系统的关键技术研究.pdf_第4页
(信号与信息处理专业论文)语声转换系统的关键技术研究.pdf_第5页
已阅读5页,还剩111页未读 继续免费阅读

(信号与信息处理专业论文)语声转换系统的关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学博士研究生学位论文摘要 摘要 在现代语音通信中,说话人的个性特征信息越来越得到了人们的重视,在通 信中发挥着重要的作用,比如人们仅仅通过声音就可以清楚地辨别出对方,可以 说声音是一个人的“语音名片 。语声转换是一种以说话人个性特征为主要研究 对象的新兴的语音技术,它的目标是改变源说话人语音中的个性特征信息,使之 具有目标说话人的个性特征,从而转换后的语音听起来就像是目标说话人的声音 一样,而其中的语义信息保持不变。随着语音产品在现代社会中的日益推广和普 及,语声转换技术也将有着越来越广泛的应用,它的研究与发展也日益受到国内 外学者的广泛关注。一个有效的语声转换系统不仅要具有良好的转换性能,同时 也必须要有较高的语音质量。影响语音说话人个性特征的因素非常复杂,但反映 声道特性的谱包络是其中最为重要的影响因素。在语声转换系统中。谱包络特征 参数的转换过程是系统的核心模块。本文以语声转换中的谱包络特征参数的转换 为主要研究目标,围绕这一目标,做了如下几方面的工作和贡献。 论文首先通过语声转换系统的重大的应用价值和重要的应用实例来阐述本 文研究的出发点,接着简要介绍了当前语声转换的一些主要算法,并对各种算法 进行了分析和比较。为了能够对语声转换技术有一个较为深入的理解,我们还介 绍了语声转换系统的基本原理以及一些相关的语音信号处理背景知识。 提出了一种基于典型相关分析( c c a ) 的谱包络转换算法。c c a 是一种统 计分析方法,它能够很好地描述两个多维向量空间的线性相关信息。在该算法中, 首先利用动态时间规整( d t w ) 方法对由源说话人特征参数和目标说话人特征 参数进行对齐,形成联合特征参数空间,接着使用高斯混合模型( g m m ) 对该 空间进行建模。在g m m 的每个子空间里,采用c c a 来估计源说话人特征参数 与目标说话入特征参数之间的映射关系,从而得到每个子空间内的转换函数,最 后根据源说话人特征参数在各子空间中的后验概率对各个转换函数进行加权求 和,得到整个空间的特征参数转换函数。实验结果表示,该算法的转换效果要好 于基于最小均方误差估计( m m s e ) 的转换算法。 南京邮电大学博士研究生学位论文揍要 c c a 转换算法中的转换函数式是加权求均值的形式,这种对频谱进行加权 求平均的操作会使得语音的共振峰特性弱化,谱包络形状过于平滑。另外,在进 行转换时,是对每帧语音进行处理,没有考虑到帧间的相关信息。这些都会降低 转换后语音的质量,为了减少这些影响,本文采用维特比算法对c c a 转换系统 进行改进。在改进的算法中,用g m m 对目标说话人特征参数进行分类,继而得 到个特征参数的转移概率矩阵,该转移概率矩阵用于表示语音帧间的相关信 息。采用由转移概率和源说话人特征参数的后验概率所构成的函数作为优化目 标,用维特比算法搜索最佳路径时,从而在整体上为待转换语句的每帧语音寻找 最优的子空间转换函数,这样每帧语音就是单一形式的转换函数。 当前的语声转换算法基本上都是建立在对称语音库的情况下,它要求源说话 人和目标说话人录制语句内容相同的语音。但在有些应用场合,并没有这样的语 音库,为了解决这个问题,我们提出了一种基于混合线性变换( m s l t ) 的转换 算法。m s l t 算法沿用了上述线性递归变换形式的转换函数式,在源说话人特征 参数的每个g m m 子空间里,用一组线性变换函数对源特征参数进行转换,然后 再在整个g m m 空间中进行加权求和,就形成了源特征参数到目标特征参数的转 换函数。转换函数中的未知参量在最大似然估计准则下,采用期望最大( e m ) 算法进行求解。最后,利用线性调频z 变换来增强语音频谱的共振峰特性,以此 来降低加权求和对频谱的平滑效果。客观评测和主观听力测试结果都表明, m s l t 算法也能取得与传统算法m m s e 相差不多的转换效果。 关键词:语声转换谱包络转换韵律修改典型相关分析维特比算法混合线性 变换高斯混合模型期望最大算法线性调频z 变换 h 南京邮电大学博士研究生学位论文 a b s t r a c t a b s t r a c t t h es o u n do fap e r s o n sv o i c e ,a l s ok n o w na ss p e a k e ri d e n t i t y , p l a y sa ni m p o r t a n t p a r ti no r a lc o m m u n i c a t i o n i nd a i l yl i f e ,t h ei d e n t i t yo fv o i c e si su s e f u lb e c a u s ei t e n a b l e sp e o p l et od i f f e r e n t i a t eb e t w e e ns p e a k e r s v o i c ec o n v e r s i o ni san e w l y e m e r g i n gs p e e c ht e c h n o l o g yf o rm o d i f y i n ga s o u r c es p e a k e r ss p e e c ht os o u n da si fi t w a ss p o k e nb ys o m ed e s i g n a t e dt a r g e ts p e a k e r w i t hs p e e c hs y s t e m sb e c o m i n gm o r e a n dm o r eu b i q u i t o u s ,v o i c ec o n v e r s i o nh a sm a n ya p p l i c a t i o n si na l ls y s t e m sw h e r e s p e a k e ri d e n t i t y i so fi n t e r e s t i nr e c e n td e c a d e ,v o i c ec o n v e r s i o nh a sr e c e i v e d c o n s i d e r a b l ea t t e n t i o n a ne f f e c t i v ev o i c ec o n v e r s i o ns y s t e ms h o u l dg e n e r a t en a t u r a l , i n t e l l i g i b l es p e e c ht h a ti sc l e a r l y i d e n t i f i a b l ea s s p o k e nb yt h et a r g e ts p e a k e r a l t h o u g hm a n ya s p e c t sc h a r a c t e r i z et h es p e a k e ri d e n t i t yi ns p e e c h ,t h ec o r ep r o c e s si n av o i c ec o n v e r s i o ns y s t e mi st h et r a n s f o r m a t i o no ft h es p e c t r a le n v e l o p eo ft h es o u r c e s p e a k e rt om a t c ht h a to ft h et a r g e ts p e a k e r t h i ss t u d yf o c u s e so nn e wa p p r o a c h e st o r e p r e s e n t i n gt h er e l a t i o n s h i pb e t w e e nt w os e t so fs p e c t r a le n v e l o p e si nt h es e g m e n t a l l e v e l t h i s b e g i n sb y t h em o t i v a t i o n“t l l i ss t u d t h r o u g hnumberlllis p a p e rb e g i n sb yg w m gt h em o t w a t i o no f i ss t u d yt h r o u g han u m b e ro t “m e x a m p l ea p p l i c a t i o n s ,f o l l o w e db yab r i e fd e s c r i p t i o no fc u r r e n tv o i c ec o n v e r s i o n a p p r o a c h e s a n dt h es t r e n g t h sa n dw e a k n e s so fe a c ha p p r o a c ha r ea l s od i s c u s s e d s e e k i n gf o rad e e pu n d e r s t a n d i n go fa l la s p e c t so ft h i st e c h n o l o g y , s o m eb a s i c p r i n c i p l e so fs p e e c hp r o c e s s i n ga n dt h ef u n d a m e n t a l so fv o i c ec o n v e r s i o ni sp r o v i d e d s e q u e n t i a l l y a na l g o r i t h mf o rt r a n s f o r m i n gs p e c t r a le n v e l o p eb a s e do nc a n o n i c a lc o r r e l a t i o n a n a l y s i s ( c c a ) i sp r o p o s e d c c a ,am e t h o di nm u l t i v a r i a t ea n a l y s i s ,i sc o n c e r n e d w i t ht h ea m o u n to fl i n e a rr e l a t i o n s h i pb e t w e e nt w os e t so fv a r i a b l e s i no r d e rt o i n c r e a s et h ep r e c i s i o no ft h ec o n v e r s i o n ,ao a u s s i a nm i x t u r em o d e li se m p l o y e df o r d e s c r i b i n gt h ej o i n tp r o b a b i l i t yd e n s i t yo fs o u r c :ca n dt a r g e tf e a t u r ev e c t o r s c c ai s i l l 南京邮电大学博士研究生学位论文a b s t r a c t p e r f o r m e dt oe s t i m a t et h es p e c t r a lc o n v e r s i o nf u n c t i o nb e t w e e ns o u r c ea n dt a r g e t s p e a k e ri ne a c hs u b s p a c e t h ep a r a m e t e r so ft h ec o n v e r s i o nf u n c t i o na r ec a l c u l a t e d u s i n gu t t e r a n c eo ft h es o u r c ea n dt a r g e ts p e a k e r st h a th a v eb e e nt i m ea l i g n e db yp r i o r a p p l i c a t i o no fad y n a m i ct i m ew a r p i n g ( d t w ) p r o c e d u r e t h ee x p e r i m e n t a lr e s u l t s d e m o n s t r a t et h a tt h e p r o p o s e da l g o r i t h m c a l l s y n t h e s i z es p e e c hw i t hh i g h e r c o n v e r s i o na c c u r a c yf o rs p e a k e ri n d i v i d u a l i t yt h a nt h em m s e - b a s e da l g o r i t h m a l t h o u g ht h ec c a b a s e dm e t h o dw h i c hc o n v e r t ss p e c t r a lp a r a m e t e rf r a m eb y f r a m ei sr e a s o n a b l ye f f e c t i v e ,t h ed e t e r i o r a t i o no fs p e e c hq u a l i t yi sc a u s e db yt w o f a c t o r s o n ei st h a tt h ec o n v e r t e ds p e c t r aa r ee x c e s s i v e l ys m o o t h e db ys t a t i s t i c a l a v e r a g i n go p e r a t i o n t h eo t h e ri st h es p e c t r a ld i s c o n t i n u i t i e sd u et oi n d e p e n d e n t m a p p i n go fs u b s e q u e n tf r a m e s i no r d e rt oa d d r e s st h o s ep r o b l e m s ,a ne n h a n c e d c o n v e r s i o nm e t h o di n c o r p o r a t i n gv i t e r b ia l g o r i t h mi s p r e s e n t e d i nt h em o d i f i e d a p p r o a c h ,t h er e l a t i o nb e t w e e ns u b s e q u e n ts p e c t r a lf e a t u r e so ft h ec o n v e r t e ds p e e c hi s m o d e lb yap r o b a b i l i t yt r a n s i t i o nm a t r i xo ft h et a r g e ts p e a k e rt oa l l e v i a t et h es p e c t r a l d y n a m i cd i s t o r t i o n d u r i n gt h ev i t e r b is e a r c hp r o c e d u r ew h o s eg o a li st of i n dt h e s i n g l eo p t i m u mc o n v e r s i o nf u n c t i o nf o re a c hf r a m ea l o n gt h eb e s ts t a t es e q u e n c e ,w e a l s oc o n s i d e rt h ep o s t e r i o rp r o b a b i l i t i e so fe a c hi n c o m i n gf r a m es p e c t r a lp a r a m e t e ro f t h es o u r c es p e a k e rt h ee x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h ep e r f o r m a n c eo ft h ec c a c o n v e r s i o ns y s t e mc a nb ei m p r o v e db yt h ep r o p o s e dm e t h o di nv i e wo fb o t hs p e e c h q u a l i t ya n dc o n v e r s i o na c c u r a c yf o rs p e a k e ri d e n t i t y m o s tc u r r e n tc o n v e r s i o na l g o r i t h m s ,l i k e 嬲i n d i c a t e da b o v e ,n e e dap a r a l l e ls p e e c h c o r p u sw h i c hc o n t a i n st h es l i m eu t t e r a n c e sf r o mb o t ht h es o u r c ea n dt a r g e ts p e a k e r s b u tt h i sc o r p u si so f t e nd i f f i c u l to ri m p o s s i b l et oc o l l e c ti nm a n yc a s e s a na l g o r i t h m u s i n gm i x t u r e so fl i n e a rt r a n s f o r m a t i o n ( m s - l t ) i sp r o p o s e di nt h i sd i s s e r t a t i o nw h i c h r e l a x e st h i sc o n s t r a i n t i nt h i sa p p r o a c h ,ag m mi su s e dt oc l a s s i f yt h es o u r c es p e e c h s p e c t r a ls p a c e ,a n das e to fl i n e a rt r a n s f o r m a t i o n sw e i g h t e db yp r o b a b i l i t i e sa r c a p p l i e di ne a c hs u b s p a c e t h ep a r a m e t e r so fa l lt h el i n e a rt r a n s f o r m a t i o n sa 糟 e s t i m a t e du s i n gt h ee ma l g o r i t h mu n d e rm a x i m u ml i k e l i h o o df r a m e w o r k f o rt h e s a k eo fo v e r c o m i n gt h eo v e r - s m o o t h l yv a r yo u t p u ts p e c t r u mc a u s e db ya v e r a g i n g i v 南京邮电大学博士研究生学位论文 a b s t r a c t o p e r a t i o n ,f o r m a n te n h a n c e m e n ti sp e r f o r m e da f t e rs p e c t r a lc o n v e r s i o na n db e f o r e s p e e c hs y n t h e s i su s i n gt h ec h i r pz t r a n s f o r m b o t ht h eo b j e c t i v ea n ds u b j e c t i v et e s t s r e v e a lt h a tt h em s l ta l g o r i t h mp e r f o r m sq u i t ef a v o r a b l ya n dc a na c h i e v ec o m p a r a b l e r e s u l t sw i t ht h ec o n v e n t i o n a lm e t h o du n d e rt h ep a r a l l e lt r a i n i n g k e y w o r d s :v o i c ec o n v e 鸭i o n ,s p e c t r a lt r a n s f o r m a t i o n ,p r o s o d ym o d i f i c a t i o n , c a n o n i c a lc o r r e l a t i o na n a l y s i s ,v i t e r b ia l g o r i t h m ,m i x t u r e so fl i n e a rt r a n s f o r m a t i o n , g a u s s i a nm i x t u r em o d e l ,e ma l g o r i t h m ,c h i r pz - t r a n s f o r m a t i o n v 南京邮电大学博士研究生学位论文缩略语 b i h m m s b p c c a c z t d c t d s p d t w e 】m e s t e p f f t f v q g a g m m i d c t ,【) e l b g l p c l p c c l s e l s p m f c c m l e m l p m m s e m o s m s - l t 缩略语 b i - h i d d e nm a r k o vm o d e l s b a c kp r o p a g a t i o n c a n o n i c a lc o r r e l a t i o na n a l y s i s c h i r pz - t r a n s f o r m d i s c r e t ec o s i n et r a n s f o i t n d i g i t a ls i g n a lp r o c e s s i n g d y n a m i ct i m ew a r p i n g e x p e c t a t i o nm a x i m i z a t i o n e x p e c t a t i o ns t e p f a s tf o u r i e rt r a n s f o r m f u z z yv e c t o rq u a n t i z a t i o n g e n e t i ca l g o r i t h m g a u s s i a nm i x t u r em o d e l i n v e r s ed i s c r e t ec o s i n et r a n s f o r m j o i n td e n s i t ye s t i m a t e l i n d e b u z o - g r a y l i n e a rp r e d i c t i o nc o d i n g l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t l e a s ts q u a r ee s t i m a t i o n l i n es p e c t r u mp a i r m e i - f r e q u e n c yc e p s t r u mc o e f f i c i e n t m a x i m u ml i k e l i h o o de s t i m a t e m u l t i - l a y e rp e r c e p t r o n m i n i m u mm e a n s q u a r ee r r o r m e a no p i n i o ns c o r e m i x t u r e so fl i n e a rt m n s f o r m 双隐马尔可夫模型 后向传播 典型相关分析 线性调频z 变换 离散余弦变换 数字信号处理 动态时间规整 期望最大 e 步骤 快速傅立叶变换 模糊矢量量化 遗传算法 高斯混合模型 离散余弦逆变换 联合密度估计 l b g 矢量量化法 线性预测编码 线性预测倒谱系数 最小二乘估算法 线谱对 梅尔频率倒谱系数 最大似然估计 多层感知器 最小均方误差 平均意见分 混合线性变换 南京邮电大学博士研究生学位论文 缩略语 m s t e p n n o l a r b f r m s s t f t s v d t d p s o l a v q v 孔n m a x i m i z a t i o ns t e p n e u r a in e t w o r k o v e r - l a pa d d r a d i a lb a s i sf u n c t i o n r o o tm e a ns q u a r e s h o r tt i m ef o u r i e rt r a n s f o r m s i n g u l a rv a l u ed e c o m p o s i t i o n t i m ed o m a i n p i t c h s y n c h r o n o u so v e r - l a pa d d v e c t o rq u a n t i z a t i o n v o c a lt r a c tl e n g t hn o r m a l i z a t i o n l m 步骤 神经网络 叠接相加 径向基函数 均方根 短时傅立叶变换 奇异值分解 时域基音同步叠接相加 矢量量化 声道长度规一化 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其它人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作过的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:趟日期:趔:! ! 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交 学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保存论文。 本文电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允 许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公 布( 包括刊登) 授权南京邮电大学研究生部办理。 研究生签名:档导师签名; 南京邮电大学博士研究生学位论文第l 章绪论 1 1 引言 第1 章绪论 在动物的漫长进化过程中,逐渐形成了对外部世界的感知功能,其中发声和 听觉感知能力的形成具有里程碑式的意义。动物通过声音信号可以用来吸引异 性、报警和捕猎食物等,还可以通过声音来辨别自己的种群和特定的个体。而人 类作为最高等的动物则更胜一筹,形成了特有的交流和沟通方式语言。 语音是语言的声学表现,是人类交流信息最自然、最有效和最方便的手段, 也是人类赖以进行思维的主要工具。由于语音技术的实用性,在过去的几十年里, 伴随着信息科学技术的飞速发展,语音处理技术取得了重大进展,许多语音产品 也已经深入到人们的日常生活。比如和我们生活息息相关的手机和电话就是语音 编码和通信技术得到广泛应用的实例,它是利用语音编码技术将语音信号进行高 效率的压缩后再在网络上进行传输;利用语音识别技术可以使原本由人工录入手 稿的工作变成由自动听写机来完成,提高人们的工作效率;而自动应答系统是利 用语音合成技术使文本资料转化为高质量的语音,满足人们各种各样的服务需 求。随着社会的发展和技术的进步,人们对语音技术和语音产品提出了越来越高 的要求,希望能得到更多样化和更个性化的服务。例如人们在享用语音合成技术 时,希望机器合成出来的语音是自己的声音或者是某个特定人的声音,这样一种 个性化的服务需求就催生了全新的语音信号研究领域语声转换。 我们务】道,语音信号包含了多种信息,除了最为重要语义信息外,还有说话 人的个性特征( 或者说身份信息) 、情感特征、说话人的态度以及说话场景等信 息。而语音中的说话入个性特征在现在通信及信息服务中扮演着越来越重要的作 用,可以说是人的一张“语音名片 。语声转换( v o i c ec o n v e r s i o n ) 就是要改变 一个说话人( 我们称之为源说话人,s o u r c es p e a k e r ) 的语音个性特征信息,使 之具有另外一个人( 我们称之为目标说话人,t a r g e ts p e a k e r ) 的个性特征,也就 是说转换后的语音听起来就像是目标说话人的声音一样,而语音中的语义信息保 南京邮电大学博士研究生学位论文第1 章绪论 持不变,并且合成出来的语音具有较高的清晰度、可懂度和自然度【l - 4 1 。 最初的语声转换技术来源于语音识别的说话人自适应技术【5 ,6 】,作为说话人 无关的语音识别系统的前端预处理模块,用于降低说话人变化对语音识别系统性 能的影响,提高识别系统的鲁棒性,有很多的说话人自适应技术仍被广泛应用于 语声转换系统。但目前,更多的语声转换技术是应用到语音合成系统,它改变了 合成语音个性特点单一的缺陷【7 1 2 】。不仅如此,语声转换技术也越来越多地应 用到其他场合,具有广阔的发展前景。下面简单介绍一下语声转换技术的应用情 况: 1 ) 在语音合成和文语转换系统中的应用 1 3 - 1 5 。目前高质量的语音合成系统 或文语转换系统都是采用基于语音拼接的方法,做一个语音合成系统必须录 制一个较大的音素语音库,在合成语音时,选择适当的因素语音,然后拼接 成合成的语音。这样合成的语音在话者的个性特征参数上都是单一的,缺乏 个性化。如果要使合成的语音具有其他人的个性特征,必须要重新录制一个 语音库,而录制一个语音库是相当耗费时间和存储空间的事情。如果将合成 的语音通过一个语声转换系统,或者将合成单元的语音预先经过语声转换系 统的处理,将其转换为具有某个人特性的语音,这样就可以使得合成语音具 有多样化的特征,满足不同人的应用需要。特别在当今的多媒体应用时代, 人们需求更多样的多媒体业务。例如,手机短信己越来越多被广大的用户所 接收,在日常生活中,人们经常利用短信来传递信息,将来可以发展成语音 短信,在接收端,如果短信能用发送者的声音读出来,这样具有鲜明个性特 征的语音短信势必会吸引到更多的用户,拓展电信业务。 2 ) 在多媒体娱乐中的应用。例如在电影配音中,特别是在不同语言的配音里, 配音人员和演员本人的有较大的特征差异,如果演员非常出名,对于观众来 讲,总是希望能有该演员的说话效果,这时如果应用语声合成和转换系统, 则配音具有原汁原昧的效果,增强了电影的效果。这种应用还体现在电台广 播中。另外,电脑游戏已经越来越深入到老百姓的生活,特别是网络游戏出 现后,现在的游戏都是有声游戏,玩家在游戏中扮演某个角色,如果该角色 的声音能转换成玩家自己的声音,则会增加玩家身临其境的感觉,势必会吸 南京邮电大学博士研究生学位论文第1 章绪论 引到越来越的游戏用户,游戏提供商将会开拓更大的市场【1 6 】。 3 ) 用于极低速率的语音编码方案。研究表明,当语音编码速率在2 4 k b p s 及以 下时,解码出来的语音将不会保留有说话人的个性特征信息【1 7 1 ,这样的通 信会使双方有不舒服的感觉,如果再将角罕码出来的语音经过一个语声转换系 统,恢复出话者的身份个性信息,则将会明显改善通信效果。 4 ) 用于语音增强系统。对于声带等发音器官存在病变或者损伤,其话音的质量 也严重受损,对方很难以听懂,严重地影响了正常的沟通与交流,如果能将 这样严重受损的话音转换成一个清晰可懂的声音,则极大的方便了这类患者 的正常生活 1 8 2 0 。 5 ) 用于语言翻译系统。机器语言翻译系统是国际上一个非常热点的研究课题, 许多高校、科研结构都在国际权威期刊上报道了他们开发的系统 2 1 ,2 2 ,但 这些系统对任何使用者来说,其最后翻译合成出来的语音都没有了原说话人 的个性特征信息,非常单一单调,在记者招待会或者新闻发布会这样的场合 下使用,会让听众缺乏现场感,但如果对合成的语音进行转换,重新恢复出 说话人的身份特征,则会有较好的实际效果【2 3 】。 6 ) 说话人伪装身份通信。在不方便透漏说话人身份的情况下,通信系统的前端 安装语声转换系统,则可以进行身份保密的话音通信。另外,在法庭上,经 常需要对控、辩双方提供的一些录音证据进行司法认证,如果语声转换系统 能对那些故意伪装了身份的录音恢复出原来的真实身份,这为司法裁决提供 了很重要的判决依据,具有很好的社会效益 2 4 1 。 7 ) 用于语音识别系统的前端预处理模块。语音识别一直以来都是研究者们的一 个热门课题,这是由语音识别系统具有广阔的市场应用前景决定的,但当前 的语音识别系统在实验室环境下具有很好的性能,而在实际的应用场景下, 由于说话人的变化、噪声等的影响,识别性能急剧下降,极大地限制了语音 识别系统的应用和推广,这也是目前语音识别所面临的一个重大挑战。如果 在识别系统的前端,使用语声转换技术作为语音识别系统的说话人自适应模 块,可以大大降低说话人变化对语音识别系统性能的影响 2 5 ,2 6 ,换言之, 我们就将说话人无关的语音识别任务,自动转换成为仅仅需要保证某个特定 3 南京邮电大学博士研究生学位论文 第l 章绪论 人语音识别效果,这是语音鲁棒性识别的新发展。 1 2 国内外研究现状 语声转换是通过改变语音信号模型中的与说话人身份相关的声学特征参数, 之后再利用改变了的特征参数来合成具有目标说话人身份特征的语音。要完成一 个语音转换的过程,一般需要有两个阶段:一是训练阶段,另一个是转换阶段。 在训练阶段,分别提取源说话人语音和目标说话人语音的身份特征参数,然后按 照某种匹配准则寻找两个特征参数空间之间的最优匹配函数;在转换阶段,利用 训练阶段所获得的匹配函数将源语音的身份特征参数映射成目标说话人的身份 特征参数,之后再利用这个特征参数来合成出具有目标说话人身份特征的语音, 从而达到语声转换的目的。语声转换研究中的核心问题是寻找能够精确反映源说 话人特征参数和目标说话人特征参数之间关系的匹配函数。目前已经形成了许多 种不同的转换算法,也形成了各种各样的转换系统,但不管怎样,一个完整的语 声转换系统都包含有下面三个要素 2 7 ,2 8 1 : 令从语音信号中提取与说话人身份特征相关的声学参数; 为了合成出目标说话人语音,必须要有一个表征语音信号的数学模型; 精确的谱包络特征参数匹配函数是语声转换系统是否能够有效地将源说话 人语音转换成目标说话人语音的关键所在。 和说话人识别一样,提取反映说话人身份的特征参数具有非常重要的作用。 线性预测分析模型是一种常用的语音信号分析模型,它把语音信号的生成过程看 成是一个滤波器受到信号源的激励。滤波器参数对应着人的声道传递函数特性, 而声道特性是对说话人的身份特性具有非常重要的影响作用。因此,反映声道特 性的声学参数广泛地应用到语声转换研究中,比如l p c c 、l s p 、m f c c 及共振 峰频率等。在声道特性参数的转换研究中,最早期的算法是基于矢量量化( v q ) 模型,这个思想是来源于矢量量化在语音识别的说话人自适应研究中的应用 【5 ,6 ,2 9 。它首先分别提取源说话人语音和目标说话人语音的特征参数,各自形 成源语音特征参数的矢量码本和目标语音特征的矢量码本;之后,用动态时间规 南京邮电大学博士研究生学位论文第l 章绪论 整对源特征参数和目标特征参数进行时间对齐,形成一一对应的两组特征参数序 列,再分别用源矢量码本和目标矢量码本对这两组特征参数序列进行矢量量化, 然后统计出每对特征参数在各自码本中的位置,这样就可以形成一个统计直方图 矩阵,利用这个统计直方图就可以得到源码本和目标码本之间的对应关系。这样 也就形成了源说话人特征参数与目标说话人特征参数之间的映射关系,转换后的 特征参数是目标码本中一部分码字的线性组合。基于v q 的转换算法由于将特征 参数矢量离散化,特征参数被限制在一个有限的矢量码本中,会导致参数转换后 合成出来的语音质量严重下降,影响系统性能【3 0 】。为了减少码字有限性所导致 的语音质量下降,出现了一些改进的算法,例如基于模糊矢量量化( f v q ) 的转 换算法【4 】,在f v q 算法中,源语音特征参数在进行矢量量化时,不是将其归入 到某一个码字里,而是由多个码字的线性组合,这样就可以减少特征参数的过于 离散化,在一定程度上提高了语音质量。同时,由于在语声转换的处理过程中, 都是以语音帧为处理单元,对每帧信号进行单独处理,没有考虑到语音信号中原 本的帧间动态信息,这也降低了合成语音的质量。以语音段为处理单元的转换算 法能够较好地考虑到语音帧间的动态信息 3 1 。3 2 ,这里的语音段是以音素为切割 单元,在进行转换时,是以整个目标语音段来替代源语音段,提高了合成语音质 量。1 9 9 8 年,ys t y l i a n o u 提出了一种具有连续性的转换函数,这也奠定了近十 年来以连续转换函数为主导的地位1 2 7 1 。该算法是基于高斯混合模型( g m m ) , 它利用g m m 的概率密度建模和分类功能,将源说话人语音特征参数空间进行软 分类,然后在每个特征参数子空间中,在假定源特征参数服从高斯分布并且源特 征参数和目标特征参数服从联合高斯分布的情况下,利用最小均方误差用源特征 参数对相应的目标特征参数进行估计,而转换函数中的未知参量在训练阶段采用 最小二乘法( l s e ) 来计算。ys t y l i a n o u 证明,基于v q 的转换算法是该算法的 一个特例,同时这个算法可以很好地避免了v q 所引起的特征参数离散的缺陷。 但在该算法中,用l s e 估计转换函数中的未知参量时,计算过于复杂。为了减 少计算量和便于理解其求解过程,a k a i n 和我国留英学者叶晖分别进行了改进。 a k a i n 采用联合密度估计方法来计算变换函数中的未知参量 3 3 ,3 4 ,其具体做 法是:先采用d t w 对发音内容相同的源语音和目标语音进行规整,形成一一对 应的序列,并将相应的源特征矢量和目标特征矢量拼接成一个大的矢量,这样扩 南京邮电大学博士研究生学位论文第1 章绪论 展后的矢量就形成了一个新的矢量空间,再用g m m 对该矢量空间进行概率密度 建模,则转换函数中的未知参量可以从g m m 中各分量的协方差矩阵和均值矢量 中获得。叶晖则是利用线性变换的原理,先利用g m m 对源特征参数空间进行建 模,然后在每个子空间中对源特征参数进行线性变换,每个子空间的变换结果的 概率加权就是对应的目标特征参数,之后利用矩阵运算中的伪逆计算原理求出变 换函数中的变换矩阵 2 8 】。k s l e e 也提出了一种基于g m m 的转换算法【3 5 】, 但与以往算法不同的是,它是用g m m 分别对源语音特征参数空间和目标语音特 征参数空间进行概率密度建模,任何两个子空间中的特征参数都可以进行变换, 即实现跨子空间的特征参数变换。变换函数中的未知参量在最大似然准则下,采 用e m 算法进行求解。台湾学者c h w u 在研究用语声转换进行有感情色彩的 语音合成时,提出了一种基于双隐马尔可夫( b i h m m s ) 模型的转换算法【3 6 】, 该算法的最大特点就是在转换时考虑到了语音音素时长,它是利用h m m 的状态 持续时间来表示语音音素时长,但它没有采用原有的状态持续时间服从指数分布 的特点,而是用g a m m a 分布。在源和目标h m m 两个相对应的状态中,转换函 数依然是g m m 下的m m s e 形式。利用神经网络( n n ) 在数据空间之间较强的 映射能力,也是实现语声转换的一种途径。m n a r e n d r a n a t h 实现了一个基于多层 感知器( m l p ) 神经网络的语声转换算法【3 7 】,它以语音信号的前三个共振峰为 谱特征参数,用神经网络将其映射成目标语音的共振峰,然后利用共振峰声码器 合成出所需要的语音。该算法的性能好坏很容易受到提取共振峰精确度的影响。 中科院自动化研究所的左国玉提出了一种基于径向基( r b f ) 神经网络的转换算 法【3 8 】,在训练神经网络的参数时,和以往不同的是,它是采用遗传算法( g a ) 来训练网络的参数,从实验结果来看,它明显地降低了转换后语音和目标语音之 间的谱距离。声道长度对说话人个性特征的差异有着重要的影响,声道长度规一 化( y 1 1 l n ) 技术就是基于这样的理念在语音识别的说话人自适应研究中得到了 广泛应用【3 9 】。这一思想也被借鉴到语声转换的研究q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论