（信号与信息处理专业论文）语音转换技术的研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-11 格式：PDF 页数：60 大小：2.36MB 积分：0 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

（信号与信息处理专业论文）语音转换技术的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

南京邮电大学硕士学位论文摘要学科、专业：工堂二值呈量值! 垦处理研究方向：班岱受童处型：生垣值遮苤作者：2 q q z 级婴究生王夔指导教师：扬震数援题目：英文题目：语音转换技术的研究 r e s e a r c ho nv o i c ec o n v e r s i o nt e c h n o l o g y 主题词：说话人转换，改进的g m m ，韵律模型，l p c 模型， s t r a i g h t 模型 k e y w o r d s ： v o i c ec o n v e r s i o n ，i m p r o v e dg m m ，p r o s o d i cm o d e l ， l p cm o d e l ，s t r a i g h tm o d e l 6 44m 5m 5 舢7i-舢y i 幸i 京邮电大学硕一i j 研究生学位论义摘要摘要语音转换是一种改变源说话人的语音个性特征，使之听起来像另外一个我们称为目标说话人的声音的技术。语音转换的基本要求是转换后的语音具有目标说话人的个性特征，但是并不改变原来说话人语音中的语意内容。虽然语音转换这个课题的提出已有二十多年的历史，但真正引起广泛关注并得到快速发展却是近年，可以说语音转换是语音信号处理领域的一个新兴研究方向，具有重要的理论价值和广泛的应用价值。本课题主要研究语音转换系统的基本理论和关键技术，课题得到国家8 6 3 重点项目的资助。本文主要研究了对齐语音库条件下的语音转换技术，即在训练阶段源况话人和目标说话人说相同语音条件下的转换。本文主要工作和创新如下： ( 1 ) 在大量阅读国内外文献的基础上，研究分析了语音转换技术的现状和发展动态，对比了各种语音转换方法，进行了性能优劣的比较。 ( 2 ) 在声道谱转换方面，研究了转换函数的训练模型，分析了传统高斯混合模型 g m m 下转换谱出现过平滑的原因，提出了利用语音参数动态特性的改进训练方法。 ( 3 ) 在韵律转换方面，对时长、基频和能量均做了分析，探索研究了汉语的韵律模型，通过基频修改进行了音调转换。 ( 4 ) 在语音分析合成方面，研究了l p c 模型和s t r a i g h t 模型。针对l p c 模型不能有效实现基频与声道谱完全分离的问题，将s t r a i g h t 分析合成模型引入改进的 g m m 模型中，进一步合作转换高质量语音。并对两个系统进行了仿真实验，分别从主观和客观两个方面评价了转换语音。关键词：说话人转换，改进的g m m ，韵律模型，l p c 模型，s t r a i g h t 模型本课题得到罔家8 6 3 重点项目。多语苦语音识别关键技术研究与应用产品开发( 编号：2 0 0 6 a a 0 1 0 1 0 2 ) 资助 i 、南京邮电大学硕：e 研究生学位论文 a b s t r a c t a b s t r a c t v o i c ec o n v e r s i o ni sa p r o c e s si nw h i c hav o i c ep e r s o n a l i t yi sa l t e r e d ，s ot h a to n e sv o i c e c a nb eh e a r da sa n o t h e r s i nt h i st h e s i sw eh o p et h ev o i c et ob ep e r c e i v e da sad e s i r e d s p e a k e r sv o i c e ，n a m e l yt h et a r g e ts p e a k e r v o i c ec o n v e r s i o nh a sn u m e r o u sa p p l i c a t i o n si na v a r i e t yo fa r e a ss u c ha st h ep e r s o n a l i z a t i o no ft e x t t o s p e e c hs y n t h e s i ss y s t e m s ，p r e p r o c e s s i n g f o rs p e e c hr e c o g n i t i o n ，i m p r o v i n gt h ee f f e c t i v e n e s so ff o r e i g nl a n g u a g et r a i n i n gs y s t e m sa n d s oo n t h i st h e s i sf o c u s e so nt h ec o n v e r s i o ns c h e m eu n d e rp a r a l l e ls p e e c hc o r p u s i nt h e t r a i n i n gs t a g e ，w eh a v et h es a m eu t t e r a n c ef r o mb o t ht h es o u r c es p e a k e ra n dt h et a r g e ts p e a k e r t h em a i nw o r ka n dc o n t b u t i o n so ft h i st h e s i si n c l u d e ： 1 ) b a s e do nt h el i t e r a t u r e so fv o i c ec o n v e r s i o n ( v c ) ，w es t u d ya n da n a l y z et h es t a t eo fa r t o fv ca n dk e yt e c h n o l o g i e si n t h i sa r e a w ea l s oc o m p a r et h ed i f f e r e n tm e t h o d so ft h ev o i c e c o n v e r s i o n ，d i s c u s st h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s 2 ) w ed or e s e a r c ho nt h et r a i n i n gm o d e lo ft r a n s f o r m a t i o nf u n c t i o na n da n a l y z et h e o v e r s m o o t hp r o b l e mo ft h ec o n v e r t e ds p e c t r u m w ep r o p o s ean e wt r a i n i n gs c h e m eb yu s i n g d y n a m i cf e a t u r e st os o l v et h i sp r o b l e m 3 ) a st ot h ep r o c e s so fd u r a t i o n ，p i t c ha n de n e r g yp a r a m e t e r si nt h ea s p e c to fp r o s o d y c o n v e r s i o n ，w ep u to u rf o c u so nc h i n e s ep r o s o d i cm o d e la n dg i v ea ne x p e r i m e n to ft o n e t r a n s f o r m a t i o nb a s e do np i t c hm o d i f i c a t i o n 4 ) w ed or e s e a r c ho nl p cm o d e la n ds t r a i g h tm o d e l s i n c el p cm o d e lc a n t s e p a r a t ep i t c ha n ds p e c t r u mc o m p l e t e l y , w ei n t r o d u c es t r a i g h tm o d e li n t om o d i f i e d g m mm o d e lt oa c h i e v eh i g h q u a l i t yv o i c ec o n v e r s i o nf o rf u r t h e rc o o p e r a t i o n f i n a l l y , w e g i v eb o t hs u b je c t i v ea n do b je c t i v ee v a lu a t i o no ft h ec o n v e r t e ds p e e c hs y n t h e s i z e db yt h e v o i c em o r p h i n gs y s t e m s k e y w o r d s ：v o i c ec o n v e r s i o n ，i m p r o v e dg m m ，p r o s o d i cm o d e l ，l p cm o d e l ，s t r a i g h t 2 m o d e l 南京邮电人学颂七研究生学位论文缩略语表缩略语表 l i s to fa b b r e v i a t i o n s a n na r t i f i c i a in e u r a ln e t w o r k s人工神经网络 b pb a c kp r o p a g a t i o n b p 算法 d t w d y n a m i ct i m ew a r p i n g ，一一动态时问规整 e me s t i m a t em a x i m i z a t i o n e m f + 计算法 f 0f u n d a m e n t a lf r e q u e n c y 基频 f f tf a s tf o u r i e rt r a n s f o f m快速傅立叶变换 h m mh i d d e nm a r k o vm o d e l 隐马尔科丈模型 i si t a k u r a s a t i od i s t a n c e 板仓一斋田准则距离 l b g l i n d e b u z o - g r a ya l g o r i t h m l b g 算法 l m rl i n e a rm u l t i v a r i a t er e g r e s s i o n 线性多变量递归 l p cl i n e a rp r e d i c t i o nc o d i n g 线性预测编码 l s el e a s ts q u a r ee r r o r 最小平方误差 l s pl i n es p e c t r u mp a i r 线谱对 m lm a x i m u ml i k e l i h o o d 最大似然准则 m m s em i n i m u mm e a ns q u a r ee r r o r 最小均方误差准则 r b fr a d i a lb a s i sf u n c t i o n 径向基函数 s t r a l g h t s p e e c ht r a n s f o r m a t i o na n d 基于自适应加权谱内插的语音转 r e p r e s e n t a t i o nu s i n ga d a p t i v e 换和重构 i n t e r p o l a t i o no fw e i g h t e ds p e c t r u m t d p s o l at i m ed o m a i np i t c hs y n c h r o n o u s 时域基音同步叠加 o v e r l a pa d d i i i 南京邮t 也大学硕士研究生学位论文目录目录摘要一i a b s t r a c t 缩略语表目录j i v 第一章绪论1 一t ：1 论文的研究背景1 1 2 语音转换技术的研究状况2 1 3 本文工作安排4 第二章语音转换系统5 2 1 语音发音系统5 2 2 语音的声学特征参数表示及提取方法6 2 2 7语考声掌劈征参戴6 2 2 2l s f 参或攘职8 2 3 语音转换系统结构11 2 4 语音转换系统实现的关键要素12 2 5 语音转换效果的评价标准13 2 2 3 壬明洋玢方珐一7 3 2 2 4 翮妒纷磁7 4 2 6 语音库的设计15 2 7 本章小结l6 第三章语音转换算法17 3 1 频谱包络的转换方法17 3 7 7 基- f 矢量量纪的语芎须学自络转换7 7 3 7 2 线膨变量迸y j 著1 8 3 7 3 久工榴厕塔艄赫7 9 3 1 4 概率i 成分分析法2 0 3 2 韵律的转换21 3 7 5 基旁曲线变换27 3 7 6 著旁刃长与膨量巯獒2 3 3 3 语音合成与后处理2 3 3 4 本章小结2 4 第四章基于l p c 模型的语音转换系统的研究2 5 4 1 g m m 模型在说话人转换中的应用一2 5 4 7 7g m m 模型基衣原理2 5 4 7 2g m m 模型参效信托2 6 4 7 3 铘删参搠删缎2 8 4 4g m m 镤哩懒亩黼蓬玄2 9 4 1 5 逐平滑现象的分析及改进2 9 4 2 基+ y - l p c 分析合成模犁的语音转换系统一3 0 4 2 7 语葺停号的顽必理3 7 4 2 2 转砭参或兹嬲3 3 4 2 3 蘑包绦的删练与转换3 4 4 2 4 台应目符著号一3 5 4 2 5 实验结果与z 矿论3 5 4 3 本章小结3 7 第五章基于s t r a i g h t 模型的语音转换系统3 8 5 1s t r a i g h t 模型介绍3 8 i v 南京邮电入学顾士研究生学位论文目录 5 2 韵仆模型3 8 5 3 韵律转换实验- 4 0 5 4 基于s t r a l g h t 模型的语音转换系统一4 2 5 5 本章小结4 5 第六章总结与展望4 6 6 1 全文工作总结4 6 6 2 展望：4 6 参考文献4 8 硕士期问发表论文二一：2 l 一二_ 5 3 致谢5 4 v 南京邮电大学顾士研究生学位沦文第一章绪论 1 1 论文的研究背景第一章绪论语音转换( v o i c ec o n v e r s i o n ) 技术是要改变一个说话人( 即源说话人s o u r c es p e a k e r ) 语音中的个性特征，使之具有另外一个人( h i 目标况话人t a r g e ts p e a k e r ) 彰j 个性信息，也就是转换后的语音听起来就像目标说话人的声音一样，与此同时，保持语音中的语义信息不变。语音转换系统在日常在生活中有着广泛的应用价值，能够极大的方便人们的生活，具有重要的实际意义。比如： ( 1 ) 用于语音增强系统，声带受损的病人发出的语声不易听懂，阻碍正常的人际交流，利用语音转换系统对受损的语音进行修饰，可以增强语音的清晰度，可懂度，方便交流，如果修饰的语音具有病人原始语音的个性特征，则会更加方便病人的日常生活，不会让人有陌生的感觉。 ( 2 ) 语种之间的语音转换系统，可以实现具有同一说话人发音特征的不同语言的合成系统，达到一个人精通多种语言的效果，具体可以应用于大型新闻发布会的实时语音多语种合成系统，常用的语音合成系统翻泽出来的声音没有源说话人的个性特征，声音单调，缺乏现场感，经过语音转换后，听觉感受是一个人在讲话，而不是独白，更有现场感。 ( 3 ) 用于极低速率的语音编码方案，研究表明，当语音编码速率在2 4 k b p s 及以下时，解码出来的语音将很少保留说话人的个性特征信息，这样的通信会使双方有不舒服的感觉，如果将解码出来的语音经过一个语声转换系统，恢复出说话人的身份个性信息，则将会明显改善通信效果。 ( 4 ) 角色配音系统，可以利用少量的目标说话人语句，采用一定的训练算法，实现基于目标说话人发音特征的大词汇量语音发音系统，减少配音演员的工作量；另外，电脑游戏已经越来越深入到老百姓的生活，特别是网络游戏出现后，现在的游戏都是有声游戏，玩家在游戏中扮演某个角色，如果该角色的声音能转换成玩家自己的声音，则势必会吸引到越来越多的游戏用户。 ( 5 ) 语音伪装系统，可以实现识别犯罪嫌疑人和其相关人员的语音发音系统，在刑侦任务中有较大的应用。如不方便透漏说话人身份的情况下，在通信系统的前端安装语声转换系统，则可以进行身份伪装的话音通信；在法庭上，经常需要对控、辩双方提供的一些录音证据进行司法认证，如果语声转换系统能对那些故意伪装了身份的录音恢复塑塞! ! 皇叁兰堡：! 塑塞竺堂堡堕兰笙二垩堑堡出原来的真实身份，这为司法裁决提供了很重要的判决依据，具有很好的社会效益。 ( 6 ) 用于语音识别系统的前端预处理模块。语音识别一直以来都是研究者们的一个热门课题，这是由语音识别系统具有广阔的市场应用前景决定的，但当前的语音识别系统虽然在实验室环境下具有很好的性能，而在实际的应用场景下，由于说话人的变化、噪声等的影响，识别性能急剧下降，极大地限制了语音识别系统的应用和推广。在识别系统的前端，可以使用语声转换技术作为语音识别系统的说话人自适应模块，降低说话人变化对语音识别系统性能的影响。总之，语音转换技术是对语音合成技术的丰富和延拓，有着良好的技术发展前景。语音转换系统从不同的角度有着不同的分类，从转换目标上可以分为源说话人语音修复系统和身份变换的语音转换系统；从系统的实现复杂度和应用范围来讲，可以分为基于移动终端的简单语音转换系统和基于大型计算机的复杂精确转换系统；从用途上可以分为军用的语音伪装通信系统，一般的语音转换系统。 1 2 语音转换技术的研究状况语音信号中含有各种各样的信息，主要载有语音内容信，皂, ( w h a tw a ss a i d ) 、说话人特征信息( w h os a i di t ) 以及说话环境信，n , ( w h e r ei tw a ss a i d ) 。说话人特征描述了与说话人身份相关的声音方面特征，而与具体内容信息和兑话环境无关。语音转换的任务就是要改变说话人特征，而其他方面的信息保留不变。一般地，表征语音个性化的语音特征可以分为以下三类：音段特征：描述的是语音的音色特征。特征参数主要包括共振峰的位置、共振峰的带宽、频谱倾斜( s p e c t r a lt i l t ) 、基音频率、能量等。音段特征主要与发音器官的生理学和物理学特征有关，也与说话人的情绪状态有关。超音段特征：描述的是语音的韵律特征。特征参数主要包括音素的时长、基音频率的变化( 音调) 、能量等。语言特征( 1 i n g u i s t i cc u e s ) ：包括习惯用语、方言、口音等。超音段特征和语言特征都是语音的很重要的个性特征，但对于说话人来说，超音段特征主要受社会和心理状况的影响【1 1 ，容易随意的改变，例如，放慢说话速度、降低音量、说得更加柔软一些等；语言特征则与人的生活环境、成长过程和个人习惯有很大关系，随意性很大，不易对其建模。而音段特征与语音发音器官的生理学和物理学特征紧密相连，也与说话人的情绪状态有关，可以认为相对比较固定。 2 南京邮电人学颂上研究生学位论文第一章绪沦目前的语音转换系统，主要是对音段特征进行控制和转换；对于超音段特征如基音频率轮廓、能量轮廓、和说话人速率等特征一般都是进行平均值转换以与目标语音的平均特征值相匹配，之所以没有对超音段特征进行详细的建模、控制和转换，主要是由于在现在语音技术水平下，很难对高层的此类语音特征进行提取和操作。对于语言特征，在语音转换中几乎没有对其研究的报道。在国外，说话人转换技术已经取得了很多的研究成果。1 9 7 1 年，a t a l 和h a n a u e r 使用l p c 声码器研究了改变说话人语音特性的可行性【2 】；s e n e f 通过将语音的频潜包络解卷积的方法，分离语音信号的激励和声道，对基音频率和谱包络系数进行修改，从而实现说话人转换【3 】；c h i l d e r s 等人采用基于固定长度帧的非基音同步的方法和与信号相关的方法来进行分析，实现了男声变女声，女声变男声的方法【4 1 。1 9 8 8 年，a b e 等人使用v q 的方法实现说话人转换的技术，取得很好的效果【5 1 ，但该方法不可避免的存在不连续现象，影响了转换后的语音音质。a r s l a n 对此进行改进，提出了加权矢量量化法 6 】【7 】； m i z u n o 提取共振峰，分另j j x , - t 各共振峰采用线性转换的方法来实现谱包络的转换刚9 ； k r e n d r a n a t h 提出各共振峰值的转换采用b p 神经网络来实现的方法【1 0 1 ；v a l b r e t 提出采用线性多变量回归法( l m r ，l i n e a rm u l t i v a r i a t er e g r e s s i o n ) 和动态频率弯折法( d f w ， d y n a m i cf r e q u e n c yw a r p i n g ) 来进行谱包络的转换，并且他们使用基音同步叠加法 p s o l a 来调整激励信号中的韵律特征从而改善转换性能【1 1 1 【眨1 。相对于矢量量化法，g m m 法能够克服矢量量化法引起的不连续现象，得到较好的语音转换音质。1 9 9 8 年y s y l i a n o u 等使用了基于g m m 的线性变换方法【1 3 1 。同年a k a i n 等使用了联合密度估计的基于g m m 线性变换方法来实现说话人的音色转换【1 4 】。但是传统的g m m 法得到的转换语音会出现过平滑的现象，t o d a 用d f w 法与g m m 法相结合的方法，改进由于统计平均操作所带来的语音过平滑问题【1 5 】【1 6 1 。本文也将在第四章详细讨论这个问题，并提出一种改进方法。国内有关说话人转换的研究开始的比较晚。初敏等人实现了基于t d p s o l a 的男女声转换【1 7 1 ，其中基音周期的变换采用t d p s o l a 法，而声道响应特性的转换则通过重采样的方法来实现。中科院刘力采用了矢量量化方法进行男女声语音转换的研究【1 8 1 ，但是使用码本查找方法的音色变换系统，得到的特征参数通常会出现帧间不连续，从而使变换后的合成语音引入一定噪声。中科院声学所的王聪修改进了l f 4 微分声门波模型【1 9 1 用作音色变换的合成部分的激励源，以此来实现男女语音间的转换。本文作者所在的科研团队也是在数年前开始这个领域的研究的，并取得一些研究成果 3 6 j 【6 3 西们。一般来说，建立一个语音转换系统要分为两个阶段，即训练阶段和转换阶段。在训 3 塑塞业! ! 叁堂塑：! 堕窒生兰堡笙塞笙二童竺堡练阶段，系统分别提取语音库中源说话人语音和目标说话人语音的身份个性特征参数，然后对这两套特征参数空间进行训练，形成特征参数空问之f u j 的映射匹配规则。在转换阶段，系统利用已经形成的匹配规则，将待转换的源说话人语音的声学特征参数提取后映射成目标说话人语音的声学特征参数，然后再利用这些参数合成出具有目标说话人个性特征的声音。从目前国内外的研究成果看，这种匹配和转换的对象主要体现在两类语音参数方面，一是对谱特征参数( 声道特性) 的转换，二是对韵律特性( 主要体现在声源激励信号上) 的转换。本文将在第2 、3 章详细分析和研究现有的转换技术。 1 3 本文工作安排本论文的具体安排如下：第一章绪论。介绍分析当前的语音转换系统的研究背景和研究状况，以及语音转换系统的应用价值。第二章研究语音转换系统。本章主要介绍了说话人转换的理论基础，包括语音信号的基本特性，说话人转换系统的基本结构等。在描述语音信号的基本特性时，给出了语音信号产生的数学模型，语音特征参数及其提取方法。重点描述了语音转换系统结构，系统实现的关键要素及其转换效果的评价标准。第三章研究和分析语音转换算法。列举了现有的关于频潜包络以及韵律特征的转换算法，分析和比较了它们的特性和优缺点。第四章研究并改进基于l p c 模型的语音转换系统。介绍了g m m 模型的基本原理，描述了谱包络的变换方法，提出了利用语音动态特性来改进g m m 模型，并进行了转换系统仿真实验和评价。第五章研究基于s t r a i g h t 模型的语音转换系统。介绍了s t r a i g h t 分析合成模型以及韵律模型，设计了音调转换实验和基于s t r a i g h t 模型的语音转换系统方案，并给出了仿真结果和评价。第六章全文工作总结及展望。 4 南京邮电人学硕。j ：研究生学位论文第二章语音转换系统第二章语音转换系统进行语音说话人的身份的转换，首先需要研究哪些语音特征参数携带了说话人的身份特征，因此要对语音的发音机理进行研究。语音的发音系统，是基于一定的语音信号模型建立起来的，语音信号模型是语音信号的一利- 数学建模，语音信号的数学建模要考虑人的发音系统的声学原理。只有根据人的发音系统建立起来的数学模型，才能精确刻画人的各科一声学特征，精确描述声学特征的使用，能够提高语音转换系统的质量。 2 1 语音发音系统语音是人类通过嘴以讲话的方式发出的有一定意义的声音【2 0 1 。人的发音器官包括声带、气管、鼻和口等【2 l 】，如图2 1 所示：图2 1 人类发音器官示意图这些器官共同形成一条形状复杂的管道，声带上部分称为声道，为语音调制部分，声道是一个分布式参数系统，它是一个谐振腔，因而有许多谐振频率，谐振频率由每一瞬间的声道形状决定，这些谐振频率称为共振峰频率，简称为共振峰，它是声道的重要声学特性，也是反映人的个性特征的重要参数。共振峰和声道形状、大小有关，不同的人声道大小不同，即使同一个人，在不同的年龄声道大小也有变化。随着发出声音的不同，声道的形状在不断的发生变化，对生成的语音进行调制，声音的调制可以看作是滤波操作。共振峰可以用依次增加的多个频率表示，如f l 、f 2 等，称为第一共振峰，第二共振峰等，语音一般有三到五个共振峰，为了得到高质量的语音，或者说精确的描述语音，五个共振峰是比较常用的。语音转换过程中，共振峰的转换是语音个性转换的重点内容。喉部的声带是对发音影响很大的器官，其声学功能是为语音提供主要的激励源。声 5 塑室! ! ! ! ! 皇奎堂堕主里塑竺兰垡堡茎塑三翌堕：堕堡堡墨竺带的丌启和闭合使来自肺部的气流形成一系列的脉冲，开启和闭合一次的时f r j j 即为基音周期，倒数称为基音频率。人的基音频率各有差异，由于男性的声带比女性厚，男性说话人的基音频率大致在6 0 , - 一2 0 0 h z 范围内，女性说话人的基音频率大致在2 0 0 - - 4 5 0 h z 之间，因此基音频率也是反映人的个性特征的重要因素之一。一般粗略地将声带振动产生的语音称为浊音( v o i c e ) ，或者称为有声语音，声带不振动产生的语音称为清音( u n v o i c e ) ，当然也可以再进一步细分。浊音激励部分可以用以基音频率的倒数为周期的一系列声门波表示，声门波模型可以用式( 2 1 ) 表示，其中9 1 ，9 2 的值小于但接近1 ： 1 g ( z ) 2 f 而( 2 - 1 ) 清音激励部分可以用白噪声序列近似表示。不同人、不同语音其声门脉冲的形状不一定相同，因此声门脉冲形状也是语音的个性特征之一，如进行语音转换能够考虑声门脉冲形状对转换语音的影响，那么语音转换质量将会得到进一步的提高。由语音发音系统可以得到语音信号简化数字模型如图2 2 所示【2 1 1 ，其中声道特征参数用l p c ( l i n e a r p r e d i c t i o nc o d i n g ) 参数表示。图2 2 语音信号产生的简化数字模型- - l p c 模型用于语音转换的语音个性特征可以分为包含共振峰频率、共振峰带宽、频潜倾斜的表征声道滤波特性的频谱包络特征和包含基音频率、时长、能量的韵律特征两大类【2 2 1 。由语音信号简化数学模型可以得到频谱包络参数和基音频率参数，因此可以基于源一滤波器模型进行语音转换系统的研究。 2 2 语音的声学特征参数表示及提取方法 2 2 1 语音声学特征参数研究者们对语音的个性特征与各种声学特征参数的依赖程度进行了广泛研究，但所得的研究结果并不相同，存在一定的差异性。m a t s u m o t o 2 3 1 研究得出的结论是基音频率塑皇坚皇奎堂堡= ! ：婴窒竺堂篁堡塞丝三兰堕堕竺堡墨竺对说话人特征贡献最大，其次是共振峰频率，再次是基音频率的波动和声源频谱倾斜 ( v o i c es o u r c es p e c t r a lt i l t ) ；f u m i 2 4 1 研究报道说由倒谱系数得到的长时平均罄包络对语音的个性特征贡献最大，特别是2 5 3 5k h z 频率范幽的谱包络，平均基音频率为其次； n a k a t s u i 认为基音频率比声道的共振特性对语音的个性特征贡献大，而i t o h 2 5 l 等则认为相反，他们认为频谱包络对语音的个性特征影响最大，接着是基音频率和它的时间轮廓结构。各个语音参数对语音的个性特征的贡献大小的次序，虽然研究者们对此的结论不是完全相同，但可以肯定，无论哪个声学参数都无法包含所有语音的个性化信息，语音中的说话人身份个性特征是许多声学参数共同作用的结果，k u w a b a r a 2 6 】认为声学参数的重要性因人而异，并且与实验的语音材料也有很大关系。现在报道的语音转换系统中，用于转换的语音特征可以分为包含共振峰频率、共振峰带宽、频谱倾斜的表征声道滤波特性的频谱包络特征和包含基音频率、时长、能量的韵律特征两大类。从诸多学者的研究结果可以看出我们不能简单地确定哪种声学特征参数对语音的个性信息影响最大，因为每个学者研究的目的不同，研究采用的语料库也不同，但我们可以肯定的一点是，语音的个性特征是由多种声学特征参数决定的。在已经报道的语音转换研究报告中，用于转换的语音特征参数主要有共振峰频率、共振峰带宽、各种与声道特性相关的声学参数、基音频率以及因素时长( 发音速率) 等参数。在处理语音信号时，鉴于语音的非平稳性，通常首先进行分帧处理，然后提取每帧语音信号的特征参数，一般将语音信号的特征参数分为两类：第一类为时域特征矢量，通常将帧语音信号中的各个时域采样直接构成一个矢量；第二类为变换域特征矢量，即对一帧语音信号进行某种变换得到的特征矢量。对于语音转换而言，常用的特征参数有时域上的幅度( 能量) ，基频；频域上的线性预测参数( l p c ) ，l p c 倒谱系数( l p c c ) ，线谱对参数( l s f ) ，梅尔倒谱系数( m f c c ) 等。本文中采用了线谱对参数( l s f ) 作为声道转换参数，主要基于以下考虑： ( 1 ) l s f 能够很好地反映声道幅度谱的特点，与共振峰有直接的对应关系，当l s f 参数在某个频率周围分布密集时，其对应为频谱上的一个峰，而分布稀疏时，对应为频谱上的一个谷【2 7 1 。如图2 3 所示： 7 南京邮电大学顶七研究生学位论文第二章语音转换系统乱”m 。茹刍“ 卜撇：图2 - 3l s f 与共振峰的对应关系 ( 2 ) l s f 在高阶和低阶都具有良好的插值和量化特性，而且在0 7 r 之问有序排列， m f c c 只在低阶有较好的插值特性【2 8 】。 ( 3 ) l s f 具有相对独立的性质，即某一l s f 参数的误差只会影向局部的谱结构，而不会扩散到整个频谱上，这点有利于特征参数映射规则的设计。 2 2 2l s f 参数提取一个语音的采样能够用过去若干个语音采样的线性组合来逼近，通过使线性预测的采样在最小均方误差意义上去逼近实际语音采样，可以求取一组唯一的预测系数，这些预测系数就是线性组合中的所用的加权系数，即l p c 参数。 l p c 参数适用于图2 。2 源一激励语音发音模型，l p c 参数对应声道特征模型。声道模型可以表示为如式( 2 2 ) 所示：坼) = 粥= g p 1 一y a i z l 二_ 一 i = 1 g = 硐 2 2 式( 2 2 ) 中g 为增益常数，a i ( 江1 ，2 ，p ) 为l p c 参数，p 为模型的阶数。这样激励信号e ( 以) ，输出语音信号s ( 门) 的关系可以表示为如下式( 2 3 ) ：在最小均方误差准i j i i j t ，由等式( 2 3 ) 求l p c 参数a f ，定义短时预测均方误差为式( 2 4 ) ：尸 e = 9 2 ( ，z ) = s ( n ) - z a ，s n i ) 1 2 ( 2 4 ) 厅一f = l 使式( 2 4 ) 中瓦最小，a j ( = l ，2 ，p ) 必须满足式( 2 5 ) ：圪辨 0 辱街 p氲，m铮燃淳 32、，一以 f k s 口 ph 一、j 以， 5 | l 、l ，玎，i g 南京邮【乜人学硕上研究生学位论文第二章语音转换系统将式( 2 5 ) 代入式( 2 4 ) f i h 得： _ o e ：o ( j ：l ，2 ，尸) d a ： ( 2 5 ) ( ji1 ，2 ，p ) ( 2 6 ) 定义g ( _ ，f ) - - z s ( n j ) s ( n - i ) ，( = 1 ，2 ，p ，i = o ，1 ，2 ，p ) ，式( z 一6 ) 可以简写为式( 2 7 ) ： p 口，q ( j ，f ) = q ( j ，o ) ，( = 1 2 p ) ( 2 - 7 ) f - l 式( 2 7 ) 是由一个p 个参数和p 个方程组成的线性方程组，求解方程组就可以得到线性预测系数的估计值a f ，其中g ( ，i ) 由输入语音序列决定。系数矩阵的特殊性质使得解方程的效率比普通情况下所能达到的效率要高的多。式 ( 2 - 7 ) 所示的线性预测方程组中，n 的上下限取决于使误差最小的方法。方程组经典的解法有两种：一种是自相关法，一种是协方差法。以自相关法为例，定义s ( n ) 在0 n n 一1 区间以外取值等于0 。通常，s ( n ) 的自相关函数定义为： r ( ) = s ( n ) s ( n 一烈o p ) ( 2 8 ) 比较可以得出： c ，z ，= r 。( j - il ，多1 0 i 乒乏一1 0 尸) ， c 2 9 ，将式( 2 9 ) 代入式( 2 7 ) ，并且由r ( ) 的偶函数性质得如下矩阵形式： r ( 0 ) r ( 1 ) r ( 尸一1 ) r ( 1 ) r ( o ) 兄( 尸一2 ) 兄( 尸一1 ) r ( 尸一2 ) r ( o ) 口l 以2 ： a p r ( 1 ) r ( 2 ) r ( 尸) ( 2 一1 0 ) 式( 2 1 0 ) 式为y u l e w a l k e r 方程，系数矩阵为托普利兹矩阵，系数以对角线对称，利用托普利兹矩阵的性质可以得到高效的递推算法。可以采用莱文逊一杜宾算法或舒尔算法，莱文逊一杜宾算法是一种常用算法也是最佳算法，系数求解过程如下所示，具体推导可见参考文献【1 9 】。 1 ) 给定预测器阶数尸 n y - 1 2 ) 计算尺( ) = s 。( 刀+ ，) s 。( 甩) ( = o ，l ，p ) 其中s w 是加窗语音序列月= o 9 o = 、，一圪，、 s 、j 一彪s 。以 p 芦一、j 一甩，i 、 s 、，以，f s 。塑塞业坠荃兰竺主堕! ! 竺兰垡笙圣笙二翌堕童堡堡至竺 3 ) 汁算k 1 = 一r ( 1 ) r ( o ) 4 ) 计算a 1 1 = k 1 5 ) 计算：= 1 1 - k ) 2 尺( o ) 6 1 令m = 2 7 ) 计算k m = _ 【r ( 聊) + 以p 即一所i ) 1 2 7 一 8 ) 口，= k 9 ) 口；“= 口；一+ k ”a 。( m 一- 。，i = 1 , 2 ，( 研- 1 ) 1 0

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）语音转换技术的研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）语音转换技术的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档