(信息与通信工程专业论文)基于人工神经网络的语音转换技术研究.pdf_第1页
(信息与通信工程专业论文)基于人工神经网络的语音转换技术研究.pdf_第2页
(信息与通信工程专业论文)基于人工神经网络的语音转换技术研究.pdf_第3页
(信息与通信工程专业论文)基于人工神经网络的语音转换技术研究.pdf_第4页
(信息与通信工程专业论文)基于人工神经网络的语音转换技术研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(信息与通信工程专业论文)基于人工神经网络的语音转换技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

、 l 南京邮电大学 硕士学位论文摘要 学科、专业:工学信息与通信工程 研究方向:语音处理与现代语音通信 作者:2 0 0 7 级研究生袁志明 指导教师:张玲华教授 题目:基于人工神经网络的语音转换技术研究 英文题目:r e a s e a r c ho nt h et e c h n o l o g yo fv o i c ec o n v e r s i o nb a s eo n a r t i f i c i a ln e u r a ln e t w o r k ( a n n ) 主题词:语音转换,人工神经网络,s t r a i g h t 模型,基音频率,频谱包络 ,; k e y w o r d s :v o i c ec o n v e r s i o n ,a n n ,s t r a i g h tm o d e l ,p i t c hf r e q u e n c y , 奢 , s p e c t r a l e n v e l o p 南京邮电大学硕士研究生学位论文 摘要 摘要 语音转换是指在不改变说话内容的前提下,实现源说话人声音向特定说话人声音的转 换,其研究是在说话人识别和语音合成的研究基础上进行的,同时也是这两个领域的丰富 和延拓,具有非常广阔的应用前景和理论研究价值,正逐渐成为语音处理领域的研究热点 之一。 本文主要研究语音转换技术的基本理论和方法,研究了语音韵律转换和谱包络转换的 基本概念和方法,重点研究基于r b f 网络的谱包络转换算法和基于b p 网络的基音频率转 换算法的原理和实现,论文的主要工作如下: 首先,研究了传统r b f 网络的结构和学习算法,并对网络的学习算法进行改进,通过 引入减法聚类( s c ) 算法,克服了k 均值聚类算法对初始聚类中心的选择比较敏感和事先 要确定聚类中心个数的问题:将具有全局最优特性的粒子群优化( p s o ) 算法代替最小均 方误差( l m s ) 算法作为r b f 网络输出层的学习算法,可以克服l m s 算法可能收敛于局部 最优的不足。实验结果表明将s c 算法和p o s 算法分别应用到r b f 网络的隐含层和输出层 中,可以使转换后的谱包络更接近于目标语音的谱包络。 其次,采用了p s o 算法优化过的b p 网络进行基音频率的转换,使得预测的基音频率 曲线更接近目标说话人的基音频率曲线。p s o 算法优化b p 网络指的是网络中权值、阂值 的修正不是按照传统b p 算法中由梯度下降法推导出来的公式来修正,而是按照p s o 算法 中的粒子速度、位置修正公式来修正。这种新的融合算法避免了梯度下降法导致的算法收 敛速度慢和易陷入局部极小。 最后,在基频曲线的转换均采用b p p s o 网络的情况下,谱包络的转换分别采用改进 的r b f 网络和传统的r b f 网络,将这两种不同方案得到的语音进行了主客观对比。 t f 关键词:语音转换,人工神经网络,s t r a i g h t 模型,基音频率,频谱包络 , b a s i cc o n c e p t sa n dm e t h o d so fs p e e c hr h y t h m sa n ds p e c t r a le n v e l o p ec o n v e r s i o n i tf o c u s e so n t h et h e o r ya n di m p l e m e n t a t i o no fn e t w o r k b a s e dr b fs p e c t r a le n v e l o p ec o n v e r s i o na l g o r i t h m a n db pn e t w o r kb a s e do np i t c hf r e q u e n c yc o n v e r s i o na l g o r i t h m t h em a i n l yw o r ko ft h et h e s i s a r ea sf o l l o w s f i r s t l y ,t h ep a p e rs t u d i e st h et h et r a d i t i o n a lr b fn e t w o r ks t r u c t u r ea n dl e a r n i n ga l g o r i t h m a n di m p r o v e st h en e t w o r kl e a r n i n ga l g o r i t h m w i t ht h ei n t r o d u c t i o no fs u b t r a c t i v ec l u s t e r i n g ( s c ) a l g o r i t h mi nt h en e t w o r kh i d d e nl a y e r ,t h ea l g o r i t h mc a no v e r c o m et h ep r o b l e m so f t h ekm e a n s c l u s t e r i n ga l g o r i t h mi n c l u d i n gi t ss e n s i t i v et ot h ec h o o s eo fi n i t i a lc l u s t e r i n gc e n t e ra n dn e e d l e s s o fp r e d e t e r m i n i n gt h en u m b e ro fc l u s t e r i n gc e n t e r i nt h et r a i n i n go fr b fn e t w o r ko u t p u tl a y e r , t h i s p a p e r u s e s p a r t i c l es w a r mo p t i m i z a t i o n ( p s o ) a l g o r i t h m w h i c hh a s g l o b a lo p t i m a l c h a r a c t e r i s t i c st or e p l a c et h el e a s tm e a ns q u a r ee r r o r ( l m s ) a l g o r i t h ma si t st r a i n i n ga l g o r i t h m , t h i sc a no v e r c o m et h es h o r t a g eo fl m sa l g o r i t h mw h i c hm a yc o n v e r g et ot h el o c a lo p t i m a l s o l u t i o n e x p e r i m e n t a lr e s u l t ss h o wt h a tt h es ca l g o r i t h ma n dp o sa l g o r i t h m sa p p l i e dt ot h e r b fn e t w o r kh i d d e nl a y e ra n do u t p u tl a y e rc a nm a k et h ec o n v e r t e ds p e c t r a le n v e l o p ec l o s e rt o t h et a r g e ts p e e c hs p e c t r u me n v e l o p e t h ep i t c h 丘e q u e n c yc o n v e r s i o nw i t ht h eu s eo ft h eb pn e t w o r ko p t i m i z e d b yp s o a l g o r i t h m m a k e st h ep i t c h f r e q u e n c yo ft h ep r e d i c t e dp i t c h c o n t o u rc l o s e rt ot h et a r g e t s p e a k e r sp i t c hc o n t o u r u s i n gp s oa l g o r i t h mt oo p t i m i z et h eb pn e t w o r kr e f e r st h a t t h e a m e n d m e n to fn e t w o r kw e i g h t sa n dt h r e s h o l di sn o ta c c o r d i n gt of o r m u l ad e r i v e df r o mt h e g r a d i e n td e s c e n tm e t h o di nt r a d i t i o n a lb pa l g o r i t h m ,b u ta c c o r d i n gt ot h ef o r m u l ao fp a r t i c l e v e l o c i t ya n dp o s i t i o na m e n d m e n ti np s oa l g o r i t h m t h i sn e wf u s i o na l g o r i t h ma v o i d ss l o w c o n v e r g e n c es p e e do fa l g o r i t h ma n de a s i l yf a l l i n gi n t ol o c a lm i n i m u mc a u s e db yt h eg r a d i e n t i i 南京邮电大学硕士研究生学位论文 a b s t r a c t d e s c e n tm e t h o d f i n a l l y , u n d e rt h ec o n d i t i o no fp i t c hc o n t o u ru s i n gb p p s on e t w o r k ,s p e c t r a le n v e l o p e c o n v e r s i o na d p o tr e s p e c t i v e l yt h ei m p r o v e da n dt r a d i t i o n a lr b fn e t w o r k t h e v o i c e su s e dt h e t w od i f f e r e n tp l a n sc a r r yo u tt h es u b j e c t i v ea n do b j e c t i v ec o m p a r i s o n i k e y w o r d :v o i c ec o n v e r s i o n ,a n n ,s t r a i g h tm o d e l ,p i t c hf r e q u e n c y ,s p e c t r a le n v e l o p i i i 南京邮电大学硕上研究生学位论文 目录 目录 摘要i a b s t r a ( 了_ r 一i i 目录 第一章绪论:。l 1 1 语音转换的定义l 1 2 语音转换研究的意义1 1 3 语音转换研究的历史和现状2 1 4 论文的主要丁作与组织结构3 第二章语音转换的基础知识介绍5 2 1 语音的产生机理5 2 2 语音信号发音模型6 2 2 1 语音生成模型6 2 2 2 语音信号线性预测模型7 2 3 语音转换的特征参数9 2 3 1 共振峰。9 2 3 2 基音频率1 0 2 3 3 语音信号的l p c 倒谱系数11 2 3 4 语音信号的线谱对( l s p ) 参数1 3 2 3 5 语音信号的倒谱系数( m f c c ) 1 4 2 4 语音转换原理和系统结构1 5 2 5 频谱包络的转换1 6 2 5 1 码本映射1 6 2 5 2 线性多变量回归法一1 8 2 5 - 3 动态频率规整( d f w ) 1 8 2 5 4 神经网络法1 9 2 5 5 高斯混合模型( g m m ) 一1 9 2 6 韵律的转换2 0 2 6 1 基音频率的转换:一2 0 2 6 2 语音时长与能量转换一2 2 2 7 语音分析一合成模型2 2 2 8 语音转换效果的评价方法2 3 2 8 1 客观测试2 3 2 8 2 主观评价标准2 4 2 9 本章小结2 5 第三章基于r b f 网络的语音转换2 6 3 1r b f 网络2 6 3 1 1r b f 网络结构2 6 3 1 2r b f 网络隐含层的学习算法一k 均值聚类算法2 8 3 1 3r b f 网络输出层的学习算法一l m s 算法2 9 3 2 动态时间规整( d t w ) 3 0 3 3 基于r b f 网络的谱包络转换实验3 l i v 南京邮电 3 4 第四章 4 1 、42 4 3 4 4 第五章基于b pp s o 网络的基频曲线转换一4 7 5 1b p 网络4 7 5 2p s o 算法优化b p 网络描述5 0 5 - 3 基频曲线的提取5 4 5 4 基于b pp s o 网络的基频曲线转换实验5 6 5 4 1 实验流程5 6 5 4 2 实验网络设置一5 7 5 4 3 实验结果与分析5 8 5 5 本章小结5 8 第六章语音转换实验与分析5 9 6 1 语音转换实验5 9 6 2 转换语音客观测试结果6 0 6 3 转换语音主观测试结果6 l 6 3 1a b x 测试6 l 6 3 2m o s 分测试6 2 6 4 本章小结6 3 第七章总结与展望6 4 7 1 本文工作总结6 4 7 2 今后研究展望6 4 至| 谓| 一6 6 参考文献6 7 附录:攻读硕士学位期间发表的论文7 1 v 南京邮电 1 1 语音转换的定义 语音转换( v c ,v o i c ec o n v e r s i o n 或v t ,v o i c et r a n s f o r m a t i o n ) 是指改变一个说话 人( 源说话人,s o u r c es p e a k e r ) 的语音个性特征,使之具有另外一个说话人( 目标说话人, t a r g e ts p e a k e r ) 的语音个性特征【i 】,即说话人a 说的语音被转换为像是说话人b 说的语音。 语音信号包含了多种信息,除了最为重要的语义信息外,还有说话人的个性特征( 或者说 身份信息) 、情感特征、说话人的态度以及说话场景等信息。语音转换就是要保留原有语 义信息不变,而改变语音的个性化信息,使一个人的语音经语音转换后听起来像是另外一 个人说的语音。 1 2 语音转换研究的意义 语音转换是语音信号处理中一个比较新的分支,语音转换的研究具有很重要的应用价 值和理论价值。语音转换的研究几乎对语音信号处理的各个领域,如语音分析、语音合成、 语音识别、语音编码、语音增强以及说话人确认和辨认等领域,都会有一定的贡献。语音 转换可以用在语音合成的后端,生成多样的合成结果。可以被用来进行特殊环境下说话人 身份保密,也可以用来做影视作品的配音。在口语翻译系统中,这项技术也被应用以便使 翻译后的语音保留原说话者的音质。同时,这项技术在通讯娱乐方面也有这很广阔的市场。 ( 1 ) 在现有1 v r s 技术基础上,实现特定的文语转换系统,比如有声e m a i l 和有声 短消息系统,将来,人们在收到短信或者e m a i l 时,将同时听到由发信人的声音所朗读 的消息或信件内容,这无疑会使现有的e m a i l 和s m s 系统变得更加有趣和易于接受。 ( 2 ) 在电影配音系统中的应用。在电影配音时,尤其是使用另外一种语言配音时, 由于各种原因往往导致配音效果大打折扣。如果先将配音进行语音转换,将配音演员的声 音转换为演员自己的声音,无疑将大大改善现有的配音效果。 ( 3 ) 可以帮助有语音发声障碍或缺陷的人,改善他们的发音效果,提高他们声音的 可懂度。 ( 4 ) 在国家安全,公安刑侦,保密通信等领域,可以用来在需要的场合伪装说话人 声音。 塑塞塑皇奎兰堡主型壅生兰垡堡茎兰二垩堕堡 ( 5 ) 可以用来实现或改善现有的多方会话翻译系统,系统首先识别本方说话人的话, 然后用另一方的语言翻译出来,再用本方说话人的特征信息进行语音转换,合成新的语音 信息。使不同语言的多方交流能够更加方便和流畅。 1 3 语音转换研究的历史和现状 语音转换技术源于语音识别与合成技术,早在1 9 7 0 年代初人们就已经开始研究,但 直至最近十几年才引起人们的重视。目前,声音转换的研究大多集中在频谱参数的转换上。 a b e 2 1 提出了矢量量化( v q ) 的谱包络转换算法,后来又采用模糊v q 的方法来提高转 换性能【3 】。r i n s c h e i d 4 】使用时变滤波器和拓扑特征映射实现了声音的改变。v a l b r e t 等人使 用基音同步叠加法( p s o l a ) 调整激励信号的韵律特征来改善频谱动态频率规整( d f w ) 变换后的声音质量【5 1 。n a r e n d r a n a t h 6 】用神经网络的方法实现了语音共振峰特性的变换。 l m a r s l a n 等人提出了s t a s c ( s p e a k e rt r a n s f o r m a t i o na l g o r i t h mu s i n gs e g m e n t a l c o d e b o o k s ) 方法,相对于a b e 等人的方法,这种方法采用了码本加权叠加的方法来得到 目标说话人的特征参数,因此得到了较好的效果【刀。s u e n d e 咖a n n 【8 】采用声道长度归一化 技术( v t 乙n ) 对语音频谱作了规整。 九十年代以来,基于语音特征的统计分布来实现声音转换的研究受到了更多重视。采 用高斯混合模型( g m m ) 描述源一目标特征参数的概率分布,将利用给定的源特征参数 预测目标语音特征参数的问题转化为求解一个线性回归函数的问题。 1 9 9 8 年,s t y h a n o u s 9 1 首次提出用高斯混合模型( g m m ) 来进行谱包络的转换方法, 并提出了用谐波加噪声的模型( h n m ) ,来进行时间长度的基频转换。通过构造一个描述 源说话人特征参数空间的g m m 来对特征参数进行分类;然后根据均方误差最小的原则估 计得到混合线性转换函数,转换后的语音包络不像矢量量化那样是一些离散的点,而是连 续的。实验证明g m m 方法在数据比较多的情况下比基于矢量量化的方法更有效,更具有 鲁棒性。由于采用g m m 的频谱转换后的语音频谱过于平滑,因此t o d a 提出一种动态频 率归整方法来改善语音质量【l0 1 。d u x a n s 和s u n d e r m a n n 等分别用部分或全部非对准数据找 到人工语音声学类的对应语音帧,从而降低了g m m 技术对训练数据对准性的要求【i i 】。 k a i n 在1 9 9 8 年使用联合特征矢量直接估计得到变换函数的参数,在足够的训练数据 条件下,k a i n 的方法整体计算复杂度更低,且算法的稳定性也好【1 2 】。2 0 0 0 年t o d a 利用 k a w a h a r a 提出的s t r a i g h t 分析合成系统,采用k a i n 的方法实现了语音转换,此外, 他还将v a l b e r t 等提出的动态频率归整算法应用于上述系统,改善了重建语音的质量【l o 】。 2 南京邮电大学硕士研究生学位论文第一章绪论 2 0 0 3 年y e l u i 在k a i n 方法的基础上,考虑到人耳对频谱感知的非线性特征,引入了加权 感知距离测度,从一定程度上改进了重建语音的质量【1 3 】。 在声音转换研究中,声源模型是影响转换合成语音质量的又一个重要的因素,它既影 响合成语音的清晰度,又同时和合成语音的韵律特征有紧密的联系。f a n t 的研究表明, 声门脉冲的形状,脉冲宽度,脉冲倾斜度等特征对合成语音影响很大。1 9 9 5 年,c h i l d e r s 的研究成果也表明了声源参数对于语音合成和转换研究有重要意义,从最初的三角波信号 到r o s e n g e r g 声门波模型再到f a n t 的l f 模型,声源模型越来越细致,转换合成语音的质 量也不断提高。 目前大多数的声音转换研究,主要集中在对短时音段特征进行控制和转换,对于较长 时的超音段特征如基频随时间变化的轨迹等特征一般都只对其平均值进行转换,因而效果 一般。其困难主要是由于在现在语音技术水平下,对高层的语音信息进行提取和建模有一 定难度。已有韵律相关的研究工作比较典型的有:1 9 9 8 年,d c h a p p e l l 提出了一种整句 水平的基于小词汇量的基频轨迹映射方法【l4 1 。1 9 9 9 年,a r s l a n 利用音节语速持续时间和 音量码本映射的方法进行了源目标说话人的语速、音量的转换【7 1 。2 0 0 2 年,c e y s s e n s 等人提出一种确定和随机性混杂的基频建模方案【1 5 】。2 0 0 3 年,g i u e t 提出了对基频轨迹逐 段线性映射的方法【1 6 】。 国内学者也展开了大量语音转换的相关研究。针对不同的特征参数对语音转换效果的 影响也展开了一定的研究。初敏 。7 】等人采用t d p s o l a 的方法进行男女语音转换的研 究。双志伟提出了基于汉语音素的码本映射算法【1 8 】。吕声利用一个基于高斯混合模型的 转换函数,通过转换线性预测模型的线谱频率参数,实现谱包络的转换,另外还提出了一 种基于音素的混合高斯( g m m ) 转换方法【1 9 】。左国玉提出了使用遗传算法训练的神经网 络来获取源一目标说话人的频谱特征之间映射关系的转换方法【2 0 i 。黄德智提出了对浊音 和清音分别建模的方法来提高重建语音的清晰度和可懂性【2 。康永国提出了混合高斯模 型和码本映射相结合的语音转换算法 2 2 】。以上这些学者从不同角度、采用不同方法对语 音转换技术展开了研究,我们应该借鉴前人的成果,对现有的技术进行改进、融合或创新, 提高语音转换的质量,并将其应用于实际生活中,进一步推动人机交互的发展。 1 4 论文的主要工作与组织结构 本文主要工作是对语音的谱包络和基频曲线进行转换。首先文中重点研究了基于减法 聚类( s c ) 算法和粒子群优化( p s o ) 算法优化后的r b f 网络的语音谱包络转换,同时 南京邮电大学硕士研究生学位论文 第一章绪论 与传统r b f 网络得到的谱包络进行了比较。在基音频率处理方面,对b p 网络进行了改 进,采用p s o 算法代替b p 算法去训练b p 网络,使得预测的基音频率曲线更接近目标说 话人的基音频率曲线。最后,采用改进后的网络进行语音转换,并对转换后的语音进行了 主、客观评价。 本文共分为七章,具体的章节安排如下: 第一章:绪论。简单介绍了语音转换的概念,语音转换的研究意义与历史和现状。 第二章:语音转换基础知识的介绍。首先系统地介绍了语音发音模型和语音转换所用 到的各种特征参数,简要地描述了语音转换的系统框架、转换方法、主客观评价标准和语 音分析合成模型。 第三章:基于r b f 网络的谱包络转换。简要地介绍了r b f 网络的网络结构,学习算 法以及语音训练阶段的动态时间规整d t w ,最后采用r b f 网络进行了谱包络的转换实 验。 第四章:基于r b fs cp s o 网络的谱包络转换。本章对减法聚类( s c ) 算法、粒子 群优化( p s o ) 算法的基本概念作了简要的介绍。提出采用减法聚类算法代替k 均值聚 类算法作为r b f 网络的隐含层的学习算法,同时将具有全局最优特性的p s o 算法作为 r b f 网络的输出层的学习算法,这样可以避免l m s 算法的局部最优的不足。并且在用这 种改进的网络进行了语音谱包络的仿真实验,通过对比发现这种改进的网络的转换效果要 好于传统r b f 网络转换的效果。 第五章:基于b pp s o 网络的基频曲线转换。本章对b p 网络进行了改进,通过引入 p s o 算法,进行基频曲线的转换,实验结果表明能取得较好的效果。 第六章:语音转换的实验与分析。本章用第四章、第五章提出的改进方法,对语音进 行转换,最后从主观,客观两个方面对转换后的语音进行了评价。 第七章:总结与展望。对全文的工作做出了总结,并对今后进一步的研究工作进行展 挈。 4 南京邮电大学顾= 卜研究生学位论文 第二章语音转换的基础知识介绍 第二章语音转换的基础知识介绍 语音转换系统首先是基于对语音信号的分析模型建立起来的,然后提取语音信号的特 征参数并采用合适的转换算法进行转换,最后对转换后的语音特征参数进行合成。本章介 绍的是语音转换过程中所用到的基本概念和方法。 2 1 语音的产生机理 语音的产生机理如图2 1 所示,发音器官主要包括肺、气管、口腔、鼻和声带等 2 3 - 2 5 】 甲状 气管 鼻腔 鼻材i 膜 舌头 会厌软骨 声门 食邀 颈椎 图2 一1 人类语音发音系统 发音时,先由肺部收缩送出一股直流空气,经气管至声带的开口处( 也叫喉头声门处) 。 发音之初,声门处的声带肌肉收缩,声带并拢,这股直流空气冲过很小的缝隙,使声带得 到横向和纵向的速度,此时,声带向两边运动,缝隙增大,声门处压力下降,弹性恢复力 将声带拉回平衡位置并继续趋向闭合,即声带产生振动并具有一定的振动周期。 一般把声带以上,咽喉到口腔的这一管道称为主声道。鼻腔及小舌这一管道称为鼻道。 此外,经肺、支气管和气管的管道称为次声门系统。由声道振动激发声道中空气发生振动, 并从口和鼻两处向外辐射发出声音。当发出语音时声道肌肉( 包括舌面) 运动到一个特定 的部分,构成一定声道的位形,形成语音的特定音色。 语音按其激励形式的不同分为三类:当气流通过声门时,如果声带的张力刚好使声带 产生张弛振荡式振动,产生周期脉冲气流,这一气流激励声道就产生浊音( v o i c es p e e c h ) 5 塑塞坚皇奎堂堡主堕塞生兰垡笙壅笙三童堕童堡垫塑茎型塑望坌塑 或有声语音( 图2 2 ) 。如果声带不振动,而在某处收缩,迫使气流以高速通过这一收缩部 分而产生湍流就产生清音( u n v o i c es p e e c h ) 或摩擦音,或称无声语音( 图2 3 ) 。如果声道 在完全闭合的情况下突然释放就产生爆破音。 图2 2 浊音波形图 2 2 语音信号发音模型 2 2 1 语音生成模型 图2 3 清音波形图 根据发音器官和语音产生机理的分析,语音信号的生成模型可以采用下述模型来描 述。根据该模型,语音信号可以看作经过声源激励,声道调音和口唇辐射三个过程的作用 而产生,这三个过程分别对应三个子模型:激励模型、声道模型和辐射模型,如图2 4 所 示。 图2 _ 4 语音信号的生成模型 6 南京邮电大学硕:i = 研究生学位论文 第二章语音转换的基础知识介绍 一般来说语音信号生成模型的传输函数h ( z ) 可用式( 2 1 ) 表示 h ( z ) = a 木u c z ) z c z ) r ( z ) ( 2 一1 ) 式( 2 1 ) 中,v ( z ) 是激励信号,浊音时【厂( z ) 是声门脉冲即斜三角形脉冲序列的z 变换; 在清音的情况下,u ( z ) 是一个随机噪声的z 变换。z ( z ) 实际上是一个全极点模型,它的极 点对应于语音的共振峰,v ( z ) 可以用下式来表示 y ( z ) : 卜z 以 七= i 在简化的语音模型中,口唇的辐射作用被看作一个可以提升高频的数字滤波器,其传 输函数r ( z ) 可以表示为 尺( z ) = r o o - z 一) 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动 密切相关的,这种物理运动比起声音振动的速度要缓慢得多。因此,在一个比较短的时间 内,语音信号被假定为平稳的,可以用短时处理技术来处理语音信号。 2 2 2 语音信号线性预测模型 线性预测( l p c ) 模型是模拟语音信号主要特征的较成功的模型之一。该模型以人类 语音的发音生理过程和语音信号的声学特性为基础,成功地表达了语音的主要特征,在语 音信号处理领域得到了广泛的应用。 线性预测法是基于全极点模型的假定,采用时域均方误差最小准则来估计模型参数。 线性预测分析的基本概念是,一个语音的样值能够用过去若干个语音样值的线性组合来逼 近。设当前值为s ( n ) ,用前p 个样值对当前值的估计值为j ( 以) ,则预测函数可以表示为 p j ( ,z ) = 吼s ( n - k ) ( 2 2 ) k = l 其中( a 。) 是线性预测系数。则当前值s ( ,z ) 与估计值j ( 咒) 的误差e ( n ) 为 p ( ,1 ) :j ( r z ) 一j ( ,z ) :s ( 凡) 一圭嗷s ( 玎一尼) ( 2 3 ) 7 南京邮电大学硕士研究生学位论文 第二章语音转换的基 式( 2 3 ) 表明预测误差序列e ( n ) 可以是信号s ( n ) 通过一个具有如下系统函数的系 输出。 a ( o = l - y 吼z 。 p。 七= i 定义线性预测分析系统的系统函数为 酢) 2 面g l 一 a 。z 则线性预测分析就是求解一组预测系数( a 。) ,使得预测误差e ( 以) 在某个预定的准则下 最小。理论上,常用的预测误差准则为均方误差准则,其求解过程描述如下: 为了得到使e e 2 ( ,z ) 】最小的一组吼值,可将研e 2 ( 甩) 对各个系数求偏导,并令其结果 为零,即 即 将( 2 3 ) 代入( 2 - 6 ) 得 a e e 2 ( n ) :0 抛t 掣:- 2 e e ( ,z ) j ( ,z 一七) 】:o o a ( 2 5 ) ( 2 6 ) pp e s ( n ) s ( n - j ) - 吼s ( n - k ) s ( n - j ) = r ( j ) - r ( j - k ) = 0 ( 2 7 ) 七= l 一 七= l 将上式写成矩阵的形式,设 4 = 口l 口2 r= , ,( o ) ,( 1 ) r ( 1 ) r ( 2 ) r ( p 一1 ) r ( p 一2 、 r ( p - 1 ) r ( p 一2 ) r ( o ) 哆= 厂( 1 ) r ( 2 ) 那么,式( 2 7 ) 的矩阵形式为 哆一r p a p = 0 或者a p = 哆 ( 2 _ 8 ) 其中巧是p 阶自相关矩阵r p 的逆矩阵。式( 2 8 ) 称为y u l e w a l k e r 方程,p 个预测系数 a 。) 可以通过自相关法,协方差法及斜格法求解y u l e w a l k e r 方程得到。 南京邮电 在这个语音产生模型假定下,系统函数h ( z ) 在单位圆上的取值就是声道的频率响应, 而分析语音信号的谱包络可以近似表示为ih ( e 弘) i 。图2 - 5 为一段语音的幅度谱及相应的 l p c 谱包络。 j p 黝b = 舻) = g 1 一 一帧女声的谱包络 2 3 语音转换的特征参数 图2 5 语音信号的l p c 谱包络 语音信号是冗余度很高的随机信号,在进行语音信号处理的时候,需要提取特征参数 来降低信号的冗余度,而语音特征参数的提取又是通过对语音信号的分析来获得表征语音 信号的参数的。在语音信号处理中,常用的特征参数有共振峰参数、基音频率、线性预测 倒谱系数以及m e l 倒谱系数。本节对这几种特征参数的特点及其常用提取方法进行分析。 2 3 1 共振峰 根据声学观点,语音的产生过程可分成三个部分:声源激励、声道调制和声波辐射, 其中决定语音性质的是声源激励和声道调制。而由声道形状决定的共振峰,是主要的信息 要素。发音时,声道可以看成是一根具有非均匀截面的声管,起着共鸣器的作用。当准周 9 南京邮电大学硕j j 研究生学位论文第二章语音转换的基础知识介 期脉冲激励进入声道时会引起共振特性,产生共振峰。 目前常用的共振峰提取方法包括:带通滤波器组法、倒谱法和l p c 法。其中,l p c 法是最经典也是最常用的方法。经典l p c 法近似地认为,声道滤波器的共轭极点对应频谱 包络的最大值,即对应共振峰参数。由线性预测分析可知,声道可近似表示为一个全极点 滤波器。对于每一帧语音信号,其传输函数可以表示为 日( z ) = 6 1 ( 1 - 口,z - i ) ( 2 9 ) 其中,g 为增益,口,为线性预测系数,p 为线性预测阶数。 对式( 2 9 ) 进行分解,得到 肌,= 喜南嚆瓦万 协 其中,k 为实极点个数,j 为共轭极点对的个数,r k ,r j 为极点半径,办为极点相角。 设与共轭极点z ,对应的共振峰频率为c ,带宽为b j ,则有 z ,= p ( 一2 石( 乃7 正) + 2 丌( 乃7 正) ) 其中,z 为采样频率。利用式( 2 9 ) 和式( 2 1 0 ) 可以得到共振峰的频率和带宽为 2 3 2 基音频率 f j :一t哆= 一嘉- n 。 基音频率是指发浊音时声带的振动频率,它描述了语音激励源的一个重要特征。基音 频率在多个领域有着广泛的应用,如:语音识别、说话人识别、语音分析与综合以及低码 率语音编码等等。因为汉语是一种有调语音,而基音频率携带了丰富的声调信息,所以, 基音频率的提取对汉语更有意义。由于人的声道的易变性及其声道特征的因人而异,而基 音频率的范围又很宽,且同一个人在不同情态下发音的基音频率也不同,加之基音频率还 受到单词发音音调的影响,因而基音频率的精确检测比较困难。尽管基音检测有许多困难, 但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音 检测算法,如自相关( a c f ) 法、峰值提取法、平均幅度差函数( a m d f ) 法、并行处理 技术法、倒谱法、小波法等等。 l o 南京邮电火学硕上研究生学位论文第二章语音转 2 3 3 语音信号的l p o 倒谱系数 l p c 倒谱系数 e ) 一般是通过对语音信号的傅立叶变换,取模的对数, 变换得到的。既然线性预测分析法是一种谱估计方法,而且其系统函数的频 能够很好地反映声道的频率响应和被分析信号的谱包络,因此可以用l o gih ( e 归) i 作反傅立 叶变换求出倒谱系数,是一种描述语音信号的良好参数。 设通过线性预测分析得到的声道模型系统函数为 酢) 2 忑g l 一 口。z 设其冲激响应为h ( n ) ,则系统函数h ( z ) 可以用式( 2 1 2 ) 表述为 根据复倒谱的定义,有 将式( 2 11 ) 代入式( 2 1 3 ) 得 因此有 川z ) = 厶( 门) z 1 疗( z ) = i nh ( z ) = c 。z ” l n g 仙l 上1 + 圭a k z - k 对上式两边对z 叫求导数,有 c o = i ng 1 p l + 日七z “ = c o + c n z “ = c n z l ,l = l :三妻印叫oz 一鲁。 ( 2 11 ) ( 2 1 2 ) ( 2 1 3 ) ,面 h 南京邮电大学硕士研究生学位论文第二章语音转换的基础知识介绍 即 = 一刀一c z 叫“ n = l 令上式左右两边z 卅各次幂的系数分别相等,则可得到由l p c 系数a 求解l p c 倒谱的递推 关系如下: c o = i ng c t2 - a i 巳= 一口。一善( 1 一生n ) 口。c j 一。l n p c j = 一喜c 一告,口。巳一。 以p 根据复倒谱定义,可以求出疗( z ) 在单位圆上的取值,这样可以得到l p c c 谱包络为 , h ( e 扣) 卜c o i c n e 咖 图2 - 6 给出了对一帧语音求解l p c c 谱包络的结果图,从图中可以看出,l p c c 谱包 络可以较好的表示语音信号的谱包络,相比于l p c 谱包络要更平滑一些,但由于l p c c 系 数是由l p c 系数推导出来的,所以,l p c 谱包络精度不高时,l p c c 谱包络法也得不到改 善。l p c c 系数常用来作为语音转换的谱包络特征参数。 1 2 一 呓 一、口,h 了乏柑 p 丛h +七一 z 七 口尼 p 心 一 = “万一 z 巳 儿 麒 、 七一 z 七 口 p麒 + ,- 南京邮电大学硕| 上研究生学位论文 第二章语音转换的基础知识介绍 一帧女声的l p c c 谱包络 图2 - 6 语音信号的l p c c 谱包络 2 3 4 语音信号的线谱对( s p ) 参数 线谱对( l i n es p e c t r u mp a i r ,l s p ) 或者线谱频( l i n es p e c t r u mf r e q u e n c y ,l s f ) 是 频域参数,因而和语音信号频谱包络的峰有着更紧密的联系。l s f 参数广泛地应用于语音 编码的声码器中【2 3 1 。在l s p 分析中,我们仍然采用全极点模型,设p 阶线性预测误差滤波 器传递函数为a ( z ) 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论