(电路与系统专业论文)说话人声音转换方法研究.pdf_第1页
(电路与系统专业论文)说话人声音转换方法研究.pdf_第2页
(电路与系统专业论文)说话人声音转换方法研究.pdf_第3页
(电路与系统专业论文)说话人声音转换方法研究.pdf_第4页
(电路与系统专业论文)说话人声音转换方法研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(电路与系统专业论文)说话人声音转换方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 说话入声音转换技术是指将原说话人的语音模式转换成其他说话人的语音 模式,保持原有的语义信息不变,使转换后的语音听不出是本人所说。声音转 换是语音信号处理领域一个较新的分支,该技术可用于文语转换系统、保密通 信和网络娱乐等领域,具有重要的实际价值。 声音转换按照目不同可分为两类:一类为非特定人声音转换,只要将原话 者的声音变掉即可;另一类为源一目标说话人声音转换,是要将原话者的声音 变成特定目标话者的声音。针对不同目的的声音转换,本文在语音线性预测分 析及l p c 合成器的基础上,着重研究了基于基频的非特定人声音转换以及源一 目标晚话人声音转换中的声道参数转换。 对说话人的非特定人声音转换,可以通过控制l p c 合成器中的基频参数来 实现。对基频的适当改变可以引起说话人声音模式的改变,但其改变也会引起 原语音谱包络的变化,从而可能引起语义失真。本文通过主观听辨和客观谱失 真相结合的办法,在基频平移或缩放两种改变方法下,由实验按经验获得适合 大多数人的、既引起转换后语音的声音模式改变、同时语义不失真的基频改变 范围,以此范围指导基于基频的非特定人声音转换。 源一目标说话人声道参数转换是实现源一目标说话人声音转换的关键。通 常采取分类获取转换规则的策略,即同一类的参数共享一个规则。显然,分类数 越多,转换规则越多,转换效果越好。为了在一定的分类数下能获取尽可能多的 转换规则,本文采用基于径向基函数网络( r b f n n ) 的分类线性加权转换方法, 以输入特征矢量对各个类别( 隐层节点) 的“贡献”作为各子类转换规则的权值, 转换后的特征矢量为各子类输出的加权,可以获得远大于分类数的转换规则。 针对通常采用f c m 算法训练网络隐层节点中心欠准确、影响最终声道转换效果 的问题,本文给出改进的差分进化f c m 算法来获得更优化的隐层节点中心,并 通过对比实验表明使用改进的算法训练中心,最终可在较大程度上提高源一目 标话者声道参数转换性能。本文还对转换规则和训练集大小的关系展开相应的 实验研究。 关键词:声音转换源一目标径向基函数网络分类线性加权转换 囊冀霎霎 董茎霎薹毫= i 雾篁喜;薹萋i 季;j 霎| 薹i 耋霎霎,i 雾霪薹 ! 墼! ! 萋萎警垂塞l 奏= 萋专三! i 孽;! 蓁! 囊霎塞霎娄i 霪薹霪妻薹霉琴囊雾囊篓妻薹薹薹羹; 冀霎j 萋薹;i 篓耋耋妻:萎茎至蓁i 雾 i 主喜i 萋荔鍪= 霉墓冀j 薹羹羹譬j 喜囊冀薹蒌羹雾霎i耄至j 囊雾;i 雾耄霎鬟j ;堇摹龟 i 萋蓉i 薹耋妻摹蕊三薹蔓薹堇i i 薹;嚣;毫毛曼芝萎i 茎霎i 趸i 璧i 霎i _ 嘎i 籍j 蓄,垦| | 曩i 肇;圣芝;薹蕉耋三;季薹喜事蓁喜霎霎:薹萋薹= 墓 奏i ;霪摹二萋耄。卖i 蠹冀l ;主三薹i 专妻:量塞;。兰萋塞 i 耋主i 薹薹| ! i ;_ 囊。;善| 霎| 霎茎;量孝专毫堇乏一章;毫譬。壬i i 萋善l 萋三三;j 耋i 尹;i 垂萼差摹搴; i ;奏耋耋置! 枣至葶i 蓦i 塞 謇i i i 董鋈 囊雾;? ;薹:宝毒霎。蠹警l 氢雪霉主要 ;蠹主j 藿羹羹;萋篓;霎羹薹; 雾霎至薹霪羹;薹鬟冀薹妻:翼耋耋三 i 蕈霎i 囊薹琴爹蘩蠹霪囊i 篓囊耋囊薹霪薹鎏蓁妻羹j 篓姜囊差雾雾| j 。霞垦垦主 l 薹耄;爹; 爹蓦i 善茎薹孽薹霪翼二耄, 主耋薹薹要: 耋;妻萋砉囊垂妻耋i 薹l 奏 薹摹壶唯一毳馨i ;冀茎囊霎耄誊i 量;i孽萎垂圣 霎; 第1 章绪论 第l 章绪论 1 1 声音转换研究的背景和分类 语音在 二 常通讯中占有非常重要的地位,它携带着大量有用信息,一般认为 它至少包含语义信息、说话环境信息和说话人特征信息。其中,说话人特征信息 描述了与说话人身份相关的声音方面特征,而与具体内容信息和说话环境无关。 因此凭借语音信号中的说话入的个性特征,我们仅从电话、网络通讯、广播等中 传播的声音就可辨别和确认出说话人的具体身份。这些现象就成为诸多学者研究 声音转换的最初出发点。 声音转换( v o i c ec o n v e r s i o no rv 0 i c et r a n s f o 咖a t i o n ) 是一种改变说话人声 音特征的技术,将某个说话人的语音模式转换成与其特性不同的另一种语音模 式,而保持语音中原有的具体内容信息( 语义信息) 和说话时的环境信息不变。 声音转换根据转换目的可以分为两类: l 、 非特定入声音转换:将某个说话人的语音模式转换成与其特性不同 的另一种语音模式,使之听不出来是原话者所说,同时保持语音中 原有的具体内容信息( 语义信息) 和说话时的环境信息不变。 2 、特定人声音转换( 源一目标说话人声音转换) :将源说话人的语音模 式转换成某个指定的特定目标说话人的语音模式,即保持源说话人 原有的语音信息内容不变,使转换后的语音具有目标说话人的声音 特点( em o u i i n e s e t a i ,1 9 9 5 ) 。 这两类声音转换在本质上是相同的,都要实现语音特征参数的转换,但两种 转换的要求程度又是不同的。非特定人声音转换只是使语音的说话人个人性特征 发生改变,丽不象源目标说话人声音转换确定为由源语音转换为目标语音;应 该既自,j 者较后者的要求宽松,可以将源目标说话人声音转换看作是一种目的性 更强、要求更加严格的声音转换,其实现起来也更难。 从理论研究的角度来看,声音转换技术涉及信号处理、人工智能、模式识别、 声学等学科领域,是一个典型的交叉学科的产物,它和语音识别、编码合成有着 非常密切的关系,声音转换研究影响语音质量和语音个性特征的因素,研究连续 语音中嗓音源参数和语音的韵律关系,语音转换不可避免地要对语音进行详尽的 分析,如何建立嗓音源模型,研究模型中各参数的变化规律和语音的韵律特征之 闯的规律,研究共振峰的位置、带宽和幅度对话音的影响等。这方面的工 乍对语 第1 章绪沦 爵合成有着很高的参考价值,也有可能促进语音编码技术的进步;语音转换要转 换的怂语音的个性特征,而说话人识别就是要从语音中找出说话人的差异,也就 是晚语音转换与说话人识别要研究的共同问题是语音的个性特征,语音转换的成 粜町以为晓话人识别提供很重要的依据。 声音转换技术有着广泛的应用前景,首先它是对语音合成技术的丰富和延 拓。随着计算机技术的飞速发展,人机交互变得越来越重要,成为其中一个重要 发展方向。语音由于其便捷的特性,而倍受瞩目。人机语音交互包括语音识别和 语音合成两部分。前者是让计算机听懂人说话,涉及到模式识别方面的知识;后 者是让计算机说话,这主要是由文语合成系统( t t s ) 来完成。传统的t t s 系统 中合成语音都是单一话者的语音,这就使得合成语音显得单调,缺乏个性,要想 得到多样的发音则必须建立多套语音数据库。声音转换技术则较容易实现多种音 色的个性化发音,使传统的耗时庞大的语音数据库的采集得以简化为仅需采集一 个说话人( 源) 的语音数据库,对于其他音色的声音,只需少量的训练语音,便 可从源说活人的语音库通过声音转换技术获得,节约了大量工作量与存储空间, 且使系统变得更加灵活( ak a i n ,mm a c o n ,1 9 9 8 ) 。还有,未来的系统会在人们接收 e m a i l 或手机短信息时自动将信件内容用模仿发信人的声音读出来。扩展自然对 话系统功能是这种应用的一种延伸。特别是在娱乐和教育领域,产生多说话人特 征的语音显示出很高的需求性,如戏剧、广播剧和电影罩的角色配音中( m a b c , 1 9 9 4 ) ,声音转换技术的运用,。可以将原演员的声音特征加入到本地化场景配音 中,使之更具原汁原味。 声音转换技术的优越性也将反映在超低带宽的语音编码领域。当语音编码系 统设计的传输速率为2 4 k b s 或更低时,在传输过程中将不再保留说话人的语音 特征【5 1 ,而只传输与说话内容相关的信号,使传输带宽得以高效利用。声音转换 技术则有可能在接收方重现解码语音,使其与传送人的说话人特征相匹配。 声音转换技术可用于保密通信中进行语音个性化的伪装,例如,通过语音转 换技术,按确定的一种规则改变话者语音的某些参数,再在接收端进行反变换, 合成出原来的语音,如果在传输过程中,被侦听,则听到的是另外一个说话人的 声音,达到说话人伪装效能。下图为一个简单的说话人信息保密语音传输系统: 图1 。l 说话人信息保密语音传输系统 声音转换思想在医学领域可以用于恢复受损语音,帮助声道受损的说话人的 语音提高可懂度。如喉切除手术后的病人,主要利用气管食管进行发音,所发出 第f 章绪论 的语音噪音成分大,清晰度低:采用声源取代等技术可以大幅度地提高语音的清 晰度,并恢复晚话人的个性特征。 在网络娱乐中。语音转换技术可以用于有声e 嚼1 a i l 和有声贺卡等网络娱乐 中给人们的同常生活增添乐趣。 声音转换技术还被用于情感语音合成,实现中性语句的韵律调节。 1 2 国内外研究现状 语音转换技术是近年来基于语音信号和信息处理研究领域的迅猛发展和大 量研究成果的基础上发展起来的一个新兴、具有巨大潜力的研究方向。在1 9 6 0 年代末1 9 7 0 年代初,人们已经开始研究语音转换,但直到近二十年,语音转换 爿引起人们的重视。目前,大多数说话人转换研究的重点是对语音短时参数的修 改,尤其是声道特征参数和基音频率的修改。 a t a l 和h a n a u e r ( 1 9 7 1 ) 研究了用l p c 声码器改变语音特性的可行性。在2 0 世 纪8 0 年代初期,s s e n e f 通过估计频谱包络的方法,将语音信号解卷积,得到语 音信号的激励,这一方法避免了提取基频的过程而可以实现对语音波形的基频和 频谱包络进行操作,一定程度上实现了说话人声音转换。 h 。k u w a b a r a ( 1 9 8 4 ) 发展了一种基频分析合成系统,可以调整基频、共振峰和 它们的带宽。线性预测系数( l p c ) ,残差信号,幅度和基频时长,从每个基音周期 中的语音信号获得:共振峰和它们的带宽从线性预测系数中得到,通过修改l p c 参数来实现它们的变换。由于分析是基音同步的,因此基频变换十分简单。一个 基音周期的残差信号的长度f 好就是该基音周期的长度,因此基频改变可通过对 残差信号的长度的改变得到。若提升基频,残差信号结尾处的一些数据被删除。 降低基频,增加一些零信号。修改后的残差信号通过参数更新的声道滤波器可以 产生新的语音信号。 c h il d e r s ( 1 9 8 5 ) 分析基于固定长度帧的非基音同步的方法和与信号相关的 方法,激励源信号采用脉冲信号、三角波信号、f a n t 的嗓音源信号、l f 微分声 门波信号以及d e g g 信号,并通过线性频谱搬移和分析合成的方法,进行男女音 之间的转换,取得较好的效果。 a b ee ta i ( 1 9 8 8 ) 提出了第一个比较成熟的蜕话人声音转换系统,该系统采 用了矢量量化技术和码本映射的方法,用码本来表示不同说话人的频谱特征,然 后用说话入的语音库进行训练,在不同的说话人之间建立谱包络、能最和基频之 间的映射关系,利用码本映射对语音进行参数转换,最后用l p c 合成器合成得 到转换后语音。其后n a k a m u r ae ta l ( 1 9 8 9 ) 运用模糊v q 方法对一般v q 做了改进, 3 第l 章绪论 提高了转换性能,而1 w a h a s h ie ta l ( 1 9 9 5 ) 提出用频谱插值法增强了码本映射技术 的曾棒性。 s a v i c ( 1 9 9 1 ) 提出了用多层神经网络代替了码本映射,来实现声音转换。 v a l b r e te ta l ( 1 9 9 2 ) 使用基音同步叠加法( p s o l a ) 调整激励信号的韵律特征来 改善语音频谱动态频率规整( d f w ) 变换后的声音转换性能( hv a l b r e t ,em o u l i n e s a n djpt u b a c h ,19 9 2 ) 。 r i n s c h e i d ( 1 9 9 6 ) 使用时变滤波器和拓扑特征映射实现了声音的改变。 a r s l a ne ta l ( 19 9 7 ) 提出了一种基于音素码本映射思想的转换算法,在统一的 系统框架内实现了线谱频( l s f ) 、基频、能量和时长等韵律的变换。t u r k ( 2 0 0 2 ) 在此基础上提出了基于子带频谱的改进算法。 n a r e n d r a n a t h 和w a t a i l a b l e ( 2 0 0 2 ) 分别用b p 和r b f 等人工神经网络方法实现 共振峰特性和l p c 频谱包络的变换。 近年来,很多学者开始在各种分析合成模型下对语音的谱特性和韵律特性 综合进行考虑,以求更实现更精确转变。像l a r o c h e ( 2 0 0 3 ) 应用t d p s o l a 技术在 不破坏转换后语音的共振峰结构情况下,实现了基频和时长的转变。 k u w a b a r a ( 2 0 0 4 ) 详细比较了语音时域模型、s i n u s o i d a l 模型和s t r a i g h t 模型下的 转换性能的优劣。 初敏等( 1 9 9 8 ) 提出了一种简单的基于时域的男女声转换的方法,在该方法中 采用了两个参数来控制转换过程:l b o p ( 1 0 wb o u n d a r yo fp i t c hr a n g e ) 参数和 s m f ( s a m p l e r a t em o d if i c a i o nf a c t o r ) 参数,其基频的转换是通过t d p s o l a 的办法,由于t d p s o l a 技术不能实现共振峰的转变,因此采用了改变采样频率的 方法来实现共振峰的转变。 研究者的工作大量集中在特定人声音转换。在非特定人声音转换方面,主要 集中在男声女声转换的研究,迄今为止还没有真正实现任意说话人之间的转换。 1 3 本文的主要研究工作 声音的产生机理表明,语音信号携带的信息可分离为声源信息和声道信息; 其中,激励源基音频率是主要的声源信息:声道信息主要由声道谱参数反映。在 l p c 合成器的基础上,通过对两类参数分别控制改变,可以实现不同效果的声音 转换。针对非特定人声音转换与源一目标说话人声音转换的不同要求,本文在 乙p c 合成器的基础上,主要研究基于基频的非特定人声音转换以及基于径向基函 数网络( r b f n n ) 的源一目标说话人声道参数转换。 4 第1 章绪论 各章节的内容安排如下: 第一章系统地阐述了语音信号的产生机理和声音转换的基本原理。首先介绍 语音信号的产生机理和模型,包括合成浊音和清音的声道模型与激励源模型。在 此基础上介绍了语音的线性预测分析及l p c 合成器。对基于l p c 合成器的声音 转换基本原理作了详细阐述,并给出基于基频的非特定人声音转换和源一目标声 道参数转换的系统框图。 第三章论述了基于基频的非特定人声音转换。非特定人声音转换要求改变 后语音的声音模式变得听不出是原话者所说,而且保持原有语义不变;通过控制 l p c 合成器中的基频参数在一定范围内变化,可以实现声音模式的转变且不会影 响原语义。通过对转换后语音的主观听觉判断可以直接获得实现声音模式变化且 不影响语义的基频变化范围,但要对大量语音进行试听费时费力;由于基频改变 的会引起转换后语音的谱包络变化,本章通过实验分析了主观听觉判断和客观平 均谱失真距离的关系,按经验获得在基频平移和缩放两种改变方法下的、适合大 多数人的、既能引起声音模式改变又不至于引起语义失真的基频改变范围,由此 范围指导基于基频的非特定人声音转换。 第四章论述了基于径向基函数神经网络( r b 卧玳) 的源一目标说话人声道参 数转换方法。该方法是一种分类线性加权的转换方法,首先,由源一目标说话人 的特征参数对r b n 心进行训练;在转换阶段,待转换源特征参数依照对隐层节 点的响应值属于各类,对代表各类转换规则的输出权矢量进行线性加权组合,得 到转换后的特征参数,可获得远大于分类数的转换规则,提高了转换算法的鲁棒 性。网络隐层节点中心训练的准确性对最终转换效果有较大影响。隐层节点训练 常用的f c m 算法得到中心依赖于初值、易陷入局部最优,本章给出了差分进化 f c m 算法来训练网络隐层节点,从客观谱失真来衡量转换效果,通过实验讨论 了基于改进方法训练网络隐层节点中心对最终转换效果上的改善。本章还通过实 验定性的讨论了训练集大小对谱转换精度的影响。 第五章是对本文的总结与展望。 5 第2 章声音转换基本原理 第2 章声音转换基本原理 声音的产生机理表明,语音信号可看成是激励源信号通过一个线性时变系统 产生的输出,这个线性时变系统就是声道。因而,通过变化激励源信号参数或声 道参数可以使声音模式改变,从而实现声音转换。本章从语音信号的产生机理入 手,介绍了语音信号产生的离散时域模型及线性预测分析,通过线性预测技术实 现声道和激励源的解卷分离,在此基础上介绍了l p c 合成器。然后详细阐述了基 于l p c 合成器的声音转换原理,并给出了基于基频的非特定人声音转换及源一目 标声道参数转换的系统框图。 2 1 语音信号的产生机理 制 联 禽遗 6 圈2 一人的发声器官j i 意图 图2 1 是人的发声器官解剖示意图( t h o m 雒f q u a t e r i ,2 0 0 4 ) 。其中人的声道包含咽喉、口腔和 鼻腔三部分。在发声机制中,肺的作用相当于 一个动力源,将气流送至喉部,喉将来自肺部 的气流调制为周期脉冲或类似随机噪声的激励 源,并送入声道,声带振动的基本频率就是基 音频率,其倒数为基音周期。声道包括口腔、 鼻腔和咽腔,它们对声源的频谱进行整形而产 生不同音色的声音。在发音过程中,随着发音 器官如口腔运动、舌位不同等因素使得声道的 传输函数发生相应的变化,从而产生了不同的 音素的发音。 声门 声门 脉冲 脉冲 发生 模裂 嚣 g ( z ) 声邀参数 图2 2 语音信号产生的离散时域模犁 语脊波形 信号s ( n ) 第2 章声音转换基本原理 语音的发声过程可以用图2 2 所示的语音信号产生模型来表示。语音产生模 型是浯音信号的数学建模。由语音信号的产生机理可知,激励源+ 滤波器模型较 好地表示了短时语音频谱,这种模型通过把频谱包络拟合到短时语音幅度谱上, 将声道近似为一个缓变滤波器。该模型包括三个部分:激励源、声道模型和辐射 模型( 杨行峻等,1 9 9 5 ) 。这样,语音信号可看成声源信号去激励一个时变线性系 统得到的输出响应。激励源又分为浊音和清音两部分,由浊音清音开关所处的 位置柬决定激励源的种类,从而产生浊音或清音。对于浊音语音,激励信号是一 个周期为。= 声的冲激序列,其中乃是语音信号的采样频率,r 是语音信 号的基音频率。该冲激序列通过一个声门脉冲模型滤波器g ( z ) 后,可具有声门 气流类似于“斜三角脉冲”阿实际波形,可令: 1 一c o s ( 报万i ) 】2 ,o i g ( 船) = c o s 刀( 耀一1 ) 2 m 】,l 理l + 2 ( 2 。1 ) l0 ,其他 式中,为斜三角波上升部分的时间;为其下降部分的时间。这样形成 的浊语音激励信号的频谱接近于声门脉冲的频谱。 对于清音语音,激励信号由一个随机噪声发生器产生,且噪声信号服从均值 为o ,均方差为1 的g a u s s 分布,自相关函数是一个单位冲激函数。 实际声道作为变截面无损声管研究,可看成p 段短声管的串联,而每段声管 的截面积是不变的,则其传输函数可用个全极点函数来表示,即: 1 y ( z ) = 可= _ 一 ( 2 2 ) 口,z “ ,= o 其中= l ,舀,为实数;在大多数情况下这个模型是与实际情况吻合的,但 对于鼻音、擦音而言,其声道传输函数中包含有限零点,这可用适当提高阶数尸 来使全极点模型逼近含零点的模型。 辐射模型j r ( z ) 可表示为尺( z ) = ( 1 一圮。1 ) ,l ,具体与嘴形有关。 对于不同的说话人,他们的激励源和声道传输函数都不尽相同。因此说话人 的信息是以某种方式包含在语音信号中的,对语音信号提取特征参数的目的就是 要将这种信息更好的反映,从而利于后端处理。 7 第2 章声音转换基本原理 存发者过程中,激励源和声道都在不断地改变着,但由于这个变化过程是缓 慢丽渐变的,可认为语音信号具有短时平稳性。所谓短时平稳,指的是在比较短 的段时间内,可近似认为是个平稳信号,因此,对语音信号进行分析和特征 参数的提取一般是分帧进行的,帧长一般为l o 3 0 m s ,帧与帧之间也可有交迭, 以使帧与帧之间的信号平滑过渡,保持其连续性。帧长和帧移的示例如图2 3 。 第( k + i ) 疃 一 第强+ 2 ) 峻 一 帧移帧 | 乏 图2 3 语音短时分析的分帧处理示意 2 2 语音的线性预测分析和l p c 合成器 声音转换的实现是建立在语音合成器基础之上的,不同的语音合成器选用的 合成参数是不尽相同的。l p c 合成器是最常用的一种合成器,我们选择l p c 合成 器作为声音转换系统所使用的合成器。 2 2 1 线性预测分析和线谱对参数的提取 由于人的发声器官的惯性,语音信号短时平稳性,即在“短时”内,语音信 号具有准周期性。语音信号的这种准平稳特性,决定大多数语音信号数字处理算 法和技术都建立在“短时”基础上,为了实现各种具体应用目的,要进行前端处 理,这包括:预滤波、采样、a d 变换、预加重、分帧等。 经过以上预处理后的语音信号就被切成分帧存储的离散数字信号,有两种方 法可实现声源信息和声道信息的离歼,一种是非参数解卷算法,像:同态信号处 理法:另一种是参数解卷算法,用的最广的就是线性预测( l p ) 分析法。 线性预测分析最早被用在语音编码中,在上世纪7 0 年代被i t a k u r a 用来 提取语音特征参数,在语音识别中获得了令人意外的效果。线性预测分析对语音 的产生过程有个基本的假设,即认为语音是由一个激励信号( 声门波形) 通过 一个滤波器( 滤波器的响应函数即声道的响应函数) 而得到的( t h o m a s f q u a t i e r i , 2 0 0 4 ,杨行峻等,1 9 9 5 ,j o h nm a i ( h o u l ,1 9 7 5 ) 。这个假设我们已在2 1 节通过图2 2 进行了简要介绍。因而如果我们通过对这个滤波器做一些假设,得到其表达形式, r 第2 章声音转换基本原理 便得到了对入的声道特征的一种参数化的描述。为了得到高效的求解算法,我们 假设这个滤波器具有全极点的频率响应。并且进一步假设激励信号是一个周期脉 冲序列或者个高斯白噪声序列。这些假设对于语音信号而言是非常合理的,因 此线性预测分析在语音信号的处理中获得了非常广泛且成功的应用。 设s ( 门) 是一个语音信号序列,并假设时刻玎之前p 个时刻语音波形的值已 知,则可用i 于矽个时刻的已知值的线性组合来预测鲤时刻的值,如果把预测值记 为;( 以) ,贝l j ;( 九) 石】以表示为: s ( 门) = 一q s ( 胛一f ) ( 2 3 ) ,= i 其中各系数口,皆为实数,称为预测系数,p 称为预测阶数,在语音信号处理 领域中,一般选在8 1 2 之间。预测值与真值之间的误差称为预测误差,用占铆) 表示: 。 卢 s ( ,z ) = s ( 聆) 一;( 玎) = s ( ”) + 口f s ( 玎一f ) ( 2 4 ) f 。j 在最小均方误差准则下,可以通过快速算法获得一组最优的系数 妊,f = 1 2 ,p ) ,此时由娩,f = l ,2 ,p 确定的全极点滤波器的响应函数便是 声道响应函数的近似值。图2 4 是某帧语音信号的短时频谱图和不同阶数l p c 分析得到的谱包络图( p = 1 0 、1 2 ) 。 ( a ) 预测阶数p = l o ( b ) 预测阶数夕= 1 2 图2 4 不同预测阶数卜l p c 对短时频谱的拟合程度比较图 ( 实线代表短时幅度谱,虚线代表乙p c 分析得到的谱包络) 通过上面l p c 分析法得到的声道模型的参数便是l p c 系数,这样用很少的 参数就能够有效而又f 确地表现声道短时频谱的性质,而且该技术有高效的递推 实现算法。但出于l p c 系数之间有着很大的相关性,转换中各维误差的积累, 会造成由转换后的l p c 系数重建的声道滤波器不稳定,故不便于直接用于后面 9 第2 章声音转换基本原理 的参数建模、映射函数的估计。目前较常用的是它的变形,如:线频率( l s f ) 、 i 。p c 倒谱系数( l p c c ) 以及通过频谱分析得到的共振峰参数。 线频辔l s f 参数集 u , ( f = l ,p ) ,也叫线谱对参数( l s p ) ,是与l p c 参数完全等价的声道全极点滤波器的另一种表示方式,它是在频域罩描述声道全 极点滤波器,而它有着更好的内插特性和量化特征( a k a i na n dm m a c o n ,1 9 9 8 , w b a s t i a a n t b 蕴c k s t r 6 ma n dp 。a i k u ,2 0 0 3 ) 。其中主要优点是: ( 1 ) 住求耿l s f 参数及其之后的转换中,如果保持l s f 参数的有序有界 性,就呵保证声道全极点滤波器是稳定的。 ( 2 ) 线谱对参数和线性预测系数是一一对应的关系,二者之间可以直接互 相转换。 ( 3 ) l s f 参数具有相对独立的性质,l s f 参数中某维的误差仅仅影响全极 点模型中临近这个参数对应频率处的语音谱,而在其他l s f 频率上变化很小。 ( 4 ) l s f 参数能够很好地反映声道幅度谱的特点,在幅度大的地方分布较 密,反之较疏。这样就相当于反映出了幅度谱中的共振峰特性。而语音幅度谱中 的共振峰分布虽然主要代表了语义信息,但对说话人特征也有不小贡献。 由于线频谱参数是频域参数,所以它和语音信号谱包络的峰有更紧密的联 系,l s f 的分析基础仍是全极点模型。我们知道( 韩纪庆,张磊,郑铁然,2 0 0 4 ) , 第i 阶线性预测误差滤波器传递函数的递推关系为 彳。( z ) = 彳”( z ) 一七,z 一1 爿1 ( z 一1 )( 2 5 ) 分别将后川= 一1 和七川= l 时的4 川( z ) 用尸( z ) 和q ( z ) 表示,可得: j p ( z ) = 彳( z ) + z 一尸+ 1 彳( z - ) ( 2 9 ( z ) = 4 ( z ) 一z p 1 么( z - 1 ) 。 这两个式子均为p + 1 阶多项式,由上述二式可直接得出 1 彳( z ) = 妄【尸( z ) + q ( z ) ( 2 7 ) z 它和合成器( z ) 之间满足关系么( z ) = 1 ( z ) 。当彳( z ) 的零点在z 平面的单位 圆内部时,尸( z ) 和q ( z ) 的零点都在单位圆上,并且尸( z ) 和q ( z ) 的零点沿着单 位圆随彩的增加交替出现。设尸( z ) 的零点为p 朋,q ( z ) 的零点为p 鹏,那么尸( z ) 和p ( z ) 可以写成下列因式分解形式 l o p ( z ) = ( 1 + z 一) 兀( i 一2 c o s q z 一+ z - 2 ) 一 ( 2 8 ) 口,2 q ( z ) = ( 1 一z 一) 兀( 1 2 c o s 包z 。1 + z t ) 第2 章声音转换基本原理 够和矽按下式关系排列 o 彩l ( 日 ,2 巳,2 厅 ( 2 9 ) 因式分解中的和9 成对出现,反映了谱的特性,因此称为“线谱对”,它们就 是线谱对分析要求解的系数。可以证明,p ( z ) 和q ( z ) 的零点互相分离,是保证 合成滤波器( z ) = 1 彳( z ) 稳定的充分必要条件。 求解线普对参数即求尸( z ) 和q ( z ) 的关于z 的根,也就是z 。1 有关的零点。当 爿( z ) 的系数( 线性预测系数 珥j ) 求出后,可以采用下面的代数方程求根的方 式求出p ( z ) 和q ( z ) 的零点。因为 n ( 1 _ 2 c 删z - l + z 邛z - 1 ) ”n ( 华一) ( 2 1 0 ) ,:l,2 i 。 将z :p ,一代到互兰芝得到 z + z 一1 = c o s = x 2 ( 2 i i ) 可以得到p ( z ) ( 1 + z 一) = 0 和q ( z ) ( 1 一z 一) = 0 的关于x 的一对p 2 次代数方程 组。对此可以用牛顿迭代法求解。 图2 5 给出了帧语音信号在频率域上的l p c 谱包络与1 2 阶l s f 参数对应 示意图,实线表示的是对该帧语音信号经过1 2 阶l p c 分析得到的声道传递函数 的幅度谱( 即该帧信号的短时频谱包络) ,虚线表示的是与l p c 系数对应的1 2 个l s f 参数在频率域上的分布位置。l s f 参数和语音信号谱包络的共振峰有密 切联系,共振峰对应于l s f 线谱对的密集区。 o0e 115 225 圃频率w 幽2 5 某帧语音信号频率域上的l p c 谱包络和l s f 关联图 5 0 5 o 5 0 一吞趸景世馨 第2 章声音转换基本原理 2 2 2 清浊音判决及基音频率的提取 1 、清浊爵判决 在语音信号处理中,对输入信号进行清音浊音的判别时是很重要的,只用一 种特 :| f 来作为话爵信号的清浊判决依据,容易发生错判。本文主要利用短时平均 过零率和短时甲均能量来进行清音和浊音的判断。 短时平均过零率是指在短时间段内,信号波形穿越零点平的次数。一帧语音 信号序列工( 月) 的短时平均过零率z 。的计算公式为: 乙2 墨 s g n 【x ( m ) 】_ s g n 晰删w ( 坨一m )( 2 1 2 ) = ls g n 【x ( ,2 ) 】一s g n 【x ( 甩一1 ) 】l w ( ”) 其中w ( 厅) 是窗函数,一般可用汉明窗。 s g n 【】是符号函数,它的表达式为: s g n c x c ,z ,= 二i ,二 :;三g c 2 t 3 , 语音信号能量随时间有相当大的变化,一般来说清音段的能量比浊音段的小 得多,所以,语音信号的能量是判决清浊音的一个重要参数。一帧语音信号序列 x ( ,? ) 的短时平均能量e 的计算公式为: e = b ( 聊) w ( 甩一脚) 】2 =【x ( 朋) w ( 行一m ) 】2 ( 2 1 4 ) 若令办( ,z ) = w 2 ( 胛) ,则短时平均能量可写为: e = x 2 ( 删) 向( 挖一聊) = x 2 ( 珂) ( ,z ) ( 2 1 5 ) 由i 语音信号具有清音部分能量低、浊音部分能量高,清音部分过零率高、 浊音部分过零率低的特点,可以通过统计得到清音和浊音的帧能量以及清音和浊 音的平均过零率,设定能量阈值为e q ,过零率阈值为z q 。这样我们计算每帧的能 量和过零率,若帧能量大于e q 且过零率小于z q ,判别为浊音;否则,判为清音。 2 、基于a m d f 的基频检测 从2 0 世纪6 0 年代至今出现了很多基音检测的方法,其中最具有代表性的就 1 2 第2 章声音转换基本原理 是平均幅度差函数f a m d f ) 榆测法和短时自相关函数( a c f ) 检测法等等。但是 剑日i ,j - 为止,都没有出现一个完善的适用于不同的说话人不同要求和环境,准确 和可靠的检测方法,自动基音检测的性能仍然对事先制订的规则和阈值有较强的 依赖性。由于a m d f 的计算只涉及加减运算,较之自相关函数法的乘法运算具有 更高的运算效率,因此在本文中我们采用基于a m d f 的基音检测方法。 对于一个周期为r 的信号s 例,在,= o ,丁,垃丁时,显然有 ,( 胛) = s ( ,z ) 一s ( 疗一,) = o 。虽然语音信号不是一个平稳的周期信号,但是在一个非 常短的时自j 刻度内,其中的浊音信号具有准周期性,即可以近似的看作是一个周 期信号。因此对于浊音信号来说,在基音周期的整数倍上,r f 行) 虽不为零,但也 将是一个非常小的值,因此定义一帧语音的短时a m d f 如下: n 一,一l 毛( ,) = 。j 靠( 以+ ,) 一( 门) j ( 2 1 6 ) n = 0 其中下标俄是帧的标号,为帧长。显然对于语音信号( ,2 ) ,当,等于基音 阁期整数倍时,其a m d f 值名( ,) 将达到极小值。如图2 ,6 所示,函数( ,) 值在基 音周期的整数倍上具有较大的谷值,因此只需要找出第一个具有最大谷值的地方, 然后计算它与户o 之间的间隔,从而可以得到基音周期的值。 uj s ,和p 0 7 cj i o 印 ; j ammf r, 邮 一帧浊音售号拨彤 豫7 滚 ! j “亩万一r 苗。 柏应 图2 6 某帧浊音信号及其a m d f 波形 然而,实际情况下的问题没有这么简单,会出现第一最大谷值的位置有时候不 1 3 第2 章声音转换基本原理 能和摹爵间期拥吻合。这主要是由于两个原因,首先,语音信号中包含着十分丰 富的谐波分量,基音频率通常在1 0 0 3 0 0 h z 左右,最低可达5 0 h z 左右,最高可 达4 0 0 h z 左右,因此丰富的谐波成分使得波形信号变得菲常复杂,实际检测到的 琏占频率往往钶町能只是其谐波频率;另外在浊音不占主要成分的语音段,语音 f 言弓的周期性不明显,频率成分复杂,也会导致a m d f 谷值并非实际基音周期的 情况。由于人的发声器官的惯性,语音中的基音频率是不可能发生突变的,而只 能在- 定范围内连续变化。考虑到基音轮廓的这种性质,我们可以对相邻帧之问 的基音跳变程度加以约束,从而找到一个最优的较平滑的基音频率的变化轨迹。 最优的基音变化轨迹可以通过动态规划( d y n a m i cp r o g r a m m i n g ) 算法实现。 考虑到实际问题的复杂性,我们提取基音周期的过程如图2 7 所示: 分帧、掘窗 i 彳了无基爵判决 。 以 0 对毖奇轨迹平滑滤波 幽2 7 基骨频率提取 为了消除第一共振峰以及低频成分对基音频率的影响,对语音信号先进 行5 0 5 0 0 h z 的前置带通滤波。 对滤波后的语音信号进行分帧,令帧长和帧移分别为3 2 m s 和1 6 m s ,并 对每帧进行均值规整。 0 对每一帧语音做a m d f ,得到若干基音候选值。 在时条语音的所有帧做完a m d f 后,对其基音候选值序列进行动态规 划,从而得到一一个最优的较平滑的基音频率的变化轨迹,同时进行有无基音 14 第2 章声音转换基本原理 频率的判决。 对基音频率序列进行平滑滤波。 图2 8 为采用上述基音提取方法对一段文本内容为“星星点点,若隐若现” 的语音信号迸行基音提取的结果,由图中可见该方法能够较为准确的提取语音信 号中的基音频率。 。山川。_ l 龇k - i i ll 蛐m f 。 。 娟峨嗍w 叩1 啊哪邳邢。 哪璎矽啊霸 孵啊叩。咿阿啊弋霸 图2 8 语音信号波形及其基音轮廓,文本内容为“星星点点,若隐若现”,从上至下 分别为语音波形信号、基音频率轮廓、平滑后的基音频率轮廓 2 2 3l p c 合成器 l p c 合成器由激励源和l p c 合成滤波器组成,如图2 9 所示,其中基频参 数、l s f 参数、增益g 参数是由语音信号的短时分析得到的。根据基音周期和清 浊音标志决定要采用的激励信号源,浊音帧用周期性冲激序列通过一个全通滤 波器来生成激励源,这个措旌可改善合成语音的尖峰性质;清音激励由随机噪声 发乍器产生。语著合成滤波器输入激励的幅度保持恒定不变,输出幅度受g 参数 加权。下面给出一组有4 1 个样点的浊音激励信号:e ( n ) = o ,0 ,o ,0 ,o ,0 , o ,o ,5 ,8 ,1 3 ,2 4 ,4 3 ,一8 l ,1 4 7 ,2 5 2 ,3 5 9 ,3 6 4 ,9 2 ,3 3 6 ,3 0 6 ,一3 3 6 , 9 2 ,3 6 4 ,3 5 9 , 2 5 2 ,1 4 7 ,8 1 ,4 3 ,2 4 , 1 3 ,8 ,5 ,0 ,0 ,0 ,0 ,0 ,o ,0 ,o ) 。 若当前的基音周期不等于4 1 个样点,则将此激励源截短或者填零。使之与基音 周期等长。每个基音周期更新一次声道参数、增益、基音周期、清浊音等参数。 合成时将l s f 参数交换成线性预测系数,应用直接型递推滤波器合成语音。 1 5 第2 章卢音转换基本原理 幽2 9l p c 合成器示意图 2 3 基于l p c 合成器的声音转换原理 从图2 9 的l p c 合成器可以看出,其激励源和声道参数是分开的,因而通过 分别控制改变声源参数以及声道参数,使合成语音与原语音的声音模式不同,实 现声音转换。图2 1 0 给出的是基于l p c 合成器的声音转换流程示意图。通过l p c 分析得到每帧待转换语音的声道参数,同时提取基频:声道参数经过一定的声道 参数转换规则,得到转换后的声道参数;基频经过一定的基频转换规则,得到转 换后的基频。最后,转换后得到的声道参数和基频通过l p c 合成器生成转换后 的语音信号。 图2 1 0 基于l p c 合成器的声音转换流程示意图 转 换 后 语 音 对于l p c 合成器,可以改变的合成参数有激励源的f o 以及l p c 合成滤波 器参数,两者可以一起改变,也可以只改变其一,改变的方法或规则也可有不同, 从而可以达到的转换语音效果也是不同的。 通常认为,激励中的f 0 与说话人声音模式的关联较大,其适当改变就可以 使晓话人的声音模式变化成另一个说话人,而且实现起来比较简单可行,但从转 换 二来讲比较粗糙。因此,适用于非特定人的声音转换。本文重点研究了适合大 第2 章声音转换基本原理 多数人的、不改变语义只改变原说话人声音模式的基频变化范围。 而对于源目标说话人声音转换,由于转换语音必须是某个指定的人,所以 对转换的要求高。声道参数中虽然更多的是语义信息,但是由于每个人发音器官 的物理特征以及发音习惯卜的差异,其中也有一定的说话人个性信息。声道参数 转换是种更精细程度上的转换,即对不同语音类实现不同的、更为精细的转换, 是实现源一目标说话人声音转换的重要方面。 针对两类不同的声音转换,本文分别研究基于基频的非特定人声音转换以及 源一目标 兑活人的声道参数转换。 2 3 1 基予基频的非特定人声音转换原理 在l p c 合成器的基础上,基于基频的非特定人声音转换系统集中在基频参 数的变换上,而声道参数保持不变。基频的改变要超过一定程度才会引起说话人 声音模式的显著改变,但基频的改变会对重新合成后语音的声道谱包络有影响, 由于声道谱包络包含语义信息,这样基频改变可能会引起转换后语音产生语义失 真。因此首先要找出使得转换后语音的声音模式改变且保持原语义的基频改变范 围,由此指导基于基频的非特定人声音转换。基于基频的非特定人声音转换框图 如图2 1 1 所示。 图2 1 l 基丁基频的非特定人声音转换框图 转换阶段,将待转换的语音基频和基频轨迹,根据事先得到的基频改变范围 进行改变,得到转换后的基频,最后由待转换语音的声道谱参数和转换后的基频 合成出转换后的语音。 2 3 2 源一目标话者声道参数转换原理 在l p c 合成器下,声道参数转换的是l s f 参数,它由训练或转换过程中的 语音分析阶段获得。源说话人的声道特征参数在一定的转换规则下,映射到一个 近似于目标说话人的声道特征参数集上;转换规则的获取是至关重要的。源一目 1 7 第2 章声音转换基本原理 标诵者声道参数转换的系统结构图可以描述为如图2 1 2 所示,它由训练模块和 车车换模块两大部分组成( 左国玉等,2 0 0 4 ) 。其中语音库是在训练过程中用于训 练数据和性能评估时用于测试的语音句子集合。 诽末 阶段: 转换 阶段: 图2 1 2 源一目标说淆人声道参数转换框图 在训练阶段,系统对源语音( s o u r c es p e e c h ) 和目标语音( t a r g e ts p e e c h ) 分别 进行分析并从每帧语音信号中提取语音声道特征参数。在分析完成后,训练过程 根据对应的语音将源一目标特征聚类分组,将这些语音特征进行关联,构造训练 数据。特征关联属性一般可由时间对准和分类过程得到,如动态时间规整( d t w ) 、 无监督隐马尔可夫建模或强制对准语音识别等过程。经过时间对齐后的数据被用 来估计出转换规则。特征参数在参数空间分布是较复杂的,故而不好直接在其上 找到帧级的转换舰则。由于属性相近的特征参数在特征参数空间中相距较近,故 可采取分类获取规则的策略,用一定的分类算法将其划分为多个不相重叠的子空 问,落在某个子空间的特征参数则具有相近的谱特性,将某些属性相近的帧归为 类,同一类的参数共享一个规则。 在转换阶段,首先对源语音进行分析提取源语音声道特征参数,并作类别判 断使用哪一类转换规则,然后再根据语音转换规则由这些声道特征参数来预测目 标语音的声道参数。 2 4 本章小结 本章介绍了语音信号产生的基本原理及其离散时域模型,并对声道和激励源 参数的提取方法作了详细的介绍。根据语音信号产生的声源一滤波模型,经过线 性预测分析把语音声源信息和语音声道信息分离开来,在通过l p c 合成器重新 合成器之自西,可以对不同声学参数进行独立操作实现声音转换。针对两类声音转 换的在声道参数和激励源参数转换方面的不同要求,阐述了基于基频的非特定人 声音转换原理以及源一目标说话人声道参数转换原理。 1 8 第3 章基】:基频的非特定人声音转换 第3 章基于基频的非特定人声音转换 本章

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论