




已阅读5页,还剩77页未读, 继续免费阅读
(信号与信息处理专业论文)基音周期检测算法研究及在语音合成中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
太原理j :人学硕 ? 研究t 学位论文 基音周期检测算法研究及在语音合成中的应用 摘要 语音信号的基音周期是描述激励源的重要特征参数之一,准确的检测 语音信号的基音周期对高质量的语音分析与合成、语音压缩编码、语音识 别等都具有重要意义。本文讨论了几种常用的基音周期检测方法以及小波 变换和h i l b e r t h u a n g 变换,提出了抗噪性很好的自相关能量函数和幅度差 能量函数相结合的基音周期检测算法,并将h i l b e r t h u a n g 变换应用于 t d p s o l a 语音合成系统的基音标记中。 文中首先介绍了几种常见的语音基音周期检测方法如自相关函数法 ( a c f ) 、平均幅度差法( a m d f ) 、倒谱法。自相关函数方法适合于噪声环境 下,但单独使用经常发生基频估计结果为其实际基音频率的二次倍频或二 次分频的情况;平均幅度差法、倒谱法在静音环境下或噪声较小时可以取 得较好的检测结果,但在语音环境较恶劣、信噪比较低时,检测的结果下 降较快,难以让人满意。基于此,本文提出了一种抗噪性很好的自相关能 量函数( a c e f ) 和幅度差能量函数( m d e f ) 相结合的基音周期检测算法,抑 制了自相关函数不必要的峰值,提高了抗噪性,有效弥补了传统基音周期 检测算法的缺点。 论文介绍了小波变换理论,包括连续小波变换、离散小波变换、多分 辨率分析、m a l l a t 算法等,并通过实验分析了基于m a l l a t 算法的基音周期 检测方法一小波分解与重构算法( 高频置零) 以及在m a l l a t 算法基础上衍 生出的多孔算法。直接用m a l l a t 算法分解语音信号时,需要降采样,每一 级分解后的分量长度是上一级分解分量长度的一半;而采用多孔算法时是 直接对滤波器系数插值,每一级分解后的分量长度都与原信号的长度相等, 太原理1 人学硕1 二研究 f i l l _ 论文 有利于基音周期的提取。 论文介绍了h i l b e r t - - h u a n g 变换理论,并将它应用于基音周期检测中。 与传统方法相比,h i l b e r t h u a n g 变换不需要对语音信号进行短时平稳假设, 检测精度高,适应范围广,帧长大大增加;与小波变换相比,h i l b e r t - - h u a n g 变换依据信号本身的信息对信号进行分解,随信号本身变化而变化,表现 了信号内含的真实物理信息,具有更好的自适应性和优越性。 论文将h i l b e r t h u a n g 变换应用于t d p s o l a 语音合成系统基音标注 中,大大拓展t h i l b e r t h u a n g 变换的应用范围,并以实验证明:通常使用的 自相关方法只求得每帧语音信号的平均基音周期,然后对所求得的基音周 期在帧内采用插值技术标注,准确性不高;而用h i l b e r t h u a n g 变换方法给语 音信号做基音标注,基本检测出了一段语音信号的所有基音峰值点,体现 出每帧内微小的周期变化,比通常使用的自相关方法准确性高。 关键词:基音周期检测,小波变换,h i l b e r t - - h u a n g 变换,语音合成 太原理i :人学硕十研究生。学伊论文 s t u d yo f s p e e c hp l t c hd e t e c t i o n a l g o r l t h ma n dt h ea p p l i c a t l o nl ns p e e c h s y n t h e s i ss y s t e m a b s t r a c t p i t c hp e r io do fs p e e c hs i g n a li sav e r y i m p o r t a n tc h a r a c t e rp a r a m e t e rt o d e s c r i b et h ee x c i t a t i o ns o u r c e d e t e c t i n gt h ep i t c hp e r i o do fs p e e c hs i g n a l a c c u r a t e l yh a sv e r yi m p o r t a n ts i g n i f i c a n c ef o rs p e e c ha n a l y s i s a n ds y n t h e s i s , s p e e c hc o m p r e s s i o na n dc o d i n g ,s p e e c hr e c o g n i t i o n t h ep a p e rd i s c u s s e ss e v e r a l c o m m o nm e t h o d sf o rp i t c hp e r i o d d e t e c t i o na n dw a v e l e t t r a n s f o r m , h i l b e r t h u a n gt r a n s f o r m ,t h i sp a p e rp r o p o s e st h ea l g o r i t h mo fa u t o c o r r e c t i o n e n e r g yf u n c t i o n ( a c e f ) c o m b i n e dw i t hm a g n i t u d ed i f f e r e n c ee n e r g yf u n c t i o n ( m d e f ) w h i c hh a sg o o dp e r f o r m a n c ei na n t i n o i s e ,m e a n w h i l ea p p l i e s t h e h i l b e r t h u a n g t r a n s f o r mt op i t c h s y n c h r o n o u sm a r ko ft d p s o l as p e e c h s y n t h e s i ss y s t e m t h i sp a p e rf i r s ti n t r o d u c e ss o m ek i n d s o fc o m m o n l yu s e ds p e e c hp i t c h p e r i o d d e t e c t i o n f o r e x a m p l e a u t o c o r r e c t i o nf u n c t i o n ( a c f ) ,a v e r a g e m a g n i t u d ed i f f e r e n c ef u n c t i o n ( a m d f ) ,c e p s t r u me t c a c fi ss u i t a b l ef o r n o i s ee n v i r o n m e n t ,b u ti ti sp o s s i b l e t o p r o d u c e t h es i t u a t i o nt h a tp e r i o d e s t i m a t i n gr e s u l t s i sd o u b l eo rh a l ft i m e so ft h e a c t u a lr e s u l t s ,a m d fa n d c e p s t r u mc a nr e c e i v eg o o dd e t e c t i o nr e s u l t su n d e rs i le n c ee n v i r o n m e n to rl e s s n o i s ye n v i r o n m e n t ,b u tt h ed e c l i n eo f t h er e s u l ti sf a s tu n d e rb a de n v i r o n m e n to r l o ws n re n v i r o n m e n ta n dt h er e s u l tisd i f f i c u l tt ob es a r is f a c t e d t h e r e f o r e ,w e p r o p o s e dam e t h o dw h i c hh a sg o o da n t i n o is ep e r f o r m a n c e - - a u t o c o r r e c t i o n e n e r g yf u n c t i o n ( a c e f ) c o m b i n e d w i t hm a g n i t u d ed i f f e r e n c ee n e r g yf u n c t i o n ( m d e f ) ,i ti m p r o v e st h ea n t i n o i s ep e r f o r m a n c e ,c o m p e n s a t e st h es h o r t c o m i n g s i i i 太原理1 j 人学硕七研究生孚:位论文 o ft r a d i t i o n a lp i t c hp e r i o dd e t e c t i o nm e t h o de f f e c t i v e l y n e x t ,t h ep a p e ri n t r o d u c e st h ew a v e l e tt r a n s f o r mt h e o r y , i n c l u d i n g c o n t i n u o u sw a v e l e tt r a n s f o r m ,d i s c r e t ew a v e l e t t r a n s f o r m ,m u l t i r e s o l u t i o n a n a l y s i s ,m a l l a ta l g o r i t h m ,e t c t h i sp a p e rp r o p o s e dam e t h o do fp i t c hp e r i o d d e t e c t i o nb a s e do nm a l l a ta l g o r i t h m - - - ,w a v e l e td e c o m p o s i t i o na n dr e c o n s t r u c t i o n a l g o r i t h m ( h i g hf r e q u e n c ys e to ) a n dt r o u sa l g o r i t h mw h i c hi sd e r i v a t e df r o m m a l l a ta l g o r i t h m m a l l a ta l g o r i t h md e c o m p o s es p e e c hs i g n a ld i r e c t l y ,i tn e e d st o d r o ps a m p l i n g ,t h el e n g t ho fe a c hl e v e lo fd e c o m p o s i t i o nc o m p o n e n ti sh a l fo f t h el e n g t ho fd e c o m p o s i t i o nc o m p o n e n to ft h el a s tl e v e l ,b u tt h et r o u sa l g o r i t h m i n t e r p o l a t e s t ot h ef i l t e rc o e f f i c i e n t s d i r e c t l y ,t h el e n g t ho fe a c hl e v e l o f d e c o m p o s i t i o nc o m p o n e n ti se q u a lt ot h el e n g t ho ft h eo r i g i n a ls i g n a l ,i ti s c o n d u c i v et op it c hp e r i o de x t r a c t i o n t h i sp a p e ri n t r o d u c e sh i l b e r t h u a n gt r a n s f o r ma n da p p l i e si ti n p i t c h p e r i o dd e t e c t i o n ,c o m p a r i n gw i t ht r a d i t i o n a lm e t h o d s ,h i l b e r t h u a n gt r a n s f o r m d o e s n tn e e dt od oa s s u m p t i o no fs h o r t t e r ms t a t i o n a r yf o rs p e e c hs i g n a la n dh a s h i g h l yd e t e c t i o na c c u r a c y ,w i d e l ya p p l i c a t i o ns c o p e ,t h el e n g t ho ff l a m eg r e a t l y i n c r e a s e s c o m p a r i n g w i t hw a v e l e t t r a n s f o r m ,h i l b e r t h u a n g t r a n s f o r m d e c o m p o s e ss i g n a la c c o r d i n gt os i g n a l o w ni n f o r m a t i o n ,c h a n g e sw i t hs i g n a l i t s e lf , i tr e f l e c tt h er e a lp h y s i c a li n f o r m a t i o no ft h es i g n a la n dh a sab e t t e r a d a p t a b i l i t ya n ds u p e r i o r i t y i np a p e r , h i l b e n - h u a n gt r a n s f o r mi sa p p l i e di np i t c hm a r ko ft d p s o l a s p e e c hs y n t h e s i ss y s t e m ,i te x p a n d st h ea p p l i c a t i o ns c o p eo fh i l b e r t h u a n g t r a n s f o r m t h ee x p e r i m e n ts h o w s :t h ec o m m o n l yu s e dm e t h o d so n l yc a n a c h i e v ea na v e r a g ep i t c hp e r i o do fe a c hf l a m e ,a n dt h e nm a r kt h ep i t c hp e r i o d b yi n t e r p o l a t i o nt e c h n o l o g y , t h ea c c u r a c yi sn o th i g h m a r k i n gp i t c hp e r i o db y h i l b e r t h u a n gt r a n s f o r mc a nd e t e c ta l m o s ta l l t h ep i t c hp e a k s ,r e f l e c ts m a l l c h a n g e si nt h ef l a m e ,i th a sh i g h l ya c c u r a c yt h a na c f k e yw o r d s :p i t c hp e r i o d d e t e c t i o n ,w a v e l e tt r a n s f o r m ,h i l b e r t h u a n g t r a n s f o r m ,s p e e c hs y n t h e s i s i v 声明尸明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:查题日期:翅:查 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) 。 签 名: b力 飧躏 日期:旦堡:笪:垄 导师签名:塑缢 日期: 矿拿、占、l 太原理j ,人学硕士研究生学位论文 1 1 引言 第一章绪论 语音是语言的声学表现,语言是人类交流信息最自然、最有效、最方便的手段。在 高度信息化的今天,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、 存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。 语音处理的研究目标多种多样,所涉及的学科门类也是丰富多彩的,其中包括了语 音和语言学、声学、心理学、认知科学、计算机、数理统计、信号处理、人工智能和模 式识别等等,并且它始终与当前信息科学中最活跃的前沿学科,如神经网络理论、小波 变换理论、模糊集理论、时频分布理论和混沌与分形理论等保持密切联系并共同发展着。 语音处理研究者常常从这些领域的进展中找到突破口,使语音处理技术研究取得突破性 的进展,其研究成果具有重要的学术及应用价值。语音信号处理主要包括语音识别、语 音合成、语音压缩编码和语音增强等分支f j 】。 语音识别技术是指计算机系统能够根据输入的语音识别出其代表的具体意义,进而 完成相应的功能。一般的方法是事先让用户朗读有一定数量文字、符号的文档,通过录 音装置输入、存储! i i - i 算机,作为声音样本。以后,当用户通过语音以别系统操作计算 机时,用户的声音通过转换装置进入计算机内部,语音识别技术便将用户输入的声音与 事先存储好的声音样本进行对比。系统根据对比结果,输入一个它认为最“象”的声音 样本序号,就可以知道用户刚才念的声音是什么意义,进而执行此命令。因此通过语音 识别技术,计算机可以“听”懂人类的语言。 语音合成是人机语声的一个重要组成部分,语音合成技术赋予机器“人工嘴巴”的 功能,即解决让机器说话问题。是将计算机自己产生的或外部输入的文字信息,比如文 本文件内容、w o r d 文件内容等文字信息,按语音处理规则转换成语音信号输出,即使计 算机流利地读出文字信息,使人们通过“听”就可以明白信息的内容。也就是说,使计 算机具有了“说”的能力,能够将信息“读”给人类听。这种将文字转换成语音的技术 称之为文语转换技术,简称t t s ( t e x tt os p e e c h ) 技术,也称为语音合成技术。 语音编码就是将模拟语音信号数字化,数字化之后可以作为数字信号传输、存储或 太原理t 大学硕十研究生学位论文 处理,可以充分利用数字信号处理的各种技术。为了减小存储空间或降低传输比特率节 省带宽,还需要对数字化之后的语音信号进行压缩编码,这就是语音压缩编码技术。语 音压缩编码的目的就是用尽可能低的数码率获得尽可能好的合成语音质量,同时又要使 编码过程的计算代价尽可能小。语音压缩编码技术在移动通信、卫星通信、多媒体技术 以及i p 电话通信中得到普遍应用,起着举足轻重的作用。 语音增强就是从带噪语音中提取纯净语音,也即语音消噪。语音增强主要应用范围 是降低听觉噪声、识别系统的预处理和线性预测编码的预处理,这种技术对于语音识别 和说话人识别是十分重要的。 语音信号分析是语音信号处理的前提和基础,只有分析出可表征语音信号本质特征 的参数,才有可能利用这些参数进行高效的语音合成、语音识别、语音压缩编码等处理, 其中基音周期是最重要的语音信号的特征参数之一1 2 1 。 1 2 基音周期概述 1 2 1 基音周期的定义及意义 人在发浊音时,气流通过声门使声带产生张驰振荡式振动,产生一股准周期脉冲气 流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。这 种声带振动的频率称为基频,相应的周期就称为基音周期( p i t c h ) ,它由声带逐渐开启 到面积最大( 约占基音周期的5 0 ) 、逐渐关闭到完全闭合( 约占基音周期的3 5 ) 、完 全闭合( 约占基音周期的1 5 ) 三部分组成【3 1 。 基音周期的估计称为基音检测l a ( p i t c hd e t e c t i o n ) ,基音检测的最终目标是画出和 声带振动频率完全一致的基音周期变化轨迹曲线,如不可能则尽量找出相吻合的轨迹曲 线。 在语音信号处理中,语音信号参数提取的准确性非常重要。只有获得准确的参数, 才能利用这些参数进行高效的处理,而在许多参数提取中,基音周期的提取尤为重要, 广泛地应用于语音压缩编码、语音分析合成以及语音识别等方面,所以,准确可靠地估 计并提取基音周期对语音信号处理至关重要l s l 6 1 。它直接影响到合成语音是否真实再现 原始语音信号,影响到语音识别的识别率,影响到语音压缩编码的正确率。 2 太隙理一j :大学硕士研究生学伉论文 1 2 2 影响基音周期检测的因素 由于声道的易变性及声道特征因人而异,而基音的范围又很宽,即使是同一个人在 不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基 音周期的精确检测实际上是一件比较困难的事情,基音提取的主要困难反映在( 7 1 18 l : 1 ) 语音信号变化十分复杂,声门激励的波形并不是一个完全的周期序列。在语音的 头尾部并不具有声带振动那样的周期性,对有些清浊音的过渡帧很难判定它属于周期性 还是非周期性,从而对估计基音周期带来一定的影响。 2 ) 从语音信号中去除声道的影响,直接取出仅与声带振动有关的声源信息并非易 事。如声道共振峰可能强烈改变声门波形的结构,从而严重影响激励信号的谐波结构, 会给基音检测造成困难。 3 ) 语音信号是准周期的,且共振峰结构和噪声有时会影响波峰和过零率,很难准确 定位基音周期的刀= 始和结束。 4 ) 区分清音语音和低电平浊音段是导致基音检测困难的另一个重要因素。在许多情 况下,清音语音与低电平浊音段之间的过度段是非常细微的,确认它是极其困难的。 5 ) 在实际应用中,背景噪声强烈影响基音检测的性能。 6 ) 基音周期变化范围较大,从低音男性的5 0 h z 到高音女性或儿童的5 0 0 h z ,接近三 个倍频程,这也给基音周期的检测带来了一定的困难。另外,浊音信号可能包括很多谐 波分量,而基波分量往往不是最强的分量,这些谐波成分叠加在一起,使语音信号的波 形变得很复杂,给基音检测带来困难,经常发生基频估计结果比实际基音频率大很多。 由于这些困难,尽管基音提取的方法很多,但迄今尚未找到一个完善的方法可以对 各类人群( 包括男人、女人、老人、小孩及不同语种) 和各种环境条件情况下都能获得满 意的检测结果。 1 2 3 基音周期检测的国内外研究现状 尽管基音周期检测有许多困难,但因为它的重要性,基音周期检测一直是一个研究 的重要课题。为了从语音波形中准确地提取基音的工作,使全世界的科学家忙了几十年, 从2 0 世纪6 0 年代以来出现了很多种基音周期检测方法,特别是在有噪环境下的语音信 号的基音周期检测方面更是提出了许多有效的方法。进行基音检测方面早期研究工作的 国家主要有美国等欧美国家,之后,我国在基音检测方面,尤其是刈汉语的基音检测工 3 太原理1 大学硕十研究生学何论文 作也取得了很大进展。 为了提高基音检测的准确性,降低计算复杂度,人们已经从基于事件的检测方法和 非基于事件的检测方法出发,开发了许多基音检测算法1 9 1 。 ( 1 ) 非基于事件的基音周期检测方法 非基于事件的方法一般都先将语音信号分为长度一定的语音帧,然后对每一帧语音 求平均基音周期,相比基于事件的基音周期检测方法来说,它的优点是比较简单,主要 应用于只需要平均基音周期作为参数的语音编解码,语音识别。这些方法有:自相关函 数法1 1 0 1 1 1 1 、平均幅度差函数法n 2 1 1 1 和倒谱方法f 1 4 】。 传统的自相关函数法( a c f ) 是r o s s 等人于1 9 7 7 年提出的 1 5 1 ,自相关函数法的原理是 周期信号的自相关函数将在时延等于函数周期的地方产生一个极大值,因此通过计算语 音信号的自相关函数可以估计信号的基音。自相关函数方法适合于噪声环境下,但单独 使用经常发生基频估计结果为其实际基音频率的二次倍频或二次分频的情况; 传统的平均幅度差函数法( a m d f ) 是r o s s 等人于1 9 7 4 年提出的1 9 1 ,平均幅度差函 数法无需乘法运算,因而算法复杂度小。倒谱法是由n o l l 等人于1 9 6 7 年提出的1 1 6 1 ,这 种算法的优点是对纯净语音的基音检测精度较高,可以较好地从语音信号中分离出基音 信息和声道信息,缺点是算法比较复杂。 平均幅度差法、倒谱法在静音环境下或噪声较小时都可以取得较好的检测结果,但 在语音环境较恶劣、信噪比较低时,检测的结果下降较快,难以让人满意1 1 7 1 。基于此, 本文提出了一种抗噪性很好的自相关能量函数( a c e f ) 和幅度差能量函数( m d e f ) 相结 合的基音周期检测算法,这种方法有效弥补了传统基音周期检测算法的缺点,它继承了 自相关函数的抗噪性能,抑制了自相关函数不必要的峰值,迸一步加重了用于基音周期 判断的基音峰值点,提高了基音周期提取的准确性。 然而,由于非基于事件的基音周期检测方法都是建立在语音信号在一帧内是短时平 稳的基础上的,因此,从本质上说,这些方法都无法检测帧内的基音周期的非平稳变化, 检测精度不高,对于需要检测出一帧内每一个基音峰值点的语音合成系统来说,无法得 到很好的效果。于是需要能够检测出一帧内每一个基音峰值点的基于事件的基音周期检 测方法。 ( 2 ) 基于事件的基音周期检测方法 相比非基于事件的基音周期检测方法而言,基于事件的基音周期检测方法并不多 4 太原理一i 。,i 学硕:卜桫 究t 。f ,论文 见,如:小波变换方法l 博】【旧1 和 “】b e r t h u a n g 变换方法i s i ,这两种方法都具有跟踪基音 周期变化的能力,能将微小的周期变化检测出来。 小波变换在时域和频域都具有良好的局部性特性,它是一种信号的时间一尺度分析 方法,具有多分辨分析的特点,能有效的从信号中提取信息。小波就像一种共轭镜象滤 波器,每一次变换,就是把信号分成高频和低频分量,如果对变换后的低频分量再进行 变换,得到的将是更为低频的分量,逐次进行下去,就可以得到去除了高次谐波,保留 了基频的成分的低频分量,这样就得到近似于只有基频成分的波形,因此可以在时域上 得到所有的基音峰值点。 1 3hilb e r t - h u a n g 变换的概述及特点 h i l b e r t h u a n g 变换是一种基于事件的基音周期检测方法。它作为一种新的信号分析 方法,被成功地用于提取语音信号的基音周期,这本身是一个有意义的探索,它为拓展 h i l b e r t h u a n g 变换理论的应用给出了一个新的尝试【2 。 h i l b e r t h u a n g 变换是1 9 9 8 年o 闩h u a n g 等人提出的,h i l b e r t - h u a n g 变换( 简称h h t ) 时 是一种新型的信号的处理方法,非常适合处理非线性、非平稳信号。这种方法包括两个 过程:经验模态分解( e m p i r i c a lm o d ed e c o m p o s i t i o n ,e m d ) 矛i h i l b e r t 变换,其中最关键 的部分是e m d 方法。e m d 方法基于信号的局部特征时间尺度,能把复杂的信号函数分 解为有限个固有模态函数( i n t r i n s i cm o d ef u n c t i o n ,i m f ) 之和,每一i m f 所包含的频率成 分不仅与分析频率有关,而且最重要的是随信号本身的变化而变化,因此,e m d 方法是 自适应的信号处理方法。更重要的是对信号进行e m d 分解后,使得瞬时频率具有了物理 意义。这样,就可以对每一个固有模念函数进行h j j b e r t 变换,从而可以求出每一个固有 模态函数随时间变化的瞬时频率和瞬时幅值,这些瞬时频率和瞬时幅值可以揭示信号的 内在特征,最后的结果是随着时间和频率变化的幅值分布h ( o ,) ,称为h i l b e r t 谱。这种 分析方法的主要创新点在于提出了固有模态函数,使得信号的瞬时频率具有了物理意 义,从而能够得到非平稳信号完整的时频分布1 2 0 l 。 把h i l b e r t h u a n g 变换应用于基音周期检测的原理是:先对语音信号作h i l b e r t h u a n g 变换,得到瞬时频率和瞬时幅值,求h i l b e r t 谱:进一步求出瞬时能量,在声门脉冲发生的 时刻,语音信号的瞬时能量将大幅增加,求一阶导数得到瞬i , t i i 量的极大值,阈值判断, 得到所有峰值点,然后在原信号的这些点 一5 ,5 范围内寻找最大值点,即为基音周期点。 与传统方法相比,其优点主要表现在: 5 太原理一j _ :大学硕士研究生学位论文 1 ) 不需要对语音信号进行短时平稳假设,尽管实验中我们仍然对语音信号做了分帧 处理,但是分帧地目的仅仅是出于节省时间和区分清浊音考虑。 2 ) 检测精度高,适应范围广。这种高时频分辨能力和对数据地自适应能力在理论上 可以解释为由于h i l b e r t h u a n g 变换方法的高时频分辨能力和对数据的自适应能力所致, 在实验中也可以被来自不同性别,年龄,语音采集环境等的实际语音信号的检测结果所 证实。 3 ) 具有跟踪基音周期变化的能力。传统方法大都是建立在语音信号的短时平稳的基 础上,因而检测的基音周期是一个语音帧的平均周期。h i l b e r t h u a n g 变换打破了这种基 本假设,从本质上把数据看成是非线性的,非平稳的数据,因而检测结果更加符合客观 实际。 4 ) 与传统方法相比,帧长大大增加。因而,在提取连续语音信号的基音轮廓时,用 于分帧和拼合的开销大大减少,帧间拼合痕迹小。仿真数据和实际语音信号检测实验均 获得了相当精确的检测结果。 与小波变换相比,h i l b e r t - h u a n g 变换的优点主要表现在:它不像小波分析那样需要 预先选择基函数,在经验模态分解e m d 的分解过程中,基函数直接从信号本身产生,不 同的信号会产生不同的基函数,因此e m d 方法是依据信号本身的信息对信号进行分解, 得到的固有模态函数i m f 分量的个数通常是有限的,每一个i m f 所包含的频率成分不仅 与采样频率有关,而且最重要的是随信号本身变化而变化,表现了信号内含的真实物理 信息,所以说,h i l b e r t h u a n g 变换具有更好的自适应性和优越性。 1 4 语音合成概述 1 4 1 语音合成的国内外研究现状 语音合成技术涉及声学、语言学、数字信号处理技术、多媒体技术等多个领域,是 当今世昴强国竞相研究的热门技术之一。 国内外对语音合成技术的研究已有几十年的历史。2 0 世纪6 0 年代英文t t s 系统首先 被研制出来,8 0 年代我国丌始汉字t t s 领域的研究。中科院声学所首先开始汉语合成的 研究,之后,社科院语言所、清华大学、中国科技大学、北方交通大学等单位陆续开展 了对汉语t t s 的研究。同时,台湾交通大学、台湾大学和国际上的b e l l 实验室也研制汉 语t t s 系统。近年来,在国家“8 6 3 ”智能计算机主题的支持下,汉语t t s 技术有了长足 6 太原理j :人学硕十研究生学位论文 的进步。清华大学、中国科大、中科院声学所等单位都在这一领域取得了很好的成绩, 有些研究成果已经转化为产品得到了实际的应用。如清华大学的s o n i c 系统,中国科技大 学的d k 8 6 3 汉语文语转换系统,杭州- - :e 公司的中文t t s 系统,捷通公司的嵌入式t t s 汉语语音系统,讯飞公司的k d2 0 0 0 汉语文语转换系统等。世界上其它国家也已研究出 汉、英、法、日、德等多种语言的1 v r s 系统,血 i b e l l 实验室、a t r 并1 s i e m e n s 公司等。法 国c n e t 实现的多语种t t s 已用于电话网中的公共话音服务。1 9 9 9 年,在口语处理国际 会议期间还举行了语音合成系统的评比,有十几种语言的几十个系统参加,其中有5 个 是汉语系统1 2 2 1 2 引。 近1 0 多年来,“微软”、“i b m ”、“m o t o r o l a ”等国际巨头纷纷看好语音市场, 投入巨大的人力和财力进行研究,陆续出现了英语、日语、西班牙语和法语等语种的t t s 商品,尤其是英语t t s 系统的研究开发时间较长,其成果已应用在多语种语音翻译系统 中。例如,i b m 公司开发的智能词典2 0 0 0 ,采用了i b m 公司先进的t t s 技术对英文单词、 短语、句子乃至整篇文章进行准确发音;美国a t & t 开发的真人t t s 系统,它模拟的英 文发音几乎让用户无法分辨出真假;微软公司开发的s a p i s d k 语音应用开发工具包,对 英语和汉语的语音合成提供了强有力的支持。而近些年,国内在汉语语音合成方面也取 得了令人瞩目的成就,研发出了些基于汉语语音的t t s 系统,例如炎黄新星网络科技 有限公司在国内首创以时域合成方法实现的汉语t t s 系统;金山公司出品的金山词霸中 的朗读系统:万科数据电子出版社出版的汉语电子大百科:捷通华声公司研究出版的t t s 掌上计算机;华建机器翻译有限公司出品的华建多语译通v 3 0 等f 2 4 】。 1 4 2 语音合成技术的应用方向 t t s 技术己广泛用于电子文档的有声输出和声讯有声服务,例如o ( 1 ) 金融:帐目查 询、交易委托;( 2 ) 邮电:话费查询、话费催缴;( 3 ) 航运:货运查询、客运查询、票务处 理:( 4 ) 政府:税务催缴、工商服务;( 4 ) 企业:语音信箱、工业遥控;( 5 ) 教育:高考咨询、 辅教服务;( 6 ) 信息:中介服务、商情通告。 t t s 将在下面几个方向发展1 2 5 1 : 1 ) 提高语音合成的自然度,达到更加流利和自然的程度。 2 ) 丰富合成语音的表现力,使得t t s 技术可以实现各种音色( 包括不同性别、不同 年龄等) 的语音输出。 3 ) 解决中文与其它语种的混读问题。 7 太原理j :人学硕十研究生、何论文 4 ) 实现多语种的语音合成,郎实现方言、少数民族语言的合成技术。 5 ) 降低语音合成技术的复杂度,减少音库容量,扩大应用领域。 6 ) 与网络技术相结合。 7 ) 可视化的语音合成技术。 8 ) 为各行业提供t t s 核心技术和解决方案,特别是c t i 和嵌入式系统。 可以预料,随着t t s 技术的进步和t t s 与其它各种新技术的相结合,语音合成技术 必将在更为广泛的范围内得到推广和应用。 1 4 3t d p s 0 l a 语音合成系统中的基音标注 一个成功的语音合成系统应当包括语言学处理模块、韵律控制模块以及合成语音模 块: 1 ) 语言学处理模块包括文本规整、词的切分、语法分析和语义分析; 2 ) 韵律控制模块为合成语音规划出音段特征,使合成语音能正确表达语意,听起来 更加自然。 3 ) 合成语音模块中语音合成的方法主要有3 类:波形合成法、参数合成法和波形拼 接法。 波形合成法包括波形编码合成和波形编辑合成; 参数合成法是计算发音器官的参数,从而对人的发音进行直接模拟。参数合成方法 的优点是存储容量小,缺点是参数合成技术的算法复杂度太高,参数多,信息容易丢失, 合成出的语音的自然度和可懂度大打折扣; 波形拼接法是一种高级的合成法,它通过语音学规则产生语音。系统中存储的是最 小的语音单位的声学参数以及合成过程中用于韵律控制的各种控制规则,给出输入文本 后,该合成方法利用规则将它们转换成连续的语音声波。该合成方法最具代表性的是基 音同步叠加技术p s o l a ( p i t c hs y n c h r o n o u so v e r l a p a d d ) ,该方法既能保持所发音的主要 音段特征,又能在拼接时灵活调整其韵律特征。它以基音周期为单位进行波形的拼接和 修改,算法直接作用于语音波形的数据,实现语音的拼接,韵律的修改。它的提出使合 成语音的音色和自然度大大提高。其中t d p s o l a ( t i m ed o m a i n p s o l a ) 算法1 计算效 率较高,已被广泛应用,是一种经典算法。 t d p s o l a 语音合成系统韵律控制和合成语音模块采用t d p s o l a 算法,根据语 音学处理模块给出的这些韵律参数对原始音库中的音节进行韵律修改,最后将修改后的 r 太原理一i :人学硕七研究生学位论文 所有音节进行拼接,构成合成语句。 在t d p s o l a 语音合成系统中的韵律参数一基音标记部分,传统算法一般是采用 自相关函数法、短时能量法,算法主要分二部分:基音周期估计和基音标i 己。第一部分 用自相关函数或短时能量来估计语音信号的基音周期,第二部分再用大致标记位置的语 音进行调整,进行基音标记,该算法复杂度不高,但是由于在估计基音周期时存在加倍 或减半的错误,容易导致基音标注不准确。通过以上算法求得基音周期,实际上是只求 到每帧语音信号的平均基音周期。为了求得整个语音信号的基音周期,对所求得基音周 期在帧内采用插值技术,从而得到整个语音信号的基音周期。但是由于实际语音信号的 基音具有不完全周期性,即使是每帧内也有微小的周期变化,以上插值的方法检测不出 这种微小的变化,精确度不高。 本文算法是将h i l b e r t h u a n g 变换应用于t d p s o l a 语音合成系统中的基音标记 部分,它本身就是基于事件的基音检测方法,这种算法能够精确的检测出每一帧内每一 个声门脉冲发生时刻,再进行参数调整,检测到每一个声门脉冲发生时刻对应的每一个 基音峰值点,精确度很高,获得了较好的合成效果。 1 5 课题研究背景 随着越来越多的学者对语音基音周期检测技术的关注,大量的新的基音周期检测算 法相继被提出。通过大量的文献调研与实际研究发现,现有的各种语音基音周期检测技 术都存在各自的不足。 尽管语音基音周期检测的研究工作迄今已近几十年,取得了辉煌的成就,但是现有 的算法还而临着许多困难,具体表现在以下几个方面: 】) 语音基音周期算法的适应性差。主要体现在对环境条件的依赖性很强,一旦环境 改变,系统性能会严重下降。另外,全世界有近百种官方语言,每种语言有多达几十种 方言,同种语言的不同方言在语音上相差悬殊,这样,随着语言环境的改变,检测结果 可能也会变得很差。 2 ) 噪声问题,在强噪声干扰环境下语音基音周期检测困难。由于语音数掘大部分都 是在接近理想的条件下采集的,语音般都要在高保真设备上录制语音,尤其要在无噪 环境下录音。然而,当语音处理由实验室走向实际应用时,环境噪声的存在所带来的问 题就变得越来越重要 q 太原理l 人学硕一h , j f 究t 付论文 3 ) 为了更好的应用,理想的基音周期检测算法应具备以下特点:可靠性和鲁棒性、 低的存储器和计算资源消耗、实时性、稳定性、自适应性。 4 ) 现有的常用方法一般都是非基于事件的基音周期检测方法,都有一定的局限性, 它们一般都先将语音信号分成长度一定的语音帧,设置一定的帧移,然后对每一帧语音 信号求平均基音周期。不具有跟踪基音周期变化的能力,不能检测出该帧内的每一个基 音周期;在连续提取一段语音信号的基音轮廓时,用于分帧和拼合的开销大。 基于上述提到的噪声问题,本论文提出了一种抗噪性很好的算法一自相关能量函数 和幅度差能量函数相结合的基音周期检测算法来解决上述问题。基于局限性的问题,论 文对比了小波变换以及h i l b e r t - - h u a n g 变换两种基于事件的方法,它们都能检测出一帧 内的每一个基音峰值点,但是对于一段语音信号,h i l b e r t - - h u a n g 变换的自适应性对于 检测基音周期更具有普遍性和准确性。 1 6 论文内容安排 1 ) 第一章主要介绍了语音基音周期检测的定义、意义及目前基音周期检测面临的难 题;并综述了文中论述的小波变换、h i l b e r t h u a n g 变换以及h i l b e r t h u a n g 变换在 t d p s o l a 语音合成系统的基音标记中的应用。 2 ) 第二章介绍了几种常见的基音周期检测算法一自相关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 脑梗死护理查房
- 护士长个人年终工作总结
- 疝修补术护理业务查房
- 亲子园区讲解课件
- 计划主管年度总结
- 文创产品工作指南解读
- 事记叙文写作课件
- 《西游记》名著导读课件
- 社区常见护理技术
- 《茅屋为秋风所迫歌》课件
- 电商直播行业合规性风险管控与流程优化报告
- 第08讲+建议信(复习课件)(全国适用)2026年高考英语一轮复习讲练测
- 2025年小学部分国防教育知识竞赛答案
- 第五章-固定化酶
- 黔东松桃西溪堡锰矿床的成矿物质来源及成因研究
- 男生穿搭技巧学习通章节答案期末考试题库2023年
- 客运索道安全风险管控清单
- 质量管理发展史wj
- 乙型肝炎护理查房
- 电力客户的分级和分类及管理讲解课件
- 肾功能检查和电解质检测课件
评论
0/150
提交评论