(信号与信息处理专业论文)低信噪比下基音检测算法研究.pdf_第1页
(信号与信息处理专业论文)低信噪比下基音检测算法研究.pdf_第2页
(信号与信息处理专业论文)低信噪比下基音检测算法研究.pdf_第3页
(信号与信息处理专业论文)低信噪比下基音检测算法研究.pdf_第4页
(信号与信息处理专业论文)低信噪比下基音检测算法研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(信号与信息处理专业论文)低信噪比下基音检测算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中南大学硕士学位论文摘要 摘要 在语音信号数字处理的各个领域里,无论是语音分析与合成、语 音压缩编码,还是语音识别和说话者确认等,准确可靠地检测语音信 号的基音周期都是至关重要的任务。本文旨在寻找一种能在低信噪比 下仍能准确提取基音周期的基音检测算法。在研究经典小波基音检测 算法的基础上,结合t e a g e r h r 量算子( t e o ) 矛i 空域相关函数,提出了 一种基于提升小波的基音检测算法。论文的主要研究工作及成果有如 下几方面: ( 1 ) 对传统的白相关函数( a c f ) 方法进行了改进。在基音检测过 程的前端用低通、数值滤波等方法进行预处理;在基音检测过程的后 端对结果用搜索试探的平滑方法进行后处理。实验证明,与经典的 a c f 算法相比,在一般噪声环境下,该方法较好地克服了基音倍频和 半频错误。 ( 2 ) 研究了将提升小波变换用于语音基音的检测问题。小波变换 能够更好地分析信号奇异点的位置,论文在分析小波变换用于基音检 测的可行性和优点的基础上,将提升小波应用于基音检测算法中。与 传统小波算法相比,运算量减少一半;能够实现小波变换的原位计算, 整个计算过程不需要辅助存储空间。 ( 3 ) 在清浊音判决方面,首先提出了一种基于平均能量频带分布 和短时过零率的清浊音判决算法,由于平均能量频带分布区分浊音的 能力不稳定,有时主要依赖于过零率,从而使提取准确度下降。然后 基于t e a g e r 能量算子可以有效计算信号的“能量”,提出了一种基于 t e a g e r m m 量算子和提升小波变换的清浊音判决算法,通过大量的实 验,表明该算法能够更准确地提取出浊音段,具有更强的抗噪声能力。 ( 4 ) 在对浊音段检测基音方面,为了提高在低信噪比下基音检测 的正确率,采用对相邻尺度小波系数计算空域相关函数的方法来检测 浊音段的基音周期,并验证了它的有效性。该方法可以在锐化信号边 缘的同时抑制噪声,非常适合在强噪声下对信号提取基音周期。 关键词:基音检测,提升小波,t e a g e r 能量算子,空域相关函数 中南大学硕士学位论文 a b s t r a c t a bs t r a c t i na l lf i e l d so ft h ed i g i t a lp r o c e s s i n go fs p e e c hs i g n a l s ,f o ri n s t a n c e , s p e e c ha n a l y s i s ,s p e e c hs y n t h e s i s ,s p e e c hc o m p r e s s i o nc o d i n g ,a n d s p e e c hr e c o g n i t i o nc o n f i r m e db ys p e a k e r , e t c ,d e t e c t i n gp i t c hp e r i o d a c c u r a t e l ya n dr e l i a b l yi sa ne s s e n t i a lt a s k t h i sp a p e ra i m sa tl o o k i n gf o r ak i n do f p i t c hd e t e c t i o na l g o r i t h mw h i c hc a ns t i l lo b t a i np i t c hp e r i o di n l o w s i g n a l t on o i s e r a t i o n ( s n r ) o n t h eb a s e so fc l a s s i c a l w a v e l e t - b a s e dp i t c hd e t e c t i o n ,an e w p i t c hp e r i o dd e t e c t i o nm e t h o db a s e d o nl i f t i n gw a v e l e tt r a n s f o r mi s p r o p o s e dc o m b i n i n gt e a g e r e n e r g y o p e r a t o r ( t e o ) w i t hs p a t i a lc o r r e l a t i o nf u n c t i o n t h ep r i n c i p l er e s e a r c h w o r ka n da c h i e v e m e n t so ft h ep a p e ra r es h o w na sf o l l o w s : ( 1 ) a ni m p r o v e dp i t c hd e t e c t i o nm e t h o db a s e do nt h et r a d i t i o n a u t o c o r r e l a t e df u n c t i o n ( a c f ) i s p r o p o s e d u s i n ge f f i c i e n tp r e p r o c e s s i n g s u c ha sl o w p a s sa n dn u m e r i c a lv a l u ef i l t e rb e f o r et h ep r o c e s so ft h ep i t h d e t e c t i o n ;a f t e rt h ep r o c e s so ft h ep i t hd e t e c t i o n ,u s i n gs e a r c hs o u n do u t s m o o t h n e s sm e t h o d e x p e r i m e n t ss h o wt h a tt h i sa l g o r i t h mh a sab e t t e r r o b u s t n e s sa n dg r e a t e rp r e c i s i o no fp i t c hd e t e c t i o nc o m p a r e dw i t ht h e c l a s s i c a la c fu n d e rt h eg e n e r a lb a c k g r o u n dn o i s e ( 2 ) t h eu s eo fl i f t i n gw a v e l e tt r a n s f o r mi np i t c hd e t e c t i o ni ss t u d i e d t h ew a v e l e tt r a n s f o r mc a na n a l y s i st h eo d d i t yp o s i t i o no fs i g n a lb e t t e r t h a nt h eo t h e rm e t h o d s f i r s t l y , t h ep a p e ra n a l y s e st h e f e a s i b i l i t ya n d a d v a n t a g eo fw a v e l e tt r a n s f o r mo np i t c hd e t e c t i n g ,t h e nu s i n go fl i f t i n g w a v e l e tt r a n s f o r mi np i t c hd e t e c t i o n c o m p a r e dw i t ht h ec l a s s i cw a v e l e t a l g o r i t h m ,t h ea m o u n to fc o m p u t a t i o ni sd e c r e a s e dt oah a l f t h e a l g o r i t h mr e a l i z e st h eo r i g i n a lp o s i t i o nc o m p u t a t i o n ,a n dn oe x c e s s m e m o r yi sn e e d e di nt h ec o m p u t a t i o np r o c e s s ( 3 ) o nt h e d e t e c to fv o i c e d r e g i o n ss u b j e c t ,av o i c e dr e g i o n s d e t e c t i o n ( v r d ) a l g o r i t h mb a s e do nt h ef r e q u e n c yd i s t r i b u t i o no ft h e a v e r a g ee n e r g ya n dt h es h o r t - - t i m ez e r o - - c r o s s i n gr a t ei sp r o p o s e df i r s t l y , a n dt h i sv r d a l g o r i t h mi sn o tv e r ye x a c t l y , b e c a u s et h et h r e s h o l do ft h e f r e q u e n c yd i s t r i b u t i o no ft h ea v e r a g ee n e r g yi sc o n s t a n t ,s o m e t i m e s m a i n l yr e l yo nt h es h o r t - t i m ez e r o c r o s s i n gr a t e b a s e do nt e a g e re n e r g y o p e r a t o rc a ne f f i c i e n t l yd e t e c tt h e e n e r g y o fas i g n a l ,t h e na n o t h e rv r d i i 中南大学硕士学位论文 a b s t r a c t a l g o r i t h mb a s e do nt e oa n dl i f t i n gw a v e l e tt r a n s f o r mi sp r o p o s e d m 1h r o u g hal o to fe x p e r i m e n t sa n d s i m u l a t i o n s ,r e s u k ss h o wt h a tt h i sv r d a l g o r i t h mc a nm o r ea c c u r a t e l yd e t e c tv o i c e dr e g i o n sa n di sm o r er o b u s tt o w h i t eg a u s s i a nn o i s e ( 4 ) o nt h ed e t e c tp i t c hp e r i o di nv o i c e dr e g i o n ss u b je c t i no r d e rt o i m p r o v et h ea c c u r a c yo fp i t c hd e t e c t i o ni nl o ws n r a na l g o r i t h mb a s e d o ns p a t i a lc o r r e l a t i o nf u n c t i o nf o re s t i m a t i n gp i t c hf r e q u e n c y o n l yi n v o i c e dr e g i o n si s p r o p o s e d e x p e r i m e n t ss h o wt h a tt h i s m e t h o di s e f f e c t i v e t h ec o r r e l a t i o nf u n c t i o nu s e di n l i f t i n gw a v e l e t b a s e dp i t c h d e t e c t i o nc a ns h a r p e na n de n h a n c es h a r pe d g e sw h i l es u p p r e s s i n gn o i s e a sm e n t i o n e de a r l i e r , t h es p a t i a lc o r r e l a t i o nf u n c t i o ni sq u i t es u i t a b l ef o r p i t c hd e t e c t i o ni nl o ws n r k e y w o r d s :p i t c hd e t e c t i o n ,l i f t i n gw a v e l e t ,t e a g e re n e r g yo p e r a t o l s p a t i a lc o r r e l a t i o nf u n c t i o n i i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特另c l d h 以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:翅壅日期:生年 月生日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:捌垄丝 导师签名鳟日期:竺生年月旦日 中南大学硕士学位论文 第一章绪论 第一章绪论 本章简要回顾了语音基音周期的概念,阐述了基音检测的研究背景及研究现 状和存在的问题,然后介绍了论文的研究内容和主要工作。 1 1 引言 语音是语言的声学表现,语言是人类交流信息最自然、最有效、最方便的手 段在高度信息化的今天,用现代手段研究语音处理技术,使人们能更加有效地 产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要 的意义。 1 1 1 语音信号处理 语音处理的研究目标多种多样,所涉及的学科门类也是丰富多彩的,其中包 括了语音和语言学、声学、心理学、认知科学、计算机、数理统计、信号处理、 人工智能和模式识别等等,并且它始终与当前信息科学中最活跃的前沿学科,如 神经网络理论、小波变换理论、模糊集理论、时频分布理论和混沌与分形理论等 保持密切联系并共同发展着。语音处理研究者常常从这些领域的进展中找到突破 口,使语音处理技术研究取得突破性的进展,其研究成果具有重要的学术及应用 价值。语音信号处理主要包括语音识别、语音合成、说话人识别、语音通信和语 音增强等分支【l 】。f 语音识别就是将人工智能赋予计算机,使它能听懂人类语言,并迅速把声音 变成文字,真正实现人机自然语言通信。语音识别主要应用于计算机的语音输入 及声控设备等方面。 语音合成技术就是让计算机说话,把可视的文本信息转化为可听的声音信 息,它和语音识别是实现人机语音通信,建立一个有听和讲能力的口语系统所必 需的两项关键技术。语音合成主要应用于计算机语音响应系统、自动报时系统和 自动报警等领域。 说话人识别是语音识别的一种特殊形式。是通过处理接收到的语音信号,提 取相应的特征和建立相应的模型,然后据此做出判别。它主要用于找出包含在语 音信号中的说话人的个性因素分辨出不同人之间的特征差异。 语音通信讨论的主要问题是在保证一定音质的情况下尽量减少传输码率即 语音的压缩与编码问题。它应用于电话、广播等领域。 语音增强就是从带噪语音中提取纯净语音,也即语音消噪。语音增强主要应 中南大学硕士学位论文第一章绪论 用范围是降低听觉噪声、识别系统的预处理和线性预测编码的预处理,这种技术 对于语音识别和说话人识别是十分重要的。 语音信号分析是语音信号处理的前提和基础【2 1 ,只有分析出可表征语音信号 本质特征的参数,才有可能利用这些参数进行高效的语音合成、语音识别等处理, 其中基音周期是最重要的语音信号的特征参数。 1 1 2 语音信号的基音周期 人类的发音过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起 音频振荡而产生的。其中声道起始于声门而终止于嘴唇,包括咽喉、口腔;鼻道 则是从小舌开始到鼻孔为止。发音过程中声道各处的截面积取决于舌、唇等的位 置。图1 - 1 为声道的平面图。 1 上唇;2 上齿;3 上齿背;4 上齿龈;5 硬腭;6 软腭;7 悬雍垂;8 鼻腔; 9 咽部; 1 0 声带;1 1 下唇;1 2 舌尖;1 3 舌前;1 4 口腔;1 5 舌中;1 6 舌后 图1 - 1 声道平面因 人类发音过程有三类不同的激励方式,因而能产生三类声音:浊音、清音和 爆破音。当声道中某处截面积很小,气流高速冲过此处时产生湍流,气流速度与 截面积之比大于某个门限时便产生清音。如果声道某处完全闭合,然后突然释放, 这样产生的声音就是爆破音。而当气流通过声门使声带产生张驰振荡式振动,产 生一股准周期空气脉冲,这些空气脉冲激励声道,便会产生浊音,又称有声语音, 它携带着语音中的大部分能量。这种声带振动的频率称为基频,相应的周期就称 为基音周期l l j ,它由声带逐渐开启到面积最大( 约占基音周期的5 0 ) 、逐渐关闭 到完全闭合( 约占基音周期的3 5 ) 、完全闭合( 约占基音周期的1 5 ) 三部分组 成。基音周期具有时变性和准周期性,它的大小与个人声带的长短、厚薄、韧性 和发音习惯有关,还与发音者的性别、年龄、发音时的力度及情感有关,是语音 2 中南大学硕士学位论文 第一章绪论 信号处理中的重要参数之一,它描述了语音激励源的一个重要特征。基音周期的 估计称为基音检测( p i t c hd e t e c t i o n ) ,基音检测的最终目标是找出和声带振动频率 完全一致的基音周期变化轨迹曲线,如不可能则找出尽量相吻合的轨迹曲线。 1 2 语音基音检测的意义及影响基音检测的因素 1 2 1 语音基音检测的意义 在语音信号处理中,语音信号参数提取的准确性非常重要。只有获得准确的 参数,才能利用这些参数进行高效的语音压缩编码和解码,而在许多参数提取中, 基音周期的提取尤为重要,它直接影响到合成语音是否真实再现原始语音信号的 频谱。目前,语音信号的数字处理技术正在日益受到人们的关注,计算机语音输 入系统以及多种语音识别系统已经推向了市场。在这些系统当中,影响识别率和 实时性的一个重要因素就是基音检测的精度和快慢。语音的基音周期在诸如语义 及语音学知识的自动获取和产生、语病的诊断和深度聋耳助听设备的研制等与言 语相关的信息处理过程中扮演着极其重要的角色,能否简便而准确地从语音波形 中提取基音信息直接影响这些系统信息处理的准确性和可靠性【3 1 。 综上所述,基音周期在多个领域中有着广泛的应用,如:语音识别、说话人 识别、语音分析与综合以及低码率语音编码、发音系统疾病诊断、听觉残障者的 语言指导等。基音周期是描述语音激励源的一个重要特征,提取该参数是语音信 号处理中一个十分重要的问题,尤其是对汉语更是如此。因为汉语是一种有调语 言,基音的变化模式称为声调,它携带着重要的具有辨意作用的信息,有区别意 义的功能。无论是在说一个单音节,还是说一段连续语音,各个音节中的韵母段 的基音频率都是随时间变化的。基音频率的不同轨迹称为声调,汉语音节具有四 种声调,它们具有不同的轨迹,如图1 2 所示。在汉语普通话中,声调承担着构 字辨意的作用,语句的可懂度很大程度上依赖于声调。因为声调是调频形式的信 号,在很强的噪声环境中,声母、韵母都无法分辨时,声调仍可分辨,这时根 据声调和口型就可以对话。所以基音的提取和估计对于汉语的处理更是一个十分 重要的任务。 图1 - 2 声调的四种模式 中南大学硕士学位论文第一章绪论 1 2 2 影响基音检测的因素 由于声道的易变性及声道特征因人而异,而基音的范围又很宽,即使是同一 个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的 影响,因而基音周期的精确检测实际上是一见比较困难的事情,基音提取的主要 困难反映在: ( 1 ) 语音信号变化十分复杂,声门激励的波形并不是一个完全的周期序列。 在语音的头尾部并不具有声带振动那样的周期性,对有些清浊音的过渡帧很难判 定它属于周期性还是非周期性,从而对估计基音周期带来一定的影响。 ( 2 ) 从语音信号中去除声道的影响,直接取出仅与声带振动有关的声源信息 并非易事。如声道共振峰可能强烈改变声门波形的结构,从而严重影响激励信号 的谐波结构,会给基音检测造成困难。 ( 3 ) 语音信号是准周期的,且共振峰结构和噪声有时会影响波峰和过零率, 很难准确定位基音周期的开始和结束。 ( 4 ) 区分清音语音和低电平语音是导致基音检测困难的另一个重要因素。在 许多情况下,清音语音与低电平浊音段之间的过度段是非常细微的,确认它是极 其困难的。 ( 5 ) 在实际应用中,背景噪声强烈影响基音检测的性能。 ( 6 ) 基音周期变化范围较大,从低音男性的5 0 h z 到高音女性或儿童的 5 0 0 h z ,接近三个倍频程,这也给基音周期的检测带来了一定的困难。另外,浊 音信号可能包括很多谐波分量,而基波分量往往不是最强的分量,这些谐波成分 叠加在一起,使语音信号的波形变得很复杂,给基音检测带来困难,经常发生基 频估计结果比实际基音频率大很多。 由于这些困难,尽管基音提取的方法很多,但迄今尚未找到一个完善的方法 可以对各类人群( 包括男人、女人、老人、小孩及不同语种) 和各种环境条件情 况下都能获得满意的检测结果【4 】。 1 3 语音基音检测技术的研究现状和发展展望 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个 研究的重要课题,为此从语音波形中准确地提取基音的工作,使全世界的科学家 忙了几十年,从2 0 世纪6 0 年代以来出现了很多种基音周期检测方法,特别是在有 噪环境下的语音信号的基音周期检测方面更是提出了许多有效的方法。进行基音 检测方面早期研究工作的国家主要有美国等欧美国家,之后,我国在基音检测方 面,尤其是对汉语的基音检测工作也取得了很大进展。为了提高基音检测的准确 4 中南大学硕士学位论文第一章绪论 性,降低计算复杂度,人们已经从语音信号的时域、频域和时频混合域出发,开 发了许多基音检测算法。 1 3 1 时域算法 时域法的特点是比较直观且运算量小,缺点是抗噪声性能差,容易产生倍频 和半频现象,主要方法有自相关法,平均幅度差函数法等。 传统的自相关函数法( a c f ) 是r o s s 等人于1 9 7 7 年提出的 5 1 ,自相关函数法的 原理是周期信号的自相关函数将在时延等于函数周期的地方产生一个极大值,因 此通过计算语音信号的自相关函数可以估计信号的基音。这种算法的优点是算法 简单,提取出的基音周期较为精确,但通常要对语音信号进行中心削波预处理, 而削波电平门限的选择往往很难确定,如果选择的不好会使基音周期的估计出现 很大的偏差。这种方法受噪声的影响较大,抗噪性能较差。 传统的平均幅度差函数法( a m d f ) 是r o s s 等人于1 9 7 4 年提出的 6 1 ,当语音波 形达到最佳匹配时,平均幅度差函数有最小谷值点。平均幅度差函数法无需乘法 运算,因而算法复杂度小,但当语音信号幅度快速变化时,平均幅度差函数法估 计的精度会明显下降。 1 3 ,2 频域算法 频域法的特点是抗噪声的性能较好,但是算法比较复杂,运算量较大,主要 方法有普通频域算法和倒谱法等。 倒谱法是n o l l 由等人于1 9 6 7 年提出的【”,倒谱算法通过对信号的功率谱取对 数,再通过滤波或者再做一次傅里叶变换来把相当于频谱包络的慢变分量和相当 于基音谐波峰值的快变分量分开。这种算法的优点是对纯净语音的基音检测精度 较高,可以较好地从语音信号中分离出基音信息和声道信息( 共振峰信息) ,缺点 是算法比较复杂,反映基音信息的倒谱峰在过渡音和含噪语音中将会变得不清晰 甚至完全消失,抗噪性能也不是很好。 普通频域基音检测算法网在提高基音检测准确性的同时也增加了算法的复 杂度。当语音信号的共振峰能量较高,且出现位置和语音信号的基音频率比较接 近时,靠近共振峰的谐波提供了重建语音信号的主要能量,在这种情况下,频域 基音检测算法也有可能将第一共振峰频率错判为基音频率。 1 3 3 时频混合算法 时域算法和频域算法必须假定语音在段落内是平稳的,而且每段至少包括两 中南大学硕士学位论文第一章绪论 个基音周期。它们的缺点是:对基音周期变化较快的段不合适,不能同时适合高 音调和低音调语音,对带噪语音效果不好 9 1 。在有噪声干扰的情况下,它们都会 不同程度的出现倍频和分频误判的现象。近年来出现的能针对非平稳信号进行局 部分析的小波变换( w a v e l e tt r a n s f o r m ) 为基音周期的提取提供了一条新的解决途 径。 小波变换是一种时域一频域分析,它在时域一频域同时具有良好的局部化特性, 它可以根据信号的不同频率成分,在时域和频域自动地调节取样的疏密,经过若 干层次的小波变换后,其逼近部分变成一段很光滑的类似正弦波的信号,其中所 含的主要信息就是振荡周期。小波变换具有的这种良好的时频局部分析能力,非 常适合于探测正常信号中的突变,小波变换法通过检测变换后信号的最大值来检 测语音信号中的突变点,而在语音信号中,一个突变点即对应着一次声门的瞬间 闭合,相邻两次声门闭合的时间就是基音周期,所以可以使用合适的比例因子,利 用小波变换可以进行基音检测。据此,k a d a m b e 等将小波变换应用到语音基频提 取中,并演示了其相对于自相关法和倒谱法的优点【1 0 l 。 小波变换法不是建立在语音信号短时平稳性的基础上的,所以它能提取出精 确反映基音周期变化的动态基频包络,其他的短时分析的基音检测方法,由于都 是基于短时平稳假设的基础上的,所以实际上求出的是基音周期在某一段时间的 平均值。而小波变换法恰恰改正了这一固有的弱点。它能动态地随语音信号的周 期性变化而变化,不会因为语音的准周期性或某一段无周期性而影响提取效果, 所以,利用小波变换进行基音检测,可以随说话人的不同、语音段的不同精确地检 测出基音周期,从而构成了真正反映基音周期变化的基频包络。 1 3 4 改进算法和组合算法 上面介绍的都是基音检测领域比较常用的方法,每种方法都在一定环境下有 自己的优势。有的原理简单,计算量较小,但是均存在基音检测不够准确等缺陷。 有的则因为寻求较高的精度使计算复杂度大大增加。针对以上问题,又有新的基 音检测方法不断被提出,如变长的a m d f 法1 1 1 、循环的平均幅度差法 ( c a m d f ) 1 2 】【1 3 】、利用平均幅度差函数倒数作用与自相关函数以突出基音周期处 峰值的方法【1 4 】、采用不同的“高时窗函数”,在保证基频提取准确性的同时减 小基频搜索范围的倒谱改进算法【”】等。 k a d a m b e 提出的小波算法缺点是受大尺度平滑作用和噪声的影响,基音定位 容易产生偏差和漏报。针对k a d a m b e 算法的缺点,d u 提出了一种基于小波变换的 锥形检测算法【1 6 1 ,提高了声门关闭时刻的检测精度,降低了虚普率,并对噪声 有较好的鲁棒性,从而可以准确地获得语音信号的动态基频。锥形检测算法的缺 6 中南大学硕士学位论文第一章绪论 点是至少要在两个尺度空间的锥形域内进行局部极值搜索,计算代价较大; o b a i d a t 等通过尺度函数建立均方预测误差函数e ( 帕,选择使p ( 疗) 最小的尺度三, 在l + i ,l + 2 和l + 3 尺度上进行基音频率的提取,抑制高频噪声的同时提高 了基音频率提取的准确度【1 7 1 ;a k i m 等指出浊音频谱中包含有基音频率成分和谐 音频率成分i l s l 。从滤波器的角度看,小波变换可看作是相对带宽比为常数的带 通滤波器组,它能把浊音频谱分解成倍频带。这样,基音频率成分和谐音频率成 分就可以分开,基音频率便可提取;李香春等提出了一种基于多尺度边缘特征提 取的可在噪声环境下使用的基音检测算法【1 9 1 。该算法通过提取三个尺度空间的 小波系数的加权和的局部极值点,来获得基频的精确位置。 1 3 5 基音检测的发展展望 近几十年来,国内外专家学者提出的多种基音检测方法在处理理想环境下的 语音时都能达到很好的性能。但在实际应用中,语音信号的环境千差万别,有的 是安静环境,有的有强烈的背景噪声,有的方法没有考虑声道的影响,有的方法 没有考虑发音者的个体差异,有的方法在预处理和后处理上欠妥,而基音检测的 鲁棒性及准确性却与对象、方法、环境密切相关。这使得上述方法在运用中,在 安静的实验室环境下,有较高的准确性,但一到噪声环境,则准确性剧减。有的 对选定的人群有效,对任意的个体则性能陡降,有的在说话者情绪平静时有效, 但一遇情绪激动,则大打折扣。正是由于各种语音环境千差万别及语音信号自身 的复杂性,基音检测问题一直未能得到很好解决,人们至今仍在不断研究和改善 检测的手段和方法,以期改进其精度和鲁棒性。通常人们所遇到的语音信号都不 同程度地受到各种噪声的污染,有的背景噪声对语音信号的污染还非常严重,因 此,噪声环境下基音周期的准确提取已经引起人们的极大关注。从目前研究现状 来看,基音检测技术的研究热点和难点已经集中于处理低信噪比语音。比如近年 来新出现的利用时域信息的a p p 算法 2 0 l 、c a m d f 与频域算法的组合算法1 2 ”、基 于噪声白化过程的v l a m d f 算法 2 2 1 、基于最大似然函数与谐波模型的算法瞄1 等。 随着信息处理技术日新月异地发展,各种先进的基音检测方法将不断涌现,基音 检测的准确性及鲁棒性将逐渐得到改善。 1 4 本论文主要内容和组织安排 虽然基于小波变换的基音检测方法与传统方法相比具有较好的准确性和抗 噪声性能,但也仍有其不可忽视的缺点:在低尺度的小波系数中会存在许多由突 发噪声以及高次谐波引起的伪极大值点,而且由同一个声门关闭时刻引起的局部 极值点在不同的尺度下位置不尽相同,所以经典的小波变换算法提取基音周期容 7 中南大学硕士学位论文 第一章绪论 易引起虚警率和漏警率的增加;传统上,快速小波变换首先把信号分解成高通和 低通成份,并进行下抽样,然后对低通成份重复进行该过程直到所需要的变换级 数。经典的m a l l a t 算法依赖于f o u r i e r 变换,计算复杂,计算量较大。 鉴于上述情况,本人在深入研究小波变换的最新理论和传统基音检测方法的 基础上,针对现有基音检测算法在低信噪比条件下检测准确率大幅度降低的问 题,研究适应不同信噪比语音、更具鲁棒性的基音检测算法。并对大量语音进行 了基音检测,验证本算法的有效性。本文的工作主要体现在以下几个方面: ( 1 ) 对传统的自相关函数( a c f ) 方法进行了改进。在基音检测过程的前端用 低通、数值滤波等方法进行预处理;在基音检测过程的后端对结果用搜索试探的 平滑方法进行后处理。实验证明,与经典的a c f 算法相比,在一般噪声环境下, 该方法较好地克服了基音倍频和半频错误。 ( 2 ) 探讨了提升小波变换用于语音基音的检测问题。小波变换能够更好地分 析信号奇异点的位置,论文在分析小波变换用于基音检测的可行性和优点的基础 上,为减少计算量和存储量,将提升小波应用于基音检测算法中。 ( 3 ) 考虑到浊音段的提取对能否准确计算基音周期的重要性,采用小波变换 结合t e a g e r 能量算子( t e o ) 提取浊音段的算法。 ( 4 ) 为了提高在低信噪比下基音检测的正确率,采用对相邻尺度小波系数计 算空域相关函数的方法来检测语音信号的基音周期,并验证了它的有效性。 本论文共分为五章,各章内容如下: 第一章阐述了基音检测的概念及研究的意义,综述了语音基音检测的发展状 况,并简要介绍了本论文的主要研究内容及各章节的安排。 第二章从时域出发分别介绍了具有代表性的基音检测算法,并且在传统的自 相关算法基础上进行了改进,给出了一些有意义的实验结论。 第三章介绍了小波变换理论,然后通过分析传统小波的不足,引入了构造第 二代小波的提升方案,为基于提升小波的基音检测算法奠定了理论基础。研究了 利用小波变换的局部模极大值方法进行基音检测的原理,并提出了利用提升小波 的提升项检测基音的方法。 第四章针对经典的小波算法在低信噪比的环境下,容易引起清浊音判决错误 和检测结果不准确的这些不足,对低信噪比环境下清浊音判决和浊音段基音的正 确检测这两个问题进行了研究。利用1 e a g e r 能量算子,提出了一种提升小波变换 结合t e a g e r 能量算子的清浊音判决算法;为了在低信噪比下仍能准确的检测基音 周期,又提出将空域相关函数应用于小波变换中。该方法可以在锐化信号边缘的 同时抑制噪声,非常适合在强噪声下对信号提取基音周期。 第五章对全文进行总结和展望。 8 中南大学硕士学位论文第二章改进的自相关基音检测算法 第二章改进的自相关基音检测算法 经典的时域自相关函数( a c f ) 基音检测是其中一种性能较好的算法,然而 a c f 算法在无噪声环境下有时会发生基音倍频和半频错误,在噪声环境下,这 种错误的发生率显著增加。本章对传统的a c f 方法进行了改进,在基音检测过 程的前端和末端加入了有效的预处理和后处理技术。 2 1 语音信号的特性分析 语音信号的特性主要是指它的声学特性、语音信号的时域波形和频谱特性以 及语音信号的短时分析特性等。 2 1 1 语音信号的声学特性 语音信号的最基本组成单位是音素,音素可分为“清音”和“浊音”两大类。 音节是音素结合而成的语音流最小单位,是发声的最小单位。词是由音节结合而 成的更大单位。节奏群和句子是词的进一步结合。同一音素与不同音素结合时, 发音不同,如音素【s h 】在发“诗”这个音与发“书”这个音时,发音方式不完全 一样,前者是非圆唇音,后者是圆唇音。同一音素的不同发音方式称为音素变体。 一个音节由元音( v o w e l ) 和辅音( c o n s o n a n t ) 构成。元音是由声带振动发出来 的乐音,构成了一个音节的主干,无论从长度看还是从能量看,元音在音节中都 占主要部分。所有元音都是浊音。辅音则是由呼出的声流克服发音器官的阻碍而 产生的。发辅音时如果声带不振动,发出的辅音称为清辅音,如果声带振动,发 出的辅音则称为浊辅音。辅音出现在音节的前端或后端或前后端。在汉语的普通 话中,每个音节都是由“辅音一元音”构成的( 其中包括只有元音而没有辅音的纯 元音音节零辅音( 如“啊”) ) ,这种结构为c - v 。其他语系还可以出现v c 或 c v - c 结构。在汉语语音中,辅音也称为声母,元音也称为韵母。 声调是浊音的声带振动基频的不同轨迹 2 4 1 。无论在说一个单字或说一段连续 语音时,各个音节中韵母段的基频都是随时问变化的。相同声母和韵母构成的音 节随声调的不同而具有完全不同的意义,对应着不同的汉字,例如,妈,麻,马, 骂。声调在普通话中承担着重要的构字辨意作用,而在许多其他语种中,声调没 有这样的重要作用。 2 1 2 语音信号的时域波形和频谱特性 在时间域里,语音信号可以直接用它的时间波形表示出来,通过观察时间波 9 中南大学硕士学位论文第二章改进的自相关基音检测算法 形可以看出语音信号的一些重要特性。图2 1 是汉语拼音“z h o n gn a n ”的时间波 形。表示这段语音波形时采用的采样频率是8 k h z ,量化精度是g b i t 。图上标明了 时间及各个音节的起始位置由于在时域波形里各个单音节间不好明显地分界, 因此,图上标出的某个音的起点只是粗略的。观察语音信号时间波形的特性,可 以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。 从图2 1 可以看出,清辅音 出 i n 和元音 o n g a n 这两类音的时间波形有 很大区别。例如,音节 曲 ,以及 n 都是清辅音,它们的波形类似于白噪声, 振幅很小,没有明显的周期性;音节 o n g 以及 a n 都具有明显的周期性,且振 幅较大。它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的 间隔。 坦 罄 图2 - 1 “z h o n gn a n ”的时域波形图 如果考察其中一小段元音语音波形,从它的频谱特性大致可以看出它们的共 振峰特性。语音信号属于短时平稳信号,一般认为在1 0 3 0 m s 内语音信号特性基 本上是不变的,或者变化很缓慢。于是,可以从中截取一小段进行频谱分析。 图2 2 给出“z h o n g ”中音素 o n g 的傅立叶变换,时间大约在图2 1 中第8 0 0 采样点处开始。取时间波形宽度为2 5 6 个样本,因采样率为8 k h z ,则该语音段的 持续时间为3 2 m s 。从音素l o n g 的频谱图上能直接看出浊音的基音频率( p i t c h ) 及谐 波频率。在0 l k h z 之间几乎有7 个峰点,因此基音频率约为1 5 0 h z 。通过对比观 察时域波形图中l o n g 波形的周期之间的距离可以证明这里的推算是正确的。在 图2 1 中,采样点1 2 0 0 1 6 0 0 之间大约有7 个周期,由此可以估计周期约为1 4 0 h z , 1 0 中南大学硕士学位论文第二章改进的自相关基音检测算法 这两种结果是相当一致的。另外,从图2 2 中可以看出频谱中明显的有特性。同 时清辅音【z h 】傅立叶变换示于图2 3 中,可以看出频谱峰点之间的间隔是随机的, 表明清辅音【z h 】中没有周期分量,这与原来的预计是一样的。 捌 坚 图2 - 2 【o n g 的频谱图 图2 - 3 【z h 】的频谱 2 1 3 语音信号的短时自相关函数和短时平均幅度差函数 时域处理的基本手段是使用一个长度有限的窗序列似 ) 截取一段语音信号 中南大学硕士学位论文第二章改进的自相关基音检测算法 来进行分析,设原始语音信号取样序列为j ( 坊,其分成一些短段等效于乘以幅度 为1 的移动窗函数w ( n m ) 。屯( n ) 表示原语音信号j ( 帕经加窗处理后的离散序 列。 ( 1 ) 短时自相关函数 相关函数用于测定两个信号在时域内的相似性,自相关函数用于研究信号本 身,如信号波形的同步性、周期性,自相关计算在功率谱估计、线性预测分析和 基音检测等方面经常用到。设k ( 一) 是一段加窗语音信号,它的非零区间为 押= 0 ( n - 1 ) 。( ) 的自相关函数称为语音信号j ( 力的短时自相关函数,用 也( 七) 表示,它的计算公式为: 曲一i 1 凡( 七) = ( 甩) ( 疗+ = ( 盯) s ,o + 露) ( 2 1 ) i - 由n = o 浊音的短时自相关函数也呈现出明显的周期性,且其周期等于原始语音s ( 们 的周期【2 5 】:相反,清音语音由于具有随机噪声的特点,它的短时自相关函数不具 有周期性且随着k 的增大而迅速减少。因此可以利用这个特点来判断一个语音是 浊音还是清音,还可以以此确定一个浊音的基音周期。在决定基音周期时,利用 了短时自相关函数在基音周期的各整数倍点上具有较高峰值的特点。 ( 2 ) 短时平均幅度差函数 考虑到短时自相关函数计算中存在大量的乘法运算,计算量相对很大的问 题,引入了一种同自相关函数有类似作用的参量,利用差值计算代替自相关中的 乘法运算,即短时幅度差函数( a m d f ) o ( 七) 来求基音周期,它的计算公式为: n k - i o ( _ i ) = i ( 行+ j j ) 一( 酬 n - - o ( 2 - 2 ) 对于浊音信号s ( 嘭,0 ( k ) 也呈现周期性,与足,( t ) 相反的是0 ( i ) 在周期的 各个整数倍上o ( _ i ) 具有谷值而不是峰值。对于准周期性的浊音信号,其差值信 号在周期及其整数倍处的值虽不等于零但必然很小,据此可以进行清浊音判决并 估计浊音的基音周期1 2 6 。 图2 - 4 为一段浊音信号的短时自相关和短时平均幅度差示例。从图2 4 可以看 出,浊音信号的短时自相关和短时幅度差呈现出明显的周期性,且周期等于原始 语音s ( 功的周期。利用浊音的短时自相关函数和短时平均幅度差具有周期性的特 点,可以用它们来求浊音段的基音周期。 1 2 中南大学硕士学位论文 第二章改进的自相关基音检测算法 图2 - 4 浊音信号及其短时自相关和短时能量幅度差示例 2 2 传统的自相关基音检测算法 自相关函数可用来测定信号问的时域相似性。如果两个信号完全不同,相关 函数接近于零;如果两个信号波形相同,就会在超前、滞后处出现峰值。 短时自相关函数凡( 七) 具有以下性质【2 7 j : ( 1 ) 如果乱( 是周期信号。周期是p ,则 ) 也是周期信号,且周期相同, 即凡( 后) = r ( _ j + 尸) 。 ( 2 ) 当k = 0 时,自相关函数具有最大值,即在抽样o ,p ,垃p ,周期信 号的自相关函数达到最大值。 ( 3 ) 自相关函数是偶函数,即r 。( 七) = r 。( 一七) 。 清音信号没有周期性,它的自相关函数凡( i ) 也没有周期,凡( | ) 会随着k 的 增大迅速衰减;浊音信号具有准周期性,它的自相关函数凡( 七) 具有与( 行) 相同 的周期,浊音信号的自相关函数在基音周期的整数倍位置上出现峰值。因此检测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论