(通信与信息系统专业论文)基于分形维数的语音端点检测算法研究.pdf_第1页
(通信与信息系统专业论文)基于分形维数的语音端点检测算法研究.pdf_第2页
(通信与信息系统专业论文)基于分形维数的语音端点检测算法研究.pdf_第3页
(通信与信息系统专业论文)基于分形维数的语音端点检测算法研究.pdf_第4页
(通信与信息系统专业论文)基于分形维数的语音端点检测算法研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(通信与信息系统专业论文)基于分形维数的语音端点检测算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 基于分形维数的语音端点检测算法研究 摘要 语音信号的端点检测技术就是从包含语音的一段信号中准确地确定语 音的起始点和终止点,区分语音和非语音信号。有效的端点检测技术不仅 能在语音识别系统中减少数据的采集量,节约处理时间,还能排除无声段 或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低 噪声段和静音段的比特率,提高编码效率。因此,端点检测是语音处理技 术中的一个重要方面。 在低信噪比的环境中进行精确的端点检测比较困难,尤其是在无声段 或者发音前后。本文首先总结了现有典型的语音端点检测算法,包括:基 于短时能量及过零率的语音端点检测算法、基于l p c 倒谱特征的语音端点 检测算法、基于熵函数的语音端点检测算法、基于隐马尔可夫模型( h m m ) 的语音端点检测算法和基于子带平均能量方差的语音端点检测算法。分析 了各种端点检测算法所选用的特征,并给出了部分算法的仿真结果。这些 方法在静音环境下或当噪声较小时可以取得较好的检测结果,但在语音环 境较恶劣、信噪比较低时,检测的结果下降较快,难以让人满意。随后在 前人工作的基础上提出了噪声环境下三种语音端点检测新算法。算法一: 提出了基于分形维数的语音端点检测方法。该方法利用了分形维数在噪声 情况下作为语音端点检测参数的优越性,克服了在噪声情况下判决门限难 以估计的问题。算法二:提出了基于分形维数和模糊r b f 神经网络的语音 端点检测方法。该方法结合了分形维数在噪声情况下作为语音端点检测参 数的优越性,以及基于信息熵和神经网络的语音端点检测方法避免设置阂 值的优点。仿真结果表明该方法对低信噪比信号,端点检测的准确率有一 定的提高。算法三:提出了基于i f 分形信号小波模型和模糊r b f 神经网 太原理工大学硕士研究生学位论文 络的语音端点检测方法。仿真结果表明该方法在常见的噪声环境下效果较 好,算法实现简单,环境适应性较强。 关键词:端点检测,分形维数,模糊r b f 神经网络,系数方差 太原理工大学硕士研究生学位论文 t h ee n d p o i n td e t e c t i o na l g o r i t h mo f s p e e c h b a s e do nf r a c t a ld i m e n s i o n a bs t r a c t t h ee n d p o i n td e t e c t i o nt e c h n o l o g yo fs p e e c hs i g n a li st oa c c u r a t e l y d e t e r m i n es t a r t i n gp o i n ta n de n d i n gp o i n tf r o mas e c t i o no fs p e e c hs i g n a l t h u s i tc a nd i s t i n g u i s hs p e e c ha n dn o n - s p e e c hs i g n a l e f f e c t i v ee n d p o i n td e t e c t i o nc a n n o to n l yr e d u c et h ea m o u n to fd a t ac o l l e c t i o na n ds a v et h ep r o c e s s i n gt i m e ,b u t a l s oc a ne l i m i n a t ei n t e r f e r e n c ef r o mt h es i l e n ta n dt h en o i s e i tc a ni m p r o v e p r o p e r t yo fs p e e c hr e c o g n i t i o ns y s t e m b e s i d e si tc a nr e d u c eb i tr a t eo f t h en o i s e a n dt h es i l e n ti ns p e e c hc o d i n gs oi m p r o v et h ec o d i n ge f f i c i e n c y t h e r e f o r e e n d p o i n td e t e c t i o ni sv e r yi m p o r t a n ti ns p e e c hp r o c e s s i n g i ti sab i td i f f i c u l t yt od e t e c te n d p o i n ta c c u r a t e l yi nl o ws n r ,e s p e c i a l l yi n s i l e n ts e g m e n ta n dp r e a n dp o s tp r o n u n c i a t i o n t h i sp a p e rs u m m a r i z e dt h e t y p i c a le n d p o i n t d e t e c t i o n a l g o r i t h m ,i n c l u d i n g t h e a l g o r i t h m b a s e do n s h o r t t i m ee n e r g ya n dz e r o - c r o s s i n gr a t e ,t h ea l g o r i t h mb a s e do nl p cc e p s t m m , t h ea l g o r i t h mb a s e do ne n t r o p yf u n c t i o n ,t h ea l g o r i t h mb a s e do nh m ma n dt h e a l g o r i t h mb a s e do ns u b - b a n da v e r a g ee n e r g yv a r i a n c e t h ep a p e ra n a l y z e dt h e d i f f e r e n tf e a t u r ea n dp r e s e n t e dt h e p a r t o ft h es i m u l a t i o nr e s u l t s t h o s e a l g o r i t h m sc a nh a v eag o o dp e r f o r m a n c ew h e ni t i sq u i e to rh a sas m a l ln o i s e b u tt h e r e s u l th a sar a p i dd e c l i n ew h e nt h ee n v i r o n m e n ti sb a da n ds n ri sl o w i 太原理工大学硕士研究生学位论文 t h ep a p e rp r o p o s e dt h r e em e t h o d so fe n d p o i n td e t e c t i n gi nn o i s ee n v i r o n m e n t t h ef i r s ti st h ee n d p o i n td e t e c t i o nb a s e do nf r a c t a ld i m e n s i o n i tu t i l i z e sf f a c t a l d i m e n s i o ns u p e r i o r i t ya n do v e r c o m e st h ed i f f i c u l t yo fd e c i s i o nt h r e s h o l di n n o i s ee n v i r o n m e n t t h es e c o n di st h ee n d p o i n td e t e c t i o nb a s e do nf r a c t a l d i m e n s i o na n d f t m z yr b fn e u r a ln e t w o r k t h i sm e t h o dc o m b i n e s t h e a d v a n t a g e so fb o t h f r a c t a ld i m e n s i o na n di n f o r m a t i o n e n t r o p ya n dn e u r a l n e t w o r kw h i c ha v o i dt h r e s h o l ds e t t i n g t h es i m u l a t i o nr e s u l ts h o w st h a tt h i s m e t h o di sb e t t e ri na c c u r a c yo fe n d p o i n td e t e c t i o ni nl o ws n r t h et h i r do n ei s e n d p o i n td e t e c t i o nb a s e do n1 f f r a c t a ls i g n a lw a v e l e tm o d e la n df u z z yr b f n e u r a ln e t w o r k t h ee x p e r i m e n ts h o w st h a ti th a sab e t t e re f f e c ti nn o r m a ln o i s e e n v i r o n m e n t t h ea l g o r i t h mi se a s ya n da d a p t a b l et oe n v i r o n m e n t k e y w o r d s :e n d p o i n td e t e c t i o n ,f r a c t a ld i m e n s i o n ,f u z z yr b fn e u r a l n e t w o r k ,p a r a m e t e r v a r i a n c e i v 声明和明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:旌熊丝。冒期: 阳毪;。啻 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为:目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) 。 导师签名: 太原理工大学硕士研究生学位论文 第一章绪论 1 1 语音端点检测研究的背景及意义 随着社会的不断发展,各种各样的机器参与了人类的生产活动和社会活动,人们发 现,人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式。于是, 语音,作为人类信息交流的最自然、最有效、最灵活而又最为广泛使用的途径,越来越 引起研究者的关注【l 卅。 随着现代科学和计算机技术的迅猛发展,人类进入了信息化时代,用现代手段研究 语音处理技术使人们能更加有效地产生、传输、存储和获取语言信息,这对于促进社会 的发展具有十分重要的意义。作为语音信号处理中的重要领域,语音识别技术其最大优 势在于能够使得人机用户界面更加自然和容易使用,也就是赋予机器听觉功能,在人机 通信中让机器能“听懂”人的语言,辨明话音的内容或说话人,并进一步使机器能够按 照人的意志来进行某种操作,从而把人类从繁重或危险的劳动中解脱出来【5 1 。, 对于一个完整的语音识别系统来说,许多相关因素都将直接影响整个识别系统的成 功与否。语音识别系统处理的对象是有效的语音信号,即排除了噪声段的纯净语音段【6 1 。 然而在实际环境中并没有完全纯净的语音信号,往往都伴有噪声和其他干扰。因此,首 先从背景噪声中检测出语音信号是语音识别系统中必要的预处理过程。如图1 1 所示: 语入| 端参语 点 - 数 立 一) ) 日 立 d 一 检分 r 识 日 、 信变 号换 测析别 图卜1 语音识别系统框图 f i g u r e1 - 1 s p e e c hr e c o g n i t i o ns y s t e md i a g r a m 端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信 号,并确定语音信号的开始及结束。有效的端点检测技术不仅能减少系统的处理时间、 提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续的识别性能得以较 大提高。 此外,在语音处理的许多场合,例如语音编解码和单信道语音增强等领域,都涉及 太原理工大学硕士研究生学位论文 到语音的起止点检测这一问题【7 j 。 对于语音编解码技术,降低比特率是其不断发展的目标和动力,因为比特率的降低 不仅可以提高已经很拥挤的信道的利用率,而且能使同样的存储芯片存储更多的信息, 减少手持设备的平均能量消耗,延长电池寿命。在人们通常的对话过程中,听起来连续 的语音信号其实是由一系列的无音片断和有音片断组合起来的。在背景噪声存在的情况 下,无音片断中主要以噪声为主,所携带的有用信息相对于有音片断要小得多。所以, 如果能将无音片断检测出来,则可以使用相对较少的比特数来表示,而不会改变解码端 的语音质量,从而降低语音编码的平均编码比特率。 在语音增强中,语音有音无音检测主要应用于基于单声道的语音增强技术中。此时, 噪声源是不可接近的,背景噪声的特性只能从带噪语音中获得。使用有音无音检测技术 分离出无音段,这时无音段中主要的表现为噪声特性,然后再通过某种统计方法,即可 获得对背景噪声特性的近似估计。 综上所述,在背景噪声或一定干扰下对语音的起止点做出准确的判定十分重要。错 误地决定起止点会导致起始子音的消失,或误以一串噪声为语音信号,从而不但会降低 工作效率,还会给语音识别或语音编码等项工作的正确性带来十分不利的影响。甚至可 以说,没有足够的起止点识别,后续工作往往劳而无功【8 j 。 1 2 国内外研究现状及存在问题 语音端点检测算法经过几十年的发展,产生了很多方法,而且随着语音技术在现代 科学中的重要性不断增大,也不断的有新方法被提出来满足需要。下面对端点检测研究 的发展作个简单的介绍【91 0 1 。 大部分传统的端点检测算法是基于线性预测编码( l p c ) 参数的( r a b i n e ra n ds a m b u r , 1 9 7 7 ) 。1 9 7 8 年【美】l r 拉宾纳将语音段的短时能量和短时过零率结合起来检测语音的起 始点和终止点。由于浊音段的短时能量较之背景噪声的短时能量高,而清音等一些音素 的短时平均过零率比背景噪声的过零率高出好几倍,两种结合起来成为区别语音信号和 背景噪声的一种有效方法。 1 9 8 7 年,j g w i l p o n 提出一种基于语音信号短时谱变化来确定字词的分段点的方 法。由发声器官的物理特性所决定,语音信号的特性随时问的变化是比较缓慢的,大致 可以认为在每1 0 3 0 m s 的时间间隔内信号的特性基本不变。对语音信号进行谱分析,用 2 太原理工大学硕士研究生学位论文 其谱的峰值点作为字词的分段点;同年,f r a n kk s o o n g 提出种基于复倒谱系数的分 段方法。 1 9 9 1 年j a np v a nh e m e r t 提出一种基于l p c 系数的分段方法,用两帧信号l p c 系 数的差异作为分段的依据;同年,a l j d j e 提出一种新的方法,首先用2 0 m s 窗取出一帧 信号,计算几个复倒谱系数及其增量,能量及其增量,两帧信号间有1 0 m s 的重叠。1 9 9 2 年t u c k e r 提出基于周期尺度的分段方法。1 9 9 3 年v r a l p ha l g a z i 提出一种基于似然比 例系数的分段方法。该方法首先对每帧语音信号建立一个模型,然后计算相邻两模型的 似然程度,以似然程度变化的峰值点作为分段点。 1 9 9 4 年e r d a l 提出一种基于语音参数的分段方法。首先通过一定的方法判断此语音 段是语音还是背景噪声。对于每个语音帧,将其分为4 个5 m s 的子帧。对于每个5 m s 的子帧,计算其较为重要的8 个参数:归一化的短时低通能量、归一化的短时高通能量、 过零率、低频带的一阶、二阶反射系数、前向后向匹配相关系数及它们的乘积。这些参 数描述了此语音信号的重要信息,继而用一定的算法进行推理,从而可以判定此信号是 发声段还是非发声段;同年h o y ta n dw e c h s l e r 提出基于能量水平、共振峰形状的端点检 测算法。 1 9 9 5 年e u v a l d of c a b r a lj r 提出一种基于轨迹分段的音素分段方法。该算法首先将 语音分成几个相等的时间段,每一段用一个n 维的矢量表示。根据误差相等的原则,将 原始信号归类成k 个段。同年,张刚等提出一种基于自相关系数的分段方法。 1 9 9 6 年t a h s i n l i 提出一种基于参数滤波的分段算法,该方法以参数滤波的手段测 度语音信号相关结构的变化;同年y o m a 等提出语音信号的自适应模型端点检测算法。 1 9 9 7 年s t a nm c c l e l l a n 提出一种基于谱熵变化的分段方法,该方法的抗噪性能较好。 1 9 9 8 年h o n g t a oh u 应用小波变换的技术进行语音端点检测,在降低计算量的同时 提高了算法的性能。同年b e r i t e l l i 等提出了基于模式识别的语音信号端点检测算法。 1 9 9 9 年s o h n 等人提出了基于统计模型似然比的端点检测算法,且该算法显示出良 好的性能。他们采用在离散傅立叶变换( d f t ) 系数域的统计模型,无论是噪声环境下的 语音和噪声谱分布均假设为联合高斯分布。2 0 0 3 年g a z o ra n dz h a n ga n dm a r t i n 提出了 利用拉普拉斯概率密度函数( p d f ) 为带噪语音和噪声谱建模,它被证明是一个更好的纯 净语音分布的模型。2 0 0 5 年s h i n 等人提出的广义伽玛分布提供了一个比高斯、拉普拉 斯和伽玛分布更好的纯净语音谱的模型。 太原理工大学硕士研究生学位论文 2 0 0 0 年w s h i n 等提出了使用六种能量特征进行端点检测:全能量、听觉频率范围 的能量:( 3 0 0 - - - 3 7 0 0h z ) 、高频噪声( 2 - - - 4l ( h z ) 、峰值、l p c 误差能量和噪声滤波后的能量。 其中,高频噪声有助于检测辅音,峰值有助于检测浊音部分,l p c 残差能量对汽车类的 低频噪声有一定抗噪能力,并且使用对非语音部分建模的维纳滤波器滤掉噪声。 2 0 0 6 年d y i n g 等提出基于噪声特征空间投影的鲁棒性端点检测算法。在能量域语 音与噪音通常有不同的分布,如果我们能分清含有低功率噪音和高功率语音的成分,我 们则有可能提取更多可靠的语音信息即使带噪语音的平均信噪比很低。为此,首先,用 主元分析( p c a ) 分析噪声观察值的估计协方差矩阵构造噪声特征空间。将带噪语音映射 到噪声特征空间。在具有较小特征值得子特征空间中可以找到可靠的信息。与规模较小 的特征值。因此,基于可靠信息就可以实现鲁棒性v a d 。 除了以上几种方法之外,近些年以来,还有基于信息熵的语音信号端点检测方法l l i j ; 利用小波的带噪声语音信号端点检测方、法1 1 2 j ;应用倒谱系数作为判决特征的带噪语音端 点检测方法【1 3 】,它包括应用倒谱距离测量轨迹和应用循环神经网络的方法。经过研究发 现,倒谱特征参数的语音信号端点检测方法在噪声环境下具有传统的能量方法无法比拟 的优越性。基于n m m 模型的检测方法也是语音信号端点检测中的重要方法【l4 1 ,用v i t e r b i 解码算法对待测信号进行分解,求出语音的哪些语音帧与模型相匹配,从而得出端点所 在处。实验表明这种方法的准确率明显高于基于能量的方法。但是 - m m 的训练环境通 常与实际被测信号的语音环境会有很大的差异,即背景噪声模型与实际情况不符合,此 时性能会显著下降。因此,必须采用能自适应调节的背景噪声模型,具体实现方法还在 研究中。另外,还有采用多层感知机m l p 网络实现语音信号端点检测的方法【l5 1 、采用自 适应线性神经元网络( a d a l 烈e ) 的端点检测方法【1 6 j 。 1 3 主要研究工作及论文内容安排 虽然,随着越来越多的研究者都来关注语音的端点检测技术,大量的语音端点检测 算法相继被提出来,但是在现有的语音检测技术中,仍然普遍存在着下面的几个问题: ( 1 ) 在判决端点位置时,大多数的端点检测算法都是基于语音信号的短时平稳假 设,以帧为单位进行检测,并且对判决结果进行平滑处理,因此,其判决结果也是精确 到帧,而非精确到采样点,即具体时刻的。 ( 2 ) 在低信噪比情况下这些方法都会因为特征不明显,判决门限难以估计而无法 4 太原理工大学硕士研究生学位论文 得到令人满意的结果。 ( 3 ) 这些方法基本都是依赖于语音本身音节特性对语音和噪声进行分割,绝大多 数算法在对以某些音开头的语音信号检测起点时,都存在困难,可能会导致起始子音的 丢失,如零声母开头或以清音开头的语音信号,原因是汉语的辅音大部分是清辅音,受 到噪声干扰时极易被噪声淹没。从这个意义上来说,即使是应用于语音识别的起止点检 测,其关键也是寻找语音的准确起始点。 ( 4 ) 目前现有的语音端点检测算法的抗噪声能力普遍不强。一般的算法最多能工 作在信噪比为0 d b 以上或接近0 d b ,而对于强噪声背景下的语音信号检测则无能为力。 基于上述提到的噪声和适应性的问题,本论文分别研究了基于分形维数、基于分形 维数和模糊r b f 神经网络、基于1 厂分形信号小波模型和模糊r b f 神经网络的语音端 点检测方法。第一种方法利用了分形维数在噪声情况下作为语音端点检测参数的优越 性,克服了在噪声情况下判决门限难以估计的问题。后两种方法利用各自参数的抗噪性 以及神经网络的分类能力避免了设置阈值这一难点。实验结果表明本论文所研究的三种 端点检测方法均有较好的检测结果。 本论文包括六章,具体内容如以下安排: 第一章是绪论,主要介绍了语音端点检测的背景及意义,研究现状及存在的问题。 第二章绍了常用的语音端点检测算法。包括短时能量及过零率,l p c 倒谱特征,熵 函数,隐马尔可夫方法及子带平均能量方差检测法。 第三章研究了基于分形维数的语音端点检测方法。本方法利用了分形维数在噪声情 况下作为语音端点检测参数的优越性,克服了在噪声情况下判决门限难以估计的问题, 并取得了较好的检测效果。 第四章首先分析了神经网络,模糊集合理论,以及模糊技术与神经网络结合形成的 功能强大的模糊r b f 神经网络,接着分析了模糊r b f 神经网络应用到语音端点检测的 可能性。利用分形维数良好的语音特性结合模糊r b f 神经网络出色的分类能力,提出 了基于分形维数和模糊r b f 神经网络的语音端点检测算法。介绍了该算法的实验步骤, 并对此方法进行了仿真实验。实验结果要好于基于信息熵和模糊神经网络的语音端点检 测方法。 第五章首先介绍小波分析的理论。小波变换是分析和处理1 厂信号的一种有力工 具。它是信号的一种时间一尺度分析方法,具有多分辨分析的特点,能有效地从信号中 太原理工大学硕士研究生学位论文 提取信息。对含噪语音进行小波分解,观察各层小波系数的统计特性,提取它们的方差 作为检测特征,结合模糊r b f 神经网络出色的分类能力,提出了基于l 厂分形信号小 波模型和模糊r b f 神经网络的语音端点检测算法。介绍了该算法的实验步骤,并对此 方法进行了仿真实验。实验结果表明该方法在低信噪比情况下也有非常好的检测结果。 第六章是总结与展望,对论文工作进行总结,并提出了论文下一步的工作及研究方 向。 6 太原理工大学硕士研究生学位论文 第二章常用的端点检测算法 由于端点检测技术在语音识别、远程通讯和语音编码等领域的广泛应用,学术界对 端点检测技术产生了浓厚的兴趣,提出了各种各样的算法。 在很长一段时间里,语音端点检测算法主要依据的是语音信号的时域特性。其采用 的主要参数有短时能量、短时平均过零率等,即通常说的基于能量的端点检测方法。这 些算法在实验室环境下具有良好的性能,但在噪声环境下,则无法达到其应有的效果。 近年来,随着通信业的迅猛发展,在各行业对通信系统语音质量的客观评价以及语音识 别方法等技术实用化的强烈需求下,又出现了很多的语音端点检测算法。它们主要是通 过采用各种新的特征参数,以提高算法的抗噪声性能。如基于1 9 9 4 年j u n q u ajc 提出 的时频( t i m e f r e q u e n c y ,t f 、) 参数的语音端点检测【l7 1 ,还有诸如倒谱系数、短时频带方 差、子带能量方差、自相关相似距离、信息熵等也逐渐的被应用到端点检测中。有时, 还通过将信号的几种特征组合成为一个新的特征参数来进行端点检测。对语音端点的判 决方式也由原来的单一门限、双门限发展到基于模糊理论的判决方式。 随着语音信号处理的进一步发展,一些非线性处理方法也逐渐发展起来。如混沌分 形理论、隐马尔可夫过程、人工神经网络等。 到目前端点检测的研究已经经历了几十年,产生了很多方法。这些方法大致可以分 为两大类:基于特征和基于模型的方法。 ( 一) 基于特征的方法,它又可分为基于鲁棒特征的方法和特征滤波的方法。基于鲁 棒特征思想的出发点是寻找能表征语音和噪音在不同域差异的特征来进行语音和噪音 时段的区分,所用特征主要有能量、子带能量、过零率、基频、周期度量、熵和能量方 差等。基于特征滤波的思想的出发点是对特征先进行滤波,然后进行端点检测,主要算 法有子空间滤波,能量差分自适应滤波等。 ( 二) 基于模型的方法,基于模型思想的出发点是针对噪音和语音进行建模用以来区 分语音时段。此类算法把语音信号端点检测问题看作是对每帧信号进行分类。该类算法 的优点是考虑到了语音帧之间的相关性及误差的概率最小。但主要缺点是采用这种算法 很难找到能显著区分浊音和清音的语音特征。 对于分类模型,一般是构成一个贝叶斯( b a y e s ) 分类器。然而,贝叶斯分类器的构成 需要关于分类数据的概率密度函数的先验知识,而这些知识常常在模式分类前是难以获 太原理工大学硕士研究生学位论文 得的。为了解决这些问题,本文中根据模糊集合理论,提出了一种基于模糊神经网络的 模式分类方法。该方法把模糊逻辑和神经网络结合起来,神经网络由不同类型的神经元 组成,实现广泛应用于模糊集合中的与、或和匹配等逻辑操作,以提高神经网络的在线 自适应、重叠分类的能力。实验结果表明,该方法是可行的,并且在分类效率和分类有 效性等方面,较其他的模式分类方法有很大的提高【1 8 j 。 2 1 短时能量及过零率 语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音 段的能量是噪声段能量叠加语音声波能量的和。在信噪比很高时,如果环境噪声和系统 输入噪声比较小,以至能够保证系统的信噪比相当高,那么只要计算输入信号的短时能 量或短时平均幅度就能够把语音段和噪声背景区分开。 设语音波形时域信号为x ( 0 、加窗分帧处理后得到的第n 帧语音信号( m ) ,则 毛( 聊) 满足下式: 吒( 川) = w ( m ) x ( n + 朋) 0 朋n - 1 ( 2 1 ) 州= 协:二巍 亿2 , 其中,刀= o ,1 t ,2 t ,并且为帧长,丁为( 帧长帧移) 的长度。 设第n 帧语音信号矗( m ) 的短时能量用e 表示,则其计算公式如下: e = ex :( m )( 2 3 ) 这种方法在背景噪声幅度保持恒定,且远低于语音信号幅度时,并且对孤立字的最 小帧数、最大帧数、句子间间隙的最小帧数,以及人为的突变性音节帧数有充分先验知 识的条件下,可以十分有效地准确检测出语音信号的端点。 然而,当该类算法在信噪比较低的情况下,检测性能开始恶化。在更恶劣的情况下, 甚至完全不能检测出其端点。因此,r a b i n e rlr 提出了在短时能量的基础上结合短时 平均过零率的双门限端点检测算法。 短时过零率表示一帧语音信号波形穿过横轴( 零电平) 的次数。对于连续语音信号, 太原理工大学硕士研究生学位论文 过零即意味着时域波形通过时间轴,而对于离散信号,如果相邻的取样值具有不同的代 数符号就称为发生了过零。窄带信号的过零率反映了该信号的频率。其中,当信号为单 一正弦波时,过零率为信号频率的两倍。对于宽带信号,为了反映过零率随时间的变化 不能采用长时过零率,而必须采用短时过零率,定义如下: 1 ,一l z 一= 寺i s g n k ( 聊) 】- s g n ( 朋一1 ) 】i ( 2 4 ) 厶加= o 式中,s g n 【】是符号函数,即: s g n e x ,= :l三三j ( 2 5 ) 基于短时能量和过零率的双门限端点检测算法如下: 先根据语音短时能量的轮廓选取一个较高的门限r l ,进行一次粗判。语音起止点位 于该门限与短时能量包络交点所对应的时间间隔之外( 即a b 段之外) 。根据背景噪声的 平均能量确定一个较低的门限t 2 ,并从彳点往左、从b 点往右搜索,分别找到短时能 量包络第一次与门限t 2 相交的两个点c 和d ,于是c d 段就是用双门限方法根据短时能 量所判定的语音段。 以短时平均过零率为标准,从c 点往左和从d 点往右搜索,找到短时平均过零率第 一次低于某个门限r 3 或高于某个门限t 4 的两点e 和f ,这便是语音段的起止点。注意, 门限t 3 ,t 4 ,是由背景噪声的平均过零率所确定的。门限t 2 ,t 3 ,t 4 都是由背景噪 声特性确定的,因此,在进行起止点判决前,通常都要采集若干帧背景噪声并计算其短 时能量和短时平均过零率,作为选择t 2 ,t 3 和t 4 的依据。当然,t 1 ,t 2 ,t 3 ,三 个门限值的确定还应当通过多次实验。 为减少背景噪声对检测结果精度的影响,针对汉语语音信号大部分以声母开始以韵 母结束的特点,在基于短时能量和过零率的双门限端点检测算法基础上,有人提出带背 景噪声动态估计的语音端点检测方法。计算语音信号的带门限短时帧过零率z 。: ,一l 乙= 1s n s ( , o - 7 1 - s n s ( 一1 ) 一刀| + f 鼢( 功+ 刀一醣匾s 积一1 ) + 刀i ( 2 6 ) 对背景噪声进行动态估计的带门限短时帧过零率z i 比不带门限短时帧过零率z 2 具 有更好的精度和鲁棒性。根据汉语语音信号的特点,针对背景噪声动态估计,及短时帧 9 太原理工大学硕士研究生学位论文 能量和带门限短时帧过零率在语音信号中的规律性,进行端点检测,适应变化的环境, 有很高的精度和鲁棒性。但常用的基于短时能量的端点检测方法对于能量较低的音节或 在信噪比较低的环境下,检测性能不够理想。 图2 1 是信噪比为1 5 d b 的带噪语音基于短时能量和过零率的双门限端点检测算法 的试验结果。其中图2 1 ( a ) 是一段带噪语音信号,图2 1 ( b ) 是语音信号对应的短时能量, 图2 1 ( c ) 是语音信号对应的短时过零率。 m1 哪 i w 5 0 0 0 0 硼0 帧数 图2 - 1 带噪语音及能量和过零率图 f i g u r e2 - 1 s p e e c hs i g n a lc o n t a i n i n gn o i s ea n di t se n e r g ya n dz e r or a t e 注:图2 - 1 中图( a ) 的采样点与图( b ) 、图( c ) 的帧数的对应方法:语音分帧帧长2 2 0 个点,帧移1 l o 个点,图a 的横坐标采样点个数7 8 2 7 ,通过换算公式: 总帧数= 器- - 1 可求得帧数等于7 。,这样采样点就跟帧数对应了起来,我们就 可以进行语音包络与短时能量和短时过零率值波形的比较了。下文用到的采样点与帧的 对应方法与此处相同。 从图中可以看出采用两级判别法实现语音端点检测,可以正确地识别出有效的语音 部分。但是,两级判别法的阈值都是事先在特定环境下根据经验设定的,当环境变化时, 阈值的可靠程度降低,故其抗噪能力将转弱。 2 2l p c 倒谱特征 倒谱能很好表示语音的特征,因此在大多数语音识别系统中选择倒谱系数作为输入 1 0 太原理工大学硕士研究生学位论文 特征矢量。在噪声环境下,短时能量与其他特征参数都不能很好地区分语音段与非语音 段,因此采用倒谱系数来作为端点检测的参数。 信号的倒谱定义为信号能量谱密度函数s 佃) 的对数的傅里叶级数,l o g s ( o ) 的傅里 叶级数表示式为: l o g s ( o ) = c 。e 叫。 ( 2 7 ) 式中c n = o 为实数,通常称为倒谱系数,且 铲西1e l 。g s ( o ) a ( 2 8 ) 对于一对谱密度函数s ( 国) 与s ( 国) ,利用p a r s e v a l 定理,其倒谱差异的均方值可用 倒谱距离表示: 略= 去胁s 白) - l o g s p 牡缈= 茎( c n c n 厂 ( 2 9 ) 式中,乞与分别表示谱密度s ( 缈) 与s 。( 缈) 的倒谱系数。 对数谱的均方距离表示两个信号谱的差别,故可用来作为一个判决参数。头际上, 由于c o 包含信号能量信息,基于能量的端点检测可以看作倒谱距离的一个特例;倒谱距 离的测量法步骤类似于基于能量的端点检测,只是将倒谱距离代替短时能量来作为特征 参数。首先,假定前几帧信号是背景噪声,计算这些帧的倒谱系数矢量,利用前几帧倒 谱矢量的平均值可估计背景噪声的倒谱矢量,噪声倒谱矢量的近似值可按下述规则进行 更新,即当前帧被认为是非语音帧: 一c = p ;+ ( 1 一p - ,( 2 1 0 ) 式中万为噪声倒谱矢量的近似值,c 为当前测试帧的倒谱矢量,p 为调节参数。 式( 2 9 ) 表示的倒谱距离可以利用式( 2 1 1 ) 来近似计算: 屯p = 4 3 4 2 9 ( 2 1 1 ) 式中蠢为对应于万的噪声倒谱系数,计算所有测试帧与背景噪声2 _ n 的倒谱距离可 得到倒谱距离轨迹。类似于基于能量的端点检测过程,利用倒谱距离轨迹可检测语音的 太原理工大学硕士研究生学位论文 端点。 图2 2 是原始语音及其l p c 倒谱距离图。其中图2 - 2 ( a ) 是一段原始语音信号,图中 竖线为用“l p c 倒谱语音端点检测”方法进行端点检测所得到的语音与背景噪声的分界 线。图2 - 2 ( b ) 是语音信号对应的l p c 倒谱距离图。从中可以看出语音信号的l p c 倒谱 距离要大于背景噪声的l p c 倒谱距离,于是可以利用两者倒谱距离的差异进行语音段 和背景噪声段的划分。 ( a ) ( b ) 器 4 5 0 4 0 1 3 3 5 1 3 图2 - 2 原始语音及l p c 倒谱距离图 f i g u r e2 - 2 o r i g i n a ls p e e c hs i g n a la n di t sl p c c 图2 3 是带噪语音信号及其l p c 倒谱距离图,其中图2 - 3 ( a ) 是信噪比为0 d b 的带噪 语音信号,图2 - 3 ( b ) 为带噪语音信号对应的l p c 倒谱距离。 x1 0 4 ( a )1 o 1 6 5 0 样点 f i 1 1 3 01 5 0 2 0 1 3 2 5 03 0 0 帧数 图2 - 3 带噪语音及l p c 倒谱距离图 f i g u r e2 - 3 s p e e c hs i g n a lc o n t a i n i n gn o i s ea n di t sl p c c 该算法实质上仍然依靠门限判决,从图2 3 中可以看出在信噪比非常低的情况下, 语音信号本身严重的谱失真会给门限的估计带来困难。另外一些非平稳噪声,如开关门 的声音,它们与一些语音信号的倒谱距离非常小,所以难区分当前是语音还是噪声。 1 2 太原理工大学硕士研究生学位论文 2 3 熵函数 熵是反映信息量大小的参数。依据语音信号幅度的变化,可计算得到语音信号的幅 度熵,且语音帧的幅度熵要大于背景噪声帧:语音信号经过傅立叶变换后,根据每个频 率分量的概率密度不同计算得到语音信号的谱熵,语音帧的谱熵要小于背景噪声帧的谱 熵。根据语音帧与背景噪声帧熵的差异,可使用一种基于熵函数的语音端点检测方法【2 0 】。 在信息论中,用熵函数表征信源输出的平均信息量。假设信源发出有限个符号 x 1x :,x n ,它们组成的输出序列前后符号之间相互统计独立,p 。,p :,所分别为,2 个符 号出现的概率,则信源的熵定义为: h ( x ) = 一p il o g 口岛( 2 1 2 ) i = l a 的取值是任意的大于1 的数,通常取口= 2 ( 信息量的单位为b i t ) 或口= p ( 信息量的单位为 n a t ) 。 信源的熵仅与符号的概率分布有关,是概率分布的函数,且具有这样的性质,当信 源月个符号的概率相等即p 。= p 2 = = 见= 二时取最大值,也就是说,信源符号的概率 分布越平坦,则熵值越大,其包含的平均信息量越大2 。 下面来构造用于语音端点检测的幅度熵函数,假设语音信号s ( n ) 的帧长为,在一 帧语音中最大幅度值与最小幅度值分别为m 、一m ,分别统计这一区域中 s ( n ) = 暑,墨( - m ,m ) 出现的次数n i ,并将比例n i n 作为出现薯这一值的概 率:只= 啊n 。显然,b = 1 。定义此帧语音的熵为: m h = 一p fl o g 口p j( 2 13 ) 由于语音信号的幅度相对于背景噪声而言其幅度的动态范围大,因此直观地讲可以 认为随机信号在( m ,一m ) 中的随机事件多,故平均信息量大,也就是熵值大而无声状态 的幅度小、分布相对集中,因而熵值小。 在构造出了熵函数之后就可以计算出每帧语音信号的信息熵,正如上面所述背景噪 声信号的熵值小而浊音信号的熵值大。因此可以这样来进行端点检测,首先通过实验确 太原理工大学硕士研究生学位论文 定一个阈值h ,然后对每帧语音的熵值进行比较,大于h 为语音帧,小于h 则为无声帧, 即为语音的端点。 舰麓 ( 2 1 4 ) 图2 - 4 ,e e l 原始语音及其幅度熵图,其中1 蛩2 - 4 ( a ) 是一段原始语音信号。该波形是8 k h z , 1 6 b i t 采样条件下“我到北京去 波形的一个样本。图中竖线为用幅度熵语音端点检测方 法进行检测所得到的语音与背景噪声的分界线。图2 4 ( b ) 为语音信号对应的幅度熵。从 图2 4 中可以看出幅度熵反映了语音信号的包络,且语音信号的幅度熵值要大于背景噪 声的幅度熵值。因此我们可以利用这个特性来进行语音与背景的区分。 ( a ) 1 0 0 0 0 1 0 0 口 _ i l u 1 i i 。 i l l 一- r r r 1_ r r ”r -_ 图2 - 4 原始语音及幅度熵图 f i g u r e2 - 4 o r i g i n a ls p e e c hs i g n a la n di t sa m p l i t u d e - e n t r o p y 图2 5 是带噪语音及其幅度熵图,真中图2 5 ( a ) 是信噪比为o a b 的带噪语音信号。图 2 - 5 ( b ) 为带噪语音信号对应的幅度熵。从图2 5 中可以看出在噪声情况下语音信号的幅度 熵值在噪声段和语音段的边界处变化不明显,很难判断语音起止点。 ( a )1 0 0 0 0 1 0 0 0 图2 - 5 带噪语音及幅度熵图 f i g u r e2 - 5 s p e e c hs i g n a lc o n t a i n i n gn o i s e a n di t sa m p l i t u d e - e n t r o p y 1 4 太原理工大学硕士研究生学位论文 下面来构造用于语音端点检测的谱熵函数2 2 1 ,首先通过快速傅立叶变换( f f t ) 彻j 每一帧信号的频谱,其中每个频谱向量的系数表明了该帧信号在该频率点的大小分布。 然后计算每个频谱分量在每帧总能量中所占的比例,将其作为信号能量集中在某频率点 的概率,则每个频率分量的归一化谱概率密度函数( p d 0 如式( 2 1 5 ) 所示: p ,:盟i - l ,2 ,棚 ( 2 1 5 ) x ( z ) 其中p ,是某频率分量的概率密度。x ( ,) 表示频率z 处的振幅,z 是帧长。因此, 对于第i 帧的语音谱熵定义如式( 2 1 6 ) 所示: h ,= 一p 女l o g 。p i i = 1 , 2 ,n( 2 1 6 ) n 为语音信号的帧数。 谱熵检测的实质是通过检测语音信号频谱的平坦程度,从而达到语音端点检测的目 的。背景噪声段的能量在各频率处的分布比较平稳,反映到信息量上认为其所含的平均 信息量即谱熵比较大;而对于语音段它的能量集中于某几个频段,起伏突变大,那么它 所含的平均信息量即谱熵就比较小。并且理论上,如果谱的分布保持不变,信号幅度值 的大小不会影响式( 2 1 5 ) 归一化的p d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论