




已阅读5页,还剩52页未读, 继续免费阅读
(电气工程专业论文)语音端点检测技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语音端点检测是语音分析、语音合成和语音识别中的一个必要环节。尽管语 音端点检测技术在安静的环境中已经达到了令人鼓舞的准确率,但是在实际应用 时由于噪声的引入和环境的改变通常会使系统性能显著下降。语音端点检测技术 要走向实用,就必须克服鲁棒性1 6 1 题,因此低信噪比噪声环境下的语音端点检测 技术的意义非常重要。 本文在总结研究现有的典型语音端点检测方法的基础上,提出了一种能够有 效反映语音信号非线性特征的处理方法,将能够反映语音信号不同于噪声信号特 性的k c 和c 0 复杂性特征作为语音端点检测的一种新的特征,应用于噪声环境中 的语音端点检测实验。 本文在m i c r o s o f tv i s u a lc + + 6 0 开发平台上,对典型的三种端点检钡4 方法( 基 于能量的端点检测方法、m f c c 倒谱距离测量方法、基于谱熵的语音端点检测方 法) 和基于k c 复杂性特征和c 0 复杂性特征的端点检测方法进行了编程实现,实 验采用了三个语音数据库,一个y o h o 英文连续语音数据库,一个中文连续语音 数据库和一个孤立词数据库,选用c o l e a 语音处理专业化软件,来实现按一定 信噪比进行的语音数据和n o i s e x9 2 噪声数据的合成,做了大量的对比实验,并 利用m a t l a b6 5 软件进行了数据结果的可视化分析。实验证明,这两种复杂性 特征方法,尤其是c o 复杂性特征端点检测法能够有效的克服噪声环境对语音端点 检测系统的影响,适合强健语音识别系统的要求。 关键词:语音端点检测;复杂性特征;谱熵;m f c c 倒谱距离 a b s t r a c t s p e e c he n d p o i n td e t e c t i o ni sak e yp r o b l e mi nm a n ys p e e c ha p p l i c a t i o n s ,s u c ha s s p e e c ha n a l y s i s ,s p e e c hs y n t h e s i sa n ds p e e c hr e c o g n i t i o n a tp r e s e n t ,t h ea c c u r a c yo f s p e e c he n d p o i n td e t e c t i o nc a nb es a t i s f a c t o r yi nq u i e tc i r c u m s t a n c e ,b u tw i t ht h en o i s e p o l l u t i n ga n d t h ec i r c u m s t a n c ec h a n g i n g ,i t sp e r f o r m a n c ew i l ld e g r a d es e v e r e l y o n l y t h er o b u s tp r o b l e mi ss o l v e d ,t h et e c h n i q u eo f s p e e c he n d p o i n td e t e c t i o nc a nb et a k e n t oa p p l i c a t i o n s oe n d p o i n td e t e c t i o na tl o ws n ri sc r u c i a lf o rg o o d s p e e c hr e c o g n i t i o n a c c u r a c y - w es u m m a r i z em o s to f p r e s e n tm e t h o d so fs p e e c he n d p o i n td e t e c t i o n i nr e s u l t ,a n o v e l a p p r o a c h t h a tf i n d sr o b u s tf e a t u r e sf o re n d p o i n td e t e c t i o ni na n o i s ye n v i r o n m e n t i sp r o p o s e d i nt h i sp r o p o s e dm e t h o d ,w ea p p l i e dk c c o m p u t a t i o nc o m p l e x i t ya n dc o c o m p u t a t i o nc o m p l e x i t yi n t ot h es p e e c he n d p o i n td e t e c t i o n t h e s ef e a t u r e sc a nb eu s e d t od i s t i n g u i s hs p e e c h n o i s ei nl o ws n r i ti sac r e a t i v et h o u g h ta n dt r i a l i nt h ee x p e r i m e n t ,n o i s ys p e e c hw i t hd i f f e r e n ts n ri sa n a l y z e db yc o n v e n t i o n a l s p e e c he n d p o i n td e t e c t i o n m e t h o d c o m p a r e d w i t ht h ea l g o r i t h m s p r o p o s e d i nt h e p a p e r , i n c l u d i n ge n e r g y , m f c cc e p s t r u md i s t a n c e ,s p e c t r a le n t r o p y , k c c o m p u t a t i o n c o m p l e x i t ya n dc oc o m p u t a t i o nc o m p l e x i t y , w h i c ha r ep r o g r a m m e dw i t ht h et o o lo f m i c r o s o f tv i s u a lc + + 6 0 w eh a v et h r e es p e e c hd a t a b a s e sr y o h o e n g l i s h c o n t i n u o u s s p e e c hd a t a b a s e ,o n ec h i n e s ec o n t i n u o u ss p e e c hd a t a b a s ea n do n ei s o l a t e ds p e e c h d a t a b a s e ) t h i sp a p e ra d o p t sc o l e a ,i sm a t l a b s o f t w a r ef o rs p e e c h a n a l y s i s ,t oa d d n o i s ef r o mn o i s e x9 2i n t os p e e c hd a t aw i t hc e r t a i ns n r t h e p r o p o s e da l g o r i t h mi s s h o w lt ob ew e l ls u i t e df o rt h ed e t e c t i o no fs p e e c he n d p o i n ta n di s v e r yr o b u s tf o r d i f f e r e n tt y p e so fn o i s e ,e s p e c i a l l yf o rl o ws n r t h ev i s u a l i z a t i o no fe x p e r i m e n t r e s u l t sa r er e a l i z e d b y m a t l a b 6 5 e x p e r i m e n t a l r e s u l t si n d i c a t et h a t c o c o m p u t a t i o nc o m p l e x i t ym e t h o dh a se x t r e m e l yr o b u s ta n dh i g ha c c u r a c y , m e e t i n gt h e r e q u i r e m e n t so f r o b u s ts p e e c hr e c o g n i t i o ns y s t e m t h ee x p e r i m e n tr e s u l t ss h o wt h e s e f e a t u r ea r ev a l i d ,a n dh a v eb r o a d a p p l i c a t i o np r o s p e c t s 5 k e y w o r d :s p e e c he n d p o i n td e t e c t i o n ,k cc o m p u t a t i o nc o m p l e x i t y , c oc o m p u t a t i o n c o m p l e x i t y , s p e c t r a le n t r o p y , m f c cc e p s t r u m d i s t a n c e 6 第一章绪论 1 1 语音端点检测的研究背景 随着社会的不断发展,各种各样的机器参与了人类的生产活动和社会活动, 人们发现,人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现 形式。于是,语音,作为人类信息交流的最自然、最有效、最灵活而又最为广泛 使用的途径,越来越引起研究者的关注。 作为语音信号处理研究的重要领域,语音识别技术的最终目的是象人与人之 间谈话交流信息一样,实现人一机自由对话,也就是赋予机器以听觉,使机器能 昕懂人的语言,辨明话音的内容或说话人,将人的语音正确地转化为书面语言或 有意义的符号,或者进一步使机器能够按照人的意志进行操作,把人类从繁重或 危险的劳动中解脱出来。据预测,语音识别将成为继键盘和鼠标器之后,人机交 互界面革命中的又一次飞跃。正如i d c 的p c 分析员r i c h a r dz w e t e h k e n b a u m 所 说:“语言是最自然的界面”。语音识别具有很大的实际应用价值,其发展、成熟 和实用化将推动许多产业的迅速发展,其中包括计算机、办公室自动化、通信、 国防、机器人等等。目前可咀预见的语音识别主要应用有:语音输入系统,作为 一种最自然的文字输入方法,用口述代替键盘向计算机输入文字,这将给办公室 自动化和出版界带来革命性的变化;语音控制系统,为人们在手动控制以外又提 供了一种更安全、更方便的控制方法,特别是当系统工作在一些特定的环境( 如 黑暗场所或手脚已被占用来进行其它动作的环境) 或一些特殊的用户( 如残疾人) 时;基于对话系统的数据库查询系统,为用户提供了更为自然、友好和便捷的数 据库检索或查询,可以广泛运用在银行、交易所、民航等机构;除此之外,语音 识别还可以用于口语翻译系统、计算机辅助教学、自动身份确认等很多领域。随 着人们对语音识别技术认识的深入,人们对语音识别技术也提出了越来越高的目 标。 语音信号处理中的端点检测技术是指从包含语音的一段信号中确定出语音的 起始点及结束点,有效的端点检测技术不仅能减少系统的处理时间、提高系统的 处理实时性,而且能排除无声段的噪声干扰,从而使后续的识别性能得以较大提 7 高。语音的端点检测在语音的编码、语音识别、语音增强、说话人识别中起着非 常重要的作用,直接影响着后续工作的正确率。 1 1 1 端点检测在语音识别系统中的作用 作为一个完整的语音识别系统,其最终实现及使用的效果不仅仅取决于识别 的算法,许多相关因素都直接影响着应用系统的成功与否。语音识别的对象是语 音信号,一般的信号流都存在一定的背景声,而语音识别的模型都是基于语音信 号训练的,语音信号和语音模型进行模式匹配才有意义。因此从信号流中检测出 语音信号是语音识别的必要的预处理过程。端点检测的目的就是在复杂的应用环 境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束。 详细说来,端点检测有两个过程: 1 基于语音信号的特征,用能量、过零率、熵( e n t r o p y ) 、音高( p i t c h ) 等 参数以及它们的衍生参数,来判断信号流中的语音非语音信号。 2 在信号流中检测到语音信号后,判断此处是否是语句的开始或结束点。在 语音系统中,由于信号多变的背景和自然对话模式而更容易使旬中有停顿( 非语 音) ,特别是在爆发声母前总会有无声间隙。因此,这种开始结束的判定尤为重 要。 此外端点检测的目的还在于: 1 减少识别器的数据处理量:可以大量减少信号传输量及识别器的运算负载, 对于语音对话的实时识别有重要作用。 2 拒绝非语音的信号:对非语音信号的识别不仅是一种资源浪费,而且有可 能改变对话的状态,造成对用户的困扰。 3 在需要打断( b a r g e i n ) 功能的系统中,语音的起始点是必须的,在端点 检测找到语音的起始点时,系统将停止提示音的播放,完成打断功能。 1 1 2 端点检测对识别系统的影响 随着语音识别技术的发展和逐步走向应用,语音识别的稳健性问题已经逐步 成为语音识别研究的热点。实用性的语音识别系统必须能够应付千差万别的噪声 环境,但是现有语音识别系统的性能并不稳健,它们在噪声环境下的性能会极大 地下降。其中一个主要的原因就是错误的语音检测,因此稳健、精确和可靠的语 音检测算法是语音识别系统必需的。 在语音检测算法中,端点检测的正确性极大地影响了识别系统的识别效果。 语音信号的起始点和结束点判断有误,就有可能影响整个信号的完整性,在语句 的开头或结尾漏掉一些有用的数据。当这种情况发生时,很可能对识别的准确度 有特别大的影响,不完全的信息会使识别率降低。 一个好的端点检测方法能改变语音识别软件存在的检测效果不理想、识别率 低等问题,能为语音识别提供可靠的基础,应具有很好的鲁棒性,能很好地区别 背景噪音、非语音声音和非对话人的声音与正常对话音,减少这些声音引起的端 点错误和由此引起的误打断。端点检测的高精度能保证输入识别器的信号是有效 完整的语音信号,使识别效果更准确快速。 1 2 主要研究内容 长期以来,传统的语音端点检测方法都是针对实验室安静环境的。在有背景 噪声的环境下,更需要对端点进行精确的检测。如何在噪声环境下设计一种鲁棒 的端点检测算法还是一个非常棘手的问题。直到近年来,人们才开始研究噪声环 境下的语音端点检测。而一种理想的端点检测算法应当具有以下几个特征:可靠 性、鲁棒性、精确性、自适应性、简单性、实时性和对噪声特征无需先验知识。 在所有的这些特征中,鲁棒性是最难达到的要求。 由于语音信号本质上是非线性的、短时平稳的,而任何信号根本上都是一个 序列,复杂性测度又是一个重要的反映这个序列的非线性特征。因此,本文从研 究反映语音的非线性特征的方法出发,从复杂性测度选取主要反映时间序列随机 程度的k c 复杂性特征,以及在随机过程描述中刻意避免过度粗粒化的c 0 复杂性 特征,进行了语音端点的检测效果的研究。 为获得对不同噪声环境下语音的端点检测技术性能指标,在m i c r o s o r v i s u a l c + + 6 0 开发环境下,对本文中所研究的各种端点检测算法,包括重点研究的基 于复杂性特征的端点检测算法进行了编程实现,同时使用c o l e a 语音处理专业 化软件,按一定信噪比将语音数据和n o i s e x9 2 噪声数据进行了合成,实验结果 的可视化工作用m a t l a b6 5 可视化软件实现。从对比数据结果发现:在不同信 噪比( 3 0 d b 、2 0 d b 、2 5d b 、1 0d b 、5d b 、0d b ) 及不同噪声( 白噪声、飞机噪 声、工厂噪声和办公室噪声) 环境下,基于c o 复杂性特征的端点检测方法与其他 9 方法相比,具有识别准确性高、抗噪性突出、鲁棒性强的特性,是一种非常适用 于低信噪比环境的端点检测技术。 本文第一部分首先研究总结了现有的典型的多种线性语音端点检测算法。它 们主要是通过采用各种不同的特征参数,提高算法的抗噪声性能。如短时能量、 短时过零率,还有诸如短时频带方差、短时能频值、倒谱距离、自相关相似距离 等,信息熵、谱熵等也逐渐被应用到端点检测中。 本文第二部分研究了描述混沌信号的复杂性测度理论,并在此基础上提出了 一种能够有效反映语音信号非线性特征的处理方法,即把k c 复杂性特征和c o 复杂性特征作为语音端点检测的一种新的特征。 本文第三部分提出把k c 复杂性特征和c 0 复杂性特征应用于不同噪声、不同 信噪比环境下进行语音信号端点检测,并且与其他几种典型端点检测进行了对比 实验。实验表明,在不同信噪l :e ( 3 0 d b 、2 0 d b 、2 5d b 、1 0d b 、5d b 、0d b ) 、不 同噪声( f l 噪声、飞机噪声、工厂噪声和办公室噪声) 环境下,基于c o 复杂性特征 的端点检测方法与其他方法相比,具有识别准确性高、抗噪性突出、鲁棒性强的 特性,是一种非常适用于低信噪比环境的端点检测技术。 第二章常用的语音端点检测算法 语音的端点检测在语音的编码、语音识别、语音增强、说话人识别中起着非 常重要的作用,直接影响着后续工作的正确率。随着研究的深入,各种关于端点 检测的算法相继提出。本文主要介绍了以下几种端点检测方法:基于短时能量的、 基于短时过零率的、基于倒谱特征的、基于信息熵的端点检测的方法【l 】 2 l 【3 】。语音 端点检测方法是各种技术的大融合,所以到目前为止并没有统一的分类方法,比 如可以按照应用的范围分类或可以按照所使用的特征量分类等。 2 1 基于短时能量和短时平均过零率的端点检测法 2 1 1 短时能量 语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大, 语音段的能量是噪声段能量叠加语音声波能量的和。在信噪比很高时,如果环境 噪声和系统输入噪声比较小,以至能够保证系统的信噪比相当赢,那么只要计算 输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开。这是仅 基于短时能量的端点检测方法。但低信噪比情形下,此算法就将失效【4 1 5 】。 信号 x ( n ) 的短时能量定义为: e = 【x ( 珑) w ( n - m ) 2 ( 2 1 ) m 2 哪 令 ( h ) = w 2 ( 吣,则有: e 。= x 2 ( 埘) ( h m ) ( 2 2 ) = 一 其中 ( n ) 是低通滤波器的单位冲激响应。 语音信号的短时平均幅度定义为: m 。= i x ( ) i w ( n m ) e 和吖。都反映信号强度,但其特性有所不同。 ( 2 3 ) 2 1 2 短时平均过零率 信号囊( h ) ) 的短时平均过零率定义为【6 】: z 。:= 1 量1s g n z ( m ) 卜s g n x ( m 一1 ) 1 1 以n - m ) ( 2 4 ) zm = - 一般取 r1 ( ) : 亩0 5 ”5 n 一1( 2 5 ) 【0 其他 信号的过零率是其频率量的一种简单度量,窄带信号尤其如此,其中,当信 号为单一正弦波时,过零率为信号频率的两倍。对于采样率为f 。、频率为f 。的 正弦波数字信号,平均每个样本的过零率为2 f 。f 。 过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性,就是用 多带滤波器将信号分为若干个通道,对各通道进行短时平均过零率和短时能量的 计算,即可粗略地估计频谱特性。第二,用于判别清音和浊音、有话和无话。从 上面提到的定义出发计算过零率容易受低频干扰,特别是5 0 h z 交流干扰的影响。 解决这个问题的办法,个是做高通滤波器或带通滤波,减小随机噪声的影响: 另一个有效方法是对上述定义做一点修改,设一个门限t ,将过零率的含义修改 为跨过正负门限,如图2 1 所示。 门r 3 j 陵2 门阻l 门峨i 1 门限2 n 畦3 图21 门限过零率 时问 ;|=艇露 ;|一螺 诅f扎蘩 一撂_| | 鹾| | 秽二一 一麴一 湖一纛 套 于是,有定义: z 。= 晏妻 l s g n z ( 川) 一丁卜s g i l 【x 一1 ) 卅 + 1s g n x ( m ) + t 卜s g n x ( m 1 ) + t i ) w ( n 一删)( 2 6 ) 这样计算的过零率就有一定的抗干扰能力了。即使存在小的随机噪声,只要 它不使信号越过正、负门限所构成的带,就不会产生虚假的过零率。在语音识别 前端检测时还可采用多门限过零率,进一步改善检测效果。 2 1 _ 3 基于短时能量和过零率的双门限检测方法 语音端点检测方法可采用测试信号的短时能量或短时对数能量、联合过零率 等特征参数,并采用双门限判定法来检测语音端点,即利用过零率检测清音,用 短时能量检测浊音,两者配合。首先为短时能量和过零率分别确定两个门限,一 个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较 高的门限,数值较大。低门限被超过未必是语音的开始,有可能是很短的噪声引 起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信 号开始7 1 。 此时整个端点检测可分为四段:静音段、过渡段、语音段、结束。实验时使 用一个变量s t a t u s 表示当前状态。静音段,如果能量或过零率超过低门限,就开 始标记起始点,进入过渡段。过渡段当两个参数值都回落到低门限以下,就将当 前状态恢复到静音状态。而如果过渡段中两个参数中的任一个超过高门限,即被 认为进入语音段。处于语音段时,如果两参数降低到门限以下,而且总的计时长 度小于最短时间门限,则认为是一段噪音,继续扫描以后的语音数据,否则标记 结束端点。 基于短时能量和过零率的双门限检测方法存在以下一些问题。例如:在一些 特殊情况,如当语音段的开始和末尾都是弱摩擦音时,象“四”字的读音的开始 段的短时能量就比较小,而以鼻音结尾的语音,其末端的短时能量也比较小,它 们都容易与噪声混淆。而清音的短时平均过零率最大,浊音和噪声次之,且浊音 和噪声的短时平均过零率相当。 该方法是先算出背景噪声能量的统计特性,定出能量高低门限、短时过零率 门限,利用能量门限来确定语音信号的初始起止点,然后根据过零率精确得出起 止点。即先根据能量门限算得一初始起点l ,方法为从第1 1 帧开始,逐次比较 每帧的平均幅度,l 为平均幅度超过低能量门限的第一帧的帧号。但若后续帧的 平均幅度在尚未超过高能量门限之前又降到之下,则原1 不作为初始起点,改记 下一个平均幅度超过了低能量门限的帧为l ,依此类推,在找到第一个平均幅度 超过高能量的帧时停止比较。当i 确定后,从i 帧向前l 一2 5 帧搜索,依次比 较各帧的过零率,若有3 帧以上的过零率大于或等于过零率门限,则将起点l 定为满足过零率大于等于过零率门限的最前帧的帧号,否则即以原1 为起点。这 种起点检测法也称双门限前端检测算法。检测效果如图2 2 所示。 i 0 0 蔷 2 5 0 l _ u 0 ( a ) 语音波形 。m 。 。 1。 7 7、 譬o _ ( b ) 能量曲线 ¥ :“ l ,1 ( c ) 过零率 图2 2 语音g 3 0 d b 白噪声的能量结合过零率端点检测效果 取样点 帧 帧 上u m 丘 2 2 基于倒谱特征的语音信号端点检测 2 2 1 倒谱特征 倒谱能很好地表示语音信号的特征,是语音信号一种较好的时频表示。倒谱 c 。) 是信号的z 变换的对数模函数的反z 变换,一般通过信号的傅里叶变换,取 模的对数,再求反傅里叶变换得到。倒谱特征属于信号的同态语音处理的范畴8 1 。 一个系统h 【】称为卷积同态系统,是说它具有下式的性质( + 为卷积运算符号) : 日k ,( 力) + x :( 珂) 】= 日k 伽) 】+ 日b :( 船) 】 r 2 ,7 1 这类系统的特性是某一种分量( 所需要的分量) 可以基本不变地通过它,而不 需要的分量可以被除掉。同态系统理论的个重要方面是任何同态系统都可以表 示为三个同态系统的级联( z 【】一l o g 口jz “【b 。 所谓同态分析,就是把呈卷积关系的两信号变换为呈线性相加的两信号,再 用不同通带的滤波器滤掉不必要的成分。为了便于计算,选取在z 域的单位圆上 进行计算。 根据倒频谱的定义可知,该系统的冲激响应的倒频谱的z 变换为l o g 日( z ) : l o g 日( z ) = q 2 “( 2 8 ) t = - 瞬 这里 c 。) 称为倒频谱系数。 2 2 2 基于倒谱特征的语音信号端点检测 倒谱能很好的表示语音的特征,它通过对发音模型建模后反推得到,因此在 大多数语音识别系统中选择倒谱系数作为输入特征矢量。运用倒谱特征来检测语 音端点是目前的语音识别系统的比较典型的方法。目前有直接利用倒谱作为特征 来进行端点检测的,也有采用倒谱距离来代替能量的门限判别方法。 m f c c 倒谱距离测量方法 在语音识别和说话人识别中,常用的语音特征即是基于m e l 频率的倒谱系数 ( m e lf r e q u e n c yc e p s t r u mc o e f l i c i e n t ,m f c c ) 。人的听觉系统是一个对数的关系, m f c c 参数充分利用了人耳的这种特殊的感知特性,因而得到广泛的应用。此外, m f c c 使用一组中心频率呈对数分布的滤波器,对语音频谱进行滤波和加权,可 有效地平滑语音频谱,去除了因激励影响而引起的语音频谱峰值的波动【9 】 1 0 1 。 标准的m f c c 参数只反映了语音参数的静态特性。而差分倒谱参数可以反映 语音动态变化的参数。在加性平稳噪声条件下,可认为噪声在语音信号的逐帧是 相对平稳的,对特征参数作一次差分运算可在一定程度上抑制平稳噪声。引入一 阶n m f c c ,计算为: 一2 彦,垫一一 q 其中,n 为对应的语音帧序号,为差分范围,这里取2 。这时差分参数就称 为当前帧的前两帧和后两帧参数的线性组合。 根据前人的实验 9 】,差分量a m f c c 在高信噪比时识别性能劣于m f c c ,而 在低信噪比时识别性能优于m f c c 。所以实际的语音识别系统使用m f c c 作为识 别参数时往往结合两者的特点以达到理想的效果,本文采用的m f c c 特征向量有 2 4 维,1 1 2 维是m f c c ,后1 2 维是a m f c c 。 2 3 基于信息熵的端点检测 基于熵的方法典型的有:基于熵,基于谱熵,基于能量与谱熵相结合的,基 于平均熵,以及基于特征空间能量熵的端点检测方法,这里只对基于谱熵和基于 平均熵的端点检测方法进行了讨论。 2 3 1 基于谱熵及改进算法的端点检测方法1 0 】 对语音信号进行分帧、加窗,按帧间5 0 的重叠求解f f t 变换,得其某频 率分量的能量谱。由此可求得每个频率分量的概率密度: 只= s ( :) :。s ( 以) ,i = 1 ,n ( 2 1 0 ) 其中j ( ,) 是z 的能量。只是相应的概率密度,是f f t 中频率成分的所有点 数,为了提高概率密度函数的分辨语音信号和非语音信号的能力,提出了一些经 验性的约束。首先,只考虑2 5 0 h z 到6 0 0 0 h z 的语音信号,即 6 j ( ,) = o , 6 0 0 0 h z( 2 1 1 ) 这是因为大部分的语音信号都在这个频带内。 其次提出了概率密度的上限和下限,即 # = 0 , ( 2 1 2 ) 其中下限最用来消除在所有频率上能量为常数的噪音,如白噪声,上限点用 来消除在某些特定频带上的噪音。经过标准化和增强处理后,相应的每一帧的声 谱熵或平均信息量如下定义: h = 一怨1 最l o g r( 2 1 3 ) 当然关于谱熵的定义还有很多,有加权谱熵等等。 2 3 2 基于平均熵的端点检测方法 这个世界中,事件发生的不确定性与它发生的概率存在着密切的关系。对于 小概率事件,它的不确定性就大,而对于大概率事件,它的不确定性就小。而对 于不确定性比较大的事件,其发生后提供的信息量也比较大,相反的,对于不确 定性比较小的事件包含的信息量也就比较小。因此,常常利用该事件的概率函数 来衡量这个事件的信息量,( x ) : ,( z ) = ,【g ( x ) ( 2 1 4 ) 由上述分析可知,信息量地) 是概率函数的单调递减函数,当事件为确定性事 件,也即g = l 时,应该不包含信息,= 0 。而对于发生的概率很小的事件,即 g ( 垆o 的情况,它包含的信息量将为无穷,根据这些特征把0 ) 定义为: j ( x ) = 一l o g g ( 工)( 2 1 5 ) 当考虑整个系统的信息量的时候,往往用平均信息量来衡量,因此在这里 定义平均信息量为: h ( x ) = 一p ( x ,) l o g ( p ( t ) ) ( 2 1 6 ) l z 由于这个平均信息量也衡量了这个系统中各种事件发生的不确定性,也把它 称为平均熵。 如果语音时间序列是周期性的,那么它的排列组合平均熵就为0 ;如果这个 语音时间序列是随机的,那么它的各种排列组合情况都会以等概率出现,它的排 列组合平均熵就为1 0 9 ( n1 1 ,所以一般的时间序列的平均熵是0 日( 肝) l o g ( n ! ) 。 将平均熵进行归一化处理即h ( n ) l o g ( n ! ) 。通过衡量语音时间序列的熵,利用无 声段的随机噪声熵大于有声段熵特性,就可以检测出语音端点。 2 4 小结 虽然,随着越来越多的研究者关注语音的端点检测技术,大量的语音端点检 测算法相继被提出来,但是在现有的语音检测技术中,仍然普遍存在着下面的几 个问题: ( 1 ) 目前所采用的特征是线性特征,往往忽略了语音的非线性特征。 ( 2 ) 基于能量和m f c c 倒谱特征方法依赖于语音本身音节特性,来对语音和噪 声进行分割。在对以某些音开头的语音信号检测起点时,则存在困难,可能会导 致起始子音的丢失,如零声母开头或以清音开头的语音信号,原因是汉语的辅音 大部分是清辅音,受到噪声干扰时极易被噪声淹没。从这个意义上来说,即使是 应用于语音识别的起止点检测,其关键也是寻找语音的准确的起始点。 ( 3 ) 耳前现有的语音端点检测算法的抗噪声能力普遍不强。上述算法最多能工 作在信噪比为5 d b 以上或接近5 d b ,而对于强噪声背景下的语音信号检测则无能为 力。 第三章复杂性基本概念 语音信号处理目前尚未真正达到实用的要求,许多问题如高准确率说话人无 关连续语音识别、高自然度语音合成及高质量低码率语音编码、高准确率的稳定 的说话人识别系统等尚未彻底解决,而这些问题往往可以归结为一个基本的问题, 即人们至今还未找到一种既简单又有效的描述语音信号( 特别是辅音信号) 的数学 方法。 从本质上说,语音信号处理方法可分成两大类,其一是基于确定性线性系统 理论,其二是基于随机过程理论。目前大多数分析方法都属前者,这类方法有一 个基本的假设,即当分段足够小时,非线性系统可以用线性系统来近似,从而产 生了诸如线性预测、同态解卷、正交变换等分段线性分析方法。由于这种分析方 法理论简单,计算上也易于处理,因而一直是人们研究的重点。 随着研究的深入,人们发现传统的分段线性方法存在许多不足,表现为语音 识别、说话人识别系统、语音合成及语音编码系统的性能难以进一步提高,因而 人们逐渐将注意力转向非线性信号分析方法的研究。语音信号是非线性和非平稳 的【1 2 】【1 3 i e l 4 1 1 舅,语音信号具有的渐变不稳定性可通过成熟的自适应方法处理,而其 非线性性质却一直在传统语音处理的发展趋势中未得到应有的重视。 近年来,非线性理论得到了一些重大的发展,产生了诸如混沌、分形等理论 分析。虽然混沌理论的早期工作可以上溯n 1 9 世纪末法国数学家对非线性微分方 程所作的研究,但真正受到人们的重视则是始于上世纪6 0 年代。分形理论是由美 籍法国数学家b b m a n d e l b r o t 于1 9 7 3 年提出的一种描述不规则几何形状的数学 方法,由于为人们提供了分析自然现象的全新方法,混沌、分形理论近十年来越 来越受到重视,在物理学、电路分析、医学信号分析、高分子化学及图像处理等 领域取得了一系列成功的应用。 近十几年来,非线性理论中的混沌和分形信号处理为人们提供了分析自然现 象的全新方法。人们发现,自然界中的大量现象是混沌的,或是近似混沌的。严 格的声学及空气动力学理论已证明,语音信号的产生中存在混沌的机制u “。 3 1 复杂性概念 目前对非线性时间序列分析和处理已有很多方法,如李雅普诺夫方法和复杂 性分析等。 传统线性方法强调的是稳定平衡、有序和一致性。而非线性系统则以不稳定、 非平衡、无序和非一致性为其特征。语音信号本质上是非线性的、短时平稳的。 复杂性测度是给定一个序列的复杂程度的标准,任何信号根本上都是一个序列, 复杂性测度是反映这个序列的一个重要的非线性特征。 复杂性这个概念旱在五十年代由v o nn e u m a n n 提出来,被认为是本世纪物理 学需要解决的重大问题。以后k o l m o g o r o v 提出具体的意见,由z i v 和l e m p e l 给 出具体算法【1 6 1 ,这种算法反映了时间序列的随机的程度,但与复杂性的概念并不 完全一致。最近非线性动力学的发展使我们认识到:有序的不一定复杂,完全随 机也不一定复杂,为了描述这种复杂却又有结构的现象,人们提出了“复杂性测 度”。徐京华教授率先用“k o l m o g o r o v 复杂性”研究了人的大脑信息传输1 ,以 后又提出t c i 、c 2 复杂性1 朗。复杂度有传统的k c 复杂度【16 1 、c l c 2 复杂度【1 8 】、分 区复杂度、涨落复杂度1 蜘、以及本文用到的c o 复杂度【2 0 1 。 以前,在研究复杂系统时总要做许多简化,通常是线性化处理。但这样的简 化在非线性动力系统中难以保持系统的本质不变,在这类系统中复杂行为可能在 几个自由度下就出现了。 a b c 图3 1 不同复杂模式 ( a ) 有序模式( b ) 复杂模式( c ) 随机模式 复杂性清晰明确的定义是l - j :l g r a s s b e r g e r 最早提出的。图3 1 说明t - - 种具有不 同复杂度的模式,( a ) 是完全有规则、有序的结构,因而是简单的。( c ) 图中的点完 全是随机产生的,也不会觉得有多么复杂。( b ) 看起来是最复杂的,它是上述两种 结构的混合。从上述三张图观察可以看出,在有序和无序之间的状态是最复杂的, 用什么来衡量图3 1 b 更接近图3 1 a ,或更接近图3 1 c ,这就是复杂性所要研究的东 西。 目前,关于复杂性的定义和相应的复杂性有很多,总的来说复杂性可分为两 类:一类是从符号动力系统,自动机理论出发的;另一类是衍生于统计物理学, 反映了研究对象的统计学特性,它们都与信息论中的熵及其相关的概念密切相连。 不论是哪一类的复杂性测度,可根据它是侧重于描述系统的结构,还是系统 的动态特性,分为两种测剧2 1 1 1 2 2 1 2 3 】: ( 1 ) 结构测度( s t r u c t u r em e a s u r e ) s 记为s ,当系统缺乏关于它的动态特性的信息时,采用这种度量方法,是上下 文无关的,仅是对系统结构的一种刻划。例如,概率分布就是一种典型的结构测 度,r e n ) i 维数和r e n y i 熵也是这个意义上的结构测度。 但) 动态测度d 记为d ,它有时表征有明确动态特性的系统,是上下文相关的。例如,用转 移概率只。,表现上下文相关,通过时间的演变来考察系统的动态行为。 结合上面两种点集的分割和两种测度,有四种组合: s p h 基于同质分割的结构测度 当在通常的外部位置空间如中可直接地考察系统的结构特性时,用同质均匀 分割。如果一个点集与正在形成的动力系统无关,上述方法是恰当的,( 如在不知 动力系统的情况下给出一个点集分布) 应用于小系统时,可以对空间的局部同质 性作调整,使之更加合理。 s p g 基于生成分割的结构测度 当系统以相空间表示时,对于系统的动态特性用s p g 测度是合适的,但是需 要了解产生此结构的动态特性。一旦掌握了动态系统,生成分割的上下文规则就 能唯一地决定系统地演变。与位置空间结构是具体的相反,相空间是抽象的结构, 相空间坐标与位置空间坐标在形式上,概率上均不同。 d p h基于同质分割的动态测度 这类测度利用时间r 反应系统特性,f 定义为变化率,如( 外部) 位置的时间 变化率。任何时间s p h 的测量都要基于实际上可观察的位置,如时钟的指针,在 这个意义上,f 是关于时间的外部抽象概念,且时间是可逆的。 d p g基于生成分割的动态测度 与前面相反的是,系统的动态特性也可以用内部时r 泪q ( i n t e r n a lt i m e ) t 来刻划。 例如,内在不稳定( i n t r i n s i cu n s t a b l e ) 系统具有正的k s 熵,有内在时间k 一1 ,内部时 间与时间箭头方向密切联系的,因而更加强了时间不可逆性观点。 本文中重点研究语音信号的k c 复杂性和c o 复杂性特征。 3 2k o l m o g o r o v 复杂性 线性方法强调的是稳定、平衡、有序和一致性。而非线性系统则以不稳定、 非平衡、无序和非一致性为其特征。线性的方法不能用于非线性系统,非线性系 统中产生的现象在线性观点上往往无法理解,复杂性测度是给定一个序列的复杂 程度的标准,任何信号根本上都是个序列,复杂性测度是反映这个序列的一个 重要的非线性特,征【2 3 】【2 4 1 。 为描述序列的复杂性特征,从2 0 世纪6 0 年代以来,多种复杂性测度算法被提 出了,如k o l m o g o r o v 复杂度,l e m p e l - z i v 复杂度,及近年来童勤业教授提出的分 区复杂度和涨落复杂度等等【m 】。 k o l m o g o r o v 复杂度( 即k c 复杂性) 可认为是产生某给定( o ,1 ) 序列最少的计算 机程序的比特数,它可以用来衡量序列的复杂程度如何,l e m p e l 芹 i z i v 定义了由有 限集合的元素所构成的有限序列的复杂度c ( n ) ,它反映了序列接近随机的程度, 按有限序列从头开始反复进行以下操作:每次添加一个元素构成一个检验子串, 如果该子串在除去最后添加的那个元素之前所构成的序列中已出现过,那么所构 成的新序列的复杂度保持不变,并继续添加元素,直到由上述相继添加元素所构 成的添加予串在除去最后添加的那个元素之前所形成的整个序列中从未出现过为 止,此时整个序列的复杂度增加一,当往后继续添加元素时重新建立新的检验子 串,如此反复进行,直到结束。如果最后一个检验子串在除去末尾一个元素之前 的序列中出现过,复杂度也仍然加一。 具体来说,分以下几个步骤: 假如有一数列( x l , x 2 , x 3 x n ) ,首先求得这个数列的平均值蹦,再把这个数列 重构。大于平均值m 的值,令它们为1 ,小于平均值m 的,令之为0 ,这样,就构成 了o l ,s 2 ,s n ) 新的( o ,1 ) 序列。 在这样的( o ,1 ) 序列中已形成的一串字符s = s l ,s 2 ,s r 后,再加称之为q 的一个 或一串字符s 。或者( s 。,s 。s 。) ,得到s q ,令s q 是一串字符s q 减去最后的一 个字符,再看q 是否属于s q 字符串中己有的“字句”。如果已经有过,那么把这 个字符加在后面称之为“复制”,如果没有出现过,则称之为“插入”,“插入”时 用一个“”把前后分开;下一步则把“”前面的所有字符看成s ,再重复如上步 骤。例如,序歹f 1 0 0 1 0 的复杂度可以由下列步骤而得: 第一个符号永远是插入一0 s = o ,q = o ,s q = 0 0 ,s q | ,r = o ,q 属于s q 兀一0 0 s = o ,q = 0 1 ,s q = 0 0 1 ,s q r c = 0 0 ,q 不属于s q 兀_ 0 0 1 s = 0 0 1 ,q = o ,s q = 0 0 1 0 ,s q r c = 0 0 1 ,q 属于s q n - - * o 0 1 0 ,这时c ( n ) = 3 。如符号列 0 0 0 0 应是最简单的,它的形式应是0 0 0 0 0 ,c ( n ) = 2 。符号列0 1 0 1 0 1 0 1 应是 o 1 叭叭,c ( n ) 。3 。 如上所述,就得到用“”分成段的字符串。分成了段的数目就定义为“复杂 度”c ) 。 根据l a m p e l 和z i v 的研究,对几乎所有的工属于【o ,1 区间的c ( ) 都会趋向一个定 值: l i m c ( n ) = b ( n ) = n l 0 9 2 , 其中b ( n ) 是随机序列的渐进行为,用它来使c ( n ) 归一化, 定义相对复杂度: c :盟:c ( n ) l o g n b ”) n ( 31 ) 称为“相对复杂度”。 ( 3 2 ) 通常就是用这个函数来表达时间序列的复杂性变化。从这种算法可以看出, 完全随机的序列c ( n ) 值趋向于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚诉讼调解达成一致子女抚养及财产分割执行合同
- 离婚房产分割与原配偶子女就业基金协议
- 离婚财产分割及子女抚养费支付协议
- 离婚协议范本:无子女共同财产分配及债务清理
- 链家新人培训体系
- 班组新员工安全培训内容课件
- 中国历史文选 课件 第十九讲 经籍志序;第二十讲 二体
- 幼儿学看病课件
- 进餐环节培训课件
- 统编人教版四年级语文下册第三单元《语文园地三》示范教学课件
- 2025全新劳动合同范本
- 材料作文点拨课件+2025-2026学年统编版语文九年级上册
- 无线wifi安装协议书
- 中国智能驾驶商业化发展白皮书(2025):平权时代智驾商业落地的破局之路
- 2026年中考语文专项复习:新闻考点+答题方法知识点 讲义(含练习题及答案)
- 小学科学新教科版二年级上册全册教案(2025秋版)
- 病房环境清洁与消毒PDCA课件
- 婚内财产协议书2025
- 2025年国家卫生健康委医药卫生科技发展研究中心招聘考试笔试试题(含答案)
- 公司注册登记培训课件
- 中华医学会肺癌临床诊疗指南2025版解读
评论
0/150
提交评论