(信号与信息处理专业论文)基于信息熵和神经网络的语音端点检测算法研究.pdf_第1页
(信号与信息处理专业论文)基于信息熵和神经网络的语音端点检测算法研究.pdf_第2页
(信号与信息处理专业论文)基于信息熵和神经网络的语音端点检测算法研究.pdf_第3页
(信号与信息处理专业论文)基于信息熵和神经网络的语音端点检测算法研究.pdf_第4页
(信号与信息处理专业论文)基于信息熵和神经网络的语音端点检测算法研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(信号与信息处理专业论文)基于信息熵和神经网络的语音端点检测算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 基于信息熵和神经网络的语音端点检测算法研究 摘要 语音端点检测是语音分析、语音合成和语音识别中的一个重要环节。 在实际运用中,通常要求首先对系统的输入信号进行判断,准确的找出语 音信号的起始点和终止点。这样才能采集到真正的语音数据,减少数据量 和运算量,并减少处理时间。因此语音端点检测算法研究意义重大。 本文首先介绍了几种典型的语音端点检测算法。随后对三种语音端点 检测算法进行研究。算法一:在对信息熵原理理解的基础上,分析了语音 信号与背景噪声的幅度熵及谱熵的差异,并根据这些差异进行了基于幅度 熵和谱熵的语音端点检测算法研究,仿真实验结果表明该方法检测准确率 较高。算法二:在对信息熵语音端点检测研究的基础上,结合神经网络在 模式分类方面的优越特性,提出了基于信息熵和神经网络的语音端点检测 算法,该算法针对语音信号和背景噪声进行建模,把语音信号端点检测问 题看作是对每帧信号进行分类,通过建立相应的模型,根据模型的匹配程 度对每帧语音矢量进行划分,确定其属于语音或背景噪声。仿真实验表明, 该算法在检测准确率上要优于信息熵语音端点检测算法,且避免了常规方 法需要设置闽值门限这一难点。算法三:语音信号端点检测研其本质是区 分语音与背景噪声。语音与背景噪声的划分不是绝对的,分界处的语音信 号有可能属于语音,也有可能是背景,因此语音端点检测属于边界分类模 糊问题。而模糊技术在处理边界模糊问题上具有独特的优势,通过对语音 数据的模糊化,结合对神经网络语音端点检测的研究,提出了基于模糊神 t 太原理l i :大学硕士研究生学位论文 经网络的语音端点检测算法。仿真实验表明,该算法在检测准确率上是本 文研究的三种算法中最高的,但该算法的缺点是算法复杂。文章最后对本 文所研究的三种算法进行了总结,提出了一些在今后工作中需要迸一步研 究的问题,并对近几年来出现的一些研究掰方向作了简单的介绍和展望, 指出了端点检测未来的发展前景。 关键词:端点检测,幅度熵,谱熵,神经网络,模糊 太原理t 大学硕士研究生学位论文 r e s e a r c ho ne n d p 0 r n td e t e c t i o na l g o r i t h m s o fs p e e c i ib a s e d o ni n f o r m a t i o ne n t r o p y a n dn e u r o nn e t w o r k a b s t r a c t s p e e c he n d p o i n t d e t e c t i o ni sa n i m p o r t a n ts t e pi nt h ef i e l do fs p e e c h a n a l y s i s ,s p e e c hs y n t h e s i sa n ds p e e c hr e c o g n i t i o n i nt h ea p p l i c a t i o n ,t h es y s t e m u s u a l l yn e e dt of i n do u tt h eb e g i n n i n ga n de n d i n gp o i n to ft h es p e e c h s ow ec a n c o l l e c tt h et r e es p e e c hd a t a ,c u td o w nt h ea m o u n to fd a t aa n dc a l c u l a t i n ga sw e l l a st h et i m e o fo p e r a t i n g t h e r e f o r e ,t h er e s e a r c ho n e n d p o i n t d e t e c t i o n a l g o r i t h m so fs p e e c hi ss i g n i f i c a n t t h ea r t i c l ei n t r o d u c e ds e v e r a lt y p i c a la l g o r i t h m so fe n d p o i n td e t e c t i o no f s p e e c ha n ds t u d i e dt h r e ea l g o r i t h m so fe n d p o i n td e t e c t i o no fs p e e c h ,a l g o r i t h m o n e :o nt h eb a s i so fc o m p r e h e n s i o no ni n f o r m a t i o ne n t r o p y , t h ea r t i c l ea n a l y z e d t h ed i f f e r e n c eo fs p e e c hs i g n a la n db a c k g r o u n ds i g n a l ,s t u d i e dt h ee n d p o i n t d e t e c t i o na l g o r i t h mo fs p e e c hb a s e do nt h ea m p l i t u d ee n t r o p ya n ds p e c t r a l e n t r o p y t h es i m u l a t i n ge x p e r i m e n t ss h o wt h a tt h em e t h o dh a v eag o o da c c u r a c y a n di se a s yt or e a l i z e a l g o r i t h mt w o :u n d e rt h es t u d yo fa l g o r i t h mo n ea n d c o m b i n i n gw i t hn e u r a ln e t w o r k ss u p e r i o rc h a r a c t e r i s t i ci nt h ef i e l do fp a t t e r n c l a s s i f i c a t i o n t h ea r t i c l ep u tf o r w a r da ne n d p o i n td e t e c t i o na l g o r i t h mo fs p e e c h b a s e do ni n f o r m a t i o n e n t r o p ya n dn e u r a ln e t w o r k t h ea l g o r i t h mb u i l dt h e m o d e lf o rs p e e c hs i g n a la n dn o i s eo fb a c k g r o u n d ,a n dt h e nt h ep r o b l e mo f s p e e c he n d p o i n td e t e c t i o nw i l lb e c o m eac l a s s i f i c a t i o np r o b l e mo ne a c hf r a m eo f s p e e c hs i g n a l a f t e rb u i l d i n gt h ec o r r e s p o n d i n gm o d e l ,w ec a nj u d g et h es i g n a l i i i 太原理工大学硕士研究生学位论文 t ob es p e e c hs i g n a lo rn o i s eo fb a c k g r o u n da c c o r d i n gt ot h em a t c h i n gd e g r e et o t h em o d e l ,t h es i m u l a t i n ge x p e r i m e n t ss h o wt h a tt h i sa l g o r i t h mn o to n l yh a v ea b e t t e ra c c u r a c yb u ta l s oa v o i dt h ep r o b l e mo fs e t t i n gu pt h r e s h o l d a l g o r i t h m t h r e e :s p e e c he n d p o i n td e t e c t i o ns t u d i e st h es t a r t i n gp o i n ta n de n d i n gp o i n to f s p e e c h ,w h i l et h ed i v i s i o no fs p e e c hs i g n a la n dn o i s eo fb a c k g r o u n di s n o t a b s o l u t e t h ep o i n t so nt h eb o r d e rm a yb es p e e c hs i g n a l sa n da l s om a yb en o i s e o f b a c k g r o u n d ,a n da c t u a l l yi ti saf u z z yc l a s s i f i c a t i o np r o b l e mf o rb o r d e rs i g n a l t e c h n o l o g yo ff u z z yh a v eas u p e r i o ra d v a n t a g ei nt h ef i e l do fd e a l i n gw i t ht h e f u z z yb o r d e rp r o b l e m s s t u d i e dt h et e c h n o l o g yo ff u z z i f i c a t i o no fs p e e c ha n d c o m b i n e dw i t ht h en e u r o nn e t w o r kt e c h n o l o g y , t h ea r t i c l ep u tf o r w a r dt h e s p e e c he n d p o i n ta l g o r i t h mb a s e do nt h ef u z z y n e u r o n n e t w o r k t h es i m u l a t i n g e x p e r i m e n t ss h o wt h a tt h ea l g o r i t h mh a v et h eb e s ta c c u r a c ya m o n gt h et h r e e a l g o r i t h m s ,b u ti ti ss t i l l n o tp e r f e c tb e c a u s eo fc o m p l e xo p e r a t i o n a tl a s t ,t h e a r t i c l es u m m a r i z e dt h et h r e ea l g o r i t h m sa n dp u tf o r w a r ds o m ep r o b l e m sw h i c h n e e dt ob es t u d i e df u r t h e ra n di n t r o d u c e ds o m en e ws t u d y i n gd i r e c t i o n s a l s op o i n t e do u tt h ep r o s p e c to fs p e e c he n d p o i n td e t e c t i n g k e yw o r d s :s p e e c h e n d p o i n td e t e c t i o n ,a m p l i t u d ee n t r o p y , s p e c t r a le n t r o p y , n e u r o nn e t w o r k ,f u z z y i v 声明 本人郑重声明:所呈交的学位论文,是本人在指导教牙的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:日期: 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) o 签毯整日期:三! 1 2 :圣望 导师签名:塑盥墅 e l l t 月: 2 1 :1 :芝:兰5 太原理工大学硕士研究生学位论文 1 1 语音端点检测背景及意义 第一章绪论 语言是人类文明的体现,是人类智慧的结晶,我们的生活离不开语言,语言更丰富 了生活。人类语言的主要表现形式有文字和语音,语音学是研究人类不同语言中发音与 语义之间的相互关系及规律的学问,而语音信号处理已经成为语音学研究的一个重要分 支。当今信息化社会,以数字信号处理方法为工具进行的语音信号研究成果,已经对社 会的发展和人类文明的进步做出了巨大的贡献。例如,人们很想在与机器进行交流时能 用自然语言来代替传统的人机交流方式。作为语音信号处理中的重要领域,语音识别技 术其最大优势在于能够使得人机用户界面更加自然和容易使用,也就是赋予机器听觉功 能,在人机通信中让机器能“昕懂”人的语言,辨明话音的内容或说话人,并进一步使 机器能够按照人的意志来进行某种操作,从而把人类从繁重或危险的劳动中解脱出来。 作为一个完整的语音识别系统,其最终实现及使用的效果不仅仅限于识别算法的好 坏,许多相关因素都直接影响着应用系统的成功与否。语音识别的对象是语音信号,语 音端点检测的目的就是在复杂的应用环境下从信号流中分辨出语音信号和非语音信号, 并确定语音信号的开始及结束。一般的信号流都存在一定的背景噪声,而语音识别的模 型都是基于语音信号训练的,语音信号和语音模型进行模式匹配才有意义。因此从信号 流中检测出语音信号是语音识别的必要的预处理过程。如图卜l 所示。 图1 - 1 语音识别系统框图 f i g u r ei - 1 s p e e c hr e c o g n i t i o ns y s t e md i a g r a m 详细说来,端点检测有两个过程: 1 基于语音信号的特征,用能量、过零率、熵( e n t r o p y ) 、音高( p i t c h ) 等参数以 及它们的衍生参数,来判断信号流中的语音月 语音信号。 太原理工大学硕士研究生学位论文 2 在信号流中检测到语音信号后,判断此处是否是语句的开始或结束点。 在商用语音系统中,由于信号多变的背景和自然对话模式而更容易使句中有停顿 ( 非语音) ,特别是在爆发声母前总会有无声间隙。因此,这种开始结束的判定尤为重 要。此外端点检测的目的还在于: 1 减少识别器的数据处理量:可以大量减少信号传输量及识别器的运算负载,对 于语音对话的实时识别有重要作用。 2 拒绝非语音的信号:对非语音信号的识别不仅是一种资源浪费,而且有可能改 变对话的状态,造成对用户的困扰。 3 在需要打断功能的系统中,语音的起始点是必须的。在端点检测找到语音的起 始点时,系统将停止提示音的播放。完成打断功能。 在语音识别中,端点检测的性能对于识别的准确率,识别速度都有重要的影响。主 要表现在以下几个方面: 1 在语音识别和说话人识别中为了消除信道的影响通常采用倒谱均值相减的方法, 这就需要对语音时段的端点准确定位,这样才能较精确计算代表信道影响的语音帧的均 值,提高识别的准确率。2 如果识别前,移除信号中的静音段,使得整句的似然褥分 累计更多的集中在语音段,而不是被背景和噪音所分散,这样有助于识别率的提高。3 在 不断变换的环境下对噪音和静音建模是非常困难的。准确的端点检测事先移除单纯噪音 的时段对于噪音和静音的精确建立有很大帮助。4 当所处理信号含非语音时段非常长, 准确的端点可以极大提高计算速度。5 对于开放式的语音识别系统,自适应语音增强, 语音信号传输,端点检测都对系统性能有着重要影响。在开放式语音系统中,自适应增 强算法需要准确的标出噪音段用作噪音谱的自适应估计,在语音信号传输中,例如开放 广播语音信息的传输,好的端点检测能极大的降低所要传输的信息量。 随着语音识别应用的发展,越来越多系统将打断功能作为一种方便有效的应用模 式。而打断功能又直接依赖端点检测。端点检测对打断功能的影响发生在判断语音非 语音的过程出现错误时。表现在过于敏感的端点检测产生的语音信号的误警将产生错误 的打断。例如,提示音被很强的背景噪音或其他人的讲话打断,是因为端点检测错误的 2 太原理j :大学硕士研究生学位论文 将这些信号作为有效语音信号造成的。反之,如果端点检测漏过了事实上的语音部分, 而没有检测到语音,系统会表现f f 没有反应,毪用户讲话时还在播放提示葺。端点检测 对识别系统的识别效果影响也很大,语音信弓的起始点和结束点判断彳丁误,肯可能影响 整个信号的完整性,在语句的开头或结尾漏掉一些有用的数据。当这种情况发生时,很 可能对识别的准确度有特别大影响,不完全的信息会使识别率降低。 1 2 语音端点检测研究现状及存在问题 随着语音识别技术的发展和逐步走向应用,语音识别的稳健性问题已经逐步成为语 音识别研究的热点“1 。实用性的语音识别系统必须能够应付干差万别的噪声环境,但是 现有的语音识别系统性能并不稳健,在噪声环境下其性能下降极大。其中一个最主要的 原因就是由于错误的语音端点检测所造成的。因此,稳健、精确和可靠的语音端点检测 算法在语音识别系统中是必需的。 在语音端点检测算法中,端点检测的准确性极大地影响了识别系统的识别效果。语 音信号的起始点和结束点判断有误,则很有可能影响整个信号的完整性,并在语句的开 头或结尾漏掉一些有用的数据。当这种情况发生时,对识别的准确度将有特别大的影响, 不完全的信息将会使识别率降低。 语音端点检测算法经过几十年的发展”1 ,产生了很多方法,而且随着语音技术在现 代科学中的重要性不断增大,也不断的有新方法被提出来满足需要。虽然,随着越来越 多的研究者都在关注语音的端点检测技术,但是在现有的语音检测技术中仍然普遍存在 着以下几个问题: 1 绝大多数算法都是依赖语音信号本身音节的特征来对语音和噪声进行区分。在 噪声环境下,某些以清音或摩擦音、爆破音开头的语音信号易被噪声淹没,可能会导致 起始音的丢失或造成虚检。 2 在判决端点位置时,多数端点检测算法都是假设语音信号是短时平稳的,以帧为 单位进行检测,对判决结果进行平滑处理,因此,其判决结果也是精确到帧,而不是精 确剑具体时刻。 3 目前大多数端点检测算法所选特征单一,并不能充分代表语音信号的特征,具有 3 太原理工大学硕士研究生学位论文 一定的局限性,而且固定的门限阂值往往不能适应各种不同的背景噪声环境,当信噪比 降低时,性能明显下降。 1 3 神经网络发展概况 神经网络,又称为人工神经网络,是指为了模拟动物神经细胞群学习特性的结构和 功能而构成的一种信息处理系统或计算机系统,由于拥有很强的适用于复杂环境和多目 标控制要求的能力,并具有以任意精度逼近任意非线性连续函数的特性( 自组织,自学 习,自适应) 而适用于复杂系统的控制应用领域。神经网络是由数据驱动的,这意味着 它们必须输入大量关于系统过去的特性的数据由其分析,称为“培训”。在“培训”期 间,神经网络系统研究它收到的原始的随机性的数据,重建它们的数学关系,将之转换 为连续性的有数学规律性的形式,结果是得到一个适合这些数据的模型( 称为建模) 。即, 神经网络系统依据被控系统的输入输出数据对,通过学习得到一个描述系统输入输出关 系的非线性映射。然后神经网络系统还会自动对它本身的模型进行调整,所以神经网络 系统还有“推断”功能。 常规统计学意义上的统计学模型,可以用一些二次或更高阶的方程式来描述,这些 方程式可以从理论上给出输入输出变量问的关系并得出结果。而神经髓络模型无法用常 规的方程式来表述,它的信息大多依存于它的结构各点之中,依赖模型本身的多层( 一 般为三层) 结构和自学习特性,通过“培训”和“学习”建立及调整模型,计算的重担 被推给模型本身,在“培训”阶段,模型已建立了适合这些数据的内部结构,而不需要 额外的程序。 1 人工神经网络特点( 区别于冯氏计算机) 是:大规模并行计算、非线性处理、鲁棒 性、自组织及自适应性、学习能力、分布式存储、存储与计算相结合、联想能力。 2 人工神经网络的应用: ( 1 ) 主要民用应用领域有:语言识别、图像识别与理解、计算机视觉、智能机器人 故障检测、实时语言翻译、企业管理、市场分析、决策优化、物资调运、自适应控制、 专家系统、智能接口、神经生理学、心理学和认知科学研究等等。 ( 2 ) 主要军事应用领域有:语音、图像信息的录取与处理:雷达、声纳的多口标识 4 太原理t 大学硕士研究生学位论文 别与跟踪;战场管理和决策支持系统:军1 f f j 机器人控制:各种情况、信息的快速录取、 分类与查询:导弹的智能引导;保密;通讯;航天器的姿态控制等。 3 人i 神经m 络研究发腱j f ,经过_ 二个时期: ( 1 ) 第一次研究高潮:五十至六十年代。1 9 4 3 年心理学家w s m c c u l l o c h 和数学 家w p i t t s 提出m - p 模型。1 9 4 9 年d 0 h e b b 从心理学的角度提出了至今仍对神经网络 理论有着重要影响的h e b b 学习法则。1 9 6 1 年e r o s e n b l a t t 提出了著名的感知机模型 ( p e r c e p t r o n ) 。1 9 6 2 年w i d r o w 提出了主要适用于自适应系统的自适性线性元件 a d a l i n e 网络。 ( 2 ) 低潮时期:六十年代末至七十年代。由于受当时神经网络的理论研究水平所 限及应用前景不明朗,加之受到冯诺依曼式计算机大发展的冲击等因素的影响,使神 经网络的研究陷入低谷。但是,在美、日等国仍有少数学者在扎扎实实地继续着网络模 型和学习算法的研究,提出了许多有意义的理论和方法:如a r b i b 的竞争模型、1 9 7 7 年k o h o n e n 提出的自组织映射模型、g r o s s b e r g 的自适应谐振模型、f u k u s h i m a 的新认 知机等。有的学者还提出了连接机制( c o n n e c t i o n i s m ) 和并行分布处理概念( p a r a l l e l d i s t r i b u t e dp r o c e s s i n g ) 。 ( 3 ) 第二次研究高潮:八十年代初至现在。1 9 8 2 年生物物理学家j h o p f i e l d 教授 提出了h o p f i e l d 神经网络模型,引入了能量函数概念,这一成果的取得使神经网络的 研究取得了突破性进展。8 4 年他用此模型成功地解决了复杂度为n p 的旅行商问题 ( t s p ) 。1 9 8 7 年6 月在美国加州举行了第一届神经网络国际会议。有一千名学者参加, 并成立了国际神经网络学会。后确定为每年召开两次国际联合神经网络大会。1 9 9 0 年我 国的8 6 3 高技术研究计划,批准了关于人工神经网络的三项课题,自然科学基金与国防 科技预研基金也都把神经网络的研究列入选题指南,对中选的课题提供研究上的资助。 4 神经网络的基本属性: 神经网络有些基本属性, ( 1 ) 非线性 人脑的思维是非线性的, 它们反映了神经网络的特质。 故人工神经网络模拟人的思维也应是非线性的。 5 太原理工大学硕士研究生学位论文 ( 2 ) 非局域性 非局域性是人的神经系统的一个特性,人的整体行为是非局域性的最明显体现。神 经网络以大量的神经元连接模拟人脑的非局域性,它的分布存储是非局域性的一种表 现。 ( 3 ) 非定常性 神经网络是模拟人脑思维运动的动力学系统,它应按不同时刻的外晃刺激对自己的 功能进行修改,故而它是一个时变的系统。 ( 4 ) 非凸性 神经网络的非凸性即是指它有多个极值,也即系统具有不只一个的较稳定的平衡状 态。这种属性会使系统的演化多样化。神经网络的全局优化算法就反映了这一点。 1 4 论文内容安排 论文包括七章,在第一章绪论中主要介绍了语音端点检测的背景及意义,研究现状 及存在的问题。介绍了神经网络的发展概况。第二章介绍了语音信号处理的基础知识。 包括语音信号的特点及模型,语音信号的数字化,语音信号预处理和语音信号分析。语 音信号预处理包括预加重技术和加窗分帧。语音信号分析主要讲述了短时时域分析和频 域分析。第三章介绍了常用的语音端点检测算法。包括短时能量及过零率,l p c 倒谱特 征,隐马尔可夫方法及频带方差检测法。第四章研究了基于信息熵的语音端点检测方法。 本方法是利用语音信号与背景信号熵值的差异进行检测,用幅度熵和谱熵实现了语音端 点检测,并取得了较好的检测效果。第五章利用信息熵良好的语音特性结合神经网络出 色的分类能力,提出了基于信息熵和神经网络的语音端点检测算法。介绍了该算法的实 验步骤,并对此方法进行了仿真实验。实验结果要好于第五章信息熵方法。第六章首先 分析了模糊集合理论,以及模糊技术与神经网络结合形成功能更强大的模糊神经网络, 接着分析了模糊神经网络应用到语音端点检测的可能性。最后提出了基于信息熵和模糊 b p 神经网络的语音端点检测方法与基于信息熵和模糊r b f 神经网络的语音端点检测方 法,并进行了算法仿真,仿真结果表明模糊神经网络语音端点检测的检测准确率要高于 普通神经网络,说明模糊技术的引入提高了神经网络语音端点检测的性能。第七章是总 6 太原理t 大学硕十研究生学位论文 结与展望,对论文工作进行总结,并提出了论文下一步的工作及研究方向。 7 太原理工大学硕士研究生学位论文 第二章语音信号处理基础 语音信号数字化处理是研究用数字信号处理技术对语音进行处理的一门学科。目的 是通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信 号信息。语音的数字处理包括三个方面的内容:语音信号的数字表示方法,语音信号数 字处理的各种方法以及数字语音处理理论和技术在各领域中的实际应用。 2 ,1 语音信号的特点与模型 语音信号是随时间变化的一维信号,由一连串的音组成,各个音的排列有一定的规 则。语音具有声学特征的物理性质,声音质量与它的频率范围有关,语音信号的频率一 般是在2 0 0 h z 3 4 0 0 h z 范围内,随着带宽的增加,信号的自然度将逐步得到改善。语音 信号本身的冗余度是较大的,少数辅音清晰度下降并不明显影响语句的可懂度,比如通 常的模拟电话带宽只有3 k h z 4 k h z 。 语音信号的特性是随时间变化的,所以是一种典型的非稳态信号。但是,从另一方 面来看,由于语音的形成过程与发音器官的运动密切相关,这种物理运动比起声音振动 速度来讲要缓慢得多,因此,语音信号常常可假定为短时平稳的。研究表明,在5 m s 4 0 m s 的范围内,语音信号的频谱特性和一些物理特征参数基本保持不交。这样,我们就 可以将平稳过程的处理方法和理论引入到语音信号的短时处理中。因此,“短时分析技 术”贯穿于语音分析的全过程。完整的语音信号产生模型如图2 - 1 所示嘲。 整个发声系统由激励模型、声道模型和辐射模型三个子模型组成。发声过程为:声 源区激励声道,声道对激励它的体积流进行调整输出声波。激励分为两类:1 准周期脉 冲串,当气流通过声门时声带的张力刚好使声带发生较低频率的张驰振荡,形成准周期 性的空气脉冲,这些空气脉冲激励声道便产生浊音。2 随机噪声,如果声道中某处面积 很小,气流高速冲过此处时产生湍流,当气流速度与横截面积之比大于某个门限时便产 生清音。图2 - 1 中有一个浊清音“开关”,用于改变声道激励的形式。“开关”向上, 由准周期脉冲激励声道,发出浊音;“开关”向下,由随机噪声激励声道发出清音。 8 太原理工大学硕士研究生学位论文 区 _ 。 2 2 语音信号数字化 图2 - i 语音产生的离散系统模型“ f i g u r e 2 - 1 ,m o d e lo f d i s p e r s es y s t e mo f t h e g e n e r a t i n go f s p e e c hs i g n a l 输出 语音信号数字化一般包括预滤波和a d ( 模数转换) 两个过程,如图2 2 所示。 图2 2 语音信号数字化 f i g u r e2 - 2 d i g i t i z a t i o no f s p e e c hs i g n a l 预滤波的目的有两个: 1 抑制输入信号各频域分量中频率超出l 2 的所有分量,其中z 为采样频率,以 防止混叠干扰。 2 避免5 0 h z 的电源干扰,因此预滤波是一个带通滤波器,其下截止频率五= 5 0 h z , 上截止频率厶根据需要定义。 模拟语音信号是连续信号,无法被计算机处理。因此,语音处理首先是将模拟信号 转化为数字信号,也就是常说的模数转化( a d ) 。 反混叠滤波与模数转换器通常用同一块芯片完成,就目前而言,语音信号数字化的 质量是有保证的。市场上购买的普通声卡在这方面做得较好,语音声波通过话筒输入到 声卡后直接获得的是经过防混叠滤波、a d 变换,量化处理的离散数字信号。系统实现 9 太原理工大学硕士研究生学位论文 时只需要考虑去除量化噪声和原始语音所带的噪声即可。 2 3 语音信号预处理 为了消除因为人类发声器官本身和因一些采集语音信号的设备等所引起的混叠、高 次谐波失真现象,在对语音信号进行分析和处理之前,必须对其进行预处理“。语音信 号的预处理应尽可能地保证处理后得到的信号更均匀、平滑,且能提高语音的质量。 2 3 1 预加重 由于语音信号的平均功率谱受到声门激励和口鼻辐射的影响,8 0 0 h z 以上的高频段 按6 d b 倍频程跌落,所以,求频谱时,频率越高其相应的成分越小。因此,高频部分的 频谱比低频部分的难求,为此需要在预处理中加入预加重来提升赢频部分,使信号的频 谱变得平坦。这样处理可以使低频到高频的整个频带内能用相同的信噪比来求频谱,而 且预加重零点与辐射零点将抵消声门波的影响,使语音信号中只包含声道部分,以便于 频谱分析和声带参数分析“” 预加重通常使用一阶有限冲激响应( f i r ) 滤波器来实现: h m ( z ) = l 一t z 。1 ( 2 1 ) 式中的取值范围是 o 4 ,1 0 。预加重的信号在分析处理后,需要进行去加重处 理,即加上6 d b 倍频程的下降的频率特性来还原成原来的特性。 2 3 2 加窗分帧 在进行了预加重后,接下来就要对语音信号进行加窗分帧处理。将语音信号划分为 许多短时的语音段,每个短时的语音段称为一个分析帧”j “。帧和帧之间既可以连续,也 可以重叠。另外,由于不同语音信号的基音周期不同,在女性儿童的2 m s 到老年男子的 1 4 m s 之间变化,为了兼顾男声和女声的最高和最低基音频率,且能准确地描述语音能量 自身的实际变化规律,通常将窗宽选为l o m s 一2 0 m s 。 分帧一般采用交叠分段的方法,这是为了使帧与帧之间能平滑过渡,保持其连续性。 前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为o 0 5 之间。分帧 是用可移动的有限窗口长度进行加权实现的,即用窗函数w ( n ) 乘以语音信号s ( n ) ,从而 1 0 太原理二 大学硕士研究j 宅学位论文 形成加窗的语音信号: s 。( ) = s f n ) w f n ) ( 2 2 ) 由于窗函数一般取为s ( n ) 中间人曲义小的咒滑函数,这样的冲激响应所对应的滤波 器具有低通特性,其带宽和频率取决于窗函数的选取。用得最多的三种窗函数是矩形窗、 汉明窗( h a m m i n g ) 和汉宁窗( h a n n i n g ) ,它们的定义如下: 矩形窗: 删= 任凳州。1 泣。, 汉明窗: 州= r 卸但别。1 ”0 菇一 眨t , 汉宁窗: 州= 0 5 0 - c o s 2 册1 。嚣_ 一1 ( 2 s ) 式中n 为窗长,窗函数“即) 的选取( 形状和长度) 对于短时分析参数的特性影响很 大,为此应该选择合适的窗口,使其短时参数能更好地反映语音信号的特性变化。以上 这些窗函数的幅度频率响应都具有低通特性,它们的主瓣宽度和旁瓣高度如表2 - 1 所示。 从表中可知:矩形窗的主瓣宽度最小,但其旁瓣高度最高;汉明窗的主瓣最宽,丽 旁瓣高度最低。矩形窗的旁瓣太高,会产生严重的泄漏现象( g i b b s ) ,所以只有在某些 特殊场合中采用。汉明窗旁瓣最低,可以有效地克服泄漏现象,具有更平滑的低通特性, 因此,一般在语音信号预处理中,都选用汉明窗来进行语音分帧处理。 表2 - ii s 长的各种窗的主瓣和旁瓣高度 t a b l e2 - 1 t h eh e i g h to f m a i na n ds i d ep e t a lo f a l lk i n d so f 矩形汉明汉宁 主瓣宽度 0 8 l h z1 1 9 h z1 8 7 h z 旁瓣高度 一1 3 d b一4 3 d b一3 2 d b 太原理工大学硕士研究生学位论文 2 4 语音信号分析 语音信号处理包括语音识别、语音合成、语音编码、说话人识别等方面,但是其前 提和基础是对语音信号进行分析。只有将语音信号分析成表示其本质特性的参数,才有 可能乖j 用这些参数进行高效的语音通信,以及建立用于识别的模板或知识库。而且,语 音识别率的高低,语音合成的音质好坏,都取决于对语音信号分析的准确性和精度。 2 4 1 短时时域分析 语音信号本身就是时域信号,因此,时域分析方法是应用最为广泛的一种方法, 这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析以及用于 语音的分割、预处理等。语音信号的时域参数有短时能量、短时平均幅度、短对过零率、 短时自相关函数等,这些是语音信号中一组最基本的短时参数,在各种语音信号数字处 理技术中都有重要应用。 2 4 2 频域分析 语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的,因此,对语音信 号进行频谱分析是认识语音信号和处理语音信号的重要方法。在频域上研究语音信号, 可以使某些在时域上无法体现的特性变得十分明显。傅立叶分析是分析线性系统和平稳 信号稳态特性强有力的手段,它在许多工程和科学领域中得到了广泛的应用,在语音处 理领域也是一个菲常重要的工具。傅立叶变换可以将信号分解为各个不同频率分量的组 合,把信号的时域特征和频域特征联系起来。但是,傅立叶变换使用的是一种全局变换, 无法表明信号的时频局域性质。为了能够分析和处理非平稳信号,人们对傅立叶变换进 行了推广,提出了短时傅立叶变换、小波变换等,这些理论部可应用在语音信号上。其 中,短时傅立叶分析就是基于短时平稳的假定,用稳态分析方法处理非平稳信号,也可 称为时间依赖傅立时变换,多年来研究者们已做了很多相关工作,己有大量文献阐述了 短时傅立叶分析的原理及应用。“。 1 2 太原理工大学硕士研究牛学位论文 第三章常用的端点检测算法 由于端点检测技术在语音识别、远程通讯和语音编码等领域的广泛应用,学术界对 端点检测技术产生了浓厚的兴趣,提出了各种各样的算法。总的说来可以分为两大类: 基于特征和基于模型的方法。 ( 一) 基于特征的方法,它又可分为基于鲁棒特征的方法和特征滤波的方法。基于 鲁棒特征思想的出发点是寻找能表征语音和噪音在不同域差异的特征来进行语音和噪 音时段的区分,所用特征主要有能量、子带能量、过零率、基频、周期度量、熵和能量 方差等。基于特征滤波的思想的出发点是对特征先进行滤波,然后进行端点检测,主要 算法有子空间滤波,能量差分自适应滤波等。 ( 二) 基于模型的方法,基于模型思想的出发点是针对噪音和语音进行建模来区分 语音和噪音。此类算法把语音信号端点检测问题看作是对每帧信号进行分类,任意时刻 的语音特征矢量q 可以看作由一对分布函数厶( q ) 产生的。即风( 语音) :0 ,一一厂( 品) 和( 背景) :d ,- - f ( 8 :) 。而( q ) 满足g a u s s i a n 分布,即厂( q ) 一一( 脚r ) 。通过 建立相应的检测准则( 如b a y e s 准则) ,对每帧语音矢量进行划分,确定其属于风或q 。 3 1 短时能量及过零率 有不少端点检测算法是基于信号的短时能量“。先算出背景噪声能量的统计特性, 定出能量门限,利用能量门限来确定语音信号的起止点。这种方法在背景噪声幅度保持 恒定,且远低于语音信号幅度时,并且对孤立字的最小帧数、最大帧数、句子问间隙的 最小帧数,以及人为的突变性音节帧数有充分先验知识的条件下,可以十分有效地准确 检测出语音信号的端点。尤其在用过零率方法作辅助处理来调整检测后的端点时,测出 的端点位置是比较准确的。然而,当该类算法在信噪比较低的情况下,检测性能开始恶 化。在更恶劣的情况下,甚至完全不能检测出其端点。而且,过零率方法在背景噪声是 汽车噪声、麦克风噪声或白噪声时,噪声的过零率均不相同,有时与语音某些音节的过 1 3 太原理工大学硕士研究生学位论文 零率相重叠,也很难作为一种辅助的判据。 为减少背景对检测结果精度的影响,针对汉语语音信号大部分以声母开始以韵母结 束的特点,在基于短时帧能量的双门限检测算法基础上,有人提出带背景噪声动态估计 的语音端点检测方法。用短时帧过零率进行语音开始点的检测,用短时帧能量e 进行语 音结束点的检测,对背景噪声动态估计,进行语音端点检测,过程如图3 一l : 输入r 一 一0 预处理 语音l 一 计算语音信号短时帧能量和 带门限短时帧过零率提取语音0 一一有效 j 语音 竺墨f i ;i j 砷i 噪音l _ j 图3 一l 语音端点检测过程 f i g u r e3 - 1 d e t e c t i o n p r o c e s s i n go f s p e e c h e n d p o i n t 通常的算法如下:首先对语音信号进行分帧处理,然后进行预处理。预处理包括预 加重和加窗处理,预加重即信号通过仅有一个零点的滤波器h ( z ) = l 一z 一,其中接 近或等于l 。加窗处理是用窗函数x ( ”) 来乘一帧的语音信号s ( n ) ,从而形成加窗语音 s ,( ”) = s ( n ) x ( n ) 。其次是计算语音信号的短时帧能量e 。短时帧能量e 表示为: e = s 2 ( 珂) ( 3 1 ) s ( n ) 为离散语音信号时间序列;n 为帧长。 然后对背景噪声动态估计,采用基于短时帧能量的双门限语音端点检测算法,进行 语音信号端点检测作为语音起止点初判,设一个较高的门限巧,用以确定语音开始,再 取一个比稍低的门限五,用以确定真正的开始点及结束点。提取噪声段,计算噪声 段幅值的平均值作为带门限短时帧过零率的门限值,。高门限巧为矗2 e ,低门限瓦 为五= 矗。其中:e 为整个语音段的短时帧能量e 的平均值,为经验值。 计算语音信号的带门限短时帧过零率乙: 1 乙= 1 5 妒哇5 ( 力一刀一s g n s ( n 1 ) 一t i + j s g 研s ( n ) + r 一豫嘎s 一1 ) + 刃i ( 3 2 ) ,声l 1 4 太原理工大学硕二 :研究生学位论文 其中跏是语音信飘稍号碱蚴巾 = 托黑丁为计算得到的低 门限值。用带fj 限短时帧过零串乙州断,世a ,符连续h 帧的带f 】限圭_ 珊j 立零率互,超过 过零率门限z 。,则第一次超过帧为语音开始帧:若连续三帧的短时帧能量e 低于能量 低门限瓦,则首帧作为语音的结束帧。过零率门限为 z 一= 口乙 ( 3 3 ) 其中:乙为整个语音段的带门限短时帧过零率的平均值;口为经验值。 对背景噪声进行动态估计时带门限的短时帧过零率z z 比不带门限的短时帧过零率 z ,具有更好的精度和鲁棒性。根据汉语语音信号的特点,针对背景噪声动态估计,及短 时帧能量和带门限短时帧过零率在语音信号中的规律性,进行端点检测,适应变化的环 境,有很高的精度和鲁棒性。但常用的基于短时能量的端点检测方法对于能量较低的音 节或在信噪比较低的环境下,检测性能不够理想。 3 2l p c 倒谱特征 倒谱能很好表示语音的特征,因此在大多数语音识别系统中选择倒谱系数作为输入 特征矢量。在噪声环境下,短时能量与其他特征参数都不能很好地区分语音段与非语音 段,因此采用倒谱系数来作为端点检测的参数“。 信号的复倒谱定义为信号能量谱密度函数s ( 出) 的对数的傅里叶级数,l o g s ( t o ) 的 傅里叶级数表示式为 l o g s ( 缈) = c e ”。 ( 3 4 ) 式中= t 。为实数,通常称为倒谱系数,且 = 去e l o g s ( 甜跏 ( 3 5 ) 对于一对谱密度函数s ( ) 与s + ( ) ,利用p a r s e v a l 定理,用谱的倒谱距离表示对数 谱的均方距离为: 1 5 太原理工大学硕士研究生学位论文 = 去妇。g s o ) 一- 。g s 。淞= 茎( c 。一巳f (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论