




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)语音识别的环境噪音抑制研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本论文主要的研究内容是基于噪音环境下的语音识别性能的改进研究。语音 识别是指利用计算机通过识别和理解把人类的语音信号转变为相应的文本或命 令技术。然而,大多数语音识别系统都只适合于识别安静环境中的语音,当它们 应用于噪音环境中时,性能却大大降低。因此,在噪音环境下进行语音识别是现 阶段语音识别发展过程中的一个难点。虽然如此,但它在我们这种高速发展的信 息时代却有着可观的实用价值。 作者从语音识别的端点检测进行了研究,搭建了包括语音采集、噪音合成、 特征提取,直到产生识别结果的在内的语音识别软件系统平台。在该平台的基础 上,做了下面的改进研究: ( 1 ) 提出一种端点检测的新算法:研究表明,即使在安静的环境中,语音识别 系统一半以上的识别错误来自端点检测器。因此,作为语音识别系统的第一步, 端点检测的重要性是不容忽视的,尤其是噪音环境下语音的端点检测,它的准确 性很大程度上直接影响着后续的工作能否有效进行。所以,本文给出了一种基于 线性预测系数( l p c ) 距离算法的端点检测方案,可以有效的解决强噪音环境下的 端点检测问题。 ( 2 ) 基于新算法的改进:在强噪声情况下,l p c 距离算法可以有效抑制噪音, 可是它也有自己的不足之处,即不能在高信噪比的条件下进行有效的端点检测, 而这恰恰是传统算法的长处,所以作者就考虑将两者结合起来,将两者的参数进 行组合,实验证明,这种方法可以较大范围地满足噪音环境下的端点检测要求, 进而可以更好地抑制环境噪音。 关键词:语音识别;噪音抑制;端点检测;线性预测系数( l p c ) l i 疆离 :耋三些奎耋三兰堡圭兰堡篁兰 a b s t r a c t t h em a i nc o n t e n to ft h i s p a p e ri st h ep e r f e c t i o no fs p e e c hr e c o g n i t i o nu n d e r s t r o n gn o i s e s p e e c hr e c o g n i t i o n i s c h a n g i n gt h e h u m a nv o i c e s i g n a li n t o c o r r e s p o n d i n gt e c h n i c a lt e x t so ro r d e rb ym e a n so fi d e n t i f y i n ga n du n d e r s t a n d i n g u s i n gc o m p u t e r s h o w e v e r , m o s ts p e e c hr e c o g n i t i o ns y s t e m si so n l ys u i t a b l ef o rt h e q u i e te n v i r o n m e n t ,w h e nt h e ya r eu s e di nt h en o i s ee n v i r o n m e m ,p e r f o r m a n c ei s g r e a t l yr e d u c e d t h e r e f o r e ,s p e e c hr e c o g n i t i o nu n d e rn o i s ee n v i r o n m e n ti sd i f f i c u l ta t t h i ss t a g ei nt h ed e v e l o p m e n t ,n e v e r t h e l e s s ,i th a sas i g n i f i c a n t p r a c t i c a lv a l u ei nr a p i d d e v e l o p m e n to f t h ei n f o r m a t i o na g e , t h ea u t h o rp r a c t i s e ss t u d y i n ge n d p o i n td e t e c t i o no fs p e e c hr e c o g n i t i o na n d e s t a b l i s h e sp l a t f o r mi n c l u d i n gv o i c ec o l l e c t i o n ,s y n t h e s i so fn o i s e ,f e a t u r ee x t r a c t i o n , a n dr e c o g n i t i o nr e s u l t sg e t t i n g o nt h ep l a t f o r m ,id oi m p r o v e m e n ts t u d y i n g ,t ot h e f o l l o w i n g : ( d an e we n d p o i n td e t e c t i o na l g o r i t h m :t h es t u d ys h o w st h a te v e ni naq u i e t e n v i r o n m e n t ,v o i c er e c o g n i t i o ns y s t e m st oi d e n t i 玲m o r et h a nh a l fo ft h ee l t o l 8a r e f r o mt h ee n d p o i n td e t e c t o r t h e r e f o r e ,鲴t h en e c e s s a r ys t e po fs p e e c hr e c o g n i t i o n s y s t e m ,e n d p o i n td e t e c t i o n si m p o r t a n c es h o u l dn o tb eo v e r l o o k e d ,p a r t i c u l a r l yn o i s y e n v i r o n m e n t ,a n di t sa c c u r a c yt oag r e a te x t e n th a v ead i r e c ti m p a c to nt h ef o l l o w u p w o r ke f f e c t i v e l y t h e r e f o r e ,i nt h i sp a p e r , ae n d p o i n td e t e c t i o na l g o r i t h mb a s e do na l i n e a rp r e d i c t i o nc o e f f i c i e m ( l p c ) d i s t a n c e ,c a l lh ea l le f f e c t i v es o l u t i o no fn o i s e e n v i r o n m e n tc n d p o i n td e t e c t i o n ( 2 ) b a s e do n an e wa l g o r i t h mf o ri m p r o v e m e n t :t h el p cd i s t a n c ea l g o r i t h mc a n e f f e c t i v e l yc u r bn o i s e ,b mi ta l s oh a si t so w ns h o r t c o m i n g st h a ti sn o ti nt h eh i 曲 s i g n a l - t o n o i s er a t i oc o n d i t i o n sf o re f f e c t i v ee n d p o i n td e t e c t i o n t h i si sp r e c i s e l yt h e s t r e n g t h so ft r a d i t i o n a la l g o r i t h m ,t h ea u t h o rc o n s i d e rc o m b i n i n gt h et w op a r a m e t e r s o ft h ep o r t f o l i ot o g e t h e r e x p e r i m e n t ss h o wt h a tt h i sm e t h o dc a nm e e taw i d er a n g eo f e n v i r o n m e n t a ln o i s ee n d p o i n td e t e c t i o n ,s oi tc a l lb ei nab e t t e rp o s i t i o nt oc u r b e n v i r o n m e n i a lf 1 0 j s e k e yw o r d s :s p e e c hr e c o g n i t i o n ;n o i s es u p p r e s s i o n ;e n d p o i n td e t e c t i o n ;l i n e a r p r e d i c t i o nc o e f f i c i e n td i s t a n c e 广东工业大学工学硕士学位论文 独创性声明 秉承学校严谨的学风与优良的科学道德,本人声明所呈交的论文是我个人在 导师的指导下进行的研究工作及所取得的研究成果。尽我所知,除了文中特别加 以标注和致谢的地方外,论文中不包含其他人已经发表或者撰写过的研究成果, 不包含本人或其他用途使用过的成果。与我一同工作过的同志对本研究所做的任 何贡献均已在论文中作了明确的说明,并表示了谢意。 本学位论文成果是本人在广东工业大学读书期间在导师的指导下取得的。论 文成果归广东工业大学所有。 申请学位论文与资料若有不实之处,本人承担一切相关责任,特此声明。 指导老师签字: 沥新z 敝储辩:苹钾 o 。1 年5 勇l 了b 第一章鳍论 1 1 语音识别的定义 第一章绪论 我们所谈论的语音识别就是指利用计算机通过识别和理解把人类的语音信 号转变为相应的文本或命令技术。其根本目的是研究出一种具有听觉功能的机 器,这种机器能直接接受人地语言,理解人的意思,并做出相应的反应。从技术 上看,它属于多维模式识别和智能接口的范畴。语音识别技术是一项集声学、语 言学、计算机、信息处理、人工智能等语意身的综合技术,可广泛应用在信息处 理、通信与电子系统、自动控制等领域l l j 。 1 2 语音识别的发展简介 语音识别的历史可以追溯到2 0 世纪5 0 年代。1 9 5 2 年a t & tb e l l 实验室的 k h d a v i s 等人利用带通滤波器进行语音频谱的分析和匹配,并成功对1 0 个英文 字母的识别,识别率达9 8 。1 9 6 0 年e d e n e s 等研制成功第一个计算机语言识别 系统,同年g f a n t 提出了语音产生的声源滤波器模型,对语音识别的工作起 到了距大的推动作用。 2 0 世纪6 0 年代末、7 0 年代初线性预测( l i n e ap r e d i c t i o n ,l p ) 技术和动 态时间规整算法( d y n a m i ct i m ew a r p i n g ,d t w ) 1 2 】被成功引入到语音信号处理中, 有效地解决了语音的特征提取和不定长匹配的动态时间对准问题。此时期的研究 以孤立字语音识别为主。 2 0 世纪8 0 年代语音识别研究进一步走向深入,其研究重点是连接词语音识 别,用于连接词语音识别,用于连接词识别的分层构筑技术( 1 e v e lb u i l d i n g ) 得到发展。另一个重要的发展是语音识别的算法从模板匹配技术发展到基于统计 模型的技术。其间,美国c m u 大学的j k b a k e r 等人将隐马尔科夫模型( h i d d e n m a r k o vm o d e l ,删) 【2 】应用到语音识别领域,在语音识别中获得极大的成功, 成为语音识别的主要方法。 h 删模型的研究使大词汇量连续语音识别系统的开发成为可能。1 9 8 8 年,美 广东工业大学工学硕士学位论文 国的c m u 大学用v q ( v e c t o rq u a n t i z a t i o n ) 舢方法 2 1 实现了9 9 7 个词的非特定 入连续语音识别系统,其后,连续语音识别技术获得长足发展。 近年来,人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 以及支持向量机 ( s u p p o r tv e c t o rm a c h i n e ,s ) 【3 】由于其较强的自适应性和自学习能力而获得了 普遍的重视,并在语音识别系统获得了成功应用。 汉语英语识别的冶金紧密跟踪识别系统的最新成果并基本与之保持同步。目 前国内对大词汇量连续语言识别系统的研究已经接近国外最高水平。 目前i b m 公司开发的v i a v o i c e 非特定人类学语音识别系统已经成功推向市 场,并获得广泛的好评。此外,中国科学院、清华大学、比利时l & h 公司等都已 经推出了语音识别系统。 然而,现实生活中的语音不可避免的受到周围环境的影响,很强的背景噪音 例如机械噪声,环境噪声,其他说话者的话音等均会严重地影响语音信号的质量, 此外传输系统本身也会产生各种噪声,因此在接收端接受到的语音信号为带噪声 的语音信号。混杂在语音信号中的噪声按类别可分为环境噪声等的加法性噪声与 残响及电器线路干扰等乘法性噪声;按性质可分为平稳噪声和非平稳噪声,除此 之外,噪声环境下说话人的发音变化也是实环境下,话者的情绪会发生变化,从而 引起声带的变化,这就是所谓的l o m b o r d 现象但一般认为,l o m b o r d 现象对语音 处理系统的影响相对较小。州 有关抗噪声技术的研究以及实环境下的语音信号处理系统的开发,在国内外 作为语音信号处理的非常重要的研究课题,已经做了大量的研究工作,取得了丰富 的研究成果目前国内外的研究成果大体分为三类解决方法第一类是采用语音增 强算法等,提高语音识别系统的前端预处理的抗噪声能力,提高输入信号的信噪比 第二类方法是寻找稳键的耐噪声的语音特征参数,通过该特征参数来提取纯净的 语音信号,从而达到消除噪声的功能第三类方法是基于模型参数适应化的噪声补 偿算法,采用特定的语音模型作为系统框架,比较估计出语音信号,实现语音增强。 2 第一章绪论 1 。3 语音识别技术的应用 1 3 1 语音信息检索 随着多媒体技术和网络技术的迅速发展,数据量急剧增多。如何在海量数据 中挑选出有用的信息,并进行相应的分类和检索,对合理地利用信息资源具有重 要的意义。多媒体信息检索就是在这一背景下应运而生的。对多媒体信息检索的 研究,目前多为基于文本的信息检索,并且相当成熟,出现了如g o o g l e 等一些 非常好的检索工具。相比之下,基于语音和图像内容的信息检索技术孩很不完善, 存在着大量的问题需要解决。 语音作为数字化信息的个重要类型,正发挥着越来越重要的作用。在广播 电视的新闻节目、学术会议的录音报告中包含大量的语音信息,如何有效地对这 些信息进行分类、检索,充分利用好这些信息是一个亟待解决的问题。随着语音 处理技术的发展和逐步完善,语音识别技术能够对广播新闻节目中的标准连续语 音进行识别,具有很高的识别率。由于语音具有直观、自然,方便人类使用的特 点,所以利用现有的成熟语音识别技术对多媒体数据进行检索,将极大地提高人 们对现有多媒体数据信息的利用率。目前,国内外正在制定多媒体音、视频信息 检索的国际标准,人们更期望直接用语音来检索存储体中相关的音频信息,而不 是只用文本检索。由此看来,基于语音内容的信息检索是一个有着广阔发展前景 的研究方向。 1 3 2 发音学习技术 当今社会越来越多的入希望学习和掌握其他菲母语语言,以利于更方便地进 行交流。因此,语言学习成为目前教育领域的一个热点。实践证明,采用传统的 课堂教育对于学习一门非母语语言是远远不够的。自学是语言学习的一种有效途 径,它具有不受时间地点限制、灵活方便等特点。随着计算机技术的迅速发展, 一种称为计算机辅助语言学习( c o m p u t e r - a i d e dl a n g u a g el e a r n i n g ,c a l l ) 的技术 应运而生。【4 】传统的c a l l 系统,主要关注语言的文字应用能力( 即读和写) 和 语音理解能力( 即听力) 的训练,相对而言,却很少关注语言的口头表达能力( 即 3 广东工业大学工学硕士学位论文 说的能力) 的训练。语言的口头表达能力,主要表现在发音的可懂度和自然度上。 近年来,随着语音识别技术的进步,人们开始研究利用语音识别技术进行辅助发 音学习的c a l l 技术。 1 3 3 基于语音的情感处理 语言是人类创造和记载几千年文明史的基本手段。在人与入交流中,除了言 语信息外,非言语信息也起着非常重要的作用;传统的语音处理系统仅仅是着眼 于语音词汇传达的准确性,而完全忽略了包含在语音信号中的情感因素,所以它 只是反映了信息的一个方面。近年来,许多研究者开始研究情感对语音的影响, 以及尝试对语音处理算法的适应技术。在日常生活中,可以通过人脸的表情、语 音和手势、心跳、以及血压等识别情感状态,其中语音起着非常主要的作用。有 许多关于语音和情感之间相互联系的研究,如w i l l i a m s 发现情感对语音的基音轮 廓有很大的影响,m u r r a y 认为与情感关系最大的声道参数是基音、音长、强度 和声音质量,并且也提到基本情感与声音的连带关系是与不同文化有关的。 1 3 ,4 网络环境下的语音识别 随着网络技术的日益成熟,通过i n t e r n e t 网络传递声音的i p 电话技术发展迅 猛,已经成为人们日常交流的重要手段之一。随着i p 电话中进行语音识别的研 究者们的注意,已成为本领域的热点问题之一。口电话由于其工作方式的特点, 在传输中存在一些额外的信息损失,例如在网络中传输语音都是使用各种声码 器,考虑到带宽的限制,对所传输的语音数据进行压缩编码,这样在编解码过程 中存在着信息的损失。同时,在网络传输过程中,语音信号经过编码压缩后并在 网络中传输,一般的传输协议中语音包是基于不可靠的r t p 层传输的,这样会 存在丢包的情况,因而会使接收方获得的语音信号的音质受损。此外,数据包在 传输过程中,由于网络的拥挤,还会存在包延迟到达的情况。这一切都是传统语 音识别方法中没有涉及到的问题。 4 第章绪论 1 3 5 嵌入式语音识别技术 随着计算机硬件技术、通信技术和网络技术等的飞速发展,人类进入了后 p c 时代。这个时代的一个典型特征就是,各种新型智能化的设备日益广泛走进 人们的工作和生活,而人们与这些智能终端之间的自然、快捷、稳定可靠的交互 方式有助于提高人机交互的效率,增强人对智能化设备的控制。作为人机交互最 自然的方式,语音技术的研究近年来取得了长足的进展,其中语音识别由于其重 要性和研究难度更成为研究的热点。 嵌入式语音识别技术是指应用各种先进的微处理器在板级或是芯片级用软 件或硬件实现语音识别技术。语音识别系统的嵌入式实现要求算法在保证识别效 果的前提下尽可能优化,以适应嵌入式平台存储资源少,实时性要求高的特点。 实验室中高性能的大词汇量连续语音识别系统代表当今语音识别技术的先进水 平。但由于嵌入式平台资源和速度方面的限制,其嵌入式实现尚不成熟。而中小 词汇量的命令词语音识别系统由于算法相对简单,对资源的需求较小,且系统识 别率和顽健性较高,能满足大多数应用的要求,因而成为嵌入式应用的主要选择。 嵌入式系统的硬件通常是用性能比较高的数字信号处理器( d i g i t a ls i p p r o c e s s o r , d s p ) 来实现,例如采用t m s 3 2 0 系列的d s p 。 1 4 语音识别基本原理 语音识别本质上是一种模式识别的过程,其基本结构原理图如下图1 - 1 所示, 主要包括语音信号处理、特征提取、调整建模( 建立参考模式库) 、相似形度量 和后处理等几个功能模块,其中后处理模块为可选部分。【4 】 图l 1 语音识别基本原理框图 f i g u r ei - is p e e c hr e c o g n i t i o nb a s i cb l o c kd i a g r a m 果1 结一 剐一。 识 一理 磊一 广东工业大学工学硕士学位论文 一个语音识别系统主要包括训练和识别两个阶段。无论识训练还是识别,都 需要首先对输入的原始语音进行预处理,并进行特征提取。下面具体说明各个模 块的功能。 预处理模块,对输入的原始语音信号进行处理,滤掉其中的不重要的信息以 及背景噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束 位置,并进行语音分帧以及预加重等处理工作。 特征提取模块负责计算语音的声学参数,并进行特征的计算,以便提取出反 映信号特征的关键特征参数,以降低维数并便于后续处理。语音识别系统常用的 特征参数有幅度、能量、过零率、线性预测参数( l p c ) 、l p c 倒谱系数( l p c c ) 、 线谱对参数( l s p ) 、短时频谱、共振峰频率、反映人耳听觉特征的m e l 频率倒 谱系数( m f c c ) 等。特征的选择和提取是系统构件的关键。 在训练阶段,用户输入若干次训练语音,系统经过上述预处理和特征提取后 得到特征矢量参数( 序列) ,然后通过特征建模模块建立训练语音的参考模式库 ( 可能为参考模板或者模型等) ,或者对已在模式库中的参考模式作适应性修正。 在识别阶段将输入语音的特征矢量参数( 序列) 和参考模式库中的模式进行 相似性度量比较,将相似度最高的的模式所属的类别作为识别的中间候选结果输 出。 而后处理模块则是对上述得到的候选识别结果继续处理,通过更多的知识 ( 比如;语言学的语言模型、词法、句法和语义信息等) 的约束,得到最终的识别 结果。 1 5 语音识别系统的分类 1 5 1 按照词汇表大小分 每个语音识别系统都具有一个词汇表,系统只能识别词汇表中所包含的词 条。按照词汇表大小( 词汇表中所包含的词汇量的多少) 来分,有小词汇表( 词 汇最小于1 0 0 ) 、中词汇表( 词汇量在1 0 0 和1 0 0 0 之间) 、大词汇表( 1 0 0 0 词以 上) 语音识别。一般而言,随着词汇表中词汇量的增多,各词汇之间的混淆性增 第一章绪论 加,系统的实现将变得更加困难,系统的识别率也会降低。 1 5 2 按照发音方式分 语音识别按照语音的发音方式来分,可以分为孤立词识别、连接词识别、 连续语音识别3 种方式。所谓孤立词识别( i s o l a t e dw o r dr e c o g n i t i o n ,i w r ) 是指 在发待识语音时,每次只含词汇表中的一个词条,比如一个词、一个词组或者一 条命令,因为“词、词组、命令”在词汇表中都算作一个独立的词条。连接词识 别( c o n n e c t e dw o r dr e c o g n i f i o n , c w r ) 每次说词汇表中的若干个词条来进行识 别,该若干词条以慢速连续的方式说出,一般指0 9 十个数字连接而成的多位 数字的识别,并包含其他一些少量的操作指令等。连续语音识别( c o n t i n u o u s s p e e c hr e c o g n i t i o n , c s r ) 指说话人以日常自然的方式讲述并进行识别。目前, 连续语音识别已经取得了较好的效果。 1 5 3 按照说话人的限定范围分 有特定人识别和非特定人识别两种方式。所谓特定人( s p e a k e ri ) e p e n d e n l s d ) 识别是指识别系统只针对特征的某个用户进行识别工作的方式;而非特定 人( s p e a k e ri n d e p e n d e n t , s i ) 识别则是指识别系统可以针对任何人工作。非特定 人语音识别需要针对不同人建立模型,实现起来难度较大,但是通用性好、应用 需求更广。 1 5 4 按照识别方法分 有模板匹配法、概率模型法等。所谓的模板匹配法是指把不同内容的语音转 换成不同的模板,并基于对模板匹配的相似性度量进行识别的方法。而概率模型 法主要是指利用隐马尔可夫模型 变为: s n r = 6 0 2 b - 7 2( 2 3 ) 上式表明量化器中每b n 字长对s n r 的贡献约为6 d b 。当b = 7 b i t 时, s n r = 3 5 d b 。此时量化后的语音质量能满足一般通信系统的要求。然而,研究表 明,语音波形的动态范围达5 5 d b ,故b 应取1 0 b k 以上。为了在语音信号变化 的范围内保持3 5 d b 的信噪比,常用1 2 b i t 来量化,其中附加的5 b i t 用于补偿3 0 d b 左右的输入动态范围的变化。【1 3 1 数字化的反过程就是从数字化语音中重构语音波形。由于进行了以上处理, 所以在接收语音信号之前,必须在d a 后加一个平滑滤波器,对重构的语音波 形的高次谐波等许多功能可以用一块芯片来完成,在市场上能购到各种这样的芯 片。 2 4 2 语音信号预处理 2 4 2 1 语音信号预加重 已数字化的语音信号序列将依次存入一个数据区,在语音信号处理中一般用 循环队列的方式来存储这些数据,以便用一个有限容量的数据区来应付数量极大 的语音数据,已处理完提取出了语音特征参数的一个时间段的语音数据可以依次 抛弃,让出存储空间来存储新数据。由于语音信号频谱的高频部分的能量比较小, 其幅度较小,它易受到干扰的影响。因此,在分析语音信号之前,对其高频部分 1 9 广东工业大学工学硕士学位论文 进行增强。根据语音信号的特点,预加重的频率特性如图2 - 4 所示。【1 4 】 频率k l t z , 图2 - 4 预加重的频率特性 f i g u r e2 - 4p r e i n c r e a s i n gf r e q u e n c yc h a r a c t e r i s t i c s 高频端大约在8 0 0 0 h z 以上按6 d b 倍频程跌落,所以求语音信号频谱时,频率越 高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行 预加重( p r e e m p h a s i s ) 处理。预加重的目的是提升高频部分,使信号的频谱变得 平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱 分析或声道参数分析。预加熏可在语音信号数字化时在反混叠滤波器之前进行, 这样不仅可以进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。 但预加重一般是在语音信号数字化之后,在参数分析之前在计算机里用具有 6 d b 倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤 波器: 胃( :) = 1 一- t z l ( 2 4 ) 式( 2 4 ) 中,的值接近于1 。 有时要恢复原信号,需要从做过预加重的信号频谱来求实际的频谱时,要对 测量值进行去加重处理( d e e m p h a s i s ) ,a p g n _ k6 d b 倍频程的下降的频率特性来 还原成原来的特性。”5 1 2 4 2 2 加窗处理 进行过预加重数字滤波处理后,接下来就要进行加窗分帧处理。一般每秒的 帧数约为3 3 1 0 0 帧,视实际情况而定。分帧虽然可以采用连续分段的方法,但 一般要采用如图2 - 5 所示的交叠分段的方法,这是为了使帧与帧之间平滑过度, 每罩牾尊 第二章语音信号处理基本原理 - l 自- _ _ 目目| _ j e j i - _ 自e l t e e 日! 自j | ! = ! = - _ _ 自! _ e j = ! _ _ _ - _ t ! _ _ 日,自_ _ _ e j e _ _ _ _ _ _ _ | t 自l t _ i _ ii i _ - 保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取 o i 2 之间。分帧是用可移动的有限长度的窗口进行加权的方法来实现的,这就 是用一定的窗函数w ( n ) 来乘s ( n ) ,从而形成加窗语音信号s w ( n ) = s ( n ) 率w ( n ) 。 n 为帧长,m 为帧间重叠长度 图2 - 5 帧长与帧移的示例 f i g u r e2 - 5f r a m es i z ea n d f r a m es h i f te x a m p l e s , 在语音信号处理中常用的窗函数是矩形窗和哈明窗等,它们表达式如下( 其 中n 为帧长) : 矩形窗( r e c t a l l 刚孤w i n d o w ) : f 1 w ( n ) = i l0 ( o n n - 1 ) ( n o 或n 对d 哈明窗( h a m m i n gw i n d o w ) : w ( n ) = 0 5 4 - 0 4 6 c o s 2 瓦r d ( n - 1 ) 1 ( o n n - 1 ) o ( n o 或n n ) ( 2 5 ) ( 2 6 ) 窗函数取n ) 的选择( 形状和长度) ,对于短时分析参数的特性影响更大。为了形 状合适的窗口,使其短时参数更好地反映语音信号的特性变化。下面从窗口的形 状和窗口的长度两方面来讨论这个问题。 1 窗口的形状: 厂j、l 三查三些奎兰三兰堡圭耋堡竺兰 虽然,不同的短时分析方法( 时域,频域,倒频域分析) 以及求取不同的语音 特征参数可能对窗口函数的要求不尽一样,但一般来讲,个好的窗函数的标准 是:在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口 边缘两端不引起急剧变化而平滑过度到零,这样可以使截取出的语音波形缓慢降 为零,减小语音帧的截断效应;在频域要有较宽的3 d b 带宽以及较小的边带最大 值。这里只以典型的矩形窗和汉明窗为例进行比较。 矩形窗时: ( 0 n n - 1 ) ( n o 或n n ) 对应于该单位函数响应的数字滤波器的频率响应为 蚶) _ 驴7 = 而s i n ( n 。s t 2 2 ) e _ 一1 ) ,2 ( 2 7 ) ( 2 8 ) 它具有线性的相位频率特性,其频率响应为第一个零值时所对应的频率为 f o i = f s n = 1 n t s 咐r 加4 & 0 8 一。1 w ( 0 n n 一1 ) ( n 0 或n 心o ( 2 9 ) ( 2 1 0 ) 则发现频率响应h ( e l 们) 的第一个零值频率( 即带宽) 以及通带外的衰减都比矩形 窗要大的多。矩形窗与哈明窗的一些参数可参照表2 - 2 。 l o r、ll 产 n k 第二章语音信号处理基本原理 表2 - 2 矩形窗与哈明窗的比较 t a b l e2 - 2c o m p a r i s o no fr e c t a n g u l a rw i n d o wa n dh a r m i nw i n d o w 最小阻 窗类型旁瓣峰值 主瓣宽度 带衰减 矩形窗 1 3 4 ,【,n 1 2 哈明窗 4 1 8 “n - 5 3 从表2 - 2 中我们可以看出,哈明窗的主瓣宽度比矩形窗大一倍,即带宽约增 加一倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好,但损 失了高频部分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明窗比 矩形窗更为合适。因此,对语音信号的短时分析来说,窗口的形状是至关重要的。 例如,选用不同的窗口,将使时域分析参数的短时平均能量的平均结果不同。 2 窗口的长度: 采样周期t s = l 低,窗口长度n 和频率分辨率f 之间存在下面的关系: a f = l n t sf 2 1 1 ) 可见,采样周期一定时,f 随宽度n 的增加而减小,即频率分辨率相应的 得到提高,但同时时间分辨率降低| 如果窗口取短,频率分辨率下降,而时间分 辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。例如 对于时域分析来讲,如果n 很大,则它等效于很窄的低通滤波器,语音信号通 过时,反映波形细节的高频部分被阻碍,短时能量随时间变化很小,不能真实地 反映语音信号的幅度变化;反之,当n 太小时,滤波器的同带变宽,短时能量随 时间有急剧变化,不能得到平滑的能量函数。因此,窗口的长度选择应合适。 有时窗口长度的选择,耕种要的是要考虑语音信号的基音周期。通常认为在 一个语音帧内应包含1 7 个基音周期。然而不同的人的基音周期变化很大,从 女性和儿童的2 m s 到老年男子的1 4 m s ( & 1 基音频率的变化范围为5 0 0 7 0 h z ) ,所以 n 的选择比较困难。通常在1 0 k h z 取样频率下,n 折中选择为1 0 0 2 0 0 点为宜( 即 l o 2 0 m s 持续时间) 。【1 6 】 2 3 广东工业大学工学硕士学位论文 语音信号的数字化和预处理是一个很重要的环节,在对一个语音信号处理系 统进行性能评价时,作为语音参数分析条件,采样频率和精度、采用了什么预加 重、窗函数、帧长和帧移各是多少等都必须交代清楚以供参考。 这样,经过上面介绍的处理过程,语音信号就己经被分割成一帧一帧的加过 窗函数的短时信号,然后再把每一个短时语音帧看成是平稳的随机信号,利用数 字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据, 处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时 间序列。 2 5 语音信号分析方法 语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号 本质特征的参数才有可能利用这些参数进行高效的语音通信、语音合成和语音识 别等处理。贯穿于语音分析全过程的是“短时分析技术”。因为,语音信号从整 体看其特征及表征,其本质特征的参数是随时间而变化的,所以它是一个非平稳 过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是,由于 不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,这种1 :3 腔运 动相对于语音频率来说是非常缓慢的,所以从另一方面来看,认为语音信号在 1 0 3 0 m s 内其特性基本保持不变即相对稳定,是一个准稳态过程,即语音信号具 有准平稳性。l i 叫 2 5 1 时域处理方法 2 5 1 。1 短时能量和短时平均幅度 由于信号的能量随时间而变化,清音和浊音之间的能量差别相当显著。因此 对短时能量和短时平均幅度进行分析,可以描述语音的这种特征情况。定义短时 能量为: e 。= 艺【x ( 聊) 国( 以一m ) 】2 = 妻x 2 ( m ) h ( 1 1 - - m ) = x 2 ( n ) + ( n ) ( 2 1 2 ) 2 4 第二章语音信号处理基奉原理 式中,h ( n ) = 一( n ) 表示在信号的第n 个点开始函数时的短时能量。可以看出,可 以看作语音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲激响 应为h ( n ) ,如图2 - 6 所示。 图2 - 6 短时能量的方块图表示 f i g u r e2 - 6s h o r tt i m ea v e r a g ye n e r g yb l o c kd i a g r a m 短时平均能量特征主要用途如下:可以作为区分清音段和浊音段的特征参 数。实验结果表明浊音段的能量e n 明显高于清音段。通过设置一个能量门限值, 可以大致判定浊音变为清音或者清音变为浊音的时刻,同时也可以大致划分浊音 区间和清音区间。在信噪比高的情况下,短时能量还可以作为区分有声和无声的 依据。可以作为辅助的特征参数用于语音识别中。短时能量参数的一个主要问题 是e l l 对信号电平过于敏感。由于需要计算信号样值的平方和,在定点实现时很 容易产生溢出。为了克服这一缺点,可以定义一个平均幅度函数来衡量语音幅度 的变化,其公式为: h + - i m 。= i x ( 所物( 一m ) = k ( 研) l ( 2 1 3 ) m 。 m 硼 这里用加窗后信号的绝对值之和代替平方,使运算进一步简化。短时平均幅值的 实现如下图2 7 所示。 弋矿咂卫乇葡叵丑一瓦 图2 - 7 短时平均幅度的方块图 f i g u r e2 - 7s h o r tt i m ea v e r g ym a g n i t u d eb l o c kd i a g r a m 2 b 1 2 语音短时过零率 过零率可以反映信号的频谱特性。当离散时间信号相邻两个样点的正负号异 号时,我们称这为“过零”,即此时信号的时间波形穿过了零电平的横轴。统计 单位时间内样点值改变符号的次数就可以得到平均过零率。对窄带信号来说,用 广东工业大学工学硕士学位论文 平均过零率来度量是相当精确的。由于语音信号是一种短时平稳的宽带信号,因 此在统计平均过零率时往往按帧来计算,这样就可以得到帧平均过零率,其定义 为 乙= i 1 i s g n x ( m ) - s g n x ( m - 1 ) p ( n 一所) 1 “一o = 寺艺i s g n x 。( 聊) 】一s g n j 巳( , 一1 ) 1 ( 2 1 4 ) n 蹙0 ( 2 1 5 ) x ( n ) , 或是由l p c 得到 c 一( 功= c 删( h ) + 薹警c 溉一d c 脚( d ( 2 2 7 ) 根据同态处理的概念和语音信号产生的模型,语音信号的倒谱c ( n ) 等于激励 信号的倒谱e ( n ) 与声道传输函数的倒谱h ( n ) 之和。通过分析激励信号的语音特点 以及声道传输函数的零极点分布情况,可知p ( 甩) 的分布范围很宽,c ( n ) 从低时域 延伸到高时域,雨是( 刀) 主要分布于低时域中。我们知道,语音信号所携带的语义 信息主要体现在声道传输上,因而在语音识别中通常取语音信号倒谱的低时域构 成l p c 倒谱特征c ,即 c = l e o ) ,c ( 2 ) ,c ( q ) 】1 0 q 1 6 ( 2 2 8 ) 式中,q 为l p c 倒谱特征的阶数。 然而l p c c 同时也继承了l p c 的缺陷,其中主要的一点就是l p c 在所有的 频率上都是线性逼近语音的,而这与人的听觉的特征是不一致;而且l p c 包含 第二章语音信号处理基本原理 了语音高频部分的大部分噪音细节,这些都会影响系统的性能。针对以上的问题 提出了m f c c 参数。 2 5 。3 。2m f c c 参数 美尔频率倒谱系数( m e lf r e q u e n c yc e p s m a nc o e f f i c i e n t , m f c c ) 考虑了入 耳的听觉特性,将频谱转化为基于m e l 频标的非线性频谱,然后转换到频谱域上。 由于充分考虑了人的听觉特性,而且没有任何前提假设,m f c c 参数具有良好的 识别性能和抗噪能力。但其计算量和计算精度要求高。 m f c c 不同于l p c c 。实验证明,在汉语是数码语音识别中m f c c 参数的性能明 显优于l p c c 参数。m f c c 是采用滤波器组的方法计算出来的,这组滤波器在频 率的美尔坐标上是等宽的。这是因为人类在对约1 0 0 0 h z 以上的声音频率范围的 感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。式( 2 2 9 ) 是美尔刻度与频率的关系式,图2 1 0 给出了二者的关系图。 t o1 0 01 0 0 01 0 0 0 0 囊书恤 图2 1 0 美尔刻度与频率的关系 f i g u r e2 - 1 0r e l a t i o n so fm e l s c a l ea n df r e q u e n c y 广东工业大学工学硕士学位论文 预处理后 x ( n ) x ( n i )o ( m d m f c c 输出 语凇慢雾卜臣丁h 琶圈臻3 一 n ii 目b l ulx # i 图2 1 1m f c c 计算过程示意图 f i g u r e2 - i im a po fm f c cc a l c u l a t i o np r o c e s s m f c c 计算过程如图2 1 1 所示,具体计算步骤如下: ( 1 ) 语音信号在经过加窗处理后变为短时信号,用f f t 将这些时域信号x ( n ) 转化 为频域信号x ( m ) ,并由此可以计算它的短时能量谱p 。 ( z ) 将p ( d 由在频率轴上的频谱转化为在美尔坐标上的p ( m ) ,其中m 表示美尔频 率,式( 2 2 9 ) 可以完成该交换,并且美尔频率考虑了人耳的听觉特性。 f m 2 3 3 2 2 2 3 l g ( 1 + 0 0 0 1 ) f m ( 2 2 9 ) ( 3 ) 在美尔频域内将三角带通滤波器加于美尔坐标得到滤波器组h 。( k ) ,然后计算 美尔坐标上的能量谱p ( m ) 经过此滤波器组的输出。 o ( m 。) = l n 。( 芷) 】 , ( 2 3 0 ) 窆x ( k ) z - k = l2k 式中,k 表示第k 个滤波器,k 表示滤波器个数。 ( 4 ) 通过一个具有4 0 个滤波器( k = 4 0 ) 的滤波器组。前1 3 个滤波器在1 0 0 0 h z 以下是线性划分的,后2 7 个滤波器在1 0 0 0 h z 以上是在美尔坐标上线性划分的。 ( 5 ) 如果0 ( m 0 表示第k 个滤波
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论