(信号与信息处理专业论文)汉语孤立字语音识别技术的研究.pdf_第1页
(信号与信息处理专业论文)汉语孤立字语音识别技术的研究.pdf_第2页
(信号与信息处理专业论文)汉语孤立字语音识别技术的研究.pdf_第3页
(信号与信息处理专业论文)汉语孤立字语音识别技术的研究.pdf_第4页
(信号与信息处理专业论文)汉语孤立字语音识别技术的研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(信号与信息处理专业论文)汉语孤立字语音识别技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 人类有个理想,让机器具有“听一、“说 人类语言的能力。这个理想, 在信息时代正逐步变成现实。语音识别正是解决机器“听 懂人类语言的一 项研究。 孤立词语音识别实现简单、技术成熟,有着广泛的应用前景,是深入研 究语音识别的基础。本文对小词汇量、非特定人的汉语孤立词的语音识别技 术进行了分析和研究。 首先介绍了语音识别系统的组成和识别原理,并对语音信号的预处理过 程、端点检测常用的特征参数以及语音识别的方法作了分析,重点讨论了 m f c c 特征参数的提取。 继而重点研究了孤立词的端点检测算法,并在基于信息熵、子带谱熵和 频带方差的端点检测算法的基础上,对原有算法做了修正和改进,仿真结果 表明,在不同噪声下,基于改进的端点检测算法在低信噪比条件下的检测准 确率明显高于传统的基于能量和过零率的双门限检测算法,其中基于改进的 频带方差的检测效果最好。 最后深入研究了基于d t w 和h m m 的语音识别方法。其中基于d t w 的 高效算法具有运算复杂度低的特点,仿真结果表明,它非常适合于小词汇量、 特定人的语音识别,识别率可以达到1 0 0 。但是对于非特定人识别,本文 选用主流的基于h m m 的识别方法,并仔细探讨了c h m m 应用到语音识别 中的具体问题。结合改进的端点检测算法并采用基于c h m m 的语音识别方 法,最终实现了对自建的汉语孤立数字语音库9 2 的平均识别率。 关键词孤立词识别;非特定人;端点检测;美尔频率倒谱参数;动态时间规 整;隐马尔可夫模型 a b s tr a c t m a nh a sl o n gd r e a m e do fh a v i n gam a c h i n et h a tc a n “l i s t e nt o ”a n d “s p e a k ” h u m a nl a n g u a g e s t h i si d e a lo fm a n ,i nt h ei n f o r m a t i o n e r a ,i sg r a d u a l l y b e c o m i n g a r e a l i t yw i t ht h es t a t e - o f - t h e - a r tt e c h n o l o g yi ns p e e c hr e c o g n i t i o n ,t h e t a s ko fw h i c hi st os o l v et h ep r o b l e mo fm a c h i n eu n d e r s t a n d i n gt h eh u m a n s p e e c h i s o l a t e d - w o r ds p e e c hr e c o g n i t i o ni st h ef o u n d a t i o no ff u r t h e rd e e pr e s e a r c ho n s p e e c hr e c o g n i t i o n ,w h i c hi se a s yt oi m p l e m e n t ,w i t hi t st e c h n i q u em a t u r ea n di t s a p p l i c a t i o np r o s p e c tb r o a d i nt h i sp a p e r ,t h et e c h n i q u eo fs m a l l v o c a b u l a r y s p e a k e i 乙i n d e p e n d e n t i s o l a t e d - w o r d s p e e c hr e c o g n i t i o n i s a n a l y z e d a n d r e s e a r c h e d f i r s t l y , t h i sp a p e rf o c u s e so nt h ei n t r o d u c t i o no ft h ef u n d a m e n t a l so fs p e e c h r e c o g n i t i o n t h ec o m p o n e n t sa n dp r i n c i p l e so fat y p i c a ls p e e c hr e c o g n i t i o n s y s t e mi sp r e s e n t e di ns i m p l e ,t h e nt h es p e e c hs i g n a lp r e p r o c e s s ,t h ee n d p o i n t d e t e c t i o nf e a t u r ep a r a m e t e r sa n dt h es p e e c hr e c o g n i t i o nm e t h o d sa r ea n a l y z e d , f u r t h e rt h ee x t r a c t i o no fm e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t s ( m f c c ) f e a t u r ei s d i s c u s s e di nd e t a i l s e c o n d l y ,t h ei s o l a t e d - w o r de n d p o i n td e t e c t i o na l g o r i t h m sa r e m a i n l y r e s e a r c h e d b a s e do nt h ee n d p o i n td e t e c t i o na l g o r i t h m so fi n f o r m a t i o ne n t r o p y , b a n d - p a r t i t i o n i n gs p e c t r a le n t r o p ya n dv a r i a n c eo ff r e q u e n c y , r e v i s i o n sa n d a m e l i o r a t i o n sa r em a d eo nt h eo r i g i n a la l g o r i t h m sa n dc o r r e s p o n d i n gi m p r o v e d e n d p o i n td e t e c t i o na l g o r i t h m sa r ep r o p o s e d ,t h es i m u l a t i o nr e s u l t su n d e rt h es a m e s n rc o n d i t i o n ss h o wt h a tt h ed e t e c t i o na c c u r a c yr a t eo ft h ei m p r o v e de n d p o i n t d e t e c t i o na l g o r i t h m si ss i g n i f i c a n t l yh i g h e rt h a nt h a to ft h et r a d i t i o n a lt h r e s h o l d d e t e c t i o na l g o r i t h mb a s e do ne n e r g ya n dz e r o - c r o s s i n g ,w h e r e i nt h ed e t e c t i o n p e r f o r m a n c eo f t h ei m p r o v e dv a r i a n c eo ff r e q u e n c yb a s e da l g o r i t h mi st h eb e s t f i n a l l y , s p e e c hr e c o g n i t i o nm e t h o d sb a s e do nd y n a m i ct i m ew a r p i n g ( d t w ) a n dh i d d e nm a r k o vm o d e l ( h m m ) a r ed e e p l ys t u d i e d t h ef a s td t w a l g o r i t h m h a sl o wc o m p l e x i t ya n di sv e r ys u i t a b l ef o rs m a l l - v o c a b u l a r ys p e a k e 卜d e p e n d e n t 西南交通大学硕士研究生学位论文第1 i l 页 s p e e c hr e c o g n i t i o n t h ee x p e r i m e n t a ld a t as h o w st h a ti t s c o r r e c ti d e n t i f i c a t i o n r a t ei sa l m o s t u p t o1 0 0 f o r s p e a k e f i n d e p e n d e n ts p e e c hr e c o g n i t i o n , h m m b a s e dm a i n s t r e a mi d e n t i f i c a t i o nm e t h o d si su s e di nt h i sp a p e r ,t h es p e c i f i c i s s u e so fc o n t i n u o u sh m m a p p l i e dt os p e e c hr e c o g n i t i o na r ea l s od i s c u s s e d u l t i m a t e l y ,c o m b i n i n g t h e i m p r o v e de n d p o i n t d e t e c t i o n a l g o r i t h m s w i t h c o n t i n u o u sh m m r e c o g n i t i o nm e t h o d ,a na v e r a g er e c o g n i t i o nr a t eo fu pt o9 2 i s a c h i e v e di nt h er e c o g n i t i o no fs e l f - b u i l tc h i n e s ef i g u r e sv o i c ed a t a b a s e k e yw o r d s :i s o l a t e d - w o r dr e c o g n i t i o n ;s p e a k e 卜i n d e p e n d e n t ;e n d p o i n td e t e c t i o n ; m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t s ;d y n a m i ct i m ew a r p i n g ;h i d d e nm a r k o v m o d e l 西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位 论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密豳,使用本授权书。 ( 请在以上方框内打“ ) 学位论文作者签名:囟】1 r 期;卅6 7 指导老师签名:籀每俨 日期:口9 彳7 西南交通大学学位论文创新性声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作 所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。 本学位论文的主要创新点如下: 1 、针对信息熵端点检测算法在低信噪比条件下的失效,对概率的求解给出 了改进方法,并将其运用到能量加权信息熵的端点检测算法中,通过仿真 实验验证了此改进算法具有一定的抗噪性能。 2 、在分析基于子带谱熵的端点检测算法的基础上,对帧信号的概率密度函 数的定义做了修正,得到改进算法,通过在不同噪声下的仿真对比实验, 可见基于改进的子带谱熵的端点检测算法明显优于前者。 3 、结合时域和频域各自的优势,在频带方差的端点检测算法的基础上,研 究了基于能量加权的频带方差的端点检测算法,并通过最终的端点检测的 对比实验,得到此算法的检测效果最好。 自埙箢 卿宇、易 西南交通大学硕士研究生学位论文第1 页 第1 章绪论 随着计算机技术的发展,计算机已经渗透到人们生活的各个方面,人与 机器之间的交流也越来越广泛和深入,从科学研究到日常生活,人们逐渐习 惯借助计算机来完成各项事务。在这种情况下,如何让计算机智能化地与人 进行通信,使人机交互变得更加方便、自然则成为现代计算机科学的重要研 究课题之一。 自然语言是人类交流信息最自然、最有效、最方便的手段,与计算机进 行语音交流,让其能够听懂语言,能够说话,这是人们长期以来梦寐以求的 事情,而这个愿望实现的技术基础就是语音j , 只另1 ( s p e e c hr e c o g n i t i o n ) 和理解。 1 1 语音识别的基本概念 语音识别,是指机器通过识别和理解把人类的语音信号转变为相应的文 本或命令的技术,其最终目标是实现人与机器之间进行自然的语言通信。语 音识别技术是一项集声学、语音学、计算机、信息处理、模式识别、信息论、 人工智能、心理学等于一体的综合技术【1 , 2 1 。 语音识别系统根据不同的要求可分为以下几类: ( 1 ) 根据说话人的说话方式,可以分为孤立字( 词) 语音识别系统、连接字 ( 词) 语音识别系统以及连续语音识别系统。 ( 2 ) 根据对说话人的依赖程度,可以分为特定人和非特定人语音识别系 统。 ( 3 ) 根据词汇量的大小,可以分为小词汇量0 0 0 个词以下) 、中等词汇量 ( 1 0 0 5 0 0 个词) 和大词i 1 2 1 ( 5 0 0 个词以上) 语音识别系统。 西南交通大学硕士研究生学位论文第2 页 1 2 语音识别技术的发展历程 语音识别技术的研究起始于2 0 世纪5 0 年代,当时b e l l 实验室实现了第 一个可识别十个英文数字的语音识别系统a u d r y 系统。6 0 年代末和7 0 年代初,计算机的应用推动了语音识别技术的发展。在这一阶段,语音识别 技术产生了两个重要的成果,一是v i n t s y u k 首次提出用动态规划( d y n a m i c p r o g r a m m i n g ,d p ) d l 方法解决语音信号不等长的问题,并在此基础上发展了 基于d p 的动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 技术【4 l ;二是语音信 号的线性预测编码( l i n e a rp r e d i c t i v ec o d i n g ,l p c ) 5 1 技术,它有效地解决了语 音信号的特征提取问题。该阶段的研究以孤立字( 词) 语音识别为主,通常把 孤立字( 词) 作为整体进行建模【6 l 。8 0 年代是语音识别技术发展的突破阶段。 这一阶段,人们开始专注于大词汇量、非特定人、连续语音的语音识别。其 间,经b e l l 实验室r a b i n e r 等科学家们深入浅出的介绍,使隐马尔可夫模型 ( h i d d e nm a r k o vm o d e l s ,h m m ) 7 1 得到了更多研究者的了解和认识,从而使其 发展成为主流的声学建模方式,完成了声学模型由模板匹配技术向基于统计 模型技术的转换。同时人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,a n n ) 也成 功地应用到了语音识别中。进入9 0 年代后,随着多媒体时代的来临,迫切要 求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及 i b m 、a p p l e 、a t & t 、n 1 r r 等著名公司都投以巨资对语音识别系统的实用化 进行开发研究【8 1 。 我国语音识别的研究起步比较晚,但是进步却非常快,成果突出,研究 层次也由实验室逐步走向实用。从1 9 8 7 年开始执行8 6 3 计划后,国家8 6 3 智 能计算机主题专家组为语音识别立项。每两年滚动一次,从1 9 9 1 年开始, 专家组每一至两年举行一次全国性的语音识别系统测试。汉语语音识别研究 已经走上组织化的道路【6 1 。 西南交通大学硕士研究生学位论文第3 页 1 3 语音识别研究现状和面临的挑战 目前,语音识别技术已经走出了实验室,走向市场,基本上进入到实用 阶段。如i b m 公司推出的智能化语音识别系统n v i av o i c e 软件,另外微 软推出的w i n d o w sv i s t a 操作系统也配置了先进的语音识别软件,还有 n u a n c ec o m m u n i c a t i o n s 公司研制的目前世界上最先进的n a t u r a l l ys p e a k i n g 语音识别软件,它们的出现使人们摆脱了键盘、鼠标的束缚,直接开口就可 以操作电脑,并且具有自适应学习的能力,通过语音模型的建立,可使识别 率大大提高【9 1 。我国对大词汇量连续语音识别系统的研究也已经接近国外最 高水平,其典型代表是清华大学开发的连续语音识别系统t h e e s p ,该系统 对汉字的识别率达到9 8 7 ,拼音自选识别率达到7 9 4 ,句子识别率约为 6 2 5 t 1 们。 如图1 - 1 描述了各种语音识别系统的复杂度、困难度以及当前技术可以 达到的实用程度。 语音识别与说话人识别技术 说 话 人 风 格 汇 图卜1 语音识别系统实现技术复杂度和现状1 6 , 1 1 1 从左下角到右上角,复杂度和困难度逐步增加。从左上角到右下角虚线 以下的基本达到且接近实用。而广播语音识别、自然谈话和双向对话系统离 西南交通大学硕士研究生学位论文第4 页 实用还有相当的距离。 尽管语音技术的研究工作迄今已5 0 多年,并取得了很大的进展,但是研 究出一台听懂任何人、任何内容的机器,从技术的实现上还有很大的距离。 这是由于语音识别技术面临很多挑战: 1 、语音识别系统的复杂性:语音识别是一项极其复杂的工程,它涉及 到语音声学、心理学、人工智能、统计学、信号处理、模式识别、通信学、 计算机学等多门学科领域。这些相关学科自身发展的不完善在某种程度上也 制约了语音识别领域的研究。 2 、可移植性:目前的系统在移植到新的领域时性能往往明显下降,为保 持较好的性能,往往需要在新的领域重新做大量的训练工作,需要大量的时 间和开销。 3 、对环境噪声的鲁棒性:在训练与测试条件一致的情况下,语音识别系 统的识别率很高,但如果测试与训练的声学环境和通道特性不同时,系统的 性能就会严重下降。在噪声环境下的语音识别也是目前热门的研究课题之一。 4 、口语和方言问题:一个实用的语音识别系统必须能够处理各种各样的 口语现象和不同的方言,例如,重复、停顿以及其它大量不符合语法习惯的 语言现象。 5 、韵律信息的利用:韵律信息指的是说话之中的重音、语调等超音段 信息。许多实验表明,人的听觉从说话的韵律中获取了很多重要信息。但目 前的语音识别系统却忽视了韵律信息。因此,如何在语音识别中结合韵律信 息还有待于进一步的研究。 总之,语音信号识别的研究是一项极其复杂而艰巨的工作。 语音识别与处理技术有着巨大的市场前景和应用价值,是未来1 0 年之 内的几大关键技术之一。可以预见,语音识别技术将成为信息技术中人机接 口的关键技术,它有可能引发人机界面领域的一场革命1 9 1 。 西南交通大学硕士研究生学位论文第5 页 1 4 论文的研究内容和结构安排 以孤立词语音识别技术开发出的产品,应用领域十分广泛,如语音拨号 系统、电梯楼层声控系统、声控智能玩具、信息查询、计算机控制等。本文 针对小词汇量、汉语孤立词的语音识别技术进行了探讨和研究,实现了汉语 数字o 一9 的非特定人语音识别。论文第1 章介绍了语音识别技术的发展历程、 现状和面临的挑战,以及论文的章节安排。第2 章分析了语音信号的产生及 其数学模型,简单地介绍了语音识别系统的组成和识别原理,并对预处理过 程、端点检测常用的特征参数、识别方法以及特征提取进行了较为详细的阐 述。由于端点检测在语音识别中占有重要的地位,第3 章重点介绍语音端点 检测的算法,首先介绍了一种传统的基于能量和过零率的双门限端点检测算 法,继而分析了基于信息熵、子带谱熵和频带方差的端点检测算法,并在它 们的基础上研究了相应的改进算法,分析表明基于改进的算法具有一定的抗 噪性能。第4 章重点探讨了语音识别的两种不同方法,首先介绍了基于模板 匹配的动态时间规整( d t w ) 算法,并分析了一种改进的高效d t w 算法,通过仿 真实验证明了高效d t w 算法的快速性,并将其运用到特定人的孤立词识别中, 几乎能够达到1 0 0 的识别率;继而针对非特人识别讨论了流行的基于统计分 析的隐马尔可夫模型( h 删) 的语音识别方法,并探讨了将c h i v l m 运用到非特定 人的孤立词语音识别中的若干具体问题及其解决方法。第5 章给出了具体的 端点检测算法和基于h 删模型的非特定人孤立词语音识别的仿真结果,对自 建的汉语孤立数字语音库运用本文改进的端点检测方法能够得到平均约9 2 的识别率。最后,对全文工作进行了总结与展望。 西南交通大学硕士研究生学位论文第6 页 第2 章语音识别的基本原理 2 1 语音信号的产生及数学模型 语音是由气流激励声道,最后从嘴唇或鼻孔,或同时从嘴唇和鼻孔辐射 出来而形成。传统的基于声道的语音产生模型,就是从这一角度来描述语音 信号的产生过程。它包括激励模型、声道模型和辐射模型,这3 个模型分别 与肺部的气流和声带共同作用形成的激励、声道的调音运动以及嘴唇和鼻孔 的辐射效应一一对应【2 1 。它们的关系可以用图2 - 1 表示。 基 御h 嚣 i 褂 随机噪声发生器 。氏 、 7 厂 振幅a i 激励模型声道模型 语 音 信 号 图2 - 1 语音信号产生的数学模型 1 激励模型 根据发音时激励的不同,语音信号大致可分为清音和浊音两类。对于清 音,激励信号近似于白噪声。而发浊音时,气流通过绷紧的声带,对声带进 行冲击而产生振动,在声门处形成类似于斜三角形的准周期的脉冲串。由于 人的声带情况有所差异,且声带的绷紧程度不同,其振动的频率( 即基音频率) 也不同,因此,此时的激励源可认为是一个以基音为周期的斜三角形的脉冲 串。这里,我们用激励模型可用u ( z ) 来表示。 2 声道模型 声道是一谐振腔,它的作用是放大某一频率而衰减其他频率分量,谐振 西南交通大学硕士研究生学位论文第7 页 频率由每一瞬间的声道外形决定。如果声道的截面是均匀的,谐振频率将发 生在 e 一警。一l 2 川( 2 - 1 ) 式中,c 为声速,在空气中为3 5 0 m s ;l 为声管长度,n 表示谐振频率 的序号。如果l = 1 7 e m ,则谐振频率发生在5 0 0 h z 的奇数倍上,即f l = 5 0 0 h z , f 2 = 1 5 0 0 h z ,。发元音e 【a 】时,声道截面最接近于均匀断面,所以谐振频 率也最接近上述值。而发其它音时,声道形状很少是均匀断面的,因此这些 谐振点之间的间隔不同,但声道谐振点的平均密度仍然大约为每1 k h z 有一 个谐振点t z l 。这些谐振频率称为共振峰频率,简称为共振峰。它是声道的重 要声学特性。一般情况下,声道模型可以用一个全极点模型v ( z ) 来刻画共振 峰的特性,它可以表示为: y ( z ) 一i 二一 ( 2 - 2 ) 黔一匀 式中,a o 一1 ,口。为实数,称为声道模型参数,随着声道的调音运动而不 断变化。p 称为这个全极点滤波器的阶数,p 值取得越大,模型的传输函数 与声道实际传输函数的吻合程度越高。一般地,对大多数实际应用而言,p 值 在8 1 2 范围内取值【1 2 l 。它的每一对极点对应一个共振峰。 3 辐射模型 声音最终由口和唇辐射出来。从声道输出的是速度波,而语音信号是声 压波,两者的倒比称为辐射阻抗,可以用来表示口唇的辐射效应。研究表明, 口唇端辐射在高频端较为显著,在低频端时影响较小,所以辐射模型应是一 阶高通滤波器的形式。口唇的辐射效应可以用一个一阶差分方程近似描述: r ( z ) 一( 1 一r z 。1 ) ,一1( 2 - 3 ) 根据语音信号分析得知,嘴唇辐射影响引起的输出语音信号高频提升作 用大约有每倍频程6 d b t l 2 l 。 西南交通大学硕士研究生学位论文第8 页 4 完整的语音产生模型 综上所述,语音信号产生模型可以看作由声门激励、声道模型和辐射模 型三部分串连形成的线性系统,则系统的传递函数h ( z ) 可表示为: h q ) 。uz ) 。y ( z ) 。r ( z )( 2 4 ) 2 2 语音识别系统的组成及其识别原理 语音识别系统本质上是一种模式识别系统【”l 。如图2 2 所示,一个完整 的语音识别系统大致包括以下几个部分: 语型诞圆吨匦m 果 图2 - 2 语音识别系统原理框图 预处理模块,对输入的原始语音信号进行数字化处理,并进行预加重 及语音分帧加窗等处理工作。 端点检测模块,对加窗分帧之后的短时语音信号进行端点检测,即利 用语音和噪声的区别特征,找到真正语音段的起始点和结束点。 特征提取模块,负责计算语音的声学参数,提取出能准确反映语音信 号本质的特征参数,以降低维数并便于后续处理。 训练阶段,将训练的语音数据经过上述预处理、端点检测和特征提取 后得到特征参数序列,然后通过某种训练方法建立训练语音的参考模板库。 识别阶段,将待识别语音的特征参数序列和参考模板库中的模式进行 相似度比较,将相似度最高的模式所属的类别作为识别的结果输出。 西南交通大学硕士研究生学位论文第9 页 2 3 语音信号的预处理 在对语音信号进行分析和处理之前,必须对其进行预处理。预处理包括 语音信号的数字化、预加重、加窗和分帧等。 2 3 1 语音信号数字化 语音信号数字化一般包括放大及增益控制、抗混叠滤波及防工频干扰滤 波、采样、量化及编码,而这部分的功能一般由硬件设备声卡来完成。本系 统使用的语音文件都是通过c o o le d i t 软件录制完成,音频格式为:p c m 编 码,采样频率为8 k h z ,量化字长为1 6 b i t ,单声道,存储为w a y 格式。即录 制的语音信号本身就是经过声卡转换之后的数字信号,因此仿真实验时语音 信号的数字化过程可省略。 2 3 2 预加重处理 由于受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后,其平均功 率谱在高频端大约8 0 0 h z 以上按- - 6 d b 倍频程跌落,因此在对语音信号处理 之前,必须进行预加重处理。预加重的目的即按6 d b 倍频程提升高频部分, 使信号的频谱变得平坦,保证在低频到高频的整个频带中,能以同样的信噪 比求频谱,以便于频谱分析和声道参数分析f 2 1 。通常的措施是在a d 变换之 后,用具有6 d b 倍频程提升高频特性的预加重数字滤波器实现,其形式如下t 日( z ) 一1 一膨。1( 2 5 ) 式中,z 为预加重系数,取值范围在0 9 1 0 之间,典型取值为0 9 3 一 o 9 7 。预加重网络的输出y ( n ) 和输x ( n ) 的关系可以用一阶差分方程表示 为: y ( n ) 一x ( n ) 一肛( ,l 一1 )( 2 6 ) 西南交通大学硕士研究生学位论文第1 0 页 根据式( 2 - 6 ) ,取p - o 9 3 7 5 ,在m a t l a b 中仿真得到汉语数字“0 ”的预加 重处理前后的波形和频谱幅度的效果图见图2 - 3 。很明显,语音经过预加重 处理后。声音变得比较尖锐清脆,并且高频能量得到了提升。 蚓 ; 丽硎 一l 一。一。一:;些二。姜一一 ,l 陌 b ) “z 图2 - 3 预加重处理的效果图 2 33 加窗和分帧处理 众所周知,语音信号是一个非稳态过程,但从另一方面看,虽然语音信 号具有时变特性,但不同的语音是由人的口腔肌肉运动构成声道的某种形状 而产生的响应,而肌肉运动的频率相对于语音频率来说是相当缓慢的,因而 在一个短时间范l 弱( 1 0 m s 一3 0 m s ) 内,语音的频谱特性基本保持不变,即相对 稳定,所以可以将其看作是一个准稳态过程。这就是贯穿于语音信号分析 全过程的“短时分析技术”。 “短时分析”就是将语音信号分割为一段一段进行分析,其中每一段称 为一“帧( f l _ a m c ) ”。由于语音信号通常在l o m s 一3 0 m s 之内保持相对平稳,因 而帧长一般取l o m s 一3 0 m s 。为了使帧与帧之间平滑过渡,保持其连续性, 分帧一般采用交叠分段的方法,分帧处理示意图见图2 _ 4 。前、后两帧之间 西南交通大学硕士研究生学位论文第1 1 页 的移动距离部分称为帧移,帧移与帧长的比值一般取为1 3 1 2 。 图2 4 分帧处理不意图 短时分析最基本的手段就是对语音信号进行加窗处理,即用一个可移动 的有限长度的窗口对语音信号进行截取得到短时语音,我们称之为对语音信 号进行加窗和分帧。加窗运算的定义为: s w q ) 一罗丁陋( 所) 】w o m ) ( 2 - 7 ) 其中研】表示某种运算,缸伽) 为输入的语音信号序列,w ( n ) 为窗函数。 在加窗的时候,不同的窗口选择将影响到语音信号分析的结果。一般在 选择窗函数时,需要考虑以下两个问题: ( 1 ) 窗函数形状 一般来说,一个好的窗函数的标准是:在时域,因为是语音波形乘以窗 函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而是 平滑过渡到零,这样可以使截取出来的语音波形缓慢降为零,减小语音帧的 截断效应;在频域,要有较宽的3 d b 带宽以及较小的边带最大值。在语音信 号处理中,最常用的两种窗函数是矩形窗( r e c t a n g u l a r ) 、汉明窗( h a m m i n g ) 。 其定义分别如下: 【1 】矩形窗:w ( n ) 一忙 :三三s ( 2 - 8 ) 【2 】汉腿吣) ;0 5 4 - 0 4 6c o s ( 器) 州( 2 - 9 ) t o o t h e , 其中,n 表示窗口长度。矩形窗虽然具有较窄的主瓣,但其旁瓣太高, 西南交通大学硕士研究生学位论文第1 2 页 会产生严重的频谱泄漏现象。而汉明窗的主瓣虽宽,但旁瓣高度较低,可以 有效地克服泄漏现象,具有更平滑的低通特性。由于采用汉明窗得到的短时 频谱要平滑得多,因而在语音分析中,汉明窗应用的最为广泛。因此,本文 选择汉明窗。 ( 2 ) 窗函数长度 窗函数的长度对能否反映语音信号的幅度变化起着决定性的作用【1 5 i 。如 果窗长n 太大,则加窗等效于通过带宽很窄的低通滤波器,就不能充分地反 映波形变化的细节:反之,n 太小,则滤波器的通带变宽,信号的能量将按 照信号波形的细微状态很快地起伏,因而不能得到较为平滑的短时信息。 通常认为,一个语音帧内应包含1 7 个基音周期【1 4 1 。人的基音周期从 女性小孩的2m s 至老年男子的1 4 m s ,其变化范围较大。当采样频率为8 k h z 时,其基音周期最大为1 1 2 个采样点,最小为1 6 个采样点( 即采样点间隔 1 8 0 0 0s ,1 4m s 为1 1 2 点,2m s 为1 6 点) 。为了反映语音的周期性,移动窗 的宽度应至少包含1 个最大基音周期,所以本文选取帧长( 即窗长) 为2 5 6 个 采样点,帧移( 即窗移) 为8 0 个采样点。 经过预处理后,语音信号就被分割成一帧一帧的加过窗的短时信号,每 帧信号都可以看成平稳的随机信号。 2 4 端点检测常用的特征参数 端点检测是语音识别系统的第一个关键步骤,即将语音段从含有噪声和 无声信息的语音信号中提取出来,它不仅减小了后续处理的存储量和特征维 数,而且消除了非语音段的噪声干扰,提高了信噪比。由于端点检测在语音 识别中的重要性,我们将在第3 章具体分析端点检测的算法,本节仅对端点 检测常用的特征参数作简单的介绍。 西南交通大学硕士研究生学位论文第1 3 页 2 4 1 时域特征参数 语音信号本身就是一个时间序列,因此以时间为自变量来观察它的时域 波形是对其分析最自然、最直接的方法,这种分析方法具有直观、物理意义 明确、实现简单、计算量小等特点,因此传统的语音端点检测算法大都使用 了时域特征来构造算法。 1 短时能量和短时平均幅度 从语音的时域波形可见,一般清音部分的能量比浊音部分的能量小得 多。设语音波形的时域信号为x o ) ,经加窗分帧处理后得到第n 帧语音信号 为x 伽) ,则x 。如) 满足下式: ( ,行) - w 心靠) 工( f + 朋) ,t 一0 ,t ,2 r ,;0s msn - 1 ( 2 1 0 ) 其中,下标n - 1 , 2 , 表示帧号,n 为窗长( 帧长) ,t 为帧移长度。w ( m ) 为 窗函数,通常选择汉明窗。设第n 帧语音信号z 。) 的短时能量用e 表示, 则其计算公式如下: e 。言荟拍t ) ( 2 - 1 1 ) e 是一个度量语音信号幅度变化的参数,由于它是平方和,容易产生溢 出,因此一般可用短时平均幅度m 。来代替,m 可定义为: m 一。言磊i 仰) i ( 2 - 1 2 ) 由于浊音部分的能量明显高于清音和无声段,因此,在信噪比较高的条 件下,只要计算语音信号的短时能量或短时平均幅度就能够把语音和噪声背 景区分开。但是,在实际应用中往往很难保证那么高的信噪比,因而仅依靠 短时能量或短时平均幅度进行端点检测常会漏掉语音段起止点的某些能量较 小的清音、弱摩擦音或鼻音部分,造成端点检测的漏检。 2 短时平均过零率和短时平均过门限率 顾名思义,平均过零率是指单位时间内信号通过零值的次数。对于连续 西南交通大学硕士研究生学位论文第1 4 页 信号,可以考察其时域波形通过时间轴的情况。而对于离散信号,短时平均 过零率实质上就是指单位时间内信号采样点符号变化的次数,它能在一定程 度上反映出频谱性质。定义第n 帧语音信号x 。伽) 的短时平均过零率z 。为: z 。一言芝i s g n x 伽) 卜s g n x 伽一1 ) 】l( 2 - 1 3 ) 式中,s g n t 】为符号函数,即 s 卧= 仨端 p 1 q 由于短时平均过零率容易受到低频噪声的干扰,因此,对其做一个简单 的修正,即在零电平附近设置一个门限t ,将平均过零率修改为平均过门限 率,则有: 乙_ x z 篇g t s g l l 【伽) 一r 】一s g n x ( z 一1 ) 一r 】i + ( 2 1 5 ) is g n x 。( ,珂) + r 】一s g n x ( ,以一1 ) + r 】i 可见,短时平均过门限率具有一定的抗干扰能力,通过选择合适的门限 t 可以避免产生虚假过零。 。通常在高信噪比条件下,背景噪声的平均过门限率明显低于语音段,因 此过门限率可以用于有话、无话的鉴别。 2 4 2 频域特征参数 信号的频域分析在信号处理中也占有非常重要的地位,在频域内研究语 音信号,可以使其某些在时域内无法表现出来的特征变得十分明显。由于语 音信号是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅 立叶变换不能直接用于语音信号的分析,而应采用有限长度的短时傅立叶变 换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。 1 短时傅立叶变换 短时傅立叶变换实际上就是窗选语音信号的标准傅立叶变换。其定义 西南交通大学硕士研究生学位论文第1 5 页 为: x 。q 如) 一罗x ( 川) 0 一m ) e - j 棚 ( 2 1 6 ) 一 若用x 。伽) 表示加窗之后第n 帧语音信号,则式( 2 - 1 6 ) n - i 改写为: x 一。弘( m ) e 。蜊( 2 - 1 7 ) 令角频率1 0 = 2 k n ,则可得离散的短时傅立叶变换,它实际上是 工。0 归) 在频域的取样。其定义为: :掀n 一1 2 t r i m x 一 ) - x 一 百) = 三沏弘- t 下 ( os 七s 一1 ) ( 2 - x 8 ) 2 倒频谱分析 语音信号的倒谱分析是通过同态处理来实现。同态信号处理也称为同态 滤波,就是将非线性问题转化为线性问题的处理方法,即将卷积关系变换为 求和关系的分离处理,即解卷1 1 4 1 。 信号工o ) 的复倒谱主o ) 定义为:x ( n ) 的z 变换的对数的反z 变换,即: 戈o ) - z 。1 1 n z i x ( n ) 】( 2 - 1 9 ) 设x o ) 的z 变换为:x ( z ) 一z 卜o ) 】,其对数为:j o ) 一l n ( x ( z ) ) ,则 萱( z ) 一i n ( 1x ( z ) 1 e - j t a l l z o ) - i nlx ( z ) l ja r g x ( z )( 2 - 2 0 ) 上式复对数运算中由于虚部是相角,存在多值性的问题。为确保定义的 唯一性,通常可以用一个约束条件,即假定相角是角频率的连续奇函数。 如果我们只考虑x ( z ) 的模,而忽略它的相位,就得到倒频谱的定义【1 2 1 , 即信号的倒谱c ( n ) ,其定义为石o ) 的z 变换的幅度的对数的反z 变换,即: c ( n ) = z 。 i nlz 【z ( 刀) 】i 】一z 4 i nlx ( z ) i 】 ( 2 2 1 ) 从z 变换的性质可知,倒谱为复倒谱的偶部,即: 西南交通大学硕士研究生学位论文第1 6 页 c ( 咒) 一【爻( 行) + 支( 一万) 】2( 2 - 2 2 ) 倒谱特征能很好地表征语音的本质,它通过对发音模型建模后反推得到, 因此在大多数语音识别系统中选择倒谱系数作为输入特征矢量,而运用倒谱 特征来检测语音端点也是目前语音识别系统中比较典型的方法之一。 2 5 特征提取 由于语音段包含很多冗余信息,经过端点检测之后,接下来就要对检测 后的干净语音段进行特征提取,即提取出能表征语音的本质特征。特征提取 的目的,一方面使得进行模板训练和模式匹配的数据特征更加明显,提高系 统的识别率;另一方面进行信息压缩,降低系统的运算量和存贮量。特征提 取是语音识别中关键的一步,特征参数选择的好坏决定着后续模板训练和模 式匹配的稳健性。 对于特征参数的选择,一般要求具有区分性、稳定性、独立性和高效性 等【2 ,1 5 1 : ( 1 ) 能有效地代表语音的本质特征,包括声道特征和听觉特征,具有很好 的区分性。对于异字音,其相应特征间的距离应大,而对于同字音,彼此距 离应小。 ( 2 ) 特征参数各阶之间应具有良好的独立性。 ( 3 ) 特征参数要计算方便,最好有高效的计算方法,以保证语音识别的实 时实现。 最常用的语音特征参数有线性预测倒谱系数( l i n e a rp r e d i c t i o nc e p s t r u m c o e f f i c i e n t ,l p c c ) 和美尔频率倒谱系数( m e lf r e q u e n c yc e p s t r u mc o c f f i c i c n t , m f c c ) 。实验证明,m f c c 参数比l p c c 参数能更好地提高系统的识别性能。 m f c c 参数和l p c c 参数相比,具有以下优点【1 6 j : ( 1 ) 语音的信息大多集中在低频部分,且高频部分易受环境噪声干扰。 西南交通大学硕士研究生学位论文第1 7 页 m f c c 参数将线性频标转换为m e l 频标,强调了语音的低频信息,从而突出 了有利于识别的信息,屏蔽了噪声的干扰。而l p c c 参数是基于线性频标的, 所以没有这个优点。 ( 2 ) m f c c 参数无任何假设,在各种情况下均可使用。而l p c c 系数是 在假设语音信号为全极点信号的条件下推导的,对于动态特性较强的辅音, 这个假设并不严格成立。另外,当噪声存在时,全极点信号会变成一个既有 极点又有零点的信号。因此,m f c c 参数的抗噪性能也优于l p c c 参数。 因此本文采用m f c c 参数,以下重点介绍m f c c 的特点和求取过程。 2 5 1 线性预测倒谱系数( l p c c ) l p c c 参数主要是模拟人的发声模型【1 3 l 。它的优点是对元音具有较好的 描述能力,而且计算量小,易于实现。缺点是对辅音的描述能力较差,抗噪 性能较差。 2 5 2 美尔频率倒谱参数( m f c c ) 根据生理学的研究结果,人耳对不同频率的声波具有不同的听觉灵敏度 p 4 。m e i 频率倒谱系数( m f c c ) ,就是基于人耳的听觉感知特性和语音的产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论