(信号与信息处理专业论文)噪声环境下语音特征提取前端处理及优化帧算法研究.pdf_第1页
(信号与信息处理专业论文)噪声环境下语音特征提取前端处理及优化帧算法研究.pdf_第2页
(信号与信息处理专业论文)噪声环境下语音特征提取前端处理及优化帧算法研究.pdf_第3页
(信号与信息处理专业论文)噪声环境下语音特征提取前端处理及优化帧算法研究.pdf_第4页
(信号与信息处理专业论文)噪声环境下语音特征提取前端处理及优化帧算法研究.pdf_第5页
已阅读5页,还剩80页未读 继续免费阅读

(信号与信息处理专业论文)噪声环境下语音特征提取前端处理及优化帧算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕上研究生学位葩文 噪声环境下语音特征提取前端处理及优化帧算法研究 摘要 特征提取是语音识别过程中关键的一环。近些年来,基于人耳听 觉特性的特征提取方法引起了广泛关注。这是因为,入耳具有很强的 识别能力,即使在噪声环境下也是如此。在特征提取的众多方法中过 零峰值幅度( z e r o - c r o s s i n gw i t hp e a ka m p l i t u d e ,z c p a ) 方法正是基于 人耳的听觉模型建立起来的。该模型采用语音信号的过零率来表示信 号的频率特性,采用峰值幅度来表示信号的幅值特性,最后将幅度信 息和频率信息进行整合作为输出特征。论文以上述系统为基础,对这 种方法进行了多种改进。 文中首先引入了小波变换作为分析工具,讨论了小波变换的原理 及其在时域、频域的性质。利用小波的频移特性及单个小波的频谱重 叠,提出了构造组合小波滤波器的思想。使用组合小波,通过选择合 适的小波参数可以方便地设计出低通、高通、带通滤波器。实验证明, 这种滤波器具有算法简单,频域特性良好,易于软件仿真的特点。 论文把小波理论应用于z c p a 特征提取的前端处理中,分别提出 了用g a u s s 小波滤波器和组合小波滤波器代替原z c p a 中的f i r 滤波 器的语音特征提取方法。通过对人耳听觉特性的研究,按照人耳临界 带宽分别设计了g a u s s 小波带通滤波器及组合小波滤波器。本文详细 讨论了g a u s s 小波滤波器尺度参数的选择方法和使用不同个数小波构 太原理丁人学硕士研究生学位论文 造出的组合小波滤波器的特性,后端的训练和识别部分使用r b f 网络, 仿真实现了使用新特征与原特征的识别结果。证明了新特征具有较高 的识别率和优良的抗噪性能。 接着本文对z c p a 特征提取的分帧处理过程进行了分析并加以改 进。由于在语音信号的特征提取过程中,语音信号通常是按照帧处理 的方式进行的,分帧将直接影响到最后识别结果的表现,特别是分帧 的长度对识别的结果有着重要的影响,因此,特提出了优化帧的思想。 论文详细讨论了基于z c p a 特征提取方法取不同帧长对识别结果产生 的影响,仿真实现了改进后的系统。由于原z c p a 方法在计算上升过 零率获取频率信息时漏掉了部分高频信息,而且为了使提取出来的密 度信息与入耳的感觉特性更相符合。文中将语音信号作差分,通过计 算差分信号的上升过零率获得高频信息,同时优化帧算法也弥补了一 部分丢失的高频信息;利用加权矩阵对密度信息加权,使之与人耳的 听觉感受相吻合,从两方面弥补了z c p a 特征的缺陷:最后试验证明, 经过改进后算法的识别率有了很大提高。 关键词:特征提取,组合小波,z c p a ,g a u s s 小波,优化帧 i i 太原理丁大学硕士研究生学位论文 s t u d yo ff r o n t - e n dp r o c e s si ns p e e c h f e a t u r ee x t r a c t i o na n do p t i m l z e df r a m e a l g o r i t h mi nn o l s ye n v i r o n m e n t a b s t r a c t f e a t u r ee x t r a c t i o ni sak e yt e c h n o l o g yf o r s p e e c hr e c o g n i t i o n i n r e c e n ty e a r s ,t h ef e a t u r ee x t r a c t i o nb a s e do nh u m a na u d i t o r ym o d e lh a s b e e na t t r a c t i n gm o r ea n dm o r ea t t e n t i o n t h i si sb e c a u s et h er e c o g n i t i o n a b i l i t yo ft h eh u m a ne a ri sv e r yw e l l ,e v e ni nt h en o i s ye n v i r o n m e n t a m o n gm a n y k i n d so ff e a t u r ee x t r a c t i o nm e t h o d s ,z e r o c r o s s i n gw i t hp e a k a m p l i t u d e ( z c p a ) f e a t u r ee x t r a c t i o ni sj u s tb a s e do nt h ea u d i t o r ym o d e lo f h u m a ne a t t h i sm o d e lu s e sz e r o c r o s s i n gi n t e r v a lt o r e p r e s e n ts i g n a l f r e q u e n c yi n f o r m a t i o na n da m p l i t u d et or e p r e s e n ti n t e n s i t yi n f o r m a t i o n t h e nf r e q u e n c yi n f o r m a t i o na n da m p l i t u d ei n f o r m a t i o na r ec o m b i n e dt o f o r mt h ec o m p l e t eo u t p u to fs p e e c hs i g n a l t h i sp a p e ra i m st op r e s e n ts o m e k i n d so f t h ei m p r o v e dz c p af e a t u r eo nt h eb a s i so f a b o v e - m e n t i o n e d t h i sp a p e rf i r s ti n t r o d u c e dw a v e l e tt r a n s f o r ma sa n a l y z i n gt o o la n d d i s c u s s e dt h et h e o r yo fw a v e l e tt r a n s f o r ma n di t sc h a r a c t e r i s t i c si nt i m e d o m a i na n df r e q u e n c yd o m a i n am e t h o dt od e s i g nac o m b i n e dw a v e l e t s f i l t e rw a sp r o p o s e d b y t a k i n gf r e q u e n c y s h i f ta n d s i n g l e w a v e l e t s u p e r p o s i t i o n u s i n g c o m b i n e dw a v e l e t s ,t h e l o w - p a s s ,h i g h - p a s s , b a n d p a s sf i l t e r sc a nb ee a s i l yd e s i g n e db ys e l e c t i n gt h ep r o p e rp a r a m e t e r s i i i 太原理丁大学硕l 研究生学仿论文 o ft h ew a v e l e t t h ee x p e r i m e n t ss h o w e dt h a tt h i sf i l t e rh a da d v a n t a g e so f s i m p l ea l g o r i t h m ,g o o df r e q u e n c y c h a r a c t e r i s t i c sa n dw a se a s i l y f o r c o m p u t e rs o f t w a r e t h i sp a p e ru s e dw a v e l e tt h e o r yi nz c p af e a t u r ee x t r a c t i o nf r o n t e n d p r o c e s sa n di n t r o d u c e dn e w f e a t u r ee x t r a c t i o nm e t h o d su s e dg a u s sw a v e l e t f i l t e ra n dc o m b i n e dw a v e l e t si n s t e a do ft h ef i rf i l t e r si no r i g i n a lz c p a m e t h o dr e s p e c t i v e l y a c c o r d i n gt oc r i t i c a lf r e q u e n c yb a n do fh u m a ne a r s t h eg a u s sw a v e l e tf i l t e ra n dc o m b i n e dw a v e l e t sf i l t e r sa r ed e s i g n e db y s t u d y i n gh u m a na u d i t o r yc h a r a c t e r i s t i c t h em e t h o do fc h o o s i n gs c a l e p a r a m e t e ri nd e s i g n i n gg a u s sw a v e l e t f i l t e ra n dt h ed i f f e r e n tc h a r a c t e r i s t i c s o fc o m b i n e dw a v e l e t sf i l t e r sw i t hd i f f e r e n tn u m b e ro fs i n g l ew a v e l e th a v e b e e ng i v e nad e t a i l e dd i s c u s s i o n t h er b fn e u r a ln e ti su s e di nb a c k 。e n d t r a i n i n ga n dr e c o g n i t i o nc o u r s e t h er e s u l t ss h o w e dt h a tn e wf e a t u r eh a d h i g h e rr e c o g n i t i o nr a t ea n db e t t e rr o b u s t n e s st h a nt r a d i t i o n a lf e a t u r e t h e nt h i sp a p e ra n a l y z e da n di m p r o v e dt h ef l a m ep r o c e s s i n go fz c p a f e a t u r ee x t r a c t i o n i nt h ep r o c e s s i n go fs p e e c hs i g n a lf e a t u r ee x t r a c t i o n , s p e e c hs i g n a li su s u a l l yo p e r a t e db yf r a m i n g f r a m e ,e s p e c i a l l yt h el e n g t h o ff r a m e ,c a na f f e c tt h ef i n a lr e c o g n i t i o nr a t ed i r e c t l y a sar e s u l t ,t h e o p t i m i z e df r a m e i sp r o p o s e d t h i sp a p e rd e t a i l e d l yd i s c u s s e dt h ei n f l u e n c e s t h ed i f f e r e n tl e n g t ho ff l a m em a k e so nr e c o g n i t i o nr a t eo nt h eb a s i so f z c p af e a t u r ee x t r a c t i o n ,s i m u l a t i n gt h ei m p r o v e ds y s t e m s i n c eal o to f h i g hf r e q u e n c y i n f o r m a t i o na r em i s s i n gi nt h ep r o c e s so fo b t a i n i n g i n f o r m a t i o nt h r o u g hc o m p u t i n gt h eu p w a r d - g o i n gz e r o - c r o s s i n g r a t ei n o r i g i n a lz c p am e t h o da n dt h ee x t r a c t e di n f o r m a t i o nm o r ec o n f o r mw i t h 查墅堡三奎堂堡主堡窒竺兰垡鲨圣 一 t h eh e a r i n gc h a r a c t e r i s t i c so fh u m a n ,t h i sp a p e rg o tt h ed i f f e r e n c eo fs p e e c h s i g n a l t oo b t a i nt h eh i g h 行e q u e n c y i n f o r m a t i o nb yc o m p u t i n g u p w a r d g o i n gz e r o - c r o s s i n gr a t eo f t h ed i f f e r e n c es i g n a l a tt h es a m e t i m e , o p t i m i z e df r a m ec a l lc o m p e n s a t es o m eh i g hf r e q u e n c y i n f o r m a t i o n t h e w e i g h t i n gm a t r i xi su s e dt ow e i g h t t h ed e n s i t yi n f o r m a t i o nf o rt h ep u r p o s e o fm a k i n gi tm o r ec o r r e s p o n d e n tw i t ht h eh u m a nh e a r i n gc h a r a c t e r i s t i c s i n t h e s et w ow a y s ,i ti m p r o v e st h ed e f i c i e n c y o fz c p a e x p e r i m e n t s e v e n t u a l l ys h o wt h a tt h ei m p r o v e da l g o r i t h mh a dh i g h e rr e c o g n i t i o n r a t e k e yw o r d s :f e a t u r ee x t r a c t i o n ,c o m b i n a t i o nw a v e l e t ,z c p a ,g a u s s w a v e l e t ,o p t i m i z e df r a m e v 声明 本人郑重声明:所呈交的学位论文。是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名: 硷筮 1 3 1 莩1 : 塑! :兰:兰墨 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定。其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学控哥允许学位论文被查阅或借阅;学校可以学术交流为目的。 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) o 签名:圈:超e i i 霉i : 导师签名:磷 ) v - b 6 2 弓 太原理工大学硕士研究生学位论文 第一章绪论 1 1 语音识别简介 语言是人类最自然、最方便和最有效的交换信息的手段。以数字技术为代表 的信息时代己悄然来临,人们会越来越多的通过和各种机器交互来进行信息的获 取、处理和传递。摒弃键盘、鼠标等传统输入方式,通过语言和机器直接交流成 为人们追求的目标。语音识别则是实现这种人机界面的关键技术。 1 1 1 语音识别概念 语音识别是机器将语音信号转变为相应的文字文本或命令的技术,即将语音 信号逐字逐句的翻译为相应的书面语言,或对语音所包含的要求和命令做出正确 的响应。 一个完整的语音识别系统包括很多部分。图1 一l 给出了一个典型的语音对话 系统的例子,它可以提供交通查询、天气预报、机票预定等业务。该系统首先从 提问人的语音中提取出特征,接着在声学层次上将特征序列通过识别翻译成音素 的序列,然后根据字典、词典和语法中的组合信息将音素序列依次转化为字序列、 词序列和语句。在此例中,系统还需要通过语言模型中的信息来分析句子的含义, 并根据提取的关键信息从数据库中检索出正确的答案。语言中的信息可以从低级 到高级,由声学层、语义层、语言层的一系列模型来描述。在上述语音识别过程 中,声学层的识别是最基础的,其将语音特征转化为基本发音单位的序列,而后 续的过程则引入了高层的一些信息,这不仅可以纠正声学层识别的一些错误,也 使得系统最终可以准确的领会句子的含义。 每个语音识别系统都有一个词汇表,根据词汇表的大小可以对语音识别系统 作如下划分:词数小于1 0 0 时称为小词汇量语音识别,1 0 0 至5 0 0 为中词汇量识别, 超过5 0 0 时为大词汇量识别“1 。 太原理工大学硕士研究生学位论文 您可以乘啦一路公交年 囹卜1 语音对话系统框图 f i g u r e1 - 1 d i a g r a mo f t h es p e e c hd i a l o g u es y s t e m 按照语音的讲述方式,语音识别可以分为孤立词、连接词和连续语音三种识 别方式。孤立词识别方式是指说话人每次只能说一个词、词组或一条命令让系统 识别。其中的词组或命令在词汇表中都算作一条孤立词。连接词识别的一个例子 是对由十个数字( o 9 ) 连接而成的多位数字串所进行的识别。连续语音识别是 指系统对说话人以自然的方式讲述的语音进行识别。这三种方式的困难程度显然 是依次增加的。 图1 1 就是一个面向大词汇量连续语音识别( l a r g ev o c a b u l a r yc o n t i n u o u s s p e e c hr e c o g n i t i o n ,l v c s r ) 的例子,它是目前语音识别研究的一个热点。除了 2 太原理工大学硕士研究生学位论文 上面提到的用途外,语音识别在电话分机转接、语音拨号系统、听写机、计算机 控制、多媒体检索( m p e g7 协议体系) 等方面都有着广泛的应用前景。m i c r o s o f t 、 m m 等信息产业巨头也都不约而同的将语音识别技术作为今后产品的重要核心, 并期望能够对人们的生活方式产生积极和深远的影响。 1 1 2 语音识别发展历史及现状 语音识别技术萌芽于5 0 年代机器翻译研究时期,但真正取得实质性进展, 并将其作为一个重要的课题开展研究则是在6 0 年代末7 0 年代初。这一方面是因 为计算机的计算能力有了迅速的提高,能够提供实现复杂算法的软、硬件环境:另 一方面,数字信号处理理论和算法在当时有了蓬勃发展,从而自6 0 年代末开始引 起了语音识别的研究热潮。 6 0 年代中,语音识别系统的构成基本上都是用硬件实现的滤波组提取频谱特 征,用计算机进行匹配计算和判决。由于当时计算机技术和信息处理技术的限制, 这十年来中没有取得令人鼓舞的突破性进展。7 0 年代美国国防部实施a r p a 计划, 这个历时五年的庞大计划在语言理解、语言统计模型等方面积累了一些经验。这 个时期对语音处理技术的长足进步产生决定性影响的还有另外三项研究成果:动 态规划技术用于语音识别,使语音识别研究在匹配算法方面开辟了新思路:i i t a k u r a 提出的线性预测残差原理成功地用于语音识别,后来又用于语音编码。从此,线 性预测技术在语音处理的多个方面获得巨大成功。特别是研究出多种线性预测参 数形式和多种谱距离测度,对语音识别和语音编码研究的发展起了重要作用:矢量 量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用,而且 很快推广到其他许多领域。8 0 年代新一代智能计算机的研制,以及模式识别、自 然语言理解等技术的成熟,为语音识别技术的突破打下了基础。9 0 年代一些基于 非特定人连续语音识别的语音识别技术产品开始走出实验室,进入市场,较有影 响的是d r a g o n 系统公司的n a t u r a l l y s p e a k i n g ( 该产品获 寻了1 9 9 7 年技术卓越奖) 、 卡内基梅隆大学( c m u ) 研制成功s p h i n x 系统,i b m 的v i a v o i c e ,m i c r o s o f t 的 3 太原理工大学硕士研究生学位论文 v o i c e e x p r e s s 等。 凼为汉语的一止 特性( 刚旨字较多等) ,汉语的语音识别技术难度, f r l x , l 而占更 大一些“1 。我崮语音识别研究的起步比先进国家晚一点,但近年来发展很快,成果 突出,研究水平也从实验室逐步走向实用。1 9 8 7 年开始执行国家8 6 3 计划后,国 家8 6 3 智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。其中 具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国 家重点实验室,中科院声学所以及台湾的电脑与通讯工业研究所在这方面也取得 了一定的成果。 尽管语音技术的研究工作迄今己5 0 多年,也有很大的进展。但是研究出一台 听懂任何人、任何内容的机器,从技术的实现上还有很大的距离。系统的识别速 度的快慢、系统词汇量的大小、机器对说话者的依赖程度、语音的类型等等问题 都达不到实际需要。我们不能否认许多著名公司研究开发的语音识别成果具有划 时代意义,影响深远。以m m 推出的v i a v o i e e 为例,它为语音识别技术在汉字输 入方面的实际应用开辟了新的道路,但是v i a v o i c e 在国内还远远没有普及,这都 是由语音识别自身的特点决定的。 语音识别本身的难度相当大。识别系统中的特征提取就是一个很难彻底解决 的难题:语音识别中匹配算法的研究,尽管人们已进行了大量的探索,做出了许 多卓有成效的创造,取得了重要进展,可是至今仍不能说这方面的研究可以打上 句号。因此有必要对语音特征参数提取方法、语音识别算法作进一步研究。本文 将针对这些问题展开深入讨论。 1 2 语音识别关键技术 语音识别作为一门交叉学科,涉及到了信号处理、统计模式识别、人工智能、 计算机科学、语言学和认知科学等众多学科”。图1 2 为语音识别系统的原理框 图,可以看出语音识别系统实质上是一种模式识别系统,与常规模式识别系统一 4 太原理工大学硕士研究生学位论文 样包括有特征提取、模式匹配、参考模式库等三个基本单元。语音识别的步骤分 为三步。第一步是根据识别系统的类型选择一种识别方法,采用语音分析方法分 析出这种识别方法所要求的语音特征参数,这些参数作为标准模式由机器存储起 来,形成参考模式库。第二步是语音识别的核心,采用选择的语音识别方法进行 模式匹配。语音识别核心部分又分别表现为模型的建立、训练和识别三个部分。 第三步,语音识别可以进行后处理,后处理通常是一个音字转换过程,还有可能 包括更高层次的词法、句法和文法处理,另外也有可能作为某个具体的任务语法 的输入。 图卜2 语音识别系统原理框图 f i g u r e1 - 2 d i a g r a mo f t h es p e e c hr e c o g n i t i o ns y s t e m 语音识别的关键技术包括输入信号预处理、特征参数提取技术、模式匹配准 则等”1 。本文主要讨论语音特征参数提取及语音识别算法。 1 2 1 语音信号的预处理 进行特征参数提取前,先要对语音信号进行采样和预处理,预处理一般包括 分帧处理、预加重和加窗处理几个部分”1 。 ( 1 ) 语音信号采样和量化 由模数转换器以合适的采样率对模拟的声学信号进行采样,再以一定的量化 精度进行量化,得到计算机能够处理的数字语音信号。为了防止混叠效应,采样 频率必须满足奈奎斯特定理,常用的采样频率有8 k h z ,1l k h z ,1 6 k h z 。 ( 2 ) 短时平稳假设和分帧处理 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器 5 太原理工大学硕士研究生学位论文 官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多。因此语 音信号常常町似定为l 邝、稳的,即在1 0 m s 2 0 m s 这样的时间段内,其频谱特性 和某些物理特性参量可近似地看作是不变的,我们可以采用平稳过程的分析处理 方法来处理。即将语音信号进行分帧操作,将语音信号分成每1 0 m s 2 0 m s 一段, 相邻两帧之间有1 3 到2 3 的重叠。由于采样频率的差异,帧长和帧移所对应的 实际采样点数也是不同的。对于1 1 0 2 5 h z 采样频率,1 0 m s 的帧长对应1 l o 个点, 而5 m s 的帧移对应为5 5 点。 ( 3 ) 预加重和加窗处理 对于语音信号的频谱,通常是频率越高幅值越小,在语音信号的频率增加两 倍时,其功率谱的幅度下降6 d b ,因此必须对高频进行加重处理,一般是将语音信 号通过一个一阶高通滤波器,即为预加重滤波器。 为了保持语音信号的短时平稳性,利用窗函数来减少由截断处理导致的g i b b s 效应,用的最多的三种窗函数是矩形窗、汉明窗和汉宁窗。 1 2 2 语音识别的特征参数提取 特征参数的选择与提取对于语音识别系统至关重要,是系统构建的基础。一 般将语音信号的特征矢量分成两类:第一类为时域特征矢量,通常将一帧语音信号 中的各个时域采样直接构成一个矢量:第二类为变换域矢量,即对一帧语音信号进 行某种变换以后产生的相应的矢量。常用的特征参数有:基音周期( p i t c h ) 、线 性预测参数( l i n e a rp r e d i c t o rc o e f f i c i e n t ,l p c ) 、线性预测倒谱参数( l i n e a r p r e d i c t i o nc e p s t r u mc o e f f i c i e n t s ,l p c c ) 、美尔频率倒谱系数( m e lf r e q u e n c y c e p s t r u mc o e f f i c i e n t s ,m f c c ) 、口音敏感参数( a c c e n ts e n s i t i v ec e p s t r u m c o e f f i c i e n t , a s c c ) 、过零峰值幅度( z e r oc r o s s i n g sw i t hp e a ka m p l i t u d e s ,z c p a ) 特征等”1 。 ( 1 ) 基音周期 基音周期( 或者基音频率) 是指发浊音时声带振动所引起的周期运动时间间 6 太原理工大学硕士研究生学位论文 隔。基音频率是指声带振动周期的倒数,它是语音信号分析的一种重要参数。声 道特性因人而异,因而基音频率的变化范围比较大,同时由于语音信号受到噪声 和其它声源谐波的影响,基音周期的检测有一定的困难。 常用的基音检测算法大致可以分为三类:1 时域估计法,直接由语音波形来 估计基音周期。其中,最著名的有变形自相关法、并行处理法、平均幅度差法、 数据减少法等;2 变换域法,将语音信号变换到频域或倒谱域来估计基音周期, 例如倒谱法等,虽然倒谱分析算法比较复杂,但基音周期估计效果较好。3 混合 法,先将信号提取声道模型参数,然后利用它对信号进行逆滤波,最后再利用自 相关法或平均幅度差法求得基音周期,例如简化逆滤波法、逆滤波简化平均幅度 差法等。 ( 2 ) 线性预测参数 线性预测的基本思想是:语音样点之间存在相关性,所以一个语音的当前抽 样能够用过去若干个语音抽样或者它们的线性组合来逼近。1 。通过实际语音抽样和 线性预测抽样之间的误差在某个准则下达到最小值来唯一确定一组预测系数,就 是线性预测参数( l i n e a r p r e d i c t o r c o e f f i c i e n t ,l p c ) 。这组参数反映了语音信号的 特征,可以作为语音信号的特征参数用于语音合成和语音识别中。 假设二个已知的语音序列s g ) 是一个准周期脉冲或者白噪声e o ) 激励一个线 性时不变系统( 声道) 月g ) 所产生的输出。其系统的传输函数可写成式( 1 1 ) : 小雨1 2 焉i 1 则语音信号的采样值j g ) 可以用式( 1 2 ) 进行预测: s g ) :e ( n ) + 杰印。一1 ) i = 1 预测误差为: 7 ( 1 2 ) 奎堕墨圭盔兰蹙主婴壅竺堂垡堡奎 e 0 ) = s ( o - a ,s o 一1 ) ( 1 3 ) 仁l 我们把能够使预测误差的均方值达到最小值的一组预测系数的估计值a ,作为 最佳的线性预测系数。其中,p 为预测阶数,a l ( f = 1 , 2 ,p ) 为p 阶的线性预测系 数。 对l p c 的计算,经典的算法有自相关法( l e v i n s o n d u r b i n 法) 、协方差法和 格型法,计算上的快速有效,保证了这一声学特征的广泛使用。 ( 3 ) 线性预测倒谱参数 线性预测倒谱参数( l m e a rp r e d i c t i o nc e p s t n n nc o e f f i c i e n t s ,l p c c ) 是线性预 测系数在倒谱域中的表示“”。该特征是基于语音信号为自回归信号的假设,利用 线性预测分析获得倒谱系数,l p c c 参数的优点是计算量小,易于实现,对元音有 较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪性能较差。 语音信号的倒谱c o ) 与l p c 系数之间的递推关系为: c ( 1 ) = a 。 c o ) 咆+ 窆k = l 卜。一后)“ c o ) = 喜( 一告) 口。c o 一后) 1 p 根据同态处理的概念和语音信号产生的模型,语音信号的倒谱c o ) 等于激励信 号的倒谱a o ) 与声道传输函数的倒谱;c o ) 之和。通过分析激励信号的语音特点以及 声道传输函数的零极点分布情况,可知0 ) 的分布范围很宽,出) 从低时域延伸到 高时域,而硒) 主要分布于低时域中。语音信号所携带的语义信息主要体现在声道 传输函数上,因而在语音识别中通常取语音信号倒谱的低时域构成l p c 倒谱特征 c ,即: c = 【c ( 1 ) c ( 2 ) ,c 0 ) 】 l o g 、0 弋弋卜 心心、:、? 、( ? 、 - 尽、 x 。、o , 认v, vj 一, 一。 听阈 , 1 0 0 2 1 0 呈 瑟 - 蜃 o 1 o 0 l , , , , f , | , | | | 02 04 06 08 01 0 01 2 0 ( h z ) 响度级p h o n 图2 3 听阈一一频率曲线图2 4 响度一一响度级曲线 f i g u r e2 - 3 t h ec u r v eo f “a u d i t o r yf i g u r e2 - 4 t h ec u r v eo f “l o u d n e s s t h r e s h o l da n df r e q u e n c y a n dl o m t n e s sl e v e l 但是,响度级并不是响度。因为,响度级只是心理学家用来表示“渐强”的 标度。即:一个响度级为6 0 p h o n 的声音比4 0 p h o n 响一些,4 0 p h o n 又比l o p h o n 响一 些,而没有指出是响多少倍。响度则是数量的表示,u p 2 s o n e 的响度可使人感到比 l s o n e 的响度响了l 倍。现在,人为地规定l s o n e 响度为l k h z 纯音在其声强级为4 0 d b ( 声强为1 0 1 2 w c m 2 ) 时的响度。实验时,让人听两个纯音并让他调节其中一个声 1 9 m 啪 舳 加 o _+上。_。_。+ ” 们 肿 帅 帆 帆 太原理工大学硕士研究生学位论文 强级,使他觉得比另个响一倍。昕爵者既然能够得出稳定可靠的结果。这看来 足令人惊奇的,但确实足做到了这一点。i t 川】图23 的曲线将所听声音的声强级换 成响度级,就可以得到“响度响度级”曲线,如图2 4 所示,从这个曲线可以 看出,听觉的响度与晌度级不是成线性比例的。例如,从0 1 s o n e 到t o s o n e ( 响度 的感觉增大1 0 0 倍) ,响度级则仅从2 0 p h o n 增至6 0 p h o n 。由图2 3 ,对l k h z 的纯音, 声强级从2 0 d b 增加至6 6 d b ,这4 6 d b 的增量相当于声强增大了4 0 0 0 0 倍,然而响度的 感觉只增2 h i 0 0 倍。也就是说,晌度感觉的变化远不如声强的变化那么强烈。 ( 2 ) 音高。物理上用频率表示声音的音调,其单位是“赫兹( h z ) ”,而人 耳主观感觉音调是个心理过程。用音高来表示,其单位是“美( r e e l ) ”。这是两 个不同但又有一定联系的概念。 人的频率感觉范围是最低为2 0 h z 左右,最高可听频率约为1 8 k h z 左右,用八度 音表示,约为9 个l o 个八度音左右。最高可听频率约为最低可听频率的9 0 0 倍。 等音高曲线是以声强级为横坐标的,也就是说,音高的感觉是随声强而变化 的。高音测量是以4 0 d b 声强为基准,由主观感觉来定标。让听者听两个声强级为 4 0 d b 的纯音,其中一个纯音的频率固定,让他调节另一个纯音的频率,使他感到 后者的音高感觉为前者的两倍,就标出了这两个同声强声音的音高差为两倍。实 验表明,音高与频率之间也不是线性的关系。例如,对于同一声强的声音( 声强 为4 0 d b 声强级) ,用l k h z 纯音可听到的音高定位1 0 0 0 m d ,那么倍音高( 2 0 0 0 m d ) 感觉时的频率却不是2 k h z ,而是4 k h z ,半音高时( 5 0 0 m d ) 感觉频率也不是5 0 0 h z , 而是4 0 0 h z 。根据测试结果,画出“音高频率”曲线,如图2 5 所示,显然这 条曲线是非线性的,这里是以1 k h z 4 0 d b 声强级定为1 0 0 0 m e l 的。 总之,人的耳朵对于声音的强度和频率的主观感觉,即响度和这两个标度, 不但与它们的测量单位( 声强、频率) 有关,更重要的是,它们之间( 响度与音 高之间) 也具有互为补充的关系。 ( 3 ) 掩蔽效应。一个声音的听觉感受受到同时听到的另一个声音的影响的现 太原理工大学硕士研究生学位论文 象称为“掩蔽效应”“。此时前者称为被掩蔽音,后者称为掩蔽音。被掩蔽音单 独存在时的听阈分贝称为绝对听阈;在掩蔽情况下,必须加大被掩蔽音的强度, 此时的听阈称为掩蔽听阈,两者之比,即“掩蔽听阈绝对听阈”称为移动听阈, 这就是掩蔽效应的量度值。已经研究过纯音对纯音的掩蔽和噪声对纯音的掩蔽两 种情况,现介绍如下: 3 0 0 0 面2 5 0 0 e 恒2 0 0 0 栅 轰1 5 0 0 倘 曝1 0 0 0 州 5 0 0 0 | | | ? ,。 一, 1 01 0 0l o o o1 0 0 0 0 频率,h z 图2 5 “音高一一频率”曲线 f i g u r e2 - 5 t h ec u r v eo f p i t c ha n df r e q u e n c y 从纯音对纯音的掩蔽效应实验得出两点结论:1 对于中等掩蔽强度来说,纯 音最有效的掩蔽是出现在它的频率附近;2 低频的纯音可以有效的掩蔽高频的纯 音,而高频的纯音对低频纯音的掩蔽作用则很小。 从噪音对纯音的掩蔽实验得出结论:此时可把噪声视为许多纯音组成的宽带 音。因此据上所述,掩蔽作用最明显的是被掩蔽的纯音频率在一个窄带的掩蔽分 量。由此,人们常用“频率群”掩蔽的概念来解释“”。通常认为,在2 0 h z 1 6 0 0 0 h z 范围内,可分为2 4 个频率群( 也称临界频带) ,或者说共有2 4 个b a r k ,见表2 一l “”。 这是为了纪念b a r k h a u s e u 而定名的。 掩蔽效应是一个较为复杂的心理和生理现象,在低比特声音压缩编码中起着 2 1 太原理工大学硕士研究生学位论文 重要的作用。最新研究成果表明,人耳不仅在频域有掩蔽效应,在时域也有掩蔽 效应。人耳的时域掩蔽效应分为三类:一是后向掩蔽( b a c k w a r dm a s k i n g ) ,在时 间上有后向影响的效果。在掩蔽信号开始之前,人耳对测试信号的听觉门限己提 高,也就是一个声音影晌了在时问上先于它的声音的听觉能力。这是由于入耳对 声音的感觉不是瞬态的,而是一段时间内对声音效果的积累。二是同时掩蔽 ( s i m u l t a a e o u sm a s k i n g ) ,在一定时间内一个声音对另一个声音同时发生了掩蔽 效应。三是前向掩蔽( f o r w a r dm a s k i n g ) ,一个声音信号虽然已经结束,但它对 另一个声音的听觉能力还起着影响。 表2 - 12 4 个频率群的划分 t a b l e 2 - 1 t h e a l l o c a t i o na b o u t 2 4 f r e q u e n c y g r o u p 频率群编号中心频率带宽频率群编号中心频率带宽 ( b a r k )( h z ) ( h z )( b a r k ) ( h z ) ( h z ) l5 08 01 31 8 5 02 8 0 21 5 01 0 01 42 1 5 03 2 0 32 5 01 0 01 52 5 0 03 8 0 4 3 5 0l 加1 62 9 0 04 5 0 54 5 0o1 73 4 0 05 5 0 6 5 7 01 2 01 84 0 0 07 0 0 77 0 01 4 01 94 8 0 09 0 0 88 4 0 1 5 02 05 8 0 0 1 1 0 0 91 0 0 01 6 02 l7 0 0 01 3 0 0 1 0 1 1 7 01 9 0 2 28 5 0 01 8 0 0 l l1 3 7 02 l o2 31 0 5 0 02 5 0 0 1 21 6 0 02 4 02 41 3 5 0 03 5 0 0 太原理工大学硕士研究生学位论文 2 2 3 语音发音系统 人的发音器官包括:肺、气管、喉( 包括声带) 、咽、鼻和口。这些器官共 同构成一条形状复杂的管道。喉的部分称为声门。从声门到嘴唇的呼吸通道叫做 声道( v o c a lt r a c t ) 。声道的形状主要又嘴唇、颚和舌头的位置来决定,由声道形 状的不断改变,而发出不同的语音。 人发音时由肺部收缩送出一股直流空气,经气管流至喉头声门处( 声门即声 带开口处) ,在发声之初,声门处的声带肌肉收缩,声带并拢间隙小于l m m ,这 股直流空气冲过很小的缝隙,使声带得到横向和纵向的速度,此时,声带向两边 运动,缝隙增大,声门处压力下降,弹性恢复力将声带拉回平衡位置并继续趋向 闭合,即声带产生振动,而且有一定的振动周期。 语音按其激励形式的不同大致可以分为三类“”。当气流通过声门时,如果声 带的张力刚好使声带产生张驰振荡式振动,产生一股准周期脉冲气流,这一气流 激励声道就产生浊音( v o i c e ds p e e c h ) 或称有声语音。如果声带不振动,而声道 在某处收缩,迫使气流以高速通过这一收缩部分而产生湍流就产生清音( u n v o i c e d s p e e c h ) 或摩擦音,或称无声语音。如果声道在完全闭合的情况下突然释放就产生 爆破音( p l o s i v es p e e c h ) 。 当声音产生出来后,便顺着声道进行传播。人的声道可以看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论