(通信与信息系统专业论文)嗅觉滤波器组在语音识别系统中的应用.pdf_第1页
(通信与信息系统专业论文)嗅觉滤波器组在语音识别系统中的应用.pdf_第2页
(通信与信息系统专业论文)嗅觉滤波器组在语音识别系统中的应用.pdf_第3页
(通信与信息系统专业论文)嗅觉滤波器组在语音识别系统中的应用.pdf_第4页
(通信与信息系统专业论文)嗅觉滤波器组在语音识别系统中的应用.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(通信与信息系统专业论文)嗅觉滤波器组在语音识别系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 听觉滤波器组在语音识别系统中的应用 摘要 语音识别的一大难点就是识别系统在噪声环境下性能大幅下降,人耳 具有良好的抗噪能力,如何让识别系统能像人耳一样具有选择性,建立符 合人耳听觉特性的听觉模型是长期以来广大研究者的研究热点。本文针对 识别系统中噪声鲁棒性的问题,将听觉滤波器应用到过零峰值幅度 ( z e r oc r o s s i n gp e a ka m p l i t u d e ,z c p a ) 特征提取过程中,得到新的特征, 并将其应用到语音识别系统中。 本文首先对z c p a 特征提取过程进行了详细的介绍。该模型是用输入信 号的上升过零率表征信号的频率信息,峰值幅度表征信号的幅度信息,最 后将二者规整输出z c p a 特征。 此外,本文实现了g a m m a t o n e 滤波器,该滤波器是一种基于耳蜗基底 膜特性的较为理想的听觉滤波器。将1 6 通道的g a m m a t o n e 滤波器代替f i r 滤波器用于z c p a 特征提取中,得到g t z c p a 特征。实验表明,由于 g a m m a t o n e 滤波器在设计精度上没有做到f i r 滤波器的各通道精确设计, 没有达到理想结果。 针对g a m m a t o n e 滤波器频响呈对称分布特性不符合人耳的听觉特性这 一不足,本文在g a m m a t o n e 滤波器的基础上,实现了g a m m a c h i r p 滤波器。 g a m m a c h i r p 滤波器不仅体现了基底膜带通滤波器组带宽非对称分布的特 征,还实现了对输入信号的强度依赖特性。首先将1 6 通道频响非对称分布 的不依赖强度的g a m m a c h i r p 滤波器组应用到z c p a 特征提取中得到 a g c z c p a 特征。实验表明,频响非对称分布的g a m m a c h i r p 滤波器组较频 响对称分布的g a m m a t o n e 滤波器组其识别结果有明显提高。其次,将1 6 太原理工大学硕士研究生学位论文 通道频响非对称分布的依赖强度的g a m m a c h i r p 滤波器组应用于z c p a 特征 中得到g c z c p a 特征识别结果。实验结果表明,强度依赖的g a m m a c h i r p 滤波器较不依赖强度的g a m m a c h i r p 滤波器系统的噪声鲁棒性能更好。 关键词:过零峰值幅度( z c p a ) ,g a m m a t o n e 滤波器组,g a m m a c h i r p 滤波器 组,语音识别 i i 太原理工大学硕士研究生学位论文 a u d i t o r yf i l t e rb a n k si ns p e e c hr e c o g n i t i o ns y s t e m a b s t r a c t am a j o rd i f f i c u l t yi ns p e e c hr e c o g n i t i o ns y s t e mi st h a tt h ep e r f o r m a n c eo f s y s t e md r o p sd r a m a t i c a l l yi nn o i s ye n v i r o n m e n tc o m p a r e d w i t ht h ep e r f o r m a n c e i nc l e a ne n v i r o n m e n t h u m a ne a rh a ss t r o n gc a p a b i l i t yi ns u p p r e s s i n gn o i s e h o wt om a k et h er e c o g n i t i o ns y s t e mb e h a v e sa ss e l e c t i v ea st h eh u m a ne a r ,i n a d d i t i o n ,t oe s t a b l i s ho ft h eh u m a na u d i t o r ym o d e lw h i c hi si na c c o r d a n c ew i t h t h ec h a r a c t e r i s t i c so fh e a f i n gs y s t e mh a sb e e nt h er e s e a r c hf o c u sb yt h em a j o r i t y o fr e s e a r c h e r s a i m i n ga ti m p r o v i n gt h er o b u s t n e s sw i t hr e s p e c tt ot h en o i s e ,t h e a u d i t o r y f i l t e rw a sa p p l i e dt ot h ez e r oc r o s s i n gp e a ka m p l i t u d ef e a t u r e e x t r a c t i o nt og e tt h en e wf e a t u r e s ,a n da p p l i e di tt o t h es p e e c hr e c o g n i t i o n s y s t e mi nt h i st h e s i s t h i sp a p e rf i r s t l yi n t r o d u c e dz c p af e a t u r ee x t r a c t i o np r o c e s si nd e t a i l t h i s m o d e lu s e st h e u pz e r o - c r o s s i n g i n t e r v a lt o r e p r e s e n ts i g n a l 行e q u e n c y i n f o r m a t i o na n da m p l i t u d et or e p r e s e n ti n t e n s i t yi n f o r m a t i o n ,a n dt h e nc o m b i n e s t h et w ot o g e t h e ra st h eo u t p u to ft h ef e a t u r e m o r e o v e gt h eg a m m a t o n e f i l t e rw a si m p l e m e n t e di nt h i sp a p e r ,t h ef i l t e ri s a r li d e a la u d i t o r yf i l t e rw h i c hb a s e do nt h ec h a r a c t e r i s t i co ft h eb a s i l a rm e m b r a n e t h e16 c h a n n e lg a m m a t o n ef i l t e rw a su s e di n s t e a do ff i ri ne x t r a c t i n gz c p a t og e tg t z c p af e a t u r e t h ee x p e r i m e n t ss h o wt h a t ,t h eg a m m a t o n ef i l t e rd i d n t a c h i e v et h ee x p e c t e dr e s u l t s ,w h i c hb e c a u s et h ef i rf i l t e r sw e r ep r o v i d e d e x a c t l yb ye a c hc h a n n e l t h eg a m m a t o n ef i l t e rh a dt h es y m m e t r i c a l 盘e q u e n c yr e s p o n s e ,w h i c hd i d n o tf i tf o rt h eh u m a nh e a r i n gp r o p e r t y i no r d e rt os o l v e t h i sp r o b l e m ,t h e g a m m a c h i r pf i l t e r w a sc o m p l e t e do nt h eb a s i so fg a m m a t o n ef i l t e r t h e g a m m a c h i r pf i l t e rn o to n l yr e f l e c t e dt h ec h a r a c t e r i s t i c s o ft h ea s y m m e t r i c a l i i i f r e q u e n c yr e s p o n s ed i s t r i b u t i o no ft h eb a s i l a rm e m b r a n ew h i c hw a sa sb a n d p a s s ; f i l t e rb a n k s ,b u ta l s oi m p l e m e n t e dt h el e v e l - d e p e n d e n tp r o p e r t y u s i n gt h e 16 c h a n n e l s ,f r e q u e n c yr e s p o n s ea s y m m e t r i c a ld i s t r i b u t i o na n dl e v e l i n d e p e n 。d e n t : g a m m a c h i r pf i l t e rb a n k sf o rz c p ae x t r a c t i o nt oo b t a i nt h ea g c z c p af e a t u r e t h ee x p e r i m e n t ss h o wt h a t ,c o m p a r e dt ot h es y m m e t r i cd i s t r i b u t i o n f r e q u i e n c y r e s p o n s eg a m m a c h i r pf l t e rb a n k s ,t h er e c o g n i t i o nr a t e so ft h ef r e q u e n c y r e s p o n s ea s y m m e t r i c a ld i s t r i b u t i o ng a m m a c h i r pf i l t e rb a n k sw a si m p r o v e d s i g n i f i c a n t l y 。t h e n t h e16 c h a n n e l s ,f r e q u e n c yr e s p o n s ea s y m m e t r i c a l d i s t r i b u t io na n dl e v e l d e p e n d e n tg a m m a c h i r pf i l t e rw a su s e di nz c p af e a t u r e e x t r a c t i o n ,t h er e s u l to fg c z c p af e a t u r ew e r eg c t t h ee x p e r i m e n t ss h o wt h a t t h es y s t e mo fl e v e l d e p e n d e n tg a m m a c h i r pf i l t e r b a n k si sm o r er o b u s tt h a no f t h el e v e l i n d e p e n d e n tg a m m a c h i r pf i l t e rb a n k s k e yw o r d s :z e r oc r o s s i n gp e a ka m p l i t u d e ( z c p a ) ,g a m m a t o n ef i l t e r b a n k s ( g tf i l t e rb a n k s ) ,g a m m a c h i r pf i l t e rb a n k s ( g cf i l t e rb a n k s ) ,s p e e c h r e c o g n i t i o n i v 太原理工大学硕士研究生学位论文 1 1 课题的研究背景和意义 第一章绪论 人耳的听觉系统是一个十分稳健可靠的音频信号处理器,其对外界声音信号的处理 方式一直是设计听觉滤波器的最终目标。由于听觉的生理及心理研究取得了突破性进 展,为听觉系统的数字建模提供了大量的数据。随着听觉模型的不断改进并逐步走向实 用化,听觉滤波器模型被广泛应用于语音信号处理的各个领域。 语音识别技术( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 始于上世纪五十年代,是一门交 叉学科,正逐渐成为信息技术中人机交互的关键技术。能够摆脱键盘的束缚,通过语音 命令控制计算机,让机器明白你说的是什么并执行相应的操作,这是长期以来人们梦寐 以求的事情。语音识别技术的最终目标是研制出一台能够听懂任何人、任何讲话内容的 机器,实现真正意义上的人机交换。但是要实现这样一台像人类一样自如的交流的计算 机其难度之大是可想而知的。 在实验环境下语音识别技术已经达到了很好的效果,但在实际应用中语音识别技术 需要能够排除各种环境因素的影响。目前对语音识别效果影响最大的就是环境中的噪 音,在公共场合,来自四面八方的嘈杂声音会让计算机不知所措,这极大地限制了语音 识别技术的应用。如何让计算机在杂乱的环境中能够像人耳一样能够准确获取特定语音 信息而屏蔽其他无用信息成为了广大学者的研究热点。本文以此为出发点,将模拟人耳 基底膜作用的听觉滤波器组引入语音识别系统中,进行非特定人、小词汇量的语音识别 系统研究。 1 2 听觉滤波器的发展及现状 在听觉研究领域中,研究耳蜗对声音的感知特性,是研究听觉系统功能的重要部分。 利用听觉滤波器模拟耳蜗对声音的感知过程极大地帮助了人们对耳蜗作用过程的理解 及应用。再过去的半个多世纪中,国内外学者们先后实现了仿真耳蜗基底膜的主动性, 非线性以及频率选择性的听觉滤波器。 1 9 4 0 年,为了能够有效地解释听觉系统的机理,f l e t c h e r 提出了听觉滤波器的最早 定义。他认为:外部听觉系统表现出类似具有交叠通频带的一组带通滤波器,这组滤波 太原理工大学硕士研究生学位论文 器即为听觉滤波器。同时他还认为人耳基膜结构为听觉滤波器提供了理论基础。 2 0 世纪7 0 年代,f l a n a g a n 依据生理学数据为听觉机制提出了一种数学计算模型【1 】。 他认为可以通过频率和一定范围幅度内被动的机械性和线性来模拟人耳的生理数据,而 不是通过与频率有关的有理函数的左半平面的极点来模拟。f l a n a g a n 的模型可以分为两 部分,第一部分用于模拟中耳的听觉作用,第二部分用于模拟基底膜的作用,分别用s 域的传递函数g ( s ) 和历( s ) 来实现。这一表示方式用于模拟类似的基底膜的共振特性。 1 9 7 2 年j o h a r m e s m a 提出了用于描述猫听神经的生理学冲激响应特性的g a m m a t o n e 滤波 器,该滤波器用一个因果的冲激响应函数来描述滤波器的特性。该函数在拟合各种听神 经的生理学冲激响应数据中取得了令人满意的效果,是一种应用广泛的听觉滤波器。 2 0 世纪8 0 年代,l y o n 和m e a d 根据耳蜗的工作机理提出了一种模拟电子耳蜗模型 来模拟基底膜的频率选择性,称为共振滤波器( r e s o n a n tf i l t e r ) t 2 , 3 】,其s 域传递函数为: , 日( s ) = 1 ( 1 + 万s t + s 2 t 2 ) ( 1 - 1 ) ,z 式( i - i ) 中,f 为共振子的时间常数,q 为品质因数,共同决定着谐振子的共振频 率。l y o n 认为可以通过这样一组级联的滤波器来模拟人耳基底膜。该滤波器算法简单 容易实现,但在语音识别中的应用效果并不尽人意。究其原因是该滤波器在考虑了基底 膜频率选择性的同时忽略了基底膜的主动反馈性和非线性。 在同一时期,p a t t e r s o n 和m o o r e 于1 9 8 6 年提出r o u n d e d e x p o n e n t i a l 函数( r o e x 函 数) 4 】,该函数用于拟合人耳在噪声背景中识别特定信号频率阂值的掩蔽实验数据,其函 数表达式为: ( g ) = ( 1 一厂) ( 1 + p g ) e 馏+ , ( 1 - 2 ) 式中,参数p 和,是与滤波器形状有关的参数,p 决定着滤波器的斜率及临界带宽, ,用于限制滤波器的动态响应范围。r o e x 函数滤波器在听觉掩蔽实验中得到很好的利 用,但由于其没有简单形式的冲激响应函数在拟合基底膜特性的实验中没有得到广泛应 用。 2 0 世纪9 0 年代,g h i t z a 提出了e i h ( e n s e m b l ei n t e r v a lh i s t o g r a m ,e i h ) 模型,该模型 中采用了1 9 0 通道的耳蜗滤波器组来仿真内耳毛细胞的功能。同一时期,i r i n o 在 g a m m a t o n e 滤波器的基础上提出了g a m m a c h i r p 滤波器【5 1 。g a m m a c h i r p 滤波器不但继承 了g a m m a t o n e 滤波器的优点,而且在其基础上成功模拟了人耳基底膜的频谱非对称性和 2 太原理工大学硕士研究生学位论文 强度依赖特性。g a m m a c h i r p 滤波器是目前听觉研究文献中普遍认为较好的听觉滤波器, 在时域模型、语音压缩和识别中都有广泛的应用,也是本文着重研究的滤波器。 进入2 1 世纪,对于听觉滤波器的研究陷入瓶颈,没有取得突破性进展。归其原因 主要是人耳听觉外围功能涉及的许多问题仍然悬而未决。比如最近有人提出耳蜗内静纤 毛的移位是由于布朗运动和随机共振增强了中间频率段的微弱信号的检测的结果。尽管 如此,人耳的听觉感知机制和信息的神经传递等问题仍然没有得到有效地解决。这些问 题都直接制约着听觉滤波器的发展。但是我们有理由相信,随着测量技术的不断更新会 给我们带来更多必要的生理数据,必然会为听觉生理和心理的研究带来新的生机。 1 3 论文研究的主要内容 本文以听觉滤波器组在语音识别中的应用为研究内容,分析不同的听觉滤波器组在 过零峰值幅度( z e r oc r o s s i n gp e a ka m p l i t u d e ,z c p a ) 特征的应用,主要工作包括: 1 从医学、生物学的角度出发,了解人耳结构及其听觉感知的过程。 2 在分析原有z c p a 特征提取方法的基础之上,用g a m m a t o n e 滤波器组取代z c p a 特征的前端滤波器组,进而得到g t z c p a 特征,并将该特征用于韩语语料库进行仿真实 验。 3 详细阐述了g a m m a c h i r p 滤波器组并实现了其与z c p a 特征的结合,分别得到了 不同啁啾因子下及强度依赖条件下的g c z c p a 特征,并将其应用到韩语语料库的实验 仿真,实验结果表明,与g t z c p a 特征相比,以上提到的两种特征均具有较好的识别率 和噪声鲁棒性。本文的具体章节安排如下: 第一章介绍了听觉滤波器的发展历史及其现状,概括了本文的主要研究内容及成 果; 第二章阐述了语音识别系统的基本理论知识。介绍了语音识别的历史发展状况及 语音识别系统的主要组成部分:预处理、特征提取及识别算法,并对韩语语料库作以简 单介绍。为后续的研究提供了理论基础和依据; 第三章从生物学角度出发,介绍了人耳听觉系统的组成及工作原理,详细介绍了 听觉模型中的z c p a 模型; 第四章阐述了g a m m a t o n e 滤波器的特性及e r b 频带划分,详细描述了g t z c p a 特征的提取过程,并将其用于仿真实验中,得到语音识别结果为后续实验提供对比; 3 垄塑望塑堕堂堡圭婴窒竺堂:垡堡塞一 第五章介绍了g a m m a c h i r p 滤波器的相关特性,分别详细阐述了在不同啁啾因子下 及强度依赖条件下的a g c z c p a 和g c z c p a 特征的提取过程并进行仿真实验,实验表 明,基于g a m m a c h i r p 滤波器组的两种特征较g t z c p a 特征具有明显优越性: 第六章总结与展望。 4 太原理工大学硕士研究生学位论文 2 1 语音识别技术概述 第二章语音识别系统 随着现代社会数字化、信息化进程的加快,言语沟通作为家人、朋友、同事间最有 效的交流手段已经渐渐地被计算机所替代。在生活、工作中,人们更多的通过计算机进 行信息的交流。而语音识别正是这一交流方式中的关键技术。 语音识别技术的研究工作萌芽于上世纪5 0 年代,但取得实质性的进展是在上世纪 6 0 年代末7 0 年代初期。语音识别发展历史如表2 1 所示。 表2 - 1 语音识别技术发展 t a b l e2 1t h ed e v e l o p m e n to fs p e e c hr e c o g n i t i o n 时间发展 2 0 世纪5 0 年代贝尔实验室实现了1 0 个英文数字的语音识别技术 2 0 世纪6 0 年代数字滤波器等数字信号处理理论形成 2 0 世纪7 0 年代s a k o e 等提出动态时间规整技术;i t a k u r a 提出线性预测残差原理: m m 公司开发出特定人孤立词识别系统t a n g o r a 一2 0 ; 2 0 世纪8 0 年代 c m u 大学构建s p h i n x 非特定人连续语音识别系统; 语音技术进入实用化和产品化,微软公司开发出w h i s p e r 系统; 2 0 世纪9 0 年代 m m 开发出v i a v o i c e 系统;c m u 构建了h t k 系统等; 语音识别芯片的嵌入式产品得到推广:s e n s o r y 公司的r s c 系列 2 1 世纪 语音识别芯片,i n f m e o n 公司的u n i s p e e c h 语音芯片等。 语音识别技术主要包括两大类:说话人识别和话音内容识别。说话人识别是在多个 话者中判定说话者的身份,对于讲话的内容不做追究。我们通常所说的语音识别是指第 二类识别,即对话音内容进行的识别。基于话音内容识别的分类如表2 2 所示。 5 太原理工大学硕士研究生学位论文 表2 - 2 语音识别分类 t a b l e2 - 2t h ec l a s s i f i c a t i o no fs p e e c hr e c o g n i t i o n 划分标准分类 词汇量大小 小词汇量( 小于1 0 0 词) 、中词汇量( 1 0 0 - 5 0 0 词) 、大词汇量( 5 0 0 词以上) 发音方式 孤立词语音识别、连接字语音识别,连续语音识别 对话者依赖程度特定人语音识别、非特定语音识别 2 2 语音识别系统 语音识别系统作为囊括了声学、语言学、心理生理学、人工智能、信号处理和认知 科! 学等多学科交叉研究项目,其实质上可归纳为一种模式识别系统【6 1 。典型的语音识别 系统框图如图2 1 所示。 图2 - 1 语音识别系统原理框图 f i g u r e2 - 1t h ed i a g r a mo fs p e e c hr e c o g n i t i o ns y s t e m 从上图中可以看出,语音识别系统的关键技术主要包括语音信号的预处理、特征提 取及模式识别等几个部分。语音识别主要包括两个阶段:训练阶段和识别阶段。在训练 阶段,主要是对输入的信号进行预处理、特征提取并建立模板库。识别阶段主要是对待 识别信号进行分析提取特征,与模板库里的参数进行比对,再根据相关的判决准则得出 识别结果。 2 2 1 预处理 输入语音信号的预处理过程主要包括信号采样量化、预加重和分帧加窗等几部分 7 1 。 ( 1 )采样量化:原始语音信号经过模数转换器以适当的采样率进行采样后,再以 一定的量化精度进行量化,得到计算机能够处理的数字信号。根据奈奎斯特采样定理, 为防止信号产生混叠效应且能够恢复出原始信号,采样率应等于或高于原始语音信号最 高频率的2 倍。语音信号常用的采样频率有8 k h z ,1l k h z ,1 6 k h z 。 6 太原理工大学硕士研究生学位论文 ( 2 ) 预加重:对数字信号进行预加重的目的是将语音的高频部分进行提升,去除 口唇辐射的影响,增加语音的高频分量,使整个信号的频谱比较平坦【8 1 。预加重一般是 在语音信号数字化之后参数分析之前,用具有6 d b o c t 的提升高频特性的预加重数字滤 波器来实现。常用的预加重数字滤波器传递函数为: h ( z 1 = 1 一口z 一1 ( 2 1 ) 式中,口为预加重系数,其取值一般接近1 ,在o 9 4 0 9 7 之间。图2 - 2 给出一段浊音信 号在预加重前和预加重后的信号及频谱对比图。 原始语音信号频谱 经高通滤波后的语音信号频谱 图2 - 2 语音信号预加重前后波形及其频谱图 f i g u r e2 - 2s p e e c hs i g n a la n di t ss p e c t r u m b e f o r ea n da f t e rp r e e m p h a s i s ( 3 ) 分帧加窗:语音信号是典型的非平稳信号,但是如果取其中很短的一段看其 变化较小,故可以将其中很短的一段信号,即在1 0 m s 2 0 m s 的时间段内,看成是短时 平稳信号。我们可以用平稳过程的分析处理方法来处理,即将语音信号进行分帧。由于 采样频率的差异,帧长和帧移所对应的实际采样点数也是不同的。对于11 0 2 5 h z 的采样 频率的信号,若帧长为1 0 m s 即1 1 0 个样点,则1 2 帧移为5 5 样点。同时为了保持信号的 短时平稳性常利用窗函数来减少由截断处理导致的g i b b s 效应,应用最多的窗函数有矩 形窗、汉明窗和汉宁窗。各窗函数数学表达式有下式。 矩形窗函数: 7 太原理工大学硕士研究生学位论文 w = 锰三嚣。 陪劲 汉宁窗函数: w ( 行) = 罟5 n c 。s 2 丌甩7 一1 l 三差:于一1 ( 2 3 ) 汉明窗函数: w = f 地4 6 c o 吖2 翮“肛d l 三i 。1 口4 ) 上式中w ( 力) 表示窗函数,n 表示帧长。窗函数w ( 门) 形状及其长度的选择对于短时 分析参数的性能有较大影响,不同窗函数的特性也有所不同,例如,矩形窗具有较高的 频谱分辨率,而汉明窗的低通特性更为平滑。因此窗函数和窗口长度的选取直接关系到 铸时参数能否更好地反映语音信号的时域及频域特件。 2 22 特征参数提取 在语音识别系统中,特征参数的选取是至关重要的。其目的是对语音信号进行分析 处理,去掉与识别无关的冗余信息,将能够代表声音本质特征的信息提取出来。为了提 高识别效果,提取出的特征个数应尽量少,且特征间的相关性应尽量小。 一般可以将信号的特征参数分为两大类:第一类为时域特征参数,该参数通常把语 音信号各帧的时域采样值直接组成一组特征向量,如短时平均过零率、平均能量、共振 峰、基音周期【9 】等。第二类为变换域特征参数,即对每一帧信号进行某种变换后产生的 相应的特征向量,如线性预测系数( l i n e a rp r e d i c t i o nc o e f f i c i e n t s ,l p c ) 、线性预测倒谱系 数( l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t s ,l p c c ) t 1 0 1 等。此外,变换域特征参数还包括几 种基于听觉机理的参数模型,这几种模型将在3 2 节中详细阐述。 1 常见的时域特征参数 ( 1 ) 基音周期 基音周期,是指发浊音时由声带振动引起的周期运动的时间间隔。我们通常所说的 基音频率是基音周期的倒数,是分析信号的重要参数。由于人的声道特性各不相同,基 音频率的变化范围也较大,同时由于信号受到噪声或其他声源谐波的影响,对基音周期 的检测仍存在一定困难。常用的基音周期检测算法主要有三种:1 时域估计法,即直接 用语音的波形来估计基音周期;2 变换域法,将信号变换到频域或倒谱域对基音周期进 行估计;3 混合法,首先对信号提取声道模型参数,而后利用提取的参数对信号逆滤波, 8 太原理工大学硕士研究生学位论文 最后用自相关等算法求得基音周期。 ( 2 ) 短时平均能量 语音信号的能量是随时变化的,为了有效的反应语音信号幅度的变化通常采用短时 能量分析的方法。短时平均能量可以定义为,如果把以时间f 为标志的某帧语音信号的 短时平均能量记作e 。,则短时平均能量的计算公式如下: 1l 一1 2 e o ( t ) = i s ,( ”) l ( 2 5 ) l n = 0 式中,为帧位置,s ( n ) 为语音信号采样值,三为帧长。 2 常见的变换域特征参数 ( 1 ) 线性预测系数 语音信号样点之间存在相关性,所以语音信号的当前抽样值可以用过去若干个抽样 值或者它们的线性组合来逼近1 1 1 ,这就是线性预测的基本思想。线性预测系数 ( l i n e a rp r e d i c t o rc o e f f i c i e n t 二l p c ) 实际上是通过计算实际语音抽样和线性预测抽样之间 的误差,并使该误差在某个准则下达到最小值来唯一确定一组预测参数。这组参数能够 反映语音信号的特征,故可以将其作为语音信号的特征参数用于语音识别中。图2 3 是 利用自相关法提取l p c 参数的流程图。 l p c 输出 图2 3l p c 特征提取流程图 f i g u r e2 - 3s c h e m a t i cd i a g r a mo f e x t r a c tl p cf e a t u r e 假设一个已知的语音序列s ( n ) 是一个准周期脉冲或者白噪声e ( n ) 激励一个线性时 不变系统( 声道) h ( z ) 所产生的输出。其传递函数如下: 脚丽1 2 万1 ( 2 - 6 ) 则语音信号的采样值s ( n ) 可以用式( 2 7 ) 进行预测: 一 s ( 胛) :占( 刀) + 圭a f t ( 胛一1 ) j = l 预测误差为: p ( 胛) :s ( 刀) 一羔q s | 一1 ) i = 1 9 ( 2 7 ) ( 2 8 ) 太原理工大学硕士研究生学位论文 我们将能够使预测误差的均方值达到最小的一组:预测参数的估计值a ,作为最佳的 线性预测系数。其中p 为预测阶数,口i ( f - 1 ,2 ,p 为p 阶线性预测系数。 ( 2 ) 线性预测倒谱系数 线性预测倒谱系数( l i n e a rp r e d i c t i o nc e p s t n m ac o e f f i c i e n t s ,l p c c ) 是线性预测系数 l p c 在倒谱域的表示【引。这种特征的原理是基于语音信号是自回归信号的假设,利用线 性预测分析获得倒谱系数。语音信号的倒谱c ( n ) 与l p c 系数间的推导关系为: c 。= 舀。+ k c k h 。一 n ,1 :;门p + 1 心 ( :2 9 ) n - i 一 舀。+ 幻a 椭n ,船 p + 1 根据语音信号产生的模型及同态处理的概念,信号的倒谱c ( 刀) 等于激励信号的倒谱 爸( ,z ) 及声道传输函数的倒谱h ( n ) 之和。通过分析激励信号的特征及声道传输函数的零极 点的分布情况,可知占( 以) 的分布范围较广,c ( 玎) 从低时域到高时域延伸时,a ( n ) 主要分 布在低时域。 l p c c 参数的优点是计算量小易实现,且参数间相关性小,能够较彻底的消除语音 产生过程中激励信息的影响,主要反映声道信息。同时,它也继承了l p c 的缺陷,即 l p c 系数在所有的频率上都是线性的逼近语音,这一点与人耳听觉特性是不相符的;而 且l p c 系数包含了语音高频段的大部分噪声,在抗噪性方面仍存在不足。 2 3 识别算法 语音识别的最后一个环节就是模式识别,即将从待识别信号提取出的特征与模板库 中的参考模板根据一定的判决规则进行匹配的过程。常用的模式匹配算法有径向基函数 网络、隐马尔可夫模型及支持向量机模型。 2 3 1r b f 神经网络 r b f ( r a d i a lb a s i s f u n c t i o n ,r b f ) 神经网络通常有三层网络结构,包括输入层、隐层 和输出层。r b f 网络的拓扑结构如下图所示。 1 0 太原理工大学硕士研究生学位论文 图2 4r b f 神经网络拓扑结构 f i g u r e2 - 4t h et o p o l o g yo fr b f n e t w o r k 在r b f 网络中,隐层节点通过基函数执行非线性变化,将输入空间映射到一个新空 间,输出层节点则在该新的空间实现线性加权组合。r b f 网络是一种性能良好的前馈网 络。理论证明,对于一个给定的非线性函数,用r b f 神经网络可以以任意精度来全局逼 近它。同时r b f 网络还成功的避免了输入层与隐层间反向传播的繁琐计算,大大提高了 学习速度。 r b f 神经网络中待确定的参数主要有两类:基函数中心点、宽度及网络的权值。其 学习过程分为两步:首先确定基函数的中心点及宽度,再进行权值的学习。其中,基函 数中一t 5 点及宽度的确定是决定整个神经网络的关键。根据学习方法的不同r b f 网络主 要有以下几种:p o g g i o 方法、m o o d y 和d a r k e n 方法、局部学习方法、正交最小二乘法 和聚类与g i v e n s 最小二乘联合迭代法等【1 3 】。本文所用的r b f 神经网络是基于m o o d y 和 d a r k e n 算法的,采用全监督算法,在v c + + 平台上实现的基于r b f 神经网络的孤立词语 音识别系统。 2 3 2 隐马尔可夫模型和支持向量机模型 ( 1 ) 隐马尔可夫模型 隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,h m m ) 是一个双重随机过程的统计模型, 其中的一重随机过程是隐蔽的具有有限状态的m a r k o v 链,而另一重是与m a r k o v 链的 每个状态相关的观察矢量的随机过程,隐马尔可夫链的特征要靠可观测到的信号特征揭 示。由于人的言语过程也是一个双重随机过程,因此,该模型被应用到语音处理的各个 领域。隐马尔可夫模型的分类如表2 - 3 所示。 太原理工大学硕士研究生学位论文 表2 - 3h m m 模型的分类 t a b l e2 - 3c a t e g o r i e so fh m mm o d e l 分类根据h m m 模型种类 各态历经型或遍历型、从左到右型、并行路径从左到右型、无跳 转移概率矩阵 转从左到右型等 输出概率分布离散h m m 模型、半连续h m m 模型、连续h m m 模型等 h m m 模型的优点是具有强大的动态时间序列建模能力且计算量小。它的不足是需 要提前知道样本的参数化分布形式,过多的依赖先验知识。 ( 2 ) 支持向量机模型 支持向量机模型( s u p p o r tv e c t o r m a c h i n e ,s v m ) 是在统计学习理论基础上发展而 来的一种新型机器学习方法,它结合了统计学习、神经网络和机器学习等多方面技术, 在解决小样本、高维数和非线性的机器学习问题中有许多特有优势。其发展过程如表2 - 4 所示。 表2 - 4s v m 的发展 时间 发展 1 9 6 0 丘 v n v a p n i k 等人致力于s v m 的研究,作为该研究的开端 1 9 9 2 生 b o s e r ,g u y o n 和v a p n i k 等提出最优边界分类器 1 9 9 3 年 c o r t e s 和v a p n i k 研究在非线性情况下的最优边界分类问题 1 9 9 5 点 完整和详细地提出了基于统计学习理论的支持向量机方法 1 9 9 7 年 s m o l a ,g o k o w i c h 等人提出基于s v m 的回归估计和信号处理方法 s v m 模型建立目的是用有限的样本在模型的复杂性( 训练集的性能) 以及学习能力 ( 未知集合的识别率) 之间寻找最佳折中参数,即通过采用最少的支持向量,在算法复杂 度和错分样本之间寻找相对较好的结果,从而希望获得最好的推广能力。与神经网络方 法相比,支持向量机模型具有更坚实的数学理论基础,可以有效地克服神经网络固有的 过学习以及欠学习的问题。 2 4 语料库 本文所有实验采用的语料库均为韩语语料库,其词语内容为数字及简单的控制性语 句。该韩语语料库包括1 0 词、2 0 词、3 0 词、4 0 词及5 0 词五种不同的子库,每个子库分 1 2 太原理工大学硕士研究生学位论文 别是在不同的信噪比1 5 d b ,2 0 d b ,2 5 d b ,3 0 d b 及c l e a n 下录制完成的。该语料库由 1 6 名男性发音组成,每人每词发音3 遍,在非特定人的语音识别中,将1 6 人分为两组, 其中9 人的发音作为训练语料库,而另外7 人的发音则作为测试语料库进行实验。例如, 采用2 0 d b1 0 词进行非特定人识别实验,则采用9 人的2 0 d b1 0 词下的语音作为训练语 料( 训练文件的个数为1 0 ,- c 3 水9 = 2 7 0 ) ,而另外7 人的相同条件下的语音作为测试语料( 测 试文件的个数1 0 母3 乖7 = 2 1 0 ) 。本语料库采样频率为1i 0 2 5 k h z ,采样比特率为1 6 b i t 。 2 5 本章小结 本章主要介绍了语音识别系统的基础知识,对系统中的三大构成:预处理、特征提 取及模式识别模块的作用分别作了介绍,其中详细介绍了语音信号的预处理过程,常用 的几种典型的语音特征提取方法及识别网络模型。简单介绍了本文采用的韩语语料库相 关内容,为后续章节的研究介绍打好基础。 13 太原理工大学硕士研究生学位论文 第三章人的听觉系统 语音是语言信息的声学表现,现代语音学有三个分支:发音语音学、声学语音学及 听觉语音学【1 4 】。发音语音学是对语音的产生机理进行研究;声学语音学是用声学的方法 对语音进行分析;听觉语音学则研究语音感知阶段的生理特性。本章中将重点介绍听觉 语音学的相关知识。 3 1 人耳听觉系统 3 1 1 听觉系统的组成 人耳的听觉器官分为外耳、中耳和内耳三个部分。其剖面图如图3 1 所示。 图3 - 1 人耳听觉结构图 f i g u r e3 - 1t h es t r u c t u r eo f h u m a n e a ra u d i t o r ys y s t e m 外耳由耳廓和外耳道组成。耳廓的主要作用是从外界环境收集声音并将声音导入外 耳道。外耳道使声音得到增强并将其传送到中耳。外耳道的平均长度为2 5 c m ,其自然 谐振频率约为3 4 0 0 h z ,由于外耳道的共振效应及头部对声音产生的反射及衍射作用, 使得人耳对2 4 k h z 的声音感觉可放大约1 5 2 0 d b 。 中耳悬于中耳腔,由鼓膜、中耳腔和听骨链组成。鼓膜位于外耳道的末端,呈凹形, 常为珍珠白。声音以声波方式经过外耳道振动鼓膜,其具体过程为振动的空气粒子发生 压力变化使鼓膜振动,将声能在中耳转换成机械能。中耳的腔室里充满空气,并通过一 根平衡管于喉头相连,使得作用于鼓膜两边的压力能够平衡,这个平衡称为耳咽管。听 骨链由三块听小骨组成,即锤骨、砧骨和镫骨。鼓膜的前后振动使听骨链作活塞状移动, 1 5 太原理工大学硕士研究生学位论文 由于外表面积的差异,鼓膜接收到的声波被集中到较小的空间内,在能量转换的过程中, 听小骨将声音能量强度扩大了3 0 d b 。此外,听小骨还具有非线性,使人们能够对一个 频率的声音产生出它的谐音的感觉。 内耳最重要的部分是耳蜗,另外还包括三个半规管和前庭窗,这两部分属于人体感 受器,与机体的平衡机能有关。半规管内的感受器能够感受旋转变速运动,而前庭窗内 的感受器可以感受静止状态以及直线的变速运动。 柯蒂氏器 官细胞 图3 2 耳蜗结构图 f i g u r e3 - 2t h es t r u c t u r eo fc o c h l e a 耳蜗是听觉收纳器,呈螺旋形,形似蜗牛,是一骨质腔体,内部充满淋巴液。其结 构如3 2 图所示。在耳蜗内有一个重要的部分叫基底膜,在基底膜上分布着大量的毛细 胞,且每根毛细胞上都连

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论