




已阅读5页,还剩53页未读, 继续免费阅读
(信号与信息处理专业论文)聋儿语音恢复系统的语音识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 聋儿康复训练系统主要是将受训者所发语音进行处理后提取出语音的特征, 然后再进行语音的识别训练,让受训者将自己的发音和标准音的特征参数进行比 较,逐步纠正自己的发音。 语音识别是该系统的核心技术。本文主要论述了该系统的语音识别原理,包 括语音的预处理和端点检测,特征参数的提取,包括基音频率,l p c c 参数和m f c c 参数,隐马尔科夫识别原理,最后用h t k 工具包进行了语音识别的实验。 在语音的预处理阶段,主要论述了语音去噪和端点检测。在去噪方面,我们 提出一种新的阈值设定的小波去噪的方法,这种阈值参数介于软阂值和硬阈值之 间,具有良好的连续性和可导性,可以更加有效的抑制高斯噪声。在端点检测方 面,我们对传统的双门限方法进行了改进,通过对受训语音设定三个端点值包括 音节起始端、浊音段起始端及音节结束端三个端点,然后应用时域特征参数即可 准确检测出语音的端点。 在语音的共性特征参数提取方面是本系统的关键所在,首先我们对语音的基 音频率进行了提取,在提取方法上对传统的平均幅度差方法( a m d f ) 法进行了改 进,对语音幅度值进行差值平方,然后进行归一化,再对提取的语音基音频率进 行搜索试探和中值平均的方法进行后处理,有效地抑制了孤立点的存在,提高了 精确度。然后详细介绍了l p c c 和m f c c 参数的特点及提取方法,以及两者各自 的优缺点。 隐马尔科夫模型是用统计原理建立语音识别的声学模型,是目前语音识别的 主流声学建模技术,本文随后介绍了隐马尔科夫模型的原理及其在语音识别中的 应用。 最后在h t k 平台上进行了特定人连续语音识别的实验,详细阐述了实验步骤 和命令语句。引入了基于上下文相关的三音素模型,解决了协同发音的问题。使 用了h t k 的决策树理论,通过绑定三音素,修补哑音等方法,不断地调整系统模 型,使实验的识别率最大化;通过提取多种语音特征参数并对其进行了对比试验 以比较不同特征参数的识别结果;通过试验不同的h m m 模型的状态数对不同识 别率的影响,确定出最优的模型的状态数。 关键词:聋儿康复;语音去噪;特征提取;语音识别 山东大学硕士学位论文 a b s t r a c t t h el a n g u a g eh e a l i n gs y s t e mo fd e a fc h i l d r e ni sm a i n l yu s e df o re x t r a c t i n gt h e s p e e c hp a r a m e t e r sa f t e rp r o c e s s e dt h et r a i n i n gs p e e c hd a t a a n dt h e nm a k et h es p e e c h r e c o g n i t i o n ,l e tt h et r a i n e rc o n t r a s th i sp r o n u n c i a t i o nw i t ht h es t a n d a r dp r o n u n c i a t i o n a n dc o r r e c th i sp r o n u n c i a t i o ns t e pb ys t e p t h es p e e c hr e c o g n i t i o ni st h ec e n t e rt h e o r yo ft h es y s t e m t h i sp a p e rm a i n l y d i s s e r t a t et h es p e e c hr e c o g n i t i o nt h e o r y , i n c l u d et h ep r e p r o c e s s ,t h ee n d p o i n td e t e c t i o n o ft h es p e e c h ,e x t r a c t i n gt h ep a r a m e t e r s ,( s u c ha st h ep i t h ,l p c ca n dt h em f c c ) , h m m t h e o r y ,a tl a s tw eu s et h eh t k t oh a v et h es p e e c hr e c o g n i t i o ne x p e r i m e n t d u r i n gt h es p e e c hp r e p r o c e s s ,w ed i s s e r t a t et h es p e e c hd e - n o i s ea n dt h ee n d p o i n t d e t e c t i o n i nt h es p e e c hd e n o i s e ,w ei n t r o d u c ean e wd e n o i s em e t h o do fw a v e l e t t h r e s h o l db a s e do nn e wt h r e s h o l df u n c t i o n ,t h i sm e t h o di sb e t w e e nt h es o f tt h r e s h o l d a n dt h eh a r dt h r e s h o l d ,i th a sn i c ec o n t i n u i t i e sa n dh i g h - o r d e rd e r i v a t i v e sr e s u l t i n gi n m a t h e m a t i c sd i s p o s a l sc o n v e n i e n t ,i tc a nr e d u c et h en o i s eb e t t e r i nt h ee n d p o i n t d e t e c t i o n ,w ei m p r o v et h et r a d i t i o n a ld o u b l e t h r e s h o l dm e t h o d w es e tt h r e ep o i n t so f t h et r a i n i n gs p e e c h ,a n dt h e nu s et h et i m ed o m a i np a r a m e t e r st od e t e c tt h ee n d p o i n to f t h es p e e c hs u c c e s s f u l l y i nt h ee x t r a c t i n gt h es p e e c hp a r a m e t e r s ,a tf i r s t ,w ee x t r a c tt h ep i t c ho ft h es p e e c h w ea l s oi m p r o v et h ea m d fm e t h o d ,w em a k et h es p e e c hh a v et h em a g n i t u d e d i f f e r e n c es q u a r ef u n c t i o na n dt h e nn o r m a l i z ei t ,a tl a s td u r i n gt h el a t ep r o c e s s ,i tc a n r e s t r a i nt h ei s o l a t ep o i n ts u c c e s s f u l l 弘e n h a n c et h ep r e c i s i o n w ea l s o p a r t i c u l a r i n t r o d u c et h el p c ca n dm f c c ,a n dc o n t r a s tt h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s t h em a i n s t r e a mt e c h n o l o g yo fs p e e c hr e c o g n i t i o na c o u s t i cm o d e l i n gs h o u l db et h e h m mw h i c hm o d e l st h es y s t e mb a s e do ns t a t i s t i cm e t h o d t h ep r i m a r yp r i n c i p l e so f h m ma n di t sa p p l i c a t i o n si ns p e e c hr e c o g n i t i o ni si n t r o d u c e di nt h ep a p e r f i n a l l y , s e v e r a le x p e r i m e n t sa r ep e r f o r m e dt ot e s tt h es t e p sa n dp r i n c i p l e so f s p e e c hr e c o g n i t i o n i nt h ee x p e r i m e n t st h ep e r f o r m a n c e so fd i f f e r e n tf e a t u r ep a r a m e t e r s a n dd i f f e r e n th m ms t a t e sd i s p l a y e d a n dw ec h o o s et h eb e s tk i n do ff e a t u r ep a r a m e t e r a n dh m mm o d e l sa m o u n ta c c o r d i n gt ot h ee x p e r i m e n t sr e s u l t s k e y w o r d :l a n g u a g eh e a l i n gs y s t e mo fd e a fc h i l d r e n ;s p e e c hd e - n o i s e ;e x t r a c t i n gt h e f e a t u r ep a r a m e t e r s ;s p e e c hr e c o g n i t i o n 2 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名: e t 期:迸2 垒丝 f 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名: 导师签名:歪砭 一日期: 山东大学硕士学位论文 第一章绪论 根据我国残疾人抽样调查表吲1 1 ,我国聋哑儿童发病率高,人数较多,加之咽 喉疾病患儿及腭裂术后病人的不断增加,电子耳蜗术后聋儿都需要进行言语矫治, 对康复和训练手段要求有新的技术出现十分迫切。 我国聋儿康复事业起步较晚,虽然目前完善了一些省级聋儿康复中心,建立 了一批地市级语训部,形成了一定规模的聋儿康复网络,但是还远远达不到康复 训练的要求,随着计算机的日益普及,计算机可给人们听觉和视觉直观形象的信 息,因此,将计算机引入聋儿康复领域己势在必行。 虽然目前国内外有些聋儿语言功能恢复训练软件,但是传统的教学软件只能 让使用者处于被动的接受信息,不能发挥使用者的主观能动性。 随着电子计算机和人工智能机器的广泛使用,本课题研究的主要目的是开发 一种交互式的可视化语言康复训练软件。本软件主要在m a t l a b 和h t k 平台下开发, 对使用者的语音进行处理,包括语音的去噪,端点检测,预加重,语音特征参数 的提取以及最后的识别训练一系列原理进行阐述。 1 1 聋儿康复训练系统的国内外研究现状 我国对聋儿康复系统的研究起步较晚【2 】,发展时间短,但发展速度快,步幅大。 目前,全国已有聋儿康复机构近两千所,中国的聋儿康复事业在政府及社会各界 的关怀下,已经圆满地完成了残疾人事业五年工作纲要、“八五”计划、“九五”、“十 五”计划的各项聋儿康复任务。对七岁以下聋幼儿进行了听力语言训练,幼儿经康 复后可以进入正常幼儿园和普通小学学习,聋儿康复事业取得了可喜的成绩。但 全国学龄聋童入学率仅为百分之六,这与发达国家9 0 的普幼普小率相比还有较 大差距。并且聋儿康复系统的研究还不完善,还没有一套智能化的较完善的康复 系统,仅限于口型模防跟读的初级阶段。自从2 0 0 0 年以来,随着新世纪大门的敞 开,使中国的聋儿听力语言康复事业又进入了一个新的历史阶段,新思想,新理 念,新举措使中国聋儿听力语言康复事业又有了一个新的飞跃。由于我国聋儿康 山东大学硕士学位论文 复机构是“自上而下 ,按指令性计划构建的,这就使得相当数量的机构功能不全, 队伍结构不甚合理,水平偏低。2 0 0 1 年,作为全国的技术资源中心和业务管理部 门中国聋儿康复研究中心下发了“关于省聋儿康复中心的建设与发展规划, 实施了分级分类目标管理,为了加强队伍建设,取得国家人事部的帮助,正在协 调聋儿康复系统内的职称评定工作;在全国启动“听力助残”基础上,资助贫困 聋儿配戴助听器,资助贫困聋儿康复和入学;为进一步加强国际,国内交流,2 0 0 3 年中国聋儿康复研究中心已经成为“听力国际国家( 中国) 中心 ,并于2 0 0 3 年 1 0 月在中国举办了“第五届听力国际科学大会 ,这一切都给中国聋儿听力语言康 复事业增加了新的内容,增加了新的活力。因此有必要研究开发一套适合中国国 情的聋儿语言训练系统。 聋哑人语音训练的研究,国外始于六十年代中期,根据反馈途径的不同分为 两类:一是利用聋哑人的残存听力,借助助听器听取自身发音以纠正发音的听觉 反馈训练系统;二是通过观察自身发音经处理后所获得的特征参数来纠正发音的 视觉反馈训练系统。前者造价低,但效果较差。对重听、重度耳聋、全聋的患者 效果更差或完全无效。后者由于通过视觉反馈,几乎适用于一切聋哑人,训练效 果也较好。 目前,国外已经有多种视觉辅助语音训练系统的报道。这些系统基本上都是 将受训者所发语音进行处理后,提取语音的特征( 例如:强度、持续时间、频谱、 基频、共振峰等) ,与标准发音的特征同时显示在c r t 上,让受训者对自己的发音 与标准音进行比较,逐步纠正自己的发音,但是特征参量的提取、分析、识别和 应用等算法与语种密切相关,目前还没有这类系统的汉语视觉辅助语音训练系统 的报道。 当今社会,聋几的康复训练已经逐渐受到社会的重视。现在国内市场上对聋儿 进行康复训练的软件极少,尤其是智能化程度比较高的软件。随着网络及多媒体电 脑的普及,聋儿康复训练不仅可以在学校进行,家庭聋儿的康复也逐渐变得可行。 因此聋儿康复系统软件的需求也将越来越大,对其智能化的要求也越来越高。 4 山东大学硕士学位论文 1 2 聋儿康复训练系统的主要任务及要求 聋儿语言训练系统主要是面对那些在获得语言能力之前就失去听力的儿童。 对他们进行语言训练,需要从基础开始,这就需要对他们从听力、发音、理解各 方面全面的进行教育。通过到聋儿康复中心实地考察,以及市场调研,对该系统 提出了以下要求: ( 1 ) 系统的应用对象:聋哑( 声带物理无损者) j l 童。 ( 2 ) 系统的操作人员:开始可以由负责康复训练的专业人员,慢慢的过度到由 聋儿独立完成。 ( 3 ) 系统的界面风格:轻松活泼,适合聋儿的兴趣;操作简单,智能化程度高。 ( 4 ) 系统的资料库容量:包括语音库、口型库、手语库、动画库以及家长使用 说明库等2 g 以上的容量。 ( 5 ) 系统的提示信息:浅显易懂,且提示信息与发音器官相结合。 ( 6 ) 系统的处理速度:具有高度的实时性。对聋儿跟读语音进行实时处理,使 聋儿及时获得反馈信息。 ( 7 ) 系统的最终目标:让聋而不哑的孩子通过辨口型,训练发音,根据系统判 断及提示,学会发音说话。 1 3 论文主要内容安排 本文主要论述了聋儿语言康复系统中的语音识别原理,主要包括以下内容: 第二章主要介绍了语音信号处理的一些基本知识,包括语言信号的基本特征,汉 语语音的基本特性以及人耳的听觉特性等。第三章介绍了语音信号的预处理和端 点检测,提出一种基于新的阈值函数的小波去噪方法。第四章介绍了语音特征参 数的提取,包括基音频率,l p c c 和m f c c 参数提取。对比了l p c c 参数和m f c c 参数的优缺点,并提出一种新的基音频率的提取方法,该方法是在原有的平均幅 度差( a m d f ) 方法上的改进,并且比原先的方法精确度更高。第五章介绍了h m m 原理及其在语音识别中的应用。第六章是在h t k ( h m mt o o l k i t ) 平台下进行的 基于孤立字和上下文的语音识别,并且对不同的语音特征参数和不同的h m m 模 型的状态数进行了对比实验。从而得出最合适的特征参数和h m m 模型的状态数。 最后一章是对本文的总结和对未来工作的展望。 5 山东大学硕士学位论文 2 1 音素和音节 第二章语音信号处理基础 音素是语音信号的最基本组成单位这些音素及其相互间的过渡就是代表信 息的符号。音素的排列是由语音的规则所控制的,我们这里主要介绍语音的产生 过程。 2 2 发声器官 语音的产生依赖于人类的发声器官,发声器官主要由喉声道和嘴等组成 黼、,茹 :繇二、嚣 甚。一- _ = 科巍 #,i j 臻 图21 发卢器官示意图 完整的发声器官还应包括由肺支气管,气管组成的次声门系统,这一次声 门系统是产生语音能量的源泉,当空气由肺里呼出来时,呼出来的气流由于声道 某一地方的收缩而受到扰动,语音就是这一系统在这时候辐射出来的声波。 2 3 清音,浊音和爆破音 语音按其激励形式的不同可以分为三类: 1 浊音( v o i c e ds p e e c h ) 。当气流通过声门时,如果声带的张力刚好使声带发 生张弛振荡产生一股准周期的气流,这一气流激励声道就产生浊音。 2 清音( u n v o i c e ds p e e c h ) 。当气流通过声门时,如果声带不振动,而在某处 收缩,通过气流以高速通过这一收缩部分而产生湍流就得到清音。 氰、k 山东大学硕士学位论文 3 爆破音( p l o s i v es p e e c h ) 。如果使声道完全闭合,在闭合后建立起气压,然 后突然释放,就得到爆破音。 2 4 汉语语音的基本特征 汉语语音的基础是汉语拼音,由l o 个元音和2 2 个辅音组成,共计2 1 个声母 和3 8 个韵母【3 1 。 1 声母 汉语拼音中有2 1 个声母,见表2 1 所示,表中的声母一般根据其发音部位和 发音方案来命名。例如:毛”为双唇不送气清塞音,z ”为不送气舌尖前清塞音等等。 双唇音唇齿音舌尖前音舌尖中音舌尖后音舌面前音舌根音 塞音清不送气 b ( 玻)d ( 得)g ( 哥) 音 送气 p ( 坡)t ( 特) k ( 科) 塞擦 清 不送气z ( 资)z h ( t 口)j ( 基) 音音送气 c ( 雌)o h ( 蚩)q ( 欺) 擦音清音 坟佛)s ( 思)s h ( 诗)x ( 希)h ( 喝) 浊音 w ( 屋)r ( 日)畎衣) 鼻音浊音 m ( 摸)n ( 讷) 边音浊音l ( 勒) 表2 1 汉语声母表 2 韵母 汉语拼音中韵母包括8 个单韵母,1 4 个复韵母和1 6 个鼻韵母,共3 8 个,汉 语韵母如表2 2 所示。 单韵母 a ( 啊) o ( 哦)e ( 鹅) i ( 衣) u ( 屋) n ( 迂) 复韵母 a i ( 挨) e i ( 诶) a o ( 奥) o u ( 欧) - i e i i ei uu i 鼻韵母 a n ( 安) e n ( 恩) i n t i l lu n a n g ( 昂) e n go n gi n g 带介音的韵母 i ai a oi a n i a n gi o n g u au ou a i u a l l u a n g i i a n 表2 - 2 汉语韵母表 7 山东大学硕士学位论文 3 音节 汉语具有单音节的特点。一个汉字对应一个音节。汉语的音节由声母,韵母 和声调组成。一个音节起头的辅音是声母,声母左边部分是韵母,全音节的音调 就是声调。 汉语2 1 个声母和3 8 个韵母配合组成4 0 0 个左右的音节,再加上四声组成6 0 0 个左右的有调音节。但有的音节没有对应的汉字。据统计,汉语基本无调音节字 4 1 2 个,有调音节字1 2 8 2 个。可是,用1 1 个二进制位就足以表示汉语所有的音节。 如果音节的速度是4 - - , 5 个音节秒,则平均的信息速率仅为5 0 b s 。当然,语音实 际信息的底限远高于这一速率,这是因为上面的统计没有考虑说话人的个性,情 绪以及语音强弱度。 4 汉语的四声 无论是单音节语音还是连续语音,其中浊音段的基音频率是随时间而变动的。 基音频率的不同轨迹称为声调。汉语普通话中除了清音之外有四种声调。即阴平, 阳平,上声,去声。也称为第一声,第二声,第三声,第四声。汉语中相同声母 和韵母所构成的音节随声调的不同而具有完全不同的意义,对应不同的汉字。 声调的曲线或轨迹开始与韵母的起始端,到韵母的终止端结束。阴平的声调 曲线的特点是几乎与时间横轴线平行,而且平均值很高。阳平曲线的特点是从较 低的频率一直上升到较高的频率,或者起始处稍微下降后一直上升。上声曲线的 特点是先降后升。去声曲线的特点是从较高的频率出发一直下降到极低的频率。 图2 2 是汉语四种声调的曲线示意图。应该注意的是,连续语音中的声调曲线与单 独说一个音节的声调曲线不完全相同。 阴平 j 日 5 2 】 图2 2 汉语普通话四种声调的典型曲线示意图 高 低 高半中半低 5 4 ,2 】 _1ii丁 山东大学硕士学位论文 2 5 人耳的听觉特性 正常人的听觉系统是非常敏感的。人耳可以听见的声音的频率范围是2 0 t t z - - 1 6 k h z ,年轻人可以听见2 0 k h z 的声音,而老年人可以听到的高频声音要减少到 l o k h z 左右。 人耳听觉的主观感知主要由响度,音调和掩蔽效应等。 l 响度 测量声音强弱的物理量为声强。单位用w m 2 ( 瓦米;) 表示。心理上,主 管感觉声音强弱的单位是p h o n ( 方) 或s o n e ( 宋) ,方是响度级的单位,而宋是 响度的单位。 当声音的强弱小到人耳刚刚能够听见时,称为听阈。此时的主观强度级定为 o p h o n 。测量结果表明,听阈值是随频率变化而变化的。例如,在l k h z 纯音时, 1 0 q 6 w c m 2 ( o d b 声强级) 的声音。人刚刚能够听到,丽在其他频率时,声腔可+ 能需要比这更大。 如果加大声音的强度,使它大到入耳感到疼痛,这个阈值称为痛阂,测量表 明,如果频率为l k h z 纯音,当声强级大到1 2 0 d b 左右时,入耳就感到疼痛,人耳 对不同频率的痛阈也是不一样的。听阈和痛阈之间就是人耳的听觉范围,从声强 上来看,人耳的听觉范围为o 1 2 0 d b 的声强级,达1 0 1 2 倍以上,可见是相当宽的。 2 音调 音调是听觉分辨声音高低时,用于描述这种感觉的一种特性。对于频率低的 声音,听起来感觉它的音调低,而频率高的声音,听起来感觉它的音调高。但是 音调与声音的频率并不是成正比关系,它还与声音的强度与波形有关。描写音调 采用的单位是“美( m e l ) 。一个高于听阈4 0 d b ,频率为l k h z 的纯音所产生的音 调定为1 0 0 0 m e l 。如果一个纯音听起来比1 0 0 0 m e l 的声音调子高一倍,则其音调为 2 0 0 0 m e l 。音调与频率的关系是非线性的,可近似表示为: l “3 3 2 3 2 3 l g ( 1 + 0 0 0 1 f h = ) ( 2 一1 ) 3 掩蔽效应 9 山东大学硕士学位论文 当两个响度不同的声音作用于人耳时,则响度较高的频率成分的存在会影响 到对响度较低的频率成分的感受,使其变得不易觉察,这种现象称为掩蔽效应。 一般来说,对于中等掩蔽强度,纯音最有效的掩蔽出现在它的频率附近,低频的 纯音可以有效地掩蔽高频的纯音,而高频的纯音对低频的纯音的掩蔽作用很小。 掩蔽效应会造成一个声音的存在而使另一个声音的听阈上升。 噪声的存在也会影响到纯音的接受,即对纯音产生掩蔽。可以把噪声视为由 许多纯音组成的宽带音。掩蔽作用最明显的是被掩蔽纯音的频率附近的一个窄带 的掩蔽分量。因此,人们常用“频率群”掩蔽的概念来解释。为了描写这种掩蔽 的效果引入临街带宽的概念。一个纯音可以被以它为中心频率,且具有一定频率 带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该 纯音处于刚能被听到的临界状态,即称这一带宽为临界带宽。一个临界带宽可以 用巴克( b a r k ) 来表示。在2 0 - 1 6 k h z 范围内的声音可以分为2 4 个频率群,或者 说共有2 4 个巴克( b a r k ) 。表2 3 给出了2 4 个临界带宽的编号,中心频率及其带 宽的数据。 编号中心频频率范围带宽编号中心频频率范围带宽 ( b a r k ) 率h zh zh z ( b a r k ) 率h z h z h z 15 02 啦! 0 08 01 31 8 5 0l7 2 0 - 2 0 0 02 8 0 21 5 01 0 0 2 0 01 0 01 42 1 5 02 0 0 肚2 3 2 03 2 0 32 5 02 0 0 3 0 01 0 01 52 5 0 02 3 2 0 - 2 7 0 03 8 0 43 5 03 0 m 4 0 01 0 01 62 9 0 02 7 0 0 3 1 5 04 5 0 54 5 04 0 0 5 1 01 1 01 73 4 0 03 1 5 0 - 3 7 0 05 5 0 65 7 05 l m 击3 01 2 01 84 0 0 03 7 0 m 4 4 0 07 0 0 77 0 06 3 0 - 7 7 01 4 01 94 8 0 04 4 0 0 - 5 3 0 09 0 0 88 4 07 7 0 - 9 2 01 5 02 05 8 0 05 3 0 0 - 6 4 0 01 1 0 0 9 1 0 0 0 9 2 0 1 0 8 01 6 02 l 7 0 0 06 4 0 0 - 7 7 0 01 3 0 0 1 01 1 7 01 0 8 0 - 1 2 7 0 1 9 0 2 28 5 0 07 7 0 0 - 9 5 0 01 8 0 0 1 11 3 7 01 2 7 0 - 1 4 8 02 1 02 31 0 5 0 09 5 0 0 - 1 2 0 0 02 5 0 0 1 21 6 0 01 4 8 0 1 7 2 02 4 02 41 3 5 0 01 2 0 0 啦1 5 5 0 03 5 0 0 1 0 表2 - 3 临界带宽 山东大学硕士学位论文 2 6 本章总结 本章主要介绍了语音信号处理的一些基本知识,包括语言信号的基本特征, 汉语语音的基本特性以及人耳的听觉特性等,这些基本知识为聋儿康复训练系统 的下一步研究奠定了基础。 山东大学硕士学位论文 第三章语音信号的预处理和端点检测 在聋儿康复训练中,语音信号的采集是通过麦克风,声卡进行采集,采集后 的语音信息首先要进行去噪,端点检测,预加重等处理。 3 1 一种基于新的阈值函数的小波去噪方法 在语音信号的采集和传输过程中,原始信号不可避免会受到大量噪声的影响 而产生杂波。对信号进行去噪,提取出有用的原始信号是一个重要的过程。 噪声可以分为以下几种类型【4 】【5 】:( 1 ) 干扰性噪声;( 2 ) 周期噪声;( 3 ) 冲激噪 声;( 4 ) 宽带噪声。一个含噪声的一维信号模型可以表示为f ( t ) = s ( t ) + n ( t ) ,其中 s ( t ) 为原始信号,n ( t ) 为方差是盯2 的高斯白噪声,服从n ( 0 ,矿2 ) 。 小波分析及其应用是一门新的学科,随着小波理论研究的深入和日益成熟, 其应用己逐渐渗透到许多领域,目前在去噪方面也有重要的应用。小波去噪的基 本思想是:根据噪声与信号在各尺度( 即各频带) 上的小波谱具有不同的表现这一 特点,将各尺度上由噪声产生的小波谱分量,特别是将那些噪声小波谱占主导地 位的尺度上的噪声小波谱分量去掉,这样保留下来的小波谱基本上就是原信号的 小波谱,这一过程叫做小波谱的重构或还原。然后再利用小波变换重构算法,重 构出原信号 5 “i t 】。 d o n o h o 提出的小波阈值去噪方法的基本思想是:由于小波变换是线性变换, 对f ( t ) = s ( t ) + n ( t ) 做离散小波变换后得到的小波系数仍由两部分组成,一部分是 信号对应的小波系数,另一部分是噪声对应的小波系数。一般来讲,信号的 l i p s c h i t z 指数是大于0 的,噪声的t i p s c h i t z 指数小于0 。随着尺度的增大,信 号和噪声所对应的小波变换系数要大于噪声的系数,于是可以找到一个合适的数旯 作为阈值,当小于这个临界阈值时,认为它主要是由噪声引起的,予以舍弃。而 当大于这个临界阈值时,认为它主要由噪声引起的,直接保留下来。这是传统的 硬阈值方法。或者按照某一固定量向零收缩,这是软阈值方法。然后用得到的小 波系数进行小波重构,即为去噪后的信号。 1 2 山东大学硕士学位论文 3 1 1 构建一种新的阈值函数 传统的软硬阂值函数分别为: 硬阈值函数如下【1 2 】: 驰) = r , l r 眯l - 三 ( 3 - 1 ) 软阈值函数如下 1 3 】。 互( ,) = 【。s g ,i n ,( r l 力 ( 3 _ 3 ) 【0 ,j ,i 力 由上式可知,当m = l 时,上式即为软阈值函数,当i i f 时,即为硬阈值函数。 可见改进的阈值函数介于软硬函数之间,恰当地选择参数可以达到小波阂值去噪 的最佳效果,它具有光滑连续性,所以更接近于语音信号和噪声的小波系数的物 理本质,其去噪效果要优于软硬阈值函数,此外,改进的阈值函数不但连续,而 且当iri t 时,具有高阶可导性。 3 1 2 阈值的选择 设置一个尺度阈值作用于带噪语音各尺度下的小波系数,仅让超过阈值的小 波系数参加反变换,重构出去噪后的语音。d o n o h o 将阈值设置为五= 口2 1 9 , 式中o r 表示噪声方差,n 表示观测语音长度。此处,阈值可称为固定阈值,因为对 不同的尺度采用相同的阈值,故处理效果不太理想。由前面的分析可知,随着尺 度的增加,噪声的模极大值减小,所以阈值也应该随着尺度的增加而减小,这里 1 3 山东大学硕士学位论文 定义新的阈值为兄( d :! 匦2 j ,此处阈值可成为变阈值,即随着尺度j 的增大, a ( j ) 而逐渐减小,使其与噪声在小波变换各尺度上的传播特性相一致。 基于新的阈值函数和新的阈值选择后的小波去噪算法为: ( 1 ) 对含噪语音信号进行小波分解,得到小波系数。 ( 2 ) 取见( ) :! 掣( 3 - 3 ) 式得到一组小波估计参数。 ( 3 ) 对小波估计参数进行重构,得到消噪后的信号。 3 1 3 实验 在m a t l a b 平台下对上述方法进行仿真。语音信号的采样频率为1 6 k h z ,3 2 b i t 量化的自然连续语音,并且人为地加入白噪声,采用的小波基是d b 4 小波,分解 层数是5 层,m 取3 ,兄( _ ,) :! 掣,仿真结果如下图: 原始语音信号 1 4 0 1 0 旬1 0 _ 0 1 024681 0 加噪后的语音信号 1 21 4 x1 0 4 024681 0 去噪后的语音信号 1 21 4 x1 0 4 x1 0 4 图3 1 小波去噪效果图 我们把本文的新阈值函数和传统的硬阈值函数、软阈值函数对含噪语音进行 山东大学硕士学位论文 去噪实验对比,采用最小均方误差( m s e ) 作为依据,即: m s e = 专窆i = l ( 硼) 一叉( f ) ) 2 其中,x ( f ) 为原始信号,叉( f ) 为估计信号。用三种方法处理b l o c k s 信号后的输出 信噪比以及最小均方误差比较如下表所示: 性能测定指标硬阈值法软阈值法本文方法 输出信噪l k , d b 1 9 5 8 62 2 6 312 5 6 7 4 m s e0 3 5 2 10 3 8 4 40 3 1 2 5 表3 1 三种方法的信噪比和均方误差比较 可以不断调整( 3 3 ) 式中的参数来得到更好的去噪效果。通过试验表明,新 的阈值函数在去噪方面比传统的硬阈值软阈值函数更加明显,而且能够很好的保 持原始信号的特征。 3 2 端点检测 语音在经过去噪后,接下要考虑的是如何在持续不断的帧信息中找到待识别 语音的起点和终点。起始点和终止点的偏离对语音识别的准确性影响明显,有时 可对识别精度影响达3 0 p a1 :t 1 4 】 1 5 】。 语音端点检测算法主要可以分为依据语音信号的时域特性和频域特性。依据 时域特性的端点检测方法主要有以短时能量、短时平均过零率等为参数的,即通 常说的基于能量的端点检测方法【1 6 “2 0 1 。依据频域特性的端点检测方法主要有基于 信息熵【2 1 “2 2 1 、频带方差【2 3 1 、1 p c 2 4 2 s 】系数、小波系数【2 6 2 8 】的端点检测方法。 我们这里主要介绍基于双门限的端点检测方法,并对其进行改进,提高其精确度。 3 2 1 分帧与加窗 经过去噪后的语音信号在端点检测前先要经过分帧和加窗,根据语音信号的 在1 0 毫秒到2 0 毫秒内近似不变的假设,可以把语音信号分成一些短的段来处理, 这些短段成为帧,一帧内的信号认为具有固定的特性,如:唯一的基音、唯一的 能量。分帧所代表的“短时”信号思路是后面端点检测算法中短时能量、短时过 山东大学硕士学位论文 零率以及识别时语音特征参数的基础。 帧的长度可以选为2 0 毫秒,帧移1 0 毫秒,即相邻两帧间有半帧的重叠。重 叠的存在有助于信号的连贯性。 分帧的效果类似于对语音序列加了一个帧长的矩形窗,矩形窗虽然主瓣宽度 小,但从瓣偏大,通带内平稳性不佳,更好的选择是对于长度为n 的每一帧j 分 i i i i 上汉宁窗: 州= 0 5 4 + 0 4 6 c o s ( 器町加- o ,1 ,- 1 ( 3 - 4 ) 3 2 2 传统的双门限端点检测法 在上面的章节中已经介绍过,语音按照声带是否振动分为清音和浊音两类, 浊音信号周期性明显,幅度高,短时能量比较大,清音由于声带不振动,仅靠空 气在口腔中的摩擦,冲击或爆破来发声,短时能量比较小,而过零率比较大,大 部分汉语的结尾是浊音,少数以轻声结尾,如“是么 中的“么字,而汉语中 的大多数声母都是清音,以及塞音和摩擦音。频谱上与噪声近似,检测难度比较 大。 根据语音帧和噪声帧的特点,典型端点检测算法使用双门限的短时能量和短 时过零率来区分两者【3 1 1 ,短时能量和短时过零率定义为: e = e x 。 膏= 1 乙= is g n ( x ) - s g n ( x ( h ) ) k = 2 式中,为第n 帧中第k 个采样点值。 ( 3 5 ) ( 3 - 6 ) 在开始端点检测前,先根据经验或采集的样本信息,分别为短时能量和过零 率设定两个门限,通常,短时能量低门限取平均噪声能量的2 到3 倍,如果录音 以及使用环境比较安静,噪声能量水平低,则可以取为平均噪声能量的3 到5 倍。 短时能量的高门限取语音平均能量的一半。过零率的低门限设为噪声帧过零率的2 到3 倍,高门限的设定需要统计大量语音开始时过零率的值,取其均值的一半。 双门限的端点检测算法首先使用高门限,超过短时能量高门限或短时过零率 高门限的帧认为是语音帧,其起始帧和终止帧为初始的语音起始帧和终止帧。 1 6 山东大学硕士学位论文 然后,换用低门限,从初始起始帧往前扫描,找到刚好跨越短时能量低门限或过 零率低门限的帧,作为最终的语音起始帧。同样的,从初始终止帧往后,找到第 一个低于短时能量低门限的帧,作为最终的终止帧。 从大量的实际端点检测效果来看,经典的双门限检测算法还存在一些问题: ( 1 ) 门限的确定需要在应用的现场采集,+ 否则不恰当的门限对性能的影响极 大,当应用环境改变时;门限也要做相应的改变,但即使如此,对于环境噪声动 态范围较大的场合,此端点检测算法仍常实效。 ( 2 ) 受汉语韵律的影响,有些词语读的时候,第一个或最后一个字会比较轻, 比如“丝绸之路中的“丝 字,由于发音比较轻,能量比较小,容易和噪声混 在一起,给端点检测带来麻烦。 3 2 3 一种改进的端点检测方法 针对上面所反映出来的缺点,在聋儿康复系统中,我们对受训语音进行端点 检测时,我们先设定要检测出的音节起始端s t r l ,浊音段起始端s t r 2 及音节结束 端e d 三个端点。 由于本系统的应用环境为安静的室内环境,背景噪声较小,由声卡采集到的 语音信号的信噪比较高,应用时域特征参数即可准确检测出语音的端点,下面介 绍利用短时能量和短时过零率检测单音节语音三个端点的实现过程。 首先取出语音信号的支流分量,并对语音信号归一化,然后对语音信号进行 分帧,帧长为3 0 m s ,帧移1 5 m s 。 第i 帧的短视过零率和短时平均幅度计算公式如下: n i 。 础= ( s g n x ;( n ) - s g n x ,( n - 1 ) ) ( 3 7 ) 一i s t a m ,= ( jx a n ) l o 0 6 2 5 ) ( 3 8 ) 其中玉( 刀) 代表第i 帧的第1 2 个采样点。以上公式不同于传统的短时z c r 和 s t a m ,这里所得到的z c r 值没有取绝对值,只是传统z c r 值的一半,当选择适当 的阈值时,对判决结果没有影响。短时的s t a m 公式在传统的基础上乘上一个系数, 这是为了与后面的阈值设置相照应。 1 7 山东大学硕士学位论文 清音段的短时z c r 一般比无声段和浊音段的高,浊音段的短时s t a m 一般比音 节的其他部分高。我们首先对z c r 设置了两个门限,高门限乙,其值设为2 5 ,另 一个为低门限互,值设为2 0 。此外,还定义了一个门限互,值设为7 。在设置s t a m 门限之前,先计算每帧中s t a m 的最大值m h x e 和最小值m i n e ,再设定其高低门限e 、 互分别为: e h = u f i n ( m a 4 x e 1 0 ) 局= r a i n ( m i n e ,2 ) ( 3 9 ) 这些门限值均是通过大量实验所得的经验值。设置好了门限值,下面再进行 语音信号的端点检测。 首先从语音开始端进行检测,要对s t a i d 值是否大于高门限,以及短时z c r 是 否大于高门限的判断同时进行。 如果先出现s t a m 大于邑的语音帧,该帧就是浊音段的起点s t r 2 ,同时也是 整个音节的起点s t r l ,也即s t r i = s t r 2 ,则语音起始端的检测结束,否则继续对 下一帧进行检测; 如果在由s t a m 检测的浊音起始端之前先检测到有z c r 大于乙的语音帧出现, 表示该语音以清音开始,该帧就是整个音节的起始端s t r i 。此后,只利用z c r 的 低门限乙来判断清音的结束位置,而不用考虑s t a m 的高门限值。即当z c r 小于低 门限z 时,表示清音结束,也就得到浊音段的起点s t r 2 。 然后,再从信号的结束端向前检测,只要出现s t a m 大于e 低门限或者z c r 大 于门限z ,即得到语音的结束端。最终得到整个的语音段,图3 2 给出了e r 4 发音的端点检测结果。 山东大学硕士学位论文 喜0 je 三三三三三三三| 习嘲翻黜陋习j 警卜卜删嗍蟹豳黝圜翻惭忡h 骨1i -。i j i i l 嘲研霹纾哪陬! 眦l 生i 1u u uz u l j _ j u 【】口4 0 0 0o u u ub u 0 c i7 0 0 0日d d 口 t m e 耋宅 = ;毒= 孓= = ;= i 言笔 二二二工= 工二二二二二 加加即 1 器1 。 m o1 印1 2 0 0 香: 二二匠三 二二二二 加柏 1 器1 2 0 1 4 01 1 2 0 0 图3 2 语音信号端点检测图 3 3 预加重 对去噪语音进行端点检测后,在对其提取特征参数之前,首先要对语音进行 预处理p 川,目的是去除高频噪声和共振峰的影响。由于人的声音的基音频率一般 在5 0 5 0 0 h z 之间,因此我们可以先让语音经过8 0 0 h z 的低通滤波器,以消除高 频共振峰和高频噪声。同时又能保留其一、二次谐波分量。这里采用5 阶椭圆低 通滤波器,采样频率为8 0 0 0 h z ,通带截止频率是8 0 0 h z 。以下是8 0 0 h z 5 阶椭圆低 通滤波器的传递函数: :塑婴型坚婴型塑至型雩堡型里坚掣( 3 1 0 ),1 z - = i 一 、 1 - 3 6 ;6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甘肃机电职业技术学院妇产护理期末全真模拟模拟题及答案详解(各地真题)
- 招商银行淄博市张店区2025秋招面试典型题目及参考答案
- 农发行喀什地区伽师县2025秋招笔试英语题专练及答案
- 民生银行哈尔滨市道里区2025秋招笔试综合模拟题库及答案
- 中信银行唐山市迁西县2025秋招笔试专业知识题专练及答案
- 兴业银行太原市清徐县2025秋招笔试英文行测高频题含答案
- 兴业银行沈阳市铁西区2025秋招笔试热点题型专练及答案
- 中国农业科学院农产品加工研究所2024年度第二批公开招聘笔试模拟试题参考答案详解
- 招商银行淮南市田家庵区2025秋招数据分析师笔试题及答案
- 2025年公务员考试时事政治常考点附答案详解(突破训练)
- 医务人员职业道德准则(2025年版)全文培训课件
- 恒瑞医药2023ESG社会责任报告:关注员工成长共建美好家园
- 医院网络信息安全培训
- 《构成设计基础》全套教学课件
- 项目初步验收汇报
- 2025年山东省济宁市电工等级低压电工作业(应急管理厅)真题(含答案)
- otc药品管理办法
- 康复医学科病历书写规范与质量控制
- 商用厨房设计汇报
- 战术搜索教学课件
- 教科版五年级科学上册第一单元《光》测试卷及答案(含四题)
评论
0/150
提交评论